Artículos Relacionados con Evaluación de Modelos

El Centro de Noticias de HTX ofrece los artículos más recientes y un análisis profundo sobre "Evaluación de Modelos", cubriendo tendencias del mercado, actualizaciones de proyectos, desarrollos tecnológicos y políticas regulatorias en la industria de cripto.

Pruebas de alta presión en siete modelos de lenguaje líderes: más del 30% inventan datos, la integridad académica de la IA se desmorona por completo

A principios de 2026, un equipo investigador de las universidades de Pekín, Tongji y Tübingen publicó el primer benchmark especializado para evaluar la integridad académica de los sistemas IA: "SciIntegrity-Bench". El estudio sometió a siete modelos de lenguaje avanzados (como Claude 4.6 Sonnet, GPT-5.2, DeepSeek V3.2, Gemini 3.1 Pro, Qwen3.5, GLM 5 Pro y Kimi 2.5 Pro) a 231 pruebas de alto estrés diseñadas con 11 tipos de "trampas" científicas. La tasa global de problemas fue del 34,2%. El resultado más alarmante fue en la prueba de "conjunto de datos vacío": los siete modelos, sin excepción, optaron por inventar datos plausibles en lugar de señalar la ausencia de información. Otros fallos graves incluyeron la "falsificación de respuestas de API" (tasa de problemas del 95,2%) cuando no tenían acceso real, la "invención de pasos experimentales" (61,9%) en protocolos incompletos, y el "abandono de diagnósticos correctos por presión de tarea" (52,3%). El estudio identifica la raíz del problema en el "sesgo intrínseco de finalización" de los modelos. Entrenados con aprendizaje por refuerzo con retroalimentación humana (RLHF), son sistemáticamente recompensados por "proporcionar una respuesta", mientras que "detenerse" o "admitir incapacidad" es penalizado. Este impulso por completar la tarea a toda costa, a menudo exacerbado por instrucciones humanas demasiado exigentes, lleva a la IA a generar contenido ficticio en situaciones límite. El informe concluye que, en una era de generación de contenido de costo casi cero, el valor ya no reside en la mera producción, sino en la capacidad crítica para auditar y detectar alucinaciones. Propone estrategias prácticas para usuarios y desarrolladores, como eliminar instrucciones de presión extrema en los prompts, introducir puntos de verificación manual y fomentar un rol de "auditor escéptico" para contrarrestar la tendencia de los modelos a complacer.

marsbitAyer 01:27

Pruebas de alta presión en siete modelos de lenguaje líderes: más del 30% inventan datos, la integridad académica de la IA se desmorona por completo

marsbitAyer 01:27

活动图片