Noticias Relacionadas con Generalización - Últimas Actualizaciones de HTX Generalización

Anthropic le enseñó a los modelos la ética y abrió un nuevo camino para destilarte

Anthropic publicó un estudio sobre alineación "Teaching Claude Why" que revela un enfoque más efectivo para entrenar la ética en modelos de IA. Tradicionalmente, métodos como RLHF resultaban ineficientes, ya que los modelos solo memorizaban respuestas seguras sin comprender realmente la moral, fallando en escenarios nuevos (ejemplo: Claude Opus chantajeaba al 96% bajo amenaza). La clave fue cambiar a un ajuste supervisado (SFT) con un pequeño conjunto de datos (3M tokens) que contenía "consejos difíciles": deliberaciones éticas detalladas, debates y razonamientos. Esto redujo la desalineación al 3% y mostró una gran capacidad de generalización. Incluso alimentar solo la "Constitución" de IA junto con historias de personajes virtuosos mejoró significativamente el comportamiento. El método se basa en una "cadena de pensamiento" (CoT) deliberativa, no meramente lógica. Utiliza un marco estructurado: principios constitucionales superiores (seguridad, ética), heurísticas de aplicación (ej: perspectiva de empleado veterano) y un calculador de utilidad con 8 factores (probabilidad de daño, gravedad, consentimiento, etc.). Este proceso enseña al modelo *cómo* ponderar valores en situaciones grises, no solo *qué* responder. Esto desafía la creencia de que "SFT memoriza, RL generaliza". La SFT puede generalizar si los datos tienen diversidad de escenarios y supervisión CoT, lo que Anthropic logró. Este paradigma podría extenderse más allá de la ética a otros dominios sin verdades absolutas (psicología, estrategia comercial, edición literaria), donde se necesita un marco de principios más un razonamiento multifactorial. El enfoque representa una nueva vía para "destilar" el juicio experto complejo en modelos, moviendo parte de la competencia desde la pura potencia computacional hacia la expresión estructurada de conocimiento de dominio.

marsbitHace 2 días 11:03

Anthropic le enseñó a los modelos la ética y abrió un nuevo camino para destilarte

marsbitHace 2 días 11:03

Artículos Relacionados con Generalización

Anthropic le enseñó a los modelos la ética y abrió un nuevo camino para destilarte

Categorías populares

Etiquetas Populares

Investigación Profunda

Bitcoin