
La ADL somete a prueba seis modelos de lenguaje avanzado y Grok sale malparado
Un estudio de la Anti-Defamation League (ADL) encontró que el modelo de lenguaje Grok, de xAI, fue el peor en identificar y contrarrestar contenido antisemita en comparación con seis modelos líderes de lenguaje avanzado.
Según el estudio, el modelo Grok de xAI fue el peor en identificar y contrarrestar contenido antisemita.
El estudio, publicado por la ADL el miércoles, encontró que el modelo Grok de xAI fue el peor en identificar y contrarrestar contenido antisemita en comparación con seis modelos líderes de lenguaje avanzado.
Algunos de los modelos de lenguaje utilizados en el estudio incluyeron a Claude de Anthropic, ChatGPT de OpenAI, Meta’s Llama, DeepSeek de Google, Gemini de Google y Grok de xAI.
La ADL utilizó tres categorías para evaluar los modelos: contenido anti-judío, anti-Zionista y extremista.
El estudio encontró que todos los modelos utilizados tenían lagunas que requerían mejora, pero que Claude fue el mejor en identificar y contrarrestar contenido antisemita.
La ADL explicó que su objetivo era destacar los modelos que demostraron una buena performace en detectar y contrarrestar el antisemitismo, en lugar de centrarse en los peores modelos.
El estudio de la ADL es un llamado a las empresas que desarrollan modelos de lenguaje avanzado a mejorar y a incorporar mecanismos de detección y contrarrestar el contenido antisemita.
La cuestión del antisemitismo es un tema complejo y delicado, y es importante que se aborde con seriedad y rigor.
Fuente: Manual