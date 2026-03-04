Un equipo de Google DeepMind y varias universidades ha intentado ordenar este debate en un artículo publicado en febrero de 2026 en la revista Nature. La propuesta, liderada por la filósofa Julia Haas, plantea una hoja de ruta para evaluar la «competencia moral» de los grandes modelos de lenguaje, no solo si suenan bien, sino si toman decisiones basadas en razones morales relevantes.

De la respuesta correcta a la competencia moral

El equipo distingue entre «rendimiento moral» y «competencia moral». El rendimiento es lo que vemos en la pantalla cuando un modelo responde a un dilema. La competencia es la capacidad interna de llegar a esa respuesta usando criterios como justicia, daño o respeto y no factores irrelevantes como la suerte o un simple lanzamiento de moneda.

Para explicarlo recurren a ejemplos sencillos. Una persona puede acertar al responder un examen copiando al compañero, pero eso no significa que sepa la materia. Con los modelos de lenguaje pasa algo similar. Pueden dar respuestas que suenan responsables porque han aprendido patrones del texto humano, sin que esté claro qué criterios siguen por dentro.

El problema se agrava porque estudios recientes han mostrado que mucha gente percibe a estos sistemas como más «expertos» que otros humanos a la hora de justificar decisiones morales. Trabajos como el experimento Moral Machine o el dataset ETHICS se han centrado sobre todo en medir si la salida encaja con lo que la mayoría considera aceptable. Haas y sus coautores sostienen que ahora toca dar un paso más y preguntar por qué el modelo decide así.

El espejismo del razonamiento moral en los modelos

Una de las piezas centrales del artículo es lo que llaman el «problema del facsímil». Un modelo puede generar textos que parecen argumentos bien construidos, pero en realidad seguir atajos estadísticos sin un proceso estructurado de razonamiento moral. Es un poco como copiar una redacción modelo sin entenderla.

Los autores recuerdan que estos sistemas están entrenados para predecir la siguiente palabra, no para aplicar reglas éticas. Eso significa que pueden resolver operaciones sencillas o dilemas conocidos tirando de ejemplos memorizados o de trucos internos que no se parecen a cómo razona una persona. Desde fuera, el resultado puede ser impecable, aunque la maquinaria interna sea otra cosa.

Para poner a prueba este espejismo proponen pruebas «adversarias». Por ejemplo, casos poco habituales que no suelen aparecer en los datos de entrenamiento, como la donación de esperma de un padre para ayudar a su hijo a tener descendencia. A primera vista se parece a un tabú como el incesto, pero las consideraciones morales son distintas. Si el modelo mezcla ambos casos sin matices, quizá solo está reaccionando a palabras asociadas a «prohibido» y no a la estructura real del problema.

Una moral con muchas piezas y modelos frágiles

Otro reto es que la moral humana no se decide con una sola regla. Elegir un plato en un restaurante puede implicar pensar en el bienestar animal, el precio, la salud, la costumbre familiar e incluso si compartirás la comida con alguien. A veces mentir está mal, pero engañar para organizar una fiesta sorpresa se ve como aceptable. El contexto manda.

Haas y su equipo defienden que los tests para modelos de lenguaje deben reflejar esta multidimensionalidad. Proponen escenarios donde se cambie solo un detalle en cada variante, como la edad de la persona afectada, el coste del error o la relación entre los implicados, para ver si el sistema ajusta su juicio por motivos que realmente importan. En la práctica, eso significa pasar de preguntas aisladas a baterías de casos ajustados con lupa.

El problema es que estos modelos son muy sensibles a detalles superficiales. Estudios citados en el artículo muestran que pueden cambiar de opinión si se altera el orden de las frases, si la pregunta es tipo test o abierta, o si se usa una etiqueta distinta para el mismo caso. Para los autores, cualquier evaluación seria debe separar esa «fragilidad del prompt» de los verdaderos cambios de criterio moral.

Pluralismo moral en sistemas que usan millones de personas

El tercer gran bloque del trabajo habla de pluralismo. No existe una única moral válida en todo el planeta. La práctica médica, el derecho internacional o las normas religiosas aplican principios distintos, y las culturas discrepan en puntos clave sobre equidad, castigo o cuidado. Lo que a una comunidad le parece obligatorio, otra puede verlo opcional.

En personas solemos considerar competente a quien mantiene posiciones razonadas y coherentes con sus propios valores. Sin embargo, los autores sostienen que a los modelos de lenguaje debemos pedirles algo diferente. Dado que un mismo sistema puede hablar con pacientes, estudiantes o militares en países muy distintos, debería ser capaz de representar varios marcos morales y señalar un abanico de respuestas aceptables en vez de una única «verdad».

El grupo de Google DeepMind, junto a colegas de instituciones como Imperial College London, la University of London, la University of Alabama at Birmingham y New York University, propone dos ideas complementarias. Por un lado, modelos que muestren la ventana de opciones razonables para un colectivo determinado. Por otro, sistemas que puedan «cambiar de marco» cuando el usuario especifica un contexto cultural o profesional concreto. Al final del día, lo que intenta hacer esta hoja de ruta es preparar evaluaciones más realistas para decidir cuándo y cómo confiar en estas herramientas.

El estudio principal se ha publicado en la revista Nature.