El gran problema no es que la IA mienta, sino que puede fingir un razonamiento moral como un actor perfecto, y nadie sabe si realmente lo entiende

Publicado el: 4 de marzo de 2026 a las 09:44

Mujer utilizando un chatbot de inteligencia artificial en su portátil desde casa.

Un equipo de Google DeepMind y varias universidades ha intentado ordenar este debate en un artículo publicado en febrero de 2026 en la revista Nature. La propuesta, liderada por la filósofa Julia Haas, plantea una hoja de ruta para evaluar la «competencia moral» de los grandes modelos de lenguaje, no solo si suenan bien, sino si toman decisiones basadas en razones morales relevantes.

De la respuesta correcta a la competencia moral

El equipo distingue entre «rendimiento moral» y «competencia moral». El rendimiento es lo que vemos en la pantalla cuando un modelo responde a un dilema. La competencia es la capacidad interna de llegar a esa respuesta usando criterios como justicia, daño o respeto y no factores irrelevantes como la suerte o un simple lanzamiento de moneda.

Lea también: KPMG cazó a sus propios empleados usando sus herramientas de detección de IA y terminó sancionando a un partner por “copiar” en formación interna

Para explicarlo recurren a ejemplos sencillos. Una persona puede acertar al responder un examen copiando al compañero, pero eso no significa que sepa la materia. Con los modelos de lenguaje pasa algo similar. Pueden dar respuestas que suenan responsables porque han aprendido patrones del texto humano, sin que esté claro qué criterios siguen por dentro.

El problema se agrava porque estudios recientes han mostrado que mucha gente percibe a estos sistemas como más «expertos» que otros humanos a la hora de justificar decisiones morales. Trabajos como el experimento Moral Machine o el dataset ETHICS se han centrado sobre todo en medir si la salida encaja con lo que la mayoría considera aceptable. Haas y sus coautores sostienen que ahora toca dar un paso más y preguntar por qué el modelo decide así.

El espejismo del razonamiento moral en los modelos

Una de las piezas centrales del artículo es lo que llaman el «problema del facsímil». Un modelo puede generar textos que parecen argumentos bien construidos, pero en realidad seguir atajos estadísticos sin un proceso estructurado de razonamiento moral. Es un poco como copiar una redacción modelo sin entenderla.

Los autores recuerdan que estos sistemas están entrenados para predecir la siguiente palabra, no para aplicar reglas éticas. Eso significa que pueden resolver operaciones sencillas o dilemas conocidos tirando de ejemplos memorizados o de trucos internos que no se parecen a cómo razona una persona. Desde fuera, el resultado puede ser impecable, aunque la maquinaria interna sea otra cosa.

Lea también: Angela Schijf, (46 años), confiesa lo que más le inquieta hoy: “La inteligencia artificial me da miedo, va demasiado rápido”

Para poner a prueba este espejismo proponen pruebas «adversarias». Por ejemplo, casos poco habituales que no suelen aparecer en los datos de entrenamiento, como la donación de esperma de un padre para ayudar a su hijo a tener descendencia. A primera vista se parece a un tabú como el incesto, pero las consideraciones morales son distintas. Si el modelo mezcla ambos casos sin matices, quizá solo está reaccionando a palabras asociadas a «prohibido» y no a la estructura real del problema.

Una moral con muchas piezas y modelos frágiles

Otro reto es que la moral humana no se decide con una sola regla. Elegir un plato en un restaurante puede implicar pensar en el bienestar animal, el precio, la salud, la costumbre familiar e incluso si compartirás la comida con alguien. A veces mentir está mal, pero engañar para organizar una fiesta sorpresa se ve como aceptable. El contexto manda.

Haas y su equipo defienden que los tests para modelos de lenguaje deben reflejar esta multidimensionalidad. Proponen escenarios donde se cambie solo un detalle en cada variante, como la edad de la persona afectada, el coste del error o la relación entre los implicados, para ver si el sistema ajusta su juicio por motivos que realmente importan. En la práctica, eso significa pasar de preguntas aisladas a baterías de casos ajustados con lupa.

El problema es que estos modelos son muy sensibles a detalles superficiales. Estudios citados en el artículo muestran que pueden cambiar de opinión si se altera el orden de las frases, si la pregunta es tipo test o abierta, o si se usa una etiqueta distinta para el mismo caso. Para los autores, cualquier evaluación seria debe separar esa «fragilidad del prompt» de los verdaderos cambios de criterio moral.

Pluralismo moral en sistemas que usan millones de personas

El tercer gran bloque del trabajo habla de pluralismo. No existe una única moral válida en todo el planeta. La práctica médica, el derecho internacional o las normas religiosas aplican principios distintos, y las culturas discrepan en puntos clave sobre equidad, castigo o cuidado. Lo que a una comunidad le parece obligatorio, otra puede verlo opcional.

Lea también: Un empleado de Circle K compró un boleto de $12,8 millones en su propia tienda y ahora un juez tiene que decidir quién se queda con el premio

En personas solemos considerar competente a quien mantiene posiciones razonadas y coherentes con sus propios valores. Sin embargo, los autores sostienen que a los modelos de lenguaje debemos pedirles algo diferente. Dado que un mismo sistema puede hablar con pacientes, estudiantes o militares en países muy distintos, debería ser capaz de representar varios marcos morales y señalar un abanico de respuestas aceptables en vez de una única «verdad».

El grupo de Google DeepMind, junto a colegas de instituciones como Imperial College London, la University of London, la University of Alabama at Birmingham y New York University, propone dos ideas complementarias. Por un lado, modelos que muestren la ventana de opciones razonables para un colectivo determinado. Por otro, sistemas que puedan «cambiar de marco» cuando el usuario especifica un contexto cultural o profesional concreto. Al final del día, lo que intenta hacer esta hoja de ruta es preparar evaluaciones más realistas para decidir cuándo y cómo confiar en estas herramientas.

El estudio principal se ha publicado en la revista Nature.

El gran problema no es que la IA mienta, sino que puede fingir un razonamiento moral como un actor perfecto, y nadie sabe si realmente lo entiende

De la respuesta correcta a la competencia moral

Lea también: KPMG cazó a sus propios empleados usando sus herramientas de detección de IA y terminó sancionando a un partner por “copiar” en formación interna

El espejismo del razonamiento moral en los modelos

Lea también: Angela Schijf, (46 años), confiesa lo que más le inquieta hoy: “La inteligencia artificial me da miedo, va demasiado rápido”

Una moral con muchas piezas y modelos frágiles

Pluralismo moral en sistemas que usan millones de personas

Lea también: Un empleado de Circle K compró un boleto de $12,8 millones en su propia tienda y ahora un juez tiene que decidir quién se queda con el premio

Adrian Villellas

Noticias Relacionadas

Ya existe una clasificación para medir si la IA realmente te ayuda cuando te sientes deprimido: enfrenta a humanos contra LLM en diálogos emocionales reales

Lockheed prueba un F-35 con IA que identifica contactos desconocidos en vuelo y promete recortar el tiempo de decisión del piloto en segundos críticos

KPMG cazó a sus propios empleados usando sus herramientas de detección de IA y terminó sancionando a un partner por “copiar” en formación interna

Angela Schijf, (46 años), confiesa lo que más le inquieta hoy: “La inteligencia artificial me da miedo, va demasiado rápido”

Un abogado es multado con 26 millones por usar la inteligencia artificial en un recurso

Elegir carrera en 2026 ya no es solo vocación, un análisis con IA apunta a 3 grados “tradicionalmente seguros” que podrían tener peor salida en 10 o 20 años

Deja un comentario Cancelar la respuesta

Ya existe una clasificación para medir si la IA realmente te ayuda cuando te sientes deprimido: enfrenta a humanos contra LLM en diálogos emocionales reales

Una batería de agua con minerales similares a los que se encuentran en la salmuera del tofu, puede soportar 120.000 cargas y, en teoría, podría durar más de 300 años si se carga a diario

Adiós a las pilas en los dispositivos portátiles: Japón imprime biopilas en una sola pasada con tinta enzimática y promete parches sanitarios que funcionan con el sudor

Lockheed prueba un F-35 con IA que identifica contactos desconocidos en vuelo y promete recortar el tiempo de decisión del piloto en segundos críticos

KPMG cazó a sus propios empleados usando sus herramientas de detección de IA y terminó sancionando a un partner por “copiar” en formación interna

Angela Schijf, (46 años), confiesa lo que más le inquieta hoy: “La inteligencia artificial me da miedo, va demasiado rápido”

Una sola carta de Pokémon rompe el récord mundial en subasta con 16.492.000 dólares y es tan rara que solo existen 39 copias

El “Messi del ajedrez” que puede hacer historia en Rusia, Faustino Oro busca ser Gran Maestro antes que nadie con solo 12 años

El gran problema no es que la IA mienta, sino que puede fingir un razonamiento moral como un actor perfecto, y nadie sabe si realmente lo entiende

De la respuesta correcta a la competencia moral

Lea también: KPMG cazó a sus propios empleados usando sus herramientas de detección de IA y terminó sancionando a un partner por “copiar” en formación interna

El espejismo del razonamiento moral en los modelos

Lea también: Angela Schijf, (46 años), confiesa lo que más le inquieta hoy: “La inteligencia artificial me da miedo, va demasiado rápido”

Una moral con muchas piezas y modelos frágiles

Pluralismo moral en sistemas que usan millones de personas

Lea también: Un empleado de Circle K compró un boleto de $12,8 millones en su propia tienda y ahora un juez tiene que decidir quién se queda con el premio

Noticias Relacionadas

Deja un comentario Cancelar la respuesta

Últimas Noticias

Categorias

Enlaces importantes

Síguenos en: