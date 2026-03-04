Cada vez más gente no solo pide a la inteligencia artificial que le resuma textos o le escriba correos. También le cuenta preocupaciones, dudas de salud o problemas de pareja, igual que haría en un chat con una amiga a última hora del día. La gran pregunta es obvia, aunque un poco incómoda. ¿Puede un modelo de lenguaje dar apoyo emocional de verdad o solo parece que lo hace?

Un equipo de investigación de Hippocratic AI junto a Stanford University,University of California San Diego y University of Texas at Austin ha diseñado un marco llamado HEART para medirlo. En gran medida, su conclusión es clara. Algunos modelos de última generación se acercan e incluso superan la media de respuestas humanas en empatía percibida, aunque las personas siguen mostrando ventaja cuando la conversación se complica.

Por qué hace falta medir la empatía de los chatbots

Cuando alguien busca apoyo emocional no solo quiere datos correctos. Necesita que la otra parte entienda cómo se siente, ajuste el tono y respete sus límites. Para los humanos esto suele ser intuitivo. Para la IA, no tanto.

Laya Iyer y Kriti Aggarwal, junto a Subhabrata Mukherjee y el resto del equipo de Hippocratic AI, parten de un problema práctico. En contextos como la salud o la atención al paciente se espera confianza, empatía y buenas maneras, no solo respuestas rápidas. Según explican, los benchmarks clásicos se centran casi siempre en tareas y exámenes de conocimiento.

Por eso plantean que la empatía conversacional es una capacidad distinta. No basta con que el modelo razone bien o escriba frases fluidas. Lo importante es cómo acompaña a una persona a lo largo de varios turnos, sobre todo cuando aparece frustración, enfado o resistencia.

Qué es exactamente el marco HEART

HEART resume cinco dimensiones de una conversación de apoyo. Human alignment mide lo cerca que está la respuesta de lo que la mayoría de personas considera un apoyo adecuado, empathetic responsiveness se fija en cómo reconoce y valida emociones, attunement evalúa si el modelo sigue el hilo y el estado emocional, resonance recoge si el mensaje llega y se siente cercano y task following comprueba si respeta la petición original.

Para construir el benchmark, el equipo reunió diálogos reales de apoyo emocional con varios intercambios entre usuario y sistema. A partir de cada uno emparejaron respuestas de personas y respuestas de modelos de lenguaje y pidieron a jueces humanos, que no sabían quién había escrito cada mensaje, que valoraran cuál les parecía más útil y empático.

Además incluyeron un conjunto de modelos adicionales que actuaban como jueces LLM as judge con su propio razonamiento escrito. Todo se apoyó en una rúbrica tomada de la investigación en comunicación y asesoramiento psicológico, pensada para capturar cómo evoluciona una conversación de apoyo a lo largo del tiempo.

Qué descubrieron sobre humanos, modelos y empatía percibida

Los resultados muestran patrones llamativos. Varios modelos punteros se acercan o incluso superan la media de las respuestas humanas en empatía percibida y consistencia en la conversación. En torno a ocho de cada diez comparaciones entre pares generan el mismo veredicto entre jueces humanos y modelos que juzgan, un nivel similar al acuerdo entre personas.

Sin embargo, el trabajo también identifica los puntos débiles de la IA. Los humanos siguen siendo mejores para reformular de manera flexible, poner nombre a la tensión cuando el ambiente se vuelve denso y cambiar de tono con matices, sobre todo en turnos adversariales en los que el usuario responde con enfado o desconfianza. Es ese tipo de giro que cualquiera reconoce cuando una amiga te dice algo como «entiendo que estés harto, vamos a bajar un poco el ritmo y ver qué necesitas ahora».

Las explicaciones que dan los jueces automáticos cuando justifican sus elecciones se apoyan en las mismas dimensiones de HEART que usan los jueces humanos. Según el equipo, esto sugiere una convergencia emergente en los criterios que se usan para definir qué es un buen apoyo emocional en una conversación. HEART coloca así la calidad del apoyo como un eje propio, separado del simple razonamiento lógico o de la corrección gramatical.

Del laboratorio a la atención con IA en tiempo real

El marco también se usó para evaluar un modelo llamado Polaris, desarrollado en Hippocratic AI. En las pruebas, Polaris alcanzó puntuaciones de apoyo percibido muy cercanas a las mejores IA del momento y comparables a respuestas humanas, con tiempos de reacción por debajo de medio segundo. En la práctica, eso significa que un asistente de voz podría mantener una conversación que se siente empática sin largas pausas entre frase y frase.

El equipo quiere extender ahora HEART a otros formatos, como sistemas multimodales que combinen voz, texto e imagen o asistentes de voz que funcionen en tiempo real. También planean pasar de medir empatía percibida a seguir cómo de apoyadas se sienten las personas con el tiempo, teniendo en cuenta diferencias culturales en la forma de mostrar cuidado y cercanía.

Al final del día, lo que intenta hacer HEART es señalar qué habilidades de apoyo importan de verdad y cómo pueden repartirse entre humanos y máquinas para complementar la atención emocional. No convierte a los modelos en terapeutas de un día para otro, pero sí ofrece un termómetro compartido para entender dónde la IA se acerca al juicio social humano y dónde todavía se queda corta.

El estudio principal se ha publicado en arXiv.