De la precisión a la responsabilidad: nuevas métricas para la inteligencia artificial

Fecha: marzo 2026

Amparo Alonso Betanzos

Métricas en IA, sostenibilidad, sesgos, personalización

Ingeniería de la inteligencia artificial responsable

La evaluación de los sistemas de inteligencia artificial ha estado tradicionalmente dominada por métricas de rendimiento técnico, como la precisión (proporción de predicciones positivas que son correctas), el recall o sensibilidad (proporción de casos positivos reales correctamente identificados) o el área bajo la curva (AUC, Area Under Curve, que mide la capacidad del modelo para discriminar entre clases a distintos umbrales de decisión). Sin embargo, este enfoque resulta hoy claramente insuficiente para capturar los efectos reales de la IA en contextos sociales complejos, como la discriminación de grupos, la falta de confianza de los usuarios o el elevado consumo energético de los algoritmos.

Este capítulo analiza cuatro casos de uso distintos con un objetivo común: mostrar por qué es imprescindible ampliar el marco de evaluación más allá del desempeño predictivo. Esta necesidad no es solo técnica —medir dimensiones como la sostenibilidad, la personalización o el impacto social—, sino también regulatoria. El AI Act europeo introduce la obligación de evaluar riesgos, efectos sociales y posibles daños que las métricas clásicas no reflejan. Sin métricas adecuadas, la propia aplicación de esta regulación se vuelve problemática: aquello que no puede medirse difícilmente puede gobernarse.

La ausencia de métricas integrales conlleva el riesgo de desplegar sistemas técnicamente excelentes pero éticamente deficientes, como modelos de reconocimiento facial con alta precisión y sesgos discriminatorios, o asistentes conversacionales fiables en apariencia pero opacos y propensos a alucinaciones. A través de los cuatro casos estudiados —la predicción de toxicidad en plataformas digitales, las recomendaciones personalizadas con criterios de sostenibilidad, el uso ético del aprendizaje Positive Unlabeled para tratar datos sin etiquetar (cuando solo se conocen ejemplos positivos y el resto de los datos no están etiquetados) y la introducción de una métrica diádica (EAUC, Excentricity Area Under the Curve) para capturar sesgos como el de excentricidad—, el capítulo demuestra que lo que no se mide también importa. Justicia, transparencia y sostenibilidad ambiental deben incorporarse explícitamente a la evaluación, como condición necesaria para construir sistemas de IA que generen valor no solo técnico, sino también social.

Descargar artículo (formato PDF)