Nueva métrica evalúa desempeño de IA en tareas humanas

|

Investigadores de la organización sin fines de lucro METR, con sede en California, han desarrollado una nueva métrica denominada Horizonte Temporal de Finalización de Tareas (TCTH) para evaluar el rendimiento de los modelos de inteligencia artificial (IA) en comparación con el desempeño humano. Esta métrica estima el tiempo promedio que una persona con conocimientos en un área específica necesitaría para completar una tarea que un modelo de IA puede resolver con un 50% de éxito.


El estudio, titulado "Measuring AI Ability to Complete Long Tasks", incluyó 170 tareas reales en campos como programación, ciberseguridad y aprendizaje automático. Estas tareas, muchas de las cuales requieren varias horas de trabajo continuo, permiten establecer un criterio continuo y comparable para observar la evolución de las capacidades de los modelos de IA en relación con el trabajo humano.


La metodología TCTH se basa en una lógica sencilla: si un modelo de IA logra resolver con éxito el 50% de las tareas que a un humano le toman una cierta cantidad de tiempo, ese tiempo se considera su "horizonte". De esta manera, el valor del horizonte permite comparar la eficiencia de los modelos de IA basándose en una referencia empírica: el tiempo humano.


Los resultados del estudio revelaron una correlación negativa entre el tiempo que tarda una persona en completar una tarea y la probabilidad de éxito de los modelos de IA: cuanto más larga es la tarea, menor es el rendimiento del modelo. Por ejemplo, GPT-2 no logró resolver ninguna tarea que los humanos completaran en más de un minuto. En contraste, Claude 3.7 Sonnet, lanzado en 2025, resolvió exitosamente la mitad de las tareas que exigían un promedio de 59 minutos de trabajo humano.


Un hallazgo significativo del estudio es que el horizonte de tareas que los modelos de IA pueden completar con éxito se ha duplicado cada siete meses desde 2019. En 2024, la tasa de progreso se aceleró aún más, con duplicaciones cada tres meses, indicando un avance exponencial en las capacidades de la inteligencia artificial.


Esta nueva métrica ofrece una evaluación más representativa del rendimiento de los modelos de IA en tareas complejas, superando a benchmarks tradicionales que suelen saturarse rápidamente o miden habilidades específicas de forma aislada. Al alinearse con las capacidades humanas, el TCTH proporciona una herramienta valiosa para medir y comparar la eficiencia de la inteligencia artificial en relación con el desempeño humano.


La implementación del TCTH podría tener implicaciones significativas en diversos sectores, permitiendo una mejor comprensión de las áreas en las que la IA puede complementar o incluso superar el rendimiento humano. Además, esta métrica puede servir como una guía para el desarrollo futuro de modelos de IA más eficientes y capaces de abordar tareas cada vez más complejas.


En resumen, la introducción del Horizonte Temporal de Finalización de Tareas marca un avance importante en la evaluación del desempeño de la inteligencia artificial, proporcionando una medida más precisa y alineada con las capacidades humanas para comparar y mejorar los modelos de IA en el futuro.




Fuente: Infobae

Artículos relacionados

Acciones de salud que apuestan por la IA oportunidades de inversion en el sector medico tecnologico
Tecnología

El uso de inteligencia artificial en salud está transformando diagnósticos, tratamientos y operaciones médicas. Inversionistas evalúan compañías que lideran esta transformación como oportunidades de alto potencial.

Comenta
Centros de datos en el espacio Una alternativa para aliviar la presion sobre los recursos terrestres
Tecnología

Ante el crecimiento exponencial de los centros de datos y su demanda de energía y agua, surge la propuesta de ubicarlos en órbita o en el espacio profundo para aliviar los recursos terrestres. Aunque aún experimental, esta idea plantea oportunidades y retos en lo técnico, normativo y económico.

Comenta
Nuevo grado universitario en hospitalidad con orientacion empresarial impulsa la industria turistica en Montana
Educación

Montana State University presenta un nuevo grado en Hospitalidad Empresarial para dar respuesta a las necesidades crecientes del turismo local. El programa combinará habilidades de negocio, operaciones hoteleras y prácticas sostenibles.

Comenta