Nueva métrica evalúa desempeño de IA en tareas humanas

|

Investigadores de la organización sin fines de lucro METR, con sede en California, han desarrollado una nueva métrica denominada Horizonte Temporal de Finalización de Tareas (TCTH) para evaluar el rendimiento de los modelos de inteligencia artificial (IA) en comparación con el desempeño humano. Esta métrica estima el tiempo promedio que una persona con conocimientos en un área específica necesitaría para completar una tarea que un modelo de IA puede resolver con un 50% de éxito.


El estudio, titulado "Measuring AI Ability to Complete Long Tasks", incluyó 170 tareas reales en campos como programación, ciberseguridad y aprendizaje automático. Estas tareas, muchas de las cuales requieren varias horas de trabajo continuo, permiten establecer un criterio continuo y comparable para observar la evolución de las capacidades de los modelos de IA en relación con el trabajo humano.


La metodología TCTH se basa en una lógica sencilla: si un modelo de IA logra resolver con éxito el 50% de las tareas que a un humano le toman una cierta cantidad de tiempo, ese tiempo se considera su "horizonte". De esta manera, el valor del horizonte permite comparar la eficiencia de los modelos de IA basándose en una referencia empírica: el tiempo humano.


Los resultados del estudio revelaron una correlación negativa entre el tiempo que tarda una persona en completar una tarea y la probabilidad de éxito de los modelos de IA: cuanto más larga es la tarea, menor es el rendimiento del modelo. Por ejemplo, GPT-2 no logró resolver ninguna tarea que los humanos completaran en más de un minuto. En contraste, Claude 3.7 Sonnet, lanzado en 2025, resolvió exitosamente la mitad de las tareas que exigían un promedio de 59 minutos de trabajo humano.


Un hallazgo significativo del estudio es que el horizonte de tareas que los modelos de IA pueden completar con éxito se ha duplicado cada siete meses desde 2019. En 2024, la tasa de progreso se aceleró aún más, con duplicaciones cada tres meses, indicando un avance exponencial en las capacidades de la inteligencia artificial.


Esta nueva métrica ofrece una evaluación más representativa del rendimiento de los modelos de IA en tareas complejas, superando a benchmarks tradicionales que suelen saturarse rápidamente o miden habilidades específicas de forma aislada. Al alinearse con las capacidades humanas, el TCTH proporciona una herramienta valiosa para medir y comparar la eficiencia de la inteligencia artificial en relación con el desempeño humano.


La implementación del TCTH podría tener implicaciones significativas en diversos sectores, permitiendo una mejor comprensión de las áreas en las que la IA puede complementar o incluso superar el rendimiento humano. Además, esta métrica puede servir como una guía para el desarrollo futuro de modelos de IA más eficientes y capaces de abordar tareas cada vez más complejas.


En resumen, la introducción del Horizonte Temporal de Finalización de Tareas marca un avance importante en la evaluación del desempeño de la inteligencia artificial, proporcionando una medida más precisa y alineada con las capacidades humanas para comparar y mejorar los modelos de IA en el futuro.




Fuente: Infobae

Artículos relacionados

Crece la demanda global de expertos en gestion de proyectos ante el auge de la transformacion empresarial 1
Educación

La creciente complejidad del entorno empresarial ha generado una alta demanda de especialistas en gestión de proyectos. Universidades de prestigio han desarrollado programas académicos que buscan formar a los líderes del sector y responder a esta necesidad.

Comenta
Impacto de la Inteligencia Artificial en la Salud Mental y la Interaccion Social 1
Tecnología

La inteligencia artificial está revolucionando la comunicación y la interacción social, lo que plantea interrogantes sobre su impacto en la salud mental y la naturaleza de las relaciones humanas.

Comenta
Blackwell Global University destaca en la Conferencia Anual DEAC 20251
Educación

Blackwell Global University participó activamente en la Conferencia Anual DEAC 2025, donde su equipo directivo abordó temas clave sobre educación a distancia, calidad académica y futuro de la educación en entornos digitales.

Comenta