Nueva métrica evalúa desempeño de IA en tareas humanas

redacción | lunes, 10 de marzo de 2025, 15:37

Investigadores de la organización sin fines de lucro METR, con sede en California, han desarrollado una nueva métrica denominada Horizonte Temporal de Finalización de Tareas (TCTH) para evaluar el rendimiento de los modelos de inteligencia artificial (IA) en comparación con el desempeño humano. Esta métrica estima el tiempo promedio que una persona con conocimientos en un área específica necesitaría para completar una tarea que un modelo de IA puede resolver con un 50% de éxito.

El estudio, titulado "Measuring AI Ability to Complete Long Tasks", incluyó 170 tareas reales en campos como programación, ciberseguridad y aprendizaje automático. Estas tareas, muchas de las cuales requieren varias horas de trabajo continuo, permiten establecer un criterio continuo y comparable para observar la evolución de las capacidades de los modelos de IA en relación con el trabajo humano.

La metodología TCTH se basa en una lógica sencilla: si un modelo de IA logra resolver con éxito el 50% de las tareas que a un humano le toman una cierta cantidad de tiempo, ese tiempo se considera su "horizonte". De esta manera, el valor del horizonte permite comparar la eficiencia de los modelos de IA basándose en una referencia empírica: el tiempo humano.

Los resultados del estudio revelaron una correlación negativa entre el tiempo que tarda una persona en completar una tarea y la probabilidad de éxito de los modelos de IA: cuanto más larga es la tarea, menor es el rendimiento del modelo. Por ejemplo, GPT-2 no logró resolver ninguna tarea que los humanos completaran en más de un minuto. En contraste, Claude 3.7 Sonnet, lanzado en 2025, resolvió exitosamente la mitad de las tareas que exigían un promedio de 59 minutos de trabajo humano.

Un hallazgo significativo del estudio es que el horizonte de tareas que los modelos de IA pueden completar con éxito se ha duplicado cada siete meses desde 2019. En 2024, la tasa de progreso se aceleró aún más, con duplicaciones cada tres meses, indicando un avance exponencial en las capacidades de la inteligencia artificial.

Esta nueva métrica ofrece una evaluación más representativa del rendimiento de los modelos de IA en tareas complejas, superando a benchmarks tradicionales que suelen saturarse rápidamente o miden habilidades específicas de forma aislada. Al alinearse con las capacidades humanas, el TCTH proporciona una herramienta valiosa para medir y comparar la eficiencia de la inteligencia artificial en relación con el desempeño humano.

La implementación del TCTH podría tener implicaciones significativas en diversos sectores, permitiendo una mejor comprensión de las áreas en las que la IA puede complementar o incluso superar el rendimiento humano. Además, esta métrica puede servir como una guía para el desarrollo futuro de modelos de IA más eficientes y capaces de abordar tareas cada vez más complejas.

En resumen, la introducción del Horizonte Temporal de Finalización de Tareas marca un avance importante en la evaluación del desempeño de la inteligencia artificial, proporcionando una medida más precisa y alineada con las capacidades humanas para comparar y mejorar los modelos de IA en el futuro.

Fuente: Infobae

Tecnología

Artículos relacionados

El Futuro Laboral Impulsado por IA Requiere Mas que Nunca el Talento Humano

Tecnología

El Futuro Laboral Impulsado por IA Requiere Más que Nunca el Talento Humano

La inteligencia artificial está cambiando el panorama laboral, pero el talento humano sigue siendo indispensable para desarrollar y supervisar estas tecnologías. El futuro del trabajo se construye sobre la colaboración entre humanos y máquinas.

Comenta

Destacados

Reid Hoffman afirma que la Generación Z tiene ventaja en el mercado laboral gracias a su relación con la inteligencia artificial

La Generación Z, nativa digital, tiene en la inteligencia artificial una ventaja estratégica para el empleo. Reid Hoffman los anima a liderar el cambio y destacar en un mercado laboral complejo.

Comenta

Destacados

Alfredo Zamudio será ponente en el 5B Digital Summit 2025, el evento financiero más relevante de la región

El reconocido especialista en finanzas Alfredo Zamudio participará como ponente en el 5B Digital Summit 2025 en Guatemala. El evento reunirá a líderes empresariales y tecnológicos de más de 15 países.

Comenta