Desarrollo

OpenAI presenta o1-preview: El modelo de IA que supera a expertos humanos en matemáticas y ciencias

El lanzamiento de o1-preview marca un hito en la evolución de los modelos de inteligencia artificial, abriendo nuevas oportunidades en áreas como la ciencia, la programación y las matemáticas.

OpenAI planea seguir mejorando este modelo, con la promesa de futuras versiones que seguirán elevando el estándar en la industria., OpenAI
OpenAI planea seguir mejorando este modelo, con la promesa de futuras versiones que seguirán elevando el estándar en la industria. / FUENTE: OpenAI

Este jueves, OpenAI lanzó finalmente o1-preview, su modelo de inteligencia artificial más esperado y conocido como Proyecto Strawberry, un avance revolucionario en el campo del razonamiento y la resolución de problemas complejos capaz de simular las capacidades humanas.

Este nuevo modelo, que aún se encuentra en su fase preliminar, demostró competencias sorprendentes, superando a expertos humanos en varios puntos de referencia, incluyendo exámenes de matemáticas, ciencias y programación competitiva.

Rendimiento superior en matemáticas y ciencias

Según lo informado por Noam Brow, científico e investigador de OpenAI, se realizaron pruebas rigurosas donde o1-preview superó a GPT-4 en múltiples tareas relacionadas con el razonamiento lógico.

Una de las evaluaciones más notables fue en la American Invitational Mathematics Examination (AIME), donde el modelo alcanzó una puntuación del 93%, colocándose entre los 500 mejores estudiantes de Estados Unidos. Este resultado lo posiciona dentro del límite para la Olimpiada de Matemáticas de EE.UU., un logro que subraya su capacidad de razonamiento matemático avanzado.

Nueva serie de modelos o1 de OpenAI. / X | @polynoamial
Nueva serie de modelos o1 de OpenAI. X | @polynoamial

Además, el modelo también fue evaluado en GPQA, un punto de referencia que examina conocimientos de biología, física y química. En este contexto, o1-preview superó a expertos humanos con doctorado, siendo el primer modelo en lograr este hito.

Mejoras en el razonamiento

OpenAI también probó a o1-preview en competencias de programación como la Olimpiada Internacional de Informática (IOI) y Codeforces, donde su rendimiento fue destacado.

"En la IOI, el modelo logró una calificación en el percentil 49, mientras que en Codeforces alcanzó un Elo de 1807, superando al 93% de los competidores humanos", informó la empresa.

De igual manera, precisaron que lo que hace único a o1-preview es su uso de la "cadena de pensamiento", un proceso de razonamiento que permite al modelo mejorar continuamente sus estrategias y corregir errores, de manera similar a cómo lo haría un ser humano al enfrentar problemas complejos. Por ende, su enfoque también ha demostrado ser eficaz en mejorar la seguridad y alineación del modelo con valores humanos, una prioridad en el desarrollo de inteligencia artificial responsable.

A pesar de ser un modelo temprano, "aún no tiene muchas de las características que hacen que ChatGPT sea útil, como navegar por la web para obtener información y cargar archivos e imágenes", señaló OpenAI. Sin embargo, destacó que "para tareas de razonamiento complejas, este es un avance significativo y representa un nuevo nivel de capacidad de IA".

Un paso adelante en la evolución de la IA

El lanzamiento de o1-preview marca un hito en la evolución de los modelos de inteligencia artificial, abriendo nuevas oportunidades en áreas como la ciencia, la programación y las matemáticas.

OpenAI planea seguir mejorando este modelo, con la promesa de futuras versiones que seguirán elevando el estándar en la industria.

A partir del jueves 12 de septiembre, los usuarios pagos de ChatGPT en las versiones Plus y Team podrán acceder a una versión preliminar del nuevo modelo. 




matomo