PUNTOS IMPORTANTES:
- OpenAI está mejorando las habilidades matemáticas de ChatGPT para reducir las «alucinaciones».
- La investigación ha descubierto que la supervisión del proceso, un tipo de retroalimentación en cada paso de la cadena de pensamiento, es efectiva para mejorar la precisión del chatbot.
- Aunque OpenAI no proporcionó ejemplos concretos de alucinaciones en su investigación, se mencionaron casos en los que la información falsa generada por los chatbots, causó problemas en escenarios reales.
OpenAI anunció sus esfuerzos para potenciar las capacidades de resolución de problemas matemáticos de ChatGPT, con el objetivo de disminuir las alucinaciones de la inteligencia artificial (IA). OpenAI pone el acento en la mitigación de estas alucinaciones como un paso fundamental hacia el desarrollo de una IA alineada.
En marzo, la presentación de la última versión de ChatGPT — ChatGPT-4 — impulsó aún más a la IA al dominio público. Sin embargo, los chatbots generativos de IA han lidiado por mucho tiempo con la precisión factual, generando ocasionalmente información falsa, a lo que se hace referencia comúnmente como “alucinaciones“. Los esfuerzos para reducir estas alucinaciones de IA fueron anunciados a través de un post en la página web de OpenAI.
Las alucinaciones de IA hacen referencia a aquellos momentos en los que los sistemas de inteligencia artificial generan resultados erróneos, que son engañosos o no están respaldados por datos del mundo real. Estas alucinaciones pueden manifestarse de varias formas, como la generación de información falsa, la invención de eventos o personas inexistentes, o la proporciona de detalles incorrectos acerca de ciertos temas.
OpenAI llevó a cabo una investigación para examinar la efectividad de dos tipos de retroalimentación: “supervisión del resultado” y “supervisión del proceso“. La supervisión del resultado implica retroalimentación basada en el resultado final, mientras que la supervisión del proceso proporciona información para cada paso en una cadena de pensamiento. OpenAI evaluó estos modelos utilizando problemas matemáticos, generando múltiples soluciones y seleccionando la solución mejor clasificada de acuerdo con cada modelo de retroalimentación.
Tras un análisis exhaustivo, el equipo de investigación descubrió que la supervisión del proceso ofrecía un rendimiento superior, ya que incentivaba al modelo a seguir un proceso aprobado por humanos. Por el contrario, la supervisión del resultado resultó ser más difícil de examinar de forma consistente.
OpenAI reconoció que las implicaciones de la supervisión del proceso se extienden más allá de las matemáticas, siendo necesaria una mayor investigación para entender sus efectos en diferentes dominios. Expresó la posibilidad de que, si los resultados observados se mantienen en contextos más amplios, la supervisión del proceso podría ofrecer una combinación favorable de rendimiento y alineación en comparación con la supervisión del resultado. Para facilitar la investigación, la compañía publicó públicamente el conjunto de datos completo de supervisión del proceso, invitando a la exploración y al estudio en este área.
Aunque OpenAI no proporcionó casos explícitos que motivaron su investigación en las alucinaciones, dos eventos recientes ejemplificaron el problema en escenarios reales.
En un incidente reciente, el abogado Steven Schwartz, en el caso Mata vs. Avianca Airlines, reconoció que se apoyó en el chatbot como un recurso de investigación. Sin embargo, la información proporcionada por ChatGPT resultó ser completamente inventada, destacando así el problema en cuestión.
ChatGPT de OpenAI no es el único ejemplo de sistemas de inteligencia artificial que enfrentan alucinaciones. Durante una demostración de su tecnología de chatbot en marzo, el chatbot de IA de Bing de Microsoft examinó informes de ganancias y generó cifras inexactas para empresas como Gap y Lululemon.