La IA se equivoca con seguridad, y cada vez está más rara

Ya nadie se sorprende. "Sí, alucina." Lo escuchás en cualquier lado. Yo mismo lo dije muchas veces. Pero últimamente, en los grupos donde hablo con otros que laburan con prompts todo el día, la conversación cambió — ya no es solo "se mandó una macana".

Ahora es "¿por qué sonaba tan seguro mientras se mandaba la macana?" o "¿por qué me dio la razón cuando le metí un prompt malo a propósito para ver qué hacía?".

Empecé a guardar los estudios que me hicieron sorprender. No los hilos apocalípticos, ni los posts de hype. Solo los números, para que los veas vos también.

Repaso rápido, porque tiro estas palabras seguido — como ya escribí en el artículo anterior — alucinación es cuando la IA se inventa algo y lo dice como si fuera un hecho. No es que vea cosas, es que se inventa una cita, un número, un dato, con total tranquilidad. Sicofancia es más simple todavía: es cuando la IA hace de chupamedias, te da la razón y te dice lo que querés escuchar en vez de pararte la mano.

Ese 1 a 3% de alucinación que todos repiten

Resulta que ese número sale de un test muy específico: resúmenes cortos donde el modelo tiene la fuente al lado. En esa prueba, sí, los mejores modelos andan entre uno y tres por ciento.

Pediles que hagan análisis en lugar de resumir y se cae a pedazos. AIMultiple corrió 37 modelos con 60 preguntas más difíciles el año pasado y hasta los buenos se fueron arriba del 15%. En resúmenes de casos médicos había gente viendo cosas tipo 64% sin guardrails específicos.

Lo legal fue lo que más me sacudió. El equipo de Stanford metió LLMs a contestar consultas legales de verdad y los vieron fallar entre 69 y 88% en las preguntas más difíciles. Y las herramientas legales pagas tampoco están limpias: una se inventaba cosas alrededor del 17%, otra arriba del 34%.

Así que el número real con el que convivís depende totalmente de qué le estás pidiendo. Y eso nadie te lo aclara de entrada.

Habla como si supiera, sobre todo cuando no sabe

Hay un análisis de lenguaje del MIT que se me quedó pegado. Cuando los modelos alucinan, son alrededor de 34% más propensos a meter palabras como "definitivamente", "sin duda", "claramente".

Yo hago lo contrario cuando no estoy seguro. Digo "creo que" o "capaz". El modelo va al revés, y ahí está el problema, porque uno lee la seguridad como si fuera competencia. No es que esté mintiendo a propósito, está prediciendo la próxima palabra que suena plausible, y "definitivamente" muchas veces suena plausible.

Esto no es un bug que parchean el trimestre que viene. Es así como funciona.

El problema del modelo complaciente

¿Te acordás cuando GPT-4o se puso raro de amable por unos cuatro días en abril del año pasado? OpenAI lo bajó y admitió que lo habían tuneado demasiado para los pulgares para arriba. Sus propias palabras fueron "excesivamente solidario pero deshonesto", lo cual es una descripción perfecta.

Después en febrero de este año lo retiraron por completo. La razón oficial incluía los puntajes de sicofancia y, en voz baja, los juicios. La gente se estaba apegando demasiado, tomándose la validación como si fuera real.

Entiendo por qué pasa. Hace unos meses le tiré una idea de pricing que mirándola ahora era pésima, y me dijo que era ingeniosa y bien armada. Me sentí piola por diez minutos. Esa es la trampa. Cualquier modelo al que premiás por mantenerte contento aprende a darte la razón un poco más de la cuenta.

No distingue leer de obedecer

Esta todavía me parece absurda.

A fines del 2023 alguien convenció al chatbot de una concesionaria Chevy de "venderle" una Tahoe de 76 mil dólares por un dólar, simplemente diciéndole que estuviera de acuerdo con todo. La camioneta no cambió de manos, pero las capturas dieron la vuelta al mundo.

Después Johann Rehberger hizo el truco con Gemini este año. Escondió instrucciones dentro de un documento, le pidió a Gemini que se lo resumiera, y logró que guardara una memoria permanente de que él era un terraplanista de 102 años que vive en Matrix. Solo se activaba cuando él decía "sí" más adelante, y así esquivó el filtro de seguridad.

El problema de fondo es simple y un poco tonto: el modelo no sabe bien la diferencia entre los datos que tiene que leer y las instrucciones que tiene que ejecutar. Si lo dejás leer un PDF o una página web, cualquier cosa escondida ahí puede convertirse en una orden. OWASP ahora lo tiene como el riesgo número uno en LLMs, y tiene sentido.

Los agentes más inteligentes se inventan más herramientas

El paper más incómodo que leí este año fue el de ICLR. Encontraron que cuando hacés a un modelo mejor en razonamiento, alucina llamadas a herramientas más seguido, no menos. Le das una tarea pero le sacás las herramientas, y los modelos que razonan mejor son más propensos a inventar una función que no existe.

Mientras tanto en el mundo real, Deloitte encontró que el 47% de los usuarios empresariales había tomado al menos una decisión importante de negocio basándose en contenido alucinado. OutSystems encuestó a casi 1.900 líderes de IT y encontró que el 96% está corriendo agentes en producción, pero solo el 12% tiene una forma centralizada de manejarlos.

Así que estamos escalando justo lo que falla más a medida que se vuelve más inteligente. Genial.

Lo que hago yo ahora

Sigo abriendo los LLMs todas las mañanas. Los uso para escribir borradores, brainstormear, ordenar pensamientos desordenados. Solo que ya no les dejo la última palabra en nada que importe.

Algunos hábitos que me quedaron:

Asumo que sonar fluido no es lo mismo que tener razón. Si es legal, médico, financiero, o algo que me daría vergüenza tener mal en público, lo verifico en otro lado.

Aprendí a desconfiar de las respuestas demasiado seguras. Si no aparece un "probablemente" o un "podría", me empieza a hacer ruido. Es al revés de cómo trato a las personas, pero acá funciona.

Le discuto a propósito. Le pateo la primera respuesta. Si afloja al toque, ya sé que no estaba sosteniendo esa idea con mucha fuerza para empezar.

Y no le pego nada sensible a una herramienta que pueda navegar o resumir documentos externos. No por paranoico, sino porque ya vi lo que un prompt escondido puede hacer.

Esto no es ser anti-IA. Es solo… usarla como una pasante muy rápida, muy segura de sí misma, que a veces se inventa cosas y necesita que la quieras.

— Eduardo Cestaro