La inteligencia artificial (IA) no está evolucionando: está despegando. En apenas dos años y medio hemos pasado de GPT-3.5 a GPT-4o, y quien haya probado ambos lo sabe: la diferencia en la experiencia de conversación es enorme. GPT-3.5 marcó un antes y un después al inaugurar la era ChatGPT, pero hoy nadie probablemente volvería a usarlo si tiene a su alcance modelos más avanzados.
Ahora bien, ¿qué significa que un modelo sea más avanzado? La respuesta es compleja. Hablamos de ventanas de contexto más amplias (es decir, la capacidad de leer y procesar más información a la vez), de resultados más elaborados y, en teoría, de menos errores. Pero hay un punto que sigue siendo espinoso: las alucinaciones. Y no siempre se avanza en la dirección correcta.
¿Qué son las alucinaciones? En IA, alucinar significa inventarse cosas. Son respuestas que suenan bien, incluso convincentes, pero que son falsas. El modelo no miente porque quiera, simplemente genera texto en función de patrones. Si no tiene datos suficientes, se los imagina. Y eso puede pasar desapercibido. Ahí está el riesgo.
O3 y O4-mini: más razonamiento, más errores. En septiembre del año pasado llegaron los llamados modelos razonadores. Supusieron un salto importante: introdujeron una especie de cadena de pensamiento que mejoró su rendimiento en tareas complejas. Pero no eran perfectos. O1-Pro era más caro que O3-mini, y no siempre más eficaz. Aun así, toda esta línea se presentó con una promesa: reducir las alucinaciones.

El problema es que, según los propios datos de OpenAI, eso no está ocurriendo. TechCrunch cita un informe técnico de la compañía donde se reconoce que O3 y O4-mini alucinan más que sus predecesores. Literalmente. En las pruebas internas con PersonQA, O3 falló en el 33% de las respuestas, el doble que O1 y O3-mini. O4-mini lo hizo aún peor: 48%.
Otros análisis, como el del laboratorio independiente Transluce, muestran que O3 incluso se inventa acciones: decía haber ejecutado código en un MacBook Pro fuera de ChatGPT y luego haber copiado los resultados. Algo que, sencillamente, no puede hacer.
Un reto que sigue pendiente. La idea de tener modelos que no alucinen suena fantástica. Sería el paso definitivo para confiar plenamente en sus respuestas. Pero, mientras tanto, toca convivir con este problema. Sobre todo cuando usamos la IA para tareas delicadas: resumir documentos, consultar datos, preparar informes. En esos casos, conviene revisar todo dos veces.
Porque ya ha habido errores serios. El más sonado fue el de un abogado que presentó ante el juez documentos generados por ChatGPT. Eran convincentes, sí, pero también ficticios: el modelo se inventó varios casos legales. La IA avanzará, pero el juicio crítico, por el momento, sigue siendo cosa nuestra.
Imágenes | Xataka con ChatGPT | OpenAI
Ver 13 comentarios
13 comentarios
ICNAZIO
Es un problema enorme que invalida a chatGPT para uso científico.
He probado las distintas versiones de IA con una sencilla prueba: le pido que me busque una referencia bibliográfica, una revisión actualizada sobre un aspecto muy específico de mi área de trabajo.
Pues bien, todas las IAs me dan un cita bibliográfica INVENTADA. El título tiene sentido, los autores son expertos en la materia, hasta el resumen que hace tiene sentido, todo aparentemente en orden, excepto porque el artículo mencionado no existe.
Un desastre, vamos.
mariafernandez2
Hasta ahora abril de 2025 la IA falla más que escopeta de feria, le pides que te ayude a comprender algo o que te dé sugerencias para algo real como un trabajo y es que no puede porque se copia cosas de dónde las aprendió (o sea de cualquier página ramdom en la cual cualquiera escribió su opinión, sí se saca respuestas copiadas de foros) y en proyectos con base científica no es capaz de razonar le pregunté que efecto podría dar la mezcla de dexametasona con otros inmunosupresores (2 más en concreto) y me responde que no hay evidencias suficientes para hacer esa combinación, pero es justo eso según el mecanismo de acción de los inmunosupresores le pedí que me haga un supuesto escenario y no lo comprendía, luego le expliqué en un texto largo el mecanismo específico de cada droga y como podría reaccionar en el cuerpo y no lo entiende me dice que no hay información y que consulte con un médico jaajajajaajaja yo soy química y genetista no quería consejos jaja en fin para un estudiante que haga la tarea podrá servir..
red1
Igual que los humanos.
efdtlc
Basta con revisar las noticias, y estas o bien tienen un sesgo ideológico o bien se lanzan sin ahondar en la veracidad de las fuentes o simplemente dicen medias verdades, porque al final da igual decir la verdad o manipular.
Piter_Parking
Hace poco, por curiosidad, probé ChatGPT para reparación de un electrodoméstico, le pasé una foto del aparato, para que me indicara como desmontarlo, y me generó una nueva imagen, con flechas, e indicaciones, pero modificó un montón de cosas de la foto original. La posición de unos tornillos, la posición de unos botones, borró unas conexiones... xD
No sé qué uso se le puede dar a algo así.
mlax
Inventan continuamente porque los han programado para tener información sesgada y manipulada. No son fiables y más, viniendo de donde vienen.
Milber Gazos
Simplemente esta copiando la mitomanía de muchos de los humanos que lo entrenaron
gonzalojovertomas
Llaman halucinaciones, lo que son mentiras ,falsedades ,tergiversaciones y manipulaciones.