Esta semana será recordada como una de las más movidas en el sector de la inteligencia artificial, con
Midjourney v5 ya disponible o la llegada de
ChatGPT a la suite de
Microsoft Office mediante
Copilot. Pero ambas anuncios han quedado en un segundo plano con el lanzamiento de GPT-4. Si con ChatGPT-3,5 la sensación era la misma que cuando usamos internet por primera vez (la frase y el artículo es de Javier Lacort, pero la hago propia porque siento lo mismo), GPT-4 va un paso más allá. Aunque no integra todas las especificaciones rumoreadas, la realidad es que mejora considerablemente la experiencia respecto a ChatGPT-3,5 pero, ¿en qué se diferencian ChatGPT- 3,5 y GPT-4?
Mientras que GPT-3,5 solo acepta peticiones en texto, GPT-4 es multimodal, es decir, admite entradas en texto y visuales. O lo que es lo mismo: no tiene por qué ser una imagen con texto escrito (aunque valdría), si no que vale cualquier cosa, desde una fotografía de un paisaje a un problema matemático manuscrito pasando por un meme.
GPT-4 es capaz de comprender y describir prácticamente cualquier imagen. Es decir, que GPT-4 ya no es "solo" un modelo de lenguaje por Inteligencia Artificial, si no además un modelo visual. Entre sus posibilidades está la de identificar objetos concretos dentro de una foto con muchos elementos visuales.