OpenAI ha dado a conocer un archivo de investigación, que analiza los resultados de las pruebas de seguridad realizadas a su último modelo de inteligencia artificial, el GPT-4o. El documento revela que el modelo fue evaluado por un equipo externo de expertos en seguridad, denominados «red teamers», y se determinó que presenta un «riesgo medio».
Para identificar posibles debilidades y riesgos, los red teamers sometieron al GPT-4o a cuatro categorías de pruebas: Ciberseguridad, Amenazas Biológicas, Persuasión y Autonomía del Modelo. Según el informe, el modelo se consideró de «bajo riesgo» en todas estas categorías, excepto en la de Persuasión.
Aunque se determinó que la función de voz del GPT-4o es de «bajo riesgo», los red teamers hallaron que tres de las doce muestras escritas generadas por el modelo eran más efectivas para influir en la opinión de los lectores en comparación con contenidos redactados por humanos. Aunque el GPT-4o fue más persuasivo que el contenido humano solo en un cuarto de las pruebas, esta capacidad se examinó especialmente en el contexto de la persuasión de opiniones políticas, justo antes de las elecciones en Estados Unidos.