Los modelos de lenguaje grandes (LLMs, por sus siglas en inglés) están demostrando su capacidad para atender una variedad de tareas en el ámbito del procesamiento del lenguaje natural, desde la conversación básica hasta la compleja toma de decisiones y la elaboración de resúmenes. Sin embargo, las complejidades en la alineación de estos modelos con las intenciones del cliente han resultado ser un reto persistente. Las técnicas tradicionales, como la ingeniería de prompts y el ajuste
fino supervisado, frecuentemente se quedan cortas en este aspecto, provocando en ocasiones la creación de respuestas que pueden contener información errónea, sesgos o incluso ser tóxicas.
El ajuste
fino por medio de aprendizaje supervisado puede mejorar estas herramientas, pero enfrenta dificultades a la hora de capturar las intricadas cuestiones éticas y sociales que escapan a ejemplos simples. Esto puede conducir a resultados inesperados que desvían al modelo de su objetivo inicial.
En respuesta a estos retos, ha surgido un enfoque novedoso conocido como entrenamiento por
refuerzo con
retroalimentación humana (RLHF). Este método implica entrenar modelos de recompensa basados en input humano para refinar el comportamiento de los LLMs según los valores y preferencias humanas.