Firefox 130 ha introducido una función innovadora para mejorar la accesibilidad: generación automática de
texto alternativo para imágenes en informes PDF. Esta mejora, que opera localmente en los dispositivos de los clientes para proteger su privacidad, busca aumentar la cantidad de imágenes accesibles en PDFs y optimizar la experiencia para personas con discapacidades visuales.
La tecnología utiliza un modelo de lenguaje compacto que combina procesamiento de imágenes y generación de
texto, y Mozilla ha adoptado un enfoque de desarrollo abierto para fomentar la colaboración de la comunidad en la mejora de este sistema.
El modelo de generación de
texto alternativo de Mozilla se basa en una arquitectura encoder-decoder con 180 millones de parámetros, diseñada para laborar de manera eficiente en navegadores. Los componentes principales son:
- Encoder: Basado en un Vision Transformer (VIT), preentrenado con millones de imágenes en ImageNet 21k.
- Decoder: Una versión distilada de GPT-2 que reduce el tamaño del modelo sin comprometer significativamente la precisión.
El modelo ha sido cuantizado para reducir su tamaño y acelerar el tiempo de inferencia, ocupando solo 180 MB en disco.
Sin embargo, Mozilla reconoce que la versión inicial tiene limitaciones, especialmente con imágenes complejas.