Imagina que llamas al chatbot de servicio al cliente que “habla español”… y suena como si le estuvieran dictando desde Seattle con un auricular de traducción simultánea. Detrás de ese tono enlatado hay un problema mucho más serio: la inteligencia artificial que está revolucionando al mundo piensa en inglés, y apenas balbucea nuestro idioma.
GPT-3, por ejemplo, se entrenó con tal cantidad de textos en inglés que más del 90 por ciento de lo que “leyó” está en ese idioma. El español no llega ni al 1 por ciento. LLaMA 2, de Meta, va por el mismo camino: 89 por ciento inglés.
Y se nota. Cuando traducimos al español exámenes diseñados para evaluar estos modelos, el rendimiento cae sistemáticamente. Un estudio reciente mostró que incluso los modelos de código abierto apenas manejan una fracción del vocabulario cotidiano en español. Wired lo dijo sin rodeos: este dominio del inglés no solo empobrece la fluidez, también arrastra estereotipos culturales que terminan incrustados en otras lenguas.
Mientras tanto, en México vamos a toda velocidad. El mercado de IA llegará a los 450 millones de dólares en 2025, y casi todos los proyectos corporativos se montan directamente sobre la API de OpenAI… en inglés. Grupo Bimbo implementó “Copilot for All” con esa versión. Cemex hizo lo mismo con Technical Xpert sobre Azure OpenAI.
Esto no es un problema teórico. Un reclamo de cliente puede suavizarse —o exagerarse— si pasa por dos traducciones. Un bot clínico podría sugerir un medicamento que Cofepris ni siquiera aprueba. Y ni hablemos de los asistentes de marca que confunden “güey” con insulto o terminan repitiendo memes sin entender el contexto.
Pero ya hay señales de que otro camino es posible. El supercomputador de Barcelona liberó MarIA, entrenado con los archivos de la Biblioteca Nacional de España. Clibrain, una startup madrileña, lanzó Lince Zero, pensado desde el primer token para el español iberoamericano. España, incluso, impulsa una “nueva economía de la lengua”, con fondos públicos para datasets y cómputo en español.
Aquí es donde las universidades mexicanas tienen que entrar al juego. Tenemos el talento, tenemos los datos, pero falta una visión compartida. Las instituciones académicas deben comenzar a construir corpus, modelos y herramientas propias en español, y hacerlo en coordinación con el gobierno. No se trata solo de investigación: se trata de soberanía digital. Sin inversión pública que facilite infraestructura, datos abiertos y colaboración entre sectores, vamos a seguir entrenando modelos locales con la lógica —y los sesgos— de otros países.
¿Y qué pueden hacer las empresas mexicanas hoy? Lo primero es lo más básico: entrenar a los modelos con sus propios textos. Contratos, manuales, correos, preguntas frecuentes… en español. Lo segundo: evaluar el desempeño del modelo en nuestro idioma antes de liberarlo. Y lo tercero, igual de importante: exigir transparencia. ¿Cuánto español hay en el modelo? ¿Qué se está haciendo para corregir sesgos culturales? Y mientras tanto, no soltar el volante en tareas donde una mala respuesta puede costar dinero, reputación o incluso salud.
Somos 600 millones de hispanohablantes. Si dejamos que los asistentes del futuro piensen en inglés, aceptamos que nuestra voz y nuestra visión del mundo lleguen al futuro como una nota al pie. Invertir en corpus y modelos propios no es nacionalismo tecnológico. Es una decisión de negocio. Y quien se atreva a construir IA en español, se va a ganar algo que ningún botón de “traducir” puede copiar: cercanía, precisión y una ventaja cultural real.