Por LIKaDI Consultoría · Pilar 2 · Lectura: 6 min
En 2020, AlgorithmWatch documentó que Google Translate traducía sistemáticamente «doctora» o «presidenta» a su forma masculina al operar entre idiomas con flexión de género. El mecanismo era especialmente visible con el turco: la forma neutra para «soy médico/a» se convertía en «Soy médico»; «enfermero/a», en «enfermera». El sistema no elegía a partir del contexto: elegía a partir de la distribución estadística de género en el corpus de entrenamiento. Cuatro años después, Obermeyer et al. (2019) documentaron en Science que algunos modelos de riesgo cardiovascular presentaban menor sensibilidad diagnóstica en mujeres, porque habían aprendido de décadas de ensayos clínicos donde las mujeres estaban sistemáticamente infrarrepresentadas. Mismo mecanismo. Distinto impacto.
Un informe de UNESCO de 2019 documentó que asistentes de voz como Siri o Alexa adoptaban por defecto voces femeninas y respondían de forma sumisa ante comentarios de acoso. No es una decisión neutra: es la traducción de patrones presentes en los datos y en el diseño. En paralelo, un análisis del European Institute for Gender Equality documenta menor precisión en herramientas de trabajo gestionadas por IA cuando los datos de entrenamiento infrarrepresentan a las mujeres.
ℹ Google ha implementado mejoras parciales en la gestión del género gramatical desde 2018, ofreciendo en algunos casos traducciones en ambas formas. Estudios académicos de 2025 documentan, con todo, que los modelos actuales siguen presentando sesgo hacia el masculino en contextos profesionales. El mecanismo descrito en este artículo sigue operando.
El mecanismo compartido: datos que no ven a la mitad de la población
Los sistemas de inteligencia artificial aprenden de los datos con los que se entrenan. Cuando esos datos reflejan de forma desigual la presencia, la experiencia o la fisiología de las mujeres, el sistema aprende esa desigualdad como una regularidad del mundo y la reproduce a escala. No porque tenga intención de discriminar, sino porque hace exactamente lo que se supone que debe hacer: generalizar a partir de los patrones presentes en los datos.
Este mecanismo opera de formas distintas en el lenguaje y en la salud, pero su origen es el mismo: corpus de entrenamiento construidos en contextos en los que las mujeres han estado menos representadas, menos documentadas o menos estudiadas. La diferencia entre los dos ámbitos no está en el mecanismo, sino en las consecuencias: en el lenguaje, el coste es cultural y simbólico; en la salud, el coste es clínico y, en los casos más graves, vital.
Lenguaje e IA: sesgos de origen y manifestaciones
Los modelos de procesamiento del lenguaje natural aprenden representaciones vectoriales de las palabras: posiciones matemáticas en un espacio multidimensional que capturan las relaciones estadísticas entre términos en los textos de entrenamiento. El problema no es que el modelo aprenda lenguaje: es que aprende todo lo que está en el lenguaje, incluidas las asociaciones culturales que los textos humanos llevan codificadas. Caliskan et al. (2017) demostraron que los modelos de lenguaje entrenados con corpus de texto en inglés reproducen asociaciones entre género y profesión equivalentes a las que los estudios de psicología social han documentado en personas. El sistema no produce estereotipos nuevos: amplifica estadísticamente los que ya estaban en los datos.
Wikipedia, uno de los corpus más utilizados en el entrenamiento de modelos de lenguaje, presentaba en 2023 una brecha de género significativa: los artículos sobre mujeres en ciencia, tecnología y economía representan una fracción menor que los artículos sobre hombres en los mismos campos. Cuando un modelo aprende de ese corpus, la infrarrepresentación no es un efecto secundario: es una variable de entrenamiento.
| Contexto de aplicación | Efecto documentado |
|---|---|
| Traducción automática | Asignación de género por defecto basada en estereotipos profesionales al traducir entre idiomas con distinto grado de flexión de género. Zahraei y Emami (ACL 2025) documentan que los modelos analizados, incluido Google Translate, favorecen pronombres masculinos entre 4 y 6 veces más que los femeninos en contextos de liderazgo y éxito profesional. |
| Asistentes de voz | Adopción de voces femeninas por defecto y respuestas sumisas ante comentarios de acoso. El informe de UNESCO (2019) documenta este patrón en Siri y Alexa como traducción directa de los sesgos presentes en los datos y en las decisiones de diseño. |
| Herramientas de gestión laboral | El EIGE (2021) documenta menor precisión en herramientas de trabajo gestionadas por IA cuando los datos de entrenamiento infrarrepresentan a las mujeres, con impacto en evaluación del rendimiento y asignación de tareas en entornos de plataforma. |
Por qué el ajuste posterior tiene límites
La respuesta técnica más frecuente al sesgo de género en los modelos de lenguaje es el fine-tuning o ajuste posterior: una fase adicional de entrenamiento con datos más representativos o con instrucciones explícitas de equidad. Este ajuste puede reducir el sesgo visible en los resultados, pero actúa sobre las respuestas del modelo, no sobre las representaciones vectoriales aprendidas durante el preentrenamiento. El sesgo puede persistir en las capas profundas del modelo y reaparecer en contextos que el ajuste no anticipó.
El modelo de lenguaje no piensa que la enfermería es una mujer. Pero si en sus datos ese vínculo aparece cien veces más que el contrario, lo tratará como una regularidad del mundo. El ajuste posterior puede camuflar ese aprendizaje, no borrarlo.
LIKaDI
IA y salud: infrarrepresentación histórica y consecuencias clínicas
Hasta 1993, los ensayos clínicos en Estados Unidos podían excluir legalmente a las mujeres de los estudios farmacológicos. La norma se justificaba en la necesidad de evitar riesgos durante el embarazo. El efecto fue que décadas de investigación médica tomaron el cuerpo masculino como referencia estándar para dosis, síntomas y criterios diagnósticos. Cuando los sistemas de IA en salud se entrenan con esos registros históricos, la infrarrepresentación no desaparece: se codifica en el modelo y se aplica a escala.
La variable analíticamente relevante en este contexto es el sexo biológico, no el género. El sexo biológico condiciona la manifestación de enfermedades, la respuesta a fármacos, los valores de referencia de determinados parámetros y la evolución de ciertas patologías. Cuando un modelo de IA clínica se entrena con datos en los que esas diferencias no están representadas de forma equilibrada, produce resultados menos precisos para el grupo infrarrepresentado.
El caso más documentado es el de las enfermedades cardiovasculares. Los síntomas del infarto de miocardio se definieron clínicamente a partir de estudios realizados mayoritariamente en hombres. Los síntomas menos típicos más frecuentes en mujeres (fatiga, náuseas, dolor en mandíbula o espalda) están menos representados en los conjuntos de datos de entrenamiento de los modelos de riesgo cardiovascular. El resultado es que algunos modelos presentan menor sensibilidad diagnóstica para mujeres, lo que puede traducirse en retrasos en la atención o en infradiagnóstico.
| Área clínica | Efecto documentado de la infrarrepresentación por sexo en los datos |
|---|---|
| Riesgo cardiovascular | Los modelos entrenados con síntomas típicos masculinos presentan menor sensibilidad para la detección de infarto en mujeres. Los síntomas menos típicos más frecuentes en mujeres (fatiga, náuseas, dolor en mandíbula o espalda) están subrepresentados en los datos de entrenamiento. (Mosca et al., JAHA, 2016) |
| Dosificación farmacológica | Las diferencias en metabolismo, peso corporal y composición de tejidos entre sexos condicionan la respuesta a fármacos. Los modelos de dosificación entrenados con datos sesgados hacia el perfil masculino producen recomendaciones menos precisas para mujeres. (Zucker y Prendergast, Biology of Sex Differences, 2020.) |
| Dermatología y diagnóstico visual | Los conjuntos de datos de imágenes dermatológicas presentan menor representación de tipos de piel oscura y de manifestaciones de patologías en piel femenina. La precisión diagnóstica es menor para los grupos infrarrepresentados. (Daneshjou et al., Science Translational Medicine, 2022.) |
| Salud mental | Los criterios diagnósticos de varios trastornos se desarrollaron a partir de estudios con predominio de sujetos masculinos. Los modelos entrenados con esos criterios pueden infradiagnosticar condiciones con presentación clínica diferenciada por sexo. (Kuehner, EMBO Reports, 2017.) |
La distinción que importa: precisión e imparcialidad
Una objeción frecuente al análisis del sesgo en IA clínica es que los modelos son igualmente imprecisos para todos los grupos. La objeción confunde precisión agregada con imparcialidad. Un modelo puede alcanzar una precisión global del 90% siendo altamente preciso para el grupo mayoritario en los datos de entrenamiento y significativamente menos preciso para el grupo infrarrepresentado. La métrica agregada oculta la brecha.
Tratar de la misma manera a grupos con diferencias fisiológicas documentadas no es objetividad: es imprecisión. Un modelo que no incorpora la variable sexo donde esa variable es clínicamente relevante produce resultados menos precisos, no más neutros.
LIKaDI
Qué implica esto para las organizaciones
Las organizaciones que desarrollan o despliegan sistemas de IA en contextos de lenguaje o de salud tienen responsabilidades distintas pero convergentes. En el lenguaje, la obligación de equidad de género en los sistemas de IA proviene del Reglamento (UE) 2024/1689, que clasifica como de alto riesgo los sistemas que afectan a decisiones sobre personas, incluidos los sistemas de RRHH que utilizan herramientas de generación o análisis de texto. En la salud, las obligaciones de no discriminación son previas al Reglamento de IA y se derivan del marco de igualdad de trato en el acceso a servicios sanitarios.
En ambos casos, la evaluación del impacto de género de los sistemas no puede limitarse a verificar si el resultado del modelo es manifiestamente discriminatorio. Debe examinar si las asociaciones estadísticas que el modelo ha aprendido son coherentes con los criterios de equidad que la organización tiene la obligación de aplicar, y si los datos de entrenamiento representan de forma equilibrada los grupos sobre los que el sistema produce resultados con impacto real.
→ Lee también: Transversalidad de Género: qué es y por qué importa (enlace disponible próximamente)
→ Descubre nuestros servicios de igualdad de género: likadi.com/servicios
→ ¿Tienes preguntas sobre igualdad de género e inteligencia artificial? Escríbenos

