Icono del sitio Blog de unicoos

La Paradoja de Simpson: Cómo los datos pueden mentir

En el mundo del Big Data, solemos pensar que los números no mienten. Sin embargo, existe un fenómeno estadístico capaz de hacernos creer que una medicina es efectiva cuando en realidad es perjudicial. Fue descrita formalmente por el estadístico británico Edward Simpson en 1951, aunque el fenómeno ya había sido observado por Karl Pearson y Udny Yule décadas antes.

¿En qué consiste?

La paradoja ocurre cuando una tendencia que aparece en varios grupos de datos desaparece o se invierte cuando estos grupos se combinan.

Imagina dos hospitales que realizan una cirugía compleja. Si miramos los datos generales, el Hospital A parece mejor porque tiene una tasa de supervivencia mayor. Pero si analizamos los casos por «gravedad del paciente», descubrimos que el Hospital B es superior en ambos grupos (pacientes graves y pacientes leves).

¿Cómo es posible? Porque el Hospital B es un centro de referencia que acepta muchos más casos críticos, lo que «hunde» su media general a pesar de ser más eficiente en el quirófano.

La matemática del fenómeno

Supongamos que analizamos el éxito de dos tratamientos médicos (T1 y T2). Usamos la notación P(Éxito | T1, Hombre), donde la barra vertical significa «dado que» (es decir, la probabilidad de éxito condicionada a que se use el tratamiento T1 y el paciente sea hombre).

Veamos un ejemplo numérico real de cómo las muestras desiguales crean la paradoja:

Grupo Tratamiento A (Éxito) Tratamiento B (Éxito) Ganador
Hombres 80/100 (80%) 150/200 (75%) A
Mujeres 10/100 (10%) 4/50 (8%) A
TOTAL 90/200 (45%) 154/250 (61.6%) B

Como ves, el Tratamiento A es mejor tanto en hombres como en mujeres por separado. Sin embargo, al combinar los datos, el Tratamiento B parece ganar por goleada (61.6% vs 45%). Esto ocurre porque la mayoría de los pacientes de B son hombres (el grupo con mayor tasa de éxito base), lo que sesga la media total.

El caso real: La Universidad de Berkeley (1973)

Uno de los ejemplos más famosos ocurrió en las admisiones de Berkeley. Los datos globales sugerían una discriminación de género porque se admitía a un mayor porcentaje de hombres.

Sin embargo, el análisis detallado realizado por Bickel, Hammel y O’Connell en 1975 demostró que, en casi todos los departamentos, las mujeres tenían tasas de admisión iguales o superiores. La paradoja aparecía porque las mujeres solicitaban plaza masivamente en departamentos con tasas de admisión muy bajas (como Humanidades), mientras que los hombres lo hacían en departamentos con mucha más oferta (como Ingeniería).

Aplicaciones y pensamiento crítico

Este fenómeno no implica necesariamente un engaño intencionado; a menudo es el resultado de un análisis incompleto o de la omisión de una variable de confusión.

  • Medicina Actual: En la pandemia de COVID-19, aparecieron casos donde un tratamiento parecía más efectivo en un país que en otro, pero al controlar por la edad de la población, el efecto se invertía.

  • Deporte: Un jugador de béisbol puede tener mejor promedio de bateo que otro en cada año individual, pero un promedio peor en el total de su carrera si el número de turnos varía drásticamente.

Conclusión

La Paradoja de Simpson nos enseña que las matemáticas son una herramienta poderosa, pero exigen rigor. Como siempre decimos, no basta con operar números; hay que entender qué representan. Presentar un dato agregado ocultando que la realidad de los subgrupos es distinta puede ser un error metodológico o, en el peor de los casos, una forma sofisticada de mentir.

Salir de la versión móvil