05 marzo 2022

Correlación y Causalidad

(Es una entrada para mis chicos de bachillerato pero podéis entenderla todos).

Supongamos que nos piden que interpretemos el siguiente diagrama de dispersión de dos variables X e Y:


Diríamos que hay mucha relación (lineal creciente) entre las dos variables porque:

- a los valores pequeños de una le corresponden los pequeños de la otra,
- a los valores intermedios de una le corresponden los intermedios de la otra,
- a los valores grandes de una le corresponden los grandes de la otra,

es decir, las dos variables covarían (positivamente) juntas, cuando una crece, la otra también crece.


Entonces surge una pregunta: ¿es una variable causa, explicación de la otra? Y esto es una cuestión peliaguda. Vamos a suponer tres situaciones:

Situación 1: la variable X es tiempo (en segundos) y la variable Y es la temperatura de un líquido puesto al fuego dicha cantidad de tiempo.

Situación 2: la variable X es ventas de whisky (en decenas de litros) y la Y son ventas de coches (en unidades) en diez meses en La Rioja.

Situación 3: la variable X es el número de cigüeñas avistadas y la Y el número de nacimientos en diez días en Londres.



Interpretación:

Situación 1: claramente hay una relación de causa/efecto entre ambas variables. Cuanto más tiempo al fuego, mayor será la temperatura del líquido.

Situación 2: no parece que haya una  relación de causa/efecto (¿la gente bebe whisky y le entran ganas de comprarse un coche?). Pero sí podría haber una tercera variable oculta (que no estamos considerando) y que fuese causa de las dos: por ejemplo una variable Z que midiese la situación económica: es lógico que cuanto mejor sea la situación económica, aumenten las ventas de muchos tipos de productos.

Situación 3: en Internet hay trillones de datos y si te pones a hacer diagramas de dispersión a lo loco entre unos y otros, a veces puedes encontrar simples coincidencias. El número de cigüeñas y de nacimientos no tiene absolutamente nada que ver.


Moraleja: que haya una relación entre dos variables no significa que exista una relación de causalidad entre ambas. Puede ocurrir que sí la haya, que exista una variable oculta que es la causa de las dos o que todo se deba a una simple casualidad.

No hay comentarios :

Publicar un comentario