Cómo establecer una correcta correlación

June 10, 2016

 

 

 

 

"A ojo de buen cubero"  

Una expresión divertida ésta del cubero. Yo siempre había pensado que tenía que ver con las cubas, esas que llevan ron y cocacola. Pero no, en realidad tiene que ver con las cubas y es una expresión que trasciende los bares. 

 

Viene a cuento por el tema que he decido abordar hoy: la importancia de la visualización. En general, para poder entender conceptos abstractos por ejemplo la suma vectorial, lo hacemos con, únicamente, dos vectores en un plano y es a partir de esa visualización que podemos establecer una fórmula para sumarlos y ésta fórmula nos permite llevar el concepto original de suma en un plano a el espacio, a más de dos vectores simultáneos, y en algunos casos en más de tres dimensiones.  Pero es importante notar que el concepto original se desprendió de la visualización del concepto. 

 

Entonces, en general, al trabajar con matemáticas y estadística, hacemos de lado la visualización original y definimos conceptos que ya no será posible visualizar y pensamos en cosas tan abstractas como dos funciones ortogonales, donde el concepto de ortogonalidad está completamente separado de aquel geométrico original.

 

Sin embargo, podemos encontrar modelos en los que, la aplicación aséptica de las matemáticas nos puede conducir a resultados erróneos que pueden corregirse con una, simple, inspección visual. 

 

El matemático ingles Frank Anscombe, en 1973 propuso un ejemplo muy simple en el cual, la estadística mostraba resultados, por decir lo menos, incongruentes. 

 

Es necesario hacer la observación de que por aquellos años, si bien ya existían las computadoras, éstas no eran un electrodoméstico que podía estar en la sala o la recámara de la casa y por lo tanto, hacer una gráfica implicaba una tarea mucho más ardua que únicamente hacer unos cuantos clics en excel. 

 

La historia es como sigue: 

Ascombe plantea cuatro conjuntos de datos

 En éstos conjuntos de datos tenemos

  • La misma media de X, 9 

  • La misma varianza de X, 11

  • La misma media de Y, 7.5 

  • la misma varianza en Y, 4.12

  • El coeficiente de correlación entre X y Y en todos los casos es de 0.816

  • Su coeficiente de determinación es, también en todos los casos el mismo, R^2 = 0.402

 

Así, si nos quedamos con el análisis numérico es claro que los tres conjuntos de datos describen el mismo fenómeno. 

 

Basta con echarle un ojo a las gráficas para ver que no podemos estar más alejados de la realidad. 

 

 

 

 

 

En los conjuntos 3 y 4 podemos ver como un dato Atípico puede hacer una gran diferencia, en ambos casos la tentación de quitarlo es grande. Sin embargo, antes de discriminarlo inhumanamente habrían de hacerse más investigaciones después de todo como decía Enrico Fermi "Si tu dato se apega a la teoría tienes una medición, pero sino lo que tienes es un descubrimiento." 

 

Fue en una situación como ésta que se descubrió el agujero en la capa de ozono, cuando en la Antártida las mediciones eran atípicas se pensó que se trataba de un sensor dañado, pero cuando no fue posible corregir las lecturas de radiación fue que se pensó que, algo más, estaba sucediendo. 

 

Todavía no hemos llegado al punto en que las computadoras puedan reconocer patrones simples, mucho menos que puedan proponer una hipótesis, seguramente en el futuro eso ocurrirá, pero al día de hoy, nada sustituye al "Ojo de buen cubero"  

Please reload

.

 

Featured Posts

Gobierno de Datos (Inventario de Datos)

March 14, 2017

1/10
Please reload

Recent Posts

October 22, 2016

September 14, 2016

Please reload

Búsqueda por Tags
Síguenos
  • Wix Facebook page
  • Twitter Classic
  • Google Classic
  • LinkedIn App Icon