Distribución bidimensional

Distribución bidimensional

Distribución bidimensional, distribución estadística en la que intervienen dos variables, x e y, y, por tanto, a cada individuo le corresponden dos valores, x_i, y_i. Estos dos valores se pueden considerar como coordenadas de un punto (x_i, y_i) representado en un diagrama cartesiano. Así, a cada individuo de la distribución le corresponderá un punto, y toda la distribución se verá representada mediante un conjunto de puntos.

Por ejemplo, supongamos que si a los cinco hijos, A, B, C, D y E, de una familia se les pasan unas pruebas que miden la aptitud musical (Mu) y la aptitud para las matemáticas (Ma), se obtienen los siguientes resultados:

Esta tabla es una distribución bidimensional porque intervienen dos variables: valoración Mu, valoración Ma. A cada individuo le corresponden dos valores: A(5,6), B(7,10), C(4,5), D(8,6), E(2,4). De este modo se asocia a cada individuo un punto en un diagrama cartesiano:

Esta representación gráfica de una distribución bidimensional se llama nube de puntos o diagrama de dispersión.

CORRELACIÓN

Entre las dos variables que determinan una distribución bidimensional puede existir una relación más o menos estrecha que se llama correlación, y se puede medir mediante el coeficiente de correlación, r, que es un número, asociado a los valores de las dos variables. El coeficiente de correlación puede valer entre -1 y 1.

Cuando r = 1 existe una relación funcional entre las dos variables de modo que el valor de cada variable se puede obtener a partir de la otra. Los puntos de la nube están todos situados sobre una recta de pendiente positiva.

Esto ocurre, por ejemplo, cuando una barra metálica se somete a distintas temperaturas, x₁, x₂,…, x_n, y se miden con precisión sus correspondientes longitudes, y₁, y₂,…, y_n. Las longitudes se obtienen funcionalmente a partir de las temperaturas de modo que, conociendo la temperatura a que se va a calentar, se podría obtener la longitud que tendría la barra.

Cuando r es positivo y grande (próximo a 1) se dice que hay una correlación fuerte y positiva. Los valores de cada variable tienden a aumentar cuando aumentan los de la otra. Los puntos de la nube se sitúan próximos a una recta de pendiente positiva.

Es el caso de las estaturas, x₁, x₂,…, x_n, y los pesos, y₁, y₂,…, y_n, de diversos atletas de una misma especialidad. A mayor estatura cabe esperar que tengan mayor peso, pero puede haber excepciones.

Cuando r es próximo a cero (por ejemplo, r = -0,12 o r = 0,08) se dice que la correlación es muy débil (prácticamente no hay correlación). La nube de puntos es amorfa.

Es lo que ocurriría si lanzáramos simultáneamente dos dados y anotáramos sus resultados: puntuación del dado rojo, x_i; puntuación del dado verde, y_i. No existe ninguna relación entre las puntuaciones de los dados en las diversas tiradas.

Cuando r es próximo a -1 (por ejemplo, r = -0,93) se dice que hay una correlación fuerte y negativa. Los valores de cada variable tienden a disminuir cuando aumentan los de la otra. Los puntos de la nube están próximos a una recta de pendiente negativa.

Si en un conjunto de países en vías de desarrollo se miden sus rentas per cápita, x_i, y sus índices de natalidad, y_i, se obtiene una distribución de este tipo, pues suele ocurrir que, grosso modo, cuanto mayor sea la renta per cápita menor será el índice de natalidad.

Cuando r = -1 todos los puntos de la recta están sobre una recta de pendiente negativa. Existe una relación funcional entre las dos variables.

PARÁMETROS EN UNA DISTRIBUCIÓN BIDIMENSIONAL

Cada una de las dos variables x, y de una distribución bidimensional tiene sus propios parámetros. Para el estudio de la correlación se necesitan sus medias, , , y sus desviaciones típicas, σ_x, σ_y.

Hay además un nuevo parámetro, σ_xy, llamado covarianza, que sirve para medir el grado de relación entre las dos variables: cómo varía cada una con relación a la otra.

La covarianza de una distribución bidimensional de n individuos dados por los pares de valores (x₁,y₁), (x₂,y₂),…,(x_n,y_n), se calcula mediante la fórmula siguiente:

La segunda expresión es más cómoda de aplicar cuando las medias , , no son números enteros.

El coeficiente de correlación, r, se obtiene dividiendo la covarianza por el producto de las desviaciones típicas:

Este parámetro no tiene dimensiones. Por ejemplo, si la variable x es una longitud y la y un peso, los valores  y σ_x son longitudes, y sus valores varían según que los datos estén dados en centímetros, en metros…; los valores de  y σ_y son pesos, y sus valores varían según las unidades en que se expresen los datos; la covarianza, σ_xy, es el producto de una longitud por un peso, y su valor varía según las unidades en que se den x_i, y_i; sin embargo, el coeficiente de correlación es un número abstracto cuyo valor no depende de las unidades en que se hallen los valores de las variables. Además, el hecho de que r tome valores entre –1 y 1 (-1 ≤ r ≤ 1) hace que resulte muy cómodo interpretar sus resultados. Por todo ello, r es un parámetro sumamente adecuado para calcular la correlación entre dos variables estadísticas.

A continuación, a modo de ejemplo, se realiza el cálculo de los parámetros estadísticos para hallar la correlación de la siguiente distribución dimensional:

Se empieza situando los datos de modo que resulte sencillo hallar las columnas x_i², y_i², x_iy_i:

Las sumas de las columnas son:

Σx_i = 26 ; Σy_i = 31 ;
Σx_i² = 158 ; Σy_i² = 213 ;
Σx_iy_i = 176

Con estos resultados se obtienen los parámetros del siguiente modo:

RECTAS DE REGRESIÓN

Se llama recta de regresión a una recta que marca la tendencia de la nube de puntos. Si la correlación es fuerte (tanto positiva como negativa) y, por tanto, los puntos de la nube están próximos a una recta, ésta es la recta de regresión.

Matemáticamente hay dos rectas de regresión, la recta de regresión de Y sobre X y la de X sobre Y.

La recta de regresión de Y sobre X es aquella y = ax + b para la cual la suma de los cuadrados de las desviaciones en el sentido de las ordenadas de cada punto a ella es mínima.

Al obligar a que Σd_i² = Σ(y_i – ax_i – b)² sea mínima, se obtiene la ecuación

La recta de regresión de X sobre Y es aquella para la cual la suma de los cuadrados de las desviaciones en el sentido de las abscisas de cada punto a ella es mínima.

Su ecuación es

que también se puede poner así:

Las rectas de regresión tienen las siguientes peculiaridades:

• Ambas pasan por el punto (,) llamado centro de gravedad de la distribución.
• Los valores

se llaman coeficientes de regresión de Y sobre X y de X sobre Y, respectivamente. Las pendientes de las rectas de regresión son b_yxy 1/b_yx.
• Cuando la correlación es fuerte, las dos rectas de regresión son muy próximas (son la misma si r = ±1). Si la correlación es débil, las dos rectas de regresión forman un ángulo grande.
• Cuando |r| es próximo a 1 la recta de regresión sirve para realizar estimaciones fiables de una de las variables para nuevos valores de la otra variable.

Los grandes inventos y descubrimientos

Distribución bidimensional

miércoles, 24 de agosto de 2011

No hay comentarios:

Publicar un comentario

Entradas populares

Me gusta

Seguidores