Estadística matemáticas







Un estudio estadístico se desarrolla normalmente en varias etapas:

—recogida de los datos;
—clasificación de los datos en una tabla;
—representación del conjunto o serie de datos en una gráfica o diagrama estadístico;
—caracterización de la serie de datos usando varios parámetros.
Aquí definiremos varios de estos parámetros, como varianza, desviación típica, cuartiles… y utilizaremos el diagrama de caja, un método de representación que nos permite comparar de un vistazo dos conjuntos de datos.

I. Calcular la varianza y la desviación típica
Sea la serie de datos estadísticos de tamaño o dimensión siguiente:

La media de X es: .
Llamamos varianza del conjunto de datos X, al número:

También podemos escribir esta expresión como:
.
La desviación típica es el número: .
Cuando, en vez de tener un valor discreto , lo que tenemos es un intervalo, las fórmulas son las mismas, pero sustituimos por el valor central del intervalo, o marca de clase.
Ejemplo:
Estudiamos la edad, X, de los empleados de una empresa. Obtenemos estos valores:

La media de X es:

.
La varianza es:

.
Y la desviación típica es: .
Nota:
La varianza y la desviación típica miden cómo se distribuyen los valores de X con relación a la media. Son parámetros o medidas de dispersión (mientras que la media y la mediana son parámetros omedidas de centralización, que especifican los valores más representativos de un conjunto de datos).
También podemos hallar la varianza usando la siguiente fórmula:
.
II. Calcular la mediana de un conjunto o serie de datos
La mediana, que representamos por Me, es el número que divide a la serie de datos ordenada por valores crecientes en dos grupos con el mismo peso o cantidad de valores.
Para calcularla, escribimos la lista de todos los valores de la serie ordenados en orden creciente, repitiendo cada uno de ellos tantas veces como indique su frecuencia absoluta. Ahora podemos distinguir dos situaciones:
—si la población total n es un número impar, la mediana es el término que ocupa el lugar  ;
—si la población total n es un número par, la mediana es el valor central del intervalo formado por los términos que ocupan las posiciones .
Cuando los datos de la serie vienen agrupados en clases o intervalos, podemos determinar gráficamente la mediana, usando el polígono de frecuencias absolutas o el polígono de frecuencias absolutas acumuladas, interpolando linealmente si fuera necesario.
Ejemplo:
Retomamos el ejemplo anterior. Estudiamos X, la edad de los empleados de una empresa. Tenemos:


Hemos incorporado en la tercera columna de la tabla las frecuencias absolutas acumuladas. En esa columna podemos ver que hay 1.050 empleados menores de 35 años y 1.800 menores de 40 años.
La mediana Me, que corresponderá a la frecuencia absoluta acumulada de 1.500, pertenece al intervalo 35 ≤ x < 40.
Tenemos:

Fijémonos en los puntos A(35, 1.050) y B(40, 1.800) que corresponden a los extremos de dicho intervalo .
Buscamos Me, que es la coordenada x o abscisa del punto M situado sobre el segmento AB para el que la coordenada y u ordenada toma el valor 1.500.
son vectores que tienen la misma dirección.
Por tanto: , o .
III. Hallar los cuartiles de un conjunto de datos
Sea la serie de datos estadísticos X de tamaño n.
El primer cuartil o cuartil inferiorQ1, es el valor más pequeño de la serie tal que al menos el 25% de los datos son menores o iguales que Q1.
El tercer cuartil o cuartil superiorQ3, es el valor más pequeño de la serie tal que al menos el 75% de los datos son menores o iguales que Q3.
El intervalo intercuartiles es el intervalo .
La diferencia es la amplitud o rango del intervalo intercuartiles.
Podemos hallar los cuartiles Q1 y Q3 de una forma similar a como hallamos la mediana.
Escribimos una lista con todos los valores de la serie en orden creciente, repitiendo cada uno de ellos tantas veces como indique su frecuencia absoluta. Podemos distinguir dos situaciones:
—si es un número entero pQ1 es el valor de número de orden p y Q3 es el valor de número de orden 3p;
—si no es un número entero, Q1 es el valor cuyo número de orden sea una unidad superior a Q3 es el valor cuyo número de orden sea una unidad superior a .
Si la serie viene agrupada en clases o intervalos, podemos determinar gráficamente los cuartiles utilizando el polígono de frecuencias absolutas o el polígono de frecuencias absolutas acumuladas, interpolando linealmente si es necesario.
Ejemplo:
Continuamos con el mismo ejemplo: estamos estudiando la edad X de los empleados de una empresa. Teníamos:


El 25% de 3.000 es 750. Usando las frecuencias absolutas acumuladas, podemos ver que Q1 pertenece al intervalo 30 ≤ x < 35. Obtenemos la gráfica siguiente:

Representemos los puntos A(30, 450) y B(35, 1.050).
Buscamos Q1, que es la coordenada x del punto M sobre la recta AB, cuya coordenada y toma el valor 750.
tienen la misma dirección.
Por tanto: , de donde .
El 75% de 3.000 es 2.250. Utilizando las frecuencias absolutas acumuladas, podemos ver que 2.250 empleados son menores de 45 años. Por tanto, Q3 es igual a 45.
IV. Parámetros de un conjunto de datos tras una transformación afín (de la forma y = ax + b)
Sea la serie de datos estadísticos de tamaño n:


Se considera la serie de datos estadísticos , es decir, la serie:

en la que .
Usando nuestra notación, tenemos que:
 ;  ; .
Si son, respectivamente, los valores de la mediana, el cuartil inferior y el cuartil superior de X y si son, respectivamente, los valores de la mediana, el cuartil inferior y el cuartil superior de Y, tenemos:
 ;
si a > 0,  ;  ;
si a < 0,  ; .
V. Dibujar un diagrama de caja
Para dibujar un diagrama de caja :
—marcamos los valores de la serie estadística sobre un eje horizontal o vertical;
—se coloca el mínimo y el máximo valor de la serie sobre el eje, así como los cuartiles inferior (1er cuartil) y superior (3er cuartil), y la mediana;
—construimos un rectángulo (caja) paralelo al eje, de longitud igual a la amplitud del intervalo intercuartiles, y anchura arbitraria.
Al diagrama de caja se le llama a veces “diagrama de bigotes” o “diagrama de patas”.
Ejemplo:
Retomemos de nuevo el ejemplo en el que estudiábamos la edad de los empleados de una empresa.
El máximo es 55 y el mínimo es 20. La mediana es 38, el cuartil inferior es 32,5 y el cuartil superior es 45. Obtenemos el diagrama de caja siguiente:


Recuerda
Si X es una serie de datos estadísticos:
—La varianza es el número: .
—La desviación típica es la raíz cuadrada de la varianza: .
—El cuartil inferior, representado por Q1, es el valor más pequeño de la serie tal que al menos el 25% de los datos son menores o iguales que Q1.
—El cuartil superior, representado por Q3, es el valor más pequeño de la serie tal que al menos el 75% de los datos son menores o iguales que Q3.
—El intervalo intercuartiles es el intervalo .


No hay comentarios:

Publicar un comentario

Entradas populares

Me gusta

Seguidores