Calcular la mediana de una serie de datos







Un alumno ha obtenido una nota de 7 sobre 20 en matemáticas. Ante un resultado tan malo, intenta hacer que sus padres se sientan menos molestos por la nota que ha sacado, diciéndoles que hay la misma cantidad de alumnos con notas más bajas y más altas que las suyas.

Utilizando el vocabulario estadístico, diríamos que la nota que ha sacado el alumno se corresponde con la mediana. Como en geometría, la palabra mediana se corresponde con la idea de término medio. La mediana de una serie de datos es semejante a la media, una medida de tendencia central. Pero, ¿cómo se calcula?

I. Definiciones y algunos ejemplos
1. Definición

Si tenemos una serie de datos ordenada, el valor de la mediana es aquel que se encuentra en el centro de la serie, es decir, corta o divide la serie en dos grupos del mismo tamaño (con igual número de datos):
—un grupo está formado por valores menores que la mediana o iguales a ella;
—el otro grupo está formado por valores mayores que la mediana o iguales a ella.

2. Ejemplos

Cuando la muestra es impar
Vamos a calcular la mediana de cada una de las siguientes series de números.
Lo primero que tenemos que hacer, si los datos no están ordenados, es ordenar la serie, ya sea de forma creciente o decreciente, tal como mostramos a continuación.

Primera serie: 2, 6, 7, 25, 58.
El número 7 es la mediana de la serie pues divide la serie en dos grupos de igual número de datos: 2 y 6 (valores menores que 7), y 25 y 58 (valores mayores que 7).

Segunda serie: 4, 7, 9, 9, 11, 15, 17.
El número 9 es la mediana de la serie. Divide la serie en dos grupos de igual número de datos: 4, 7 y 9 (valores menores o iguales que 9), y 11, 15 y 17 (valores mayores que 9).
Conclusión: si la muestra de datos es impar, la mediana se calcula fácilmente: es el valor central de la serie. La serie queda dividida en dos grupos que contienen la misma cantidad de datos y cuyos valores están por encima y por debajo de la mediana.

Cuando la muestra de datos es una cantidad par

Vamos a calcular la mediana de cada una de las siguientes series de valores.
Lo primero que tenemos que hacer, si los datos no están ordenados, es ordenar la serie, ya sea de forma creciente o decreciente, tal como mostramos a continuación.

Primera serie: 1, 5, 12, 13, 21, 24.
Tomamos los dos valores que se hallan en el centro de la serie y calculamos su media:

El valor 12,5 es el valor de la mediana de esta serie ya que divide la serie en dos grupos de igual número de datos: 1, 5 y 12 (valores menores que 12,5), y 13, 21 y 24 (valores mayores que 12,5).
Segunda serie: 5, 14, 18, 19, 19, 25, 47, 56.
En este caso no hay mayor problema porque los dos valores centrales de la serie son el mismo número. Luego el 19 es el valor de la mediana de esta serie de valores. El 19 divide la serie en dos grupos del mismo número de datos: 5, 14, 18 y 19 (valores menores o iguales que 19), y 19, 25, 47 y 56 (valores mayores o iguales que 19).
Conclusión: si la serie contiene un número par de datos, los dos grupos con igual número de datos se corresponden con las dos mitades de la serie ordenada. Y para calcular la mediana solo es necesario hallar la media de los dos valores centrales de la serie.
II. Calcular la mediana
1. Cuando los datos están desordenados
Si la serie de datos no está ordenada, debemos ordenarla.
Ejemplo: mostramos una serie ordenada de las puntuaciones que ha obtenido un alumno en un examen:
2; 3; 5; 6; 6; 8; 9; 9,5; 10; 10; 10; 11; 11; 12; 14; 14; 15,5; 16; 17; 17,5; 19.
Al contar el número de puntuaciones, encontramos que hay un total de 21 valores. Como tenemos que dividir la serie en dos mitades con el mismo número de elementos, nos quedarían dos grupos de 10 valores; por tanto, la mediana será el valor sobrante que no esté en ninguno de estos grupos. Es decir, será el valor undécimo de la serie. La mediana es 10.
Podemos representarla así:

2. Cuando los datos vienen dados en una tabla de frecuencias
Ejemplo: la tabla de abajo nos muestra la distribución de las notas (sobre 20) obtenidas por los alumnos de una clase en el último examen.

Primer paso: calcular las frecuencias acumuladas. Observa como la última frecuencia acumulada siempre nos informa acerca del número total de individuos que forman la muestra. En este caso es 22.

Segundo paso: dividimos el total de datos entre dos: como el total es 22, dividimos las notas en dos grupos de 11.
Tercer paso: observamos en la tabla solo la columna de frecuencias acumuladas y escogemos la primera modalidad cuya frecuencia acumulada sea mayor que 11. Es decir, el 9 tiene una frecuencia acumulada de 14 (14 > 11), por lo tanto, el 9 es la mediana de esta serie.
3. Los datos vienen dados en un gráfico de frecuencias acumuladas
El gráfico es una curva llamada polígono de frecuencias acumuladas y nos muestra la distribución de las notas en una clase de 22 alumnos. Se construye colocando las notas en el eje de las x (abscisas) y su correspondiente frecuencia acumulada en el eje y (ordenadas). A continuación, se marcan los puntos definidos por cada par de valores (xy) y se conectan mediante líneas. De esta forma queda dibujado el polígono de frecuencias.

La mitad del número total de datos es 11. Podemos observar en el gráfico que a este valor de y, le corresponde un valor de que se encuentra comprendido entre 6 y 7. Por lo tanto, la mediana sería el valor de la media de 6 y 7:

Es decir, la mediana es 6,5.

Estadística matemáticas







Un estudio estadístico se desarrolla normalmente en varias etapas:

—recogida de los datos;
—clasificación de los datos en una tabla;
—representación del conjunto o serie de datos en una gráfica o diagrama estadístico;
—caracterización de la serie de datos usando varios parámetros.
Aquí definiremos varios de estos parámetros, como varianza, desviación típica, cuartiles… y utilizaremos el diagrama de caja, un método de representación que nos permite comparar de un vistazo dos conjuntos de datos.

I. Calcular la varianza y la desviación típica
Sea la serie de datos estadísticos de tamaño o dimensión siguiente:

La media de X es: .
Llamamos varianza del conjunto de datos X, al número:

También podemos escribir esta expresión como:
.
La desviación típica es el número: .
Cuando, en vez de tener un valor discreto , lo que tenemos es un intervalo, las fórmulas son las mismas, pero sustituimos por el valor central del intervalo, o marca de clase.
Ejemplo:
Estudiamos la edad, X, de los empleados de una empresa. Obtenemos estos valores:

La media de X es:

.
La varianza es:

.
Y la desviación típica es: .
Nota:
La varianza y la desviación típica miden cómo se distribuyen los valores de X con relación a la media. Son parámetros o medidas de dispersión (mientras que la media y la mediana son parámetros omedidas de centralización, que especifican los valores más representativos de un conjunto de datos).
También podemos hallar la varianza usando la siguiente fórmula:
.
II. Calcular la mediana de un conjunto o serie de datos
La mediana, que representamos por Me, es el número que divide a la serie de datos ordenada por valores crecientes en dos grupos con el mismo peso o cantidad de valores.
Para calcularla, escribimos la lista de todos los valores de la serie ordenados en orden creciente, repitiendo cada uno de ellos tantas veces como indique su frecuencia absoluta. Ahora podemos distinguir dos situaciones:
—si la población total n es un número impar, la mediana es el término que ocupa el lugar  ;
—si la población total n es un número par, la mediana es el valor central del intervalo formado por los términos que ocupan las posiciones .
Cuando los datos de la serie vienen agrupados en clases o intervalos, podemos determinar gráficamente la mediana, usando el polígono de frecuencias absolutas o el polígono de frecuencias absolutas acumuladas, interpolando linealmente si fuera necesario.
Ejemplo:
Retomamos el ejemplo anterior. Estudiamos X, la edad de los empleados de una empresa. Tenemos:


Hemos incorporado en la tercera columna de la tabla las frecuencias absolutas acumuladas. En esa columna podemos ver que hay 1.050 empleados menores de 35 años y 1.800 menores de 40 años.
La mediana Me, que corresponderá a la frecuencia absoluta acumulada de 1.500, pertenece al intervalo 35 ≤ x < 40.
Tenemos:

Fijémonos en los puntos A(35, 1.050) y B(40, 1.800) que corresponden a los extremos de dicho intervalo .
Buscamos Me, que es la coordenada x o abscisa del punto M situado sobre el segmento AB para el que la coordenada y u ordenada toma el valor 1.500.
son vectores que tienen la misma dirección.
Por tanto: , o .
III. Hallar los cuartiles de un conjunto de datos
Sea la serie de datos estadísticos X de tamaño n.
El primer cuartil o cuartil inferiorQ1, es el valor más pequeño de la serie tal que al menos el 25% de los datos son menores o iguales que Q1.
El tercer cuartil o cuartil superiorQ3, es el valor más pequeño de la serie tal que al menos el 75% de los datos son menores o iguales que Q3.
El intervalo intercuartiles es el intervalo .
La diferencia es la amplitud o rango del intervalo intercuartiles.
Podemos hallar los cuartiles Q1 y Q3 de una forma similar a como hallamos la mediana.
Escribimos una lista con todos los valores de la serie en orden creciente, repitiendo cada uno de ellos tantas veces como indique su frecuencia absoluta. Podemos distinguir dos situaciones:
—si es un número entero pQ1 es el valor de número de orden p y Q3 es el valor de número de orden 3p;
—si no es un número entero, Q1 es el valor cuyo número de orden sea una unidad superior a Q3 es el valor cuyo número de orden sea una unidad superior a .
Si la serie viene agrupada en clases o intervalos, podemos determinar gráficamente los cuartiles utilizando el polígono de frecuencias absolutas o el polígono de frecuencias absolutas acumuladas, interpolando linealmente si es necesario.
Ejemplo:
Continuamos con el mismo ejemplo: estamos estudiando la edad X de los empleados de una empresa. Teníamos:


El 25% de 3.000 es 750. Usando las frecuencias absolutas acumuladas, podemos ver que Q1 pertenece al intervalo 30 ≤ x < 35. Obtenemos la gráfica siguiente:

Representemos los puntos A(30, 450) y B(35, 1.050).
Buscamos Q1, que es la coordenada x del punto M sobre la recta AB, cuya coordenada y toma el valor 750.
tienen la misma dirección.
Por tanto: , de donde .
El 75% de 3.000 es 2.250. Utilizando las frecuencias absolutas acumuladas, podemos ver que 2.250 empleados son menores de 45 años. Por tanto, Q3 es igual a 45.
IV. Parámetros de un conjunto de datos tras una transformación afín (de la forma y = ax + b)
Sea la serie de datos estadísticos de tamaño n:


Se considera la serie de datos estadísticos , es decir, la serie:

en la que .
Usando nuestra notación, tenemos que:
 ;  ; .
Si son, respectivamente, los valores de la mediana, el cuartil inferior y el cuartil superior de X y si son, respectivamente, los valores de la mediana, el cuartil inferior y el cuartil superior de Y, tenemos:
 ;
si a > 0,  ;  ;
si a < 0,  ; .
V. Dibujar un diagrama de caja
Para dibujar un diagrama de caja :
—marcamos los valores de la serie estadística sobre un eje horizontal o vertical;
—se coloca el mínimo y el máximo valor de la serie sobre el eje, así como los cuartiles inferior (1er cuartil) y superior (3er cuartil), y la mediana;
—construimos un rectángulo (caja) paralelo al eje, de longitud igual a la amplitud del intervalo intercuartiles, y anchura arbitraria.
Al diagrama de caja se le llama a veces “diagrama de bigotes” o “diagrama de patas”.
Ejemplo:
Retomemos de nuevo el ejemplo en el que estudiábamos la edad de los empleados de una empresa.
El máximo es 55 y el mínimo es 20. La mediana es 38, el cuartil inferior es 32,5 y el cuartil superior es 45. Obtenemos el diagrama de caja siguiente:


Recuerda
Si X es una serie de datos estadísticos:
—La varianza es el número: .
—La desviación típica es la raíz cuadrada de la varianza: .
—El cuartil inferior, representado por Q1, es el valor más pequeño de la serie tal que al menos el 25% de los datos son menores o iguales que Q1.
—El cuartil superior, representado por Q3, es el valor más pequeño de la serie tal que al menos el 75% de los datos son menores o iguales que Q3.
—El intervalo intercuartiles es el intervalo .


Entradas populares

Me gusta

Seguidores