Los grandes inventos y descubrimientos

Media, mediana, moda y distribución de una serie de datos

Cualquier estudio estadístico incluye generalmente los siguientes apartados:
1. Especificación de las cuestiones a las que hay que responder con el estudio.
2. Ordenación y recuento de datos.
3. Presentación de estos datos en una tabla.
4. Construcción de uno o más diagramas en los que se representa gráficamente esta serie de datos.

5. Finalmente, los matemáticos deducen los parámetros que nos permiten caracterizar el conjunto completo de datos a partir de unos pocos valores.

I. Construir la tabla que corresponde a una serie de datos
En estadística, el término población significa el conjunto completo de individuos sobre el que estamos recogiendo los datos, es decir, realizando el estudio.
Dentro de esta población, estudiamos una característica que llamamos variable estadística. Principalmente, se estudian variables cuantitativas, es decir, variables que toman valores numéricos.
Una variable cuantitativa puede ser:

—discreta, cuando el número de valores que puede tomar es limitado o finito;
—o continua, si la variable puede tomar infinitos valores, todos los comprendidos entre dos números dados.
Cuando la variable estadística X es discreta, para cada valor de X contamos el número de veces que se repite este valor en la población. A este número lo llamamos frecuencia absoluta. Con los valores de la variable y de la frecuencia absoluta de cada uno de ellos construimos una tabla como la siguiente:

Cuando la variable estadística X es continua, agrupamos los valores en clases o intervalos. Las clases son intervalos semiabiertos

. Su anchura o amplitud es el número

y su centro, también llamado marca de clase, es el valor medio

.
Para cada clase, contamos el número de veces en que el valor de la variable X es mayor que o igual a

y menor que

: esta es la frecuencia absoluta de dicha clase. Construimos con estos valores una tabla como la siguiente:

Notas:
—cuando el número total de datos n = f1 + f2 + ... + fp es demasiado grande, tratamos la variable discreta como si fuera una variable continua;
—cuando agrupamos los valores por clases, tratamos que los intervalos sean de la misma anchura o amplitud, y que esta no sea demasiado grande. Sin embargo, a menudo los límites de los intervalos dan problemas; esta es la razón de que el primer y el último intervalo sean, o bien abiertos, o de amplitud diferente a los demás.
II. Representar una serie de datos
Para representar una variable estadística discreta usamos un diagrama o gráfico de barras (en el que la altura de cada barra es proporcional a la frecuencia absoluta) o un diagrama de sectores (en el que cada sector es proporcional a dicha frecuencia absoluta).
Por ejemplo, supongamos que al preguntar a 60 individuos sobre su profesión hemos obtenido los resultados siguientes: 8 obreros, 23 ejecutivos, 15 autónomos, 11 docentes y 3 de otras profesiones.
Para representar esta serie en un diagrama de sectores, tenemos que calcular la amplitud del ángulo que corresponde a cada sector. Para el sector “obreros” el ángulo es: (360 : 60) x 8 = 48, es decir, 48°.
Procedemos igual para los demás sectores, con lo que dibujamos el siguiente diagrama de sectores:

Para representar una variable estadística continua, dibujamos un histograma. Un histograma está formado por rectángulos adosados cuya área es proporcional a la frecuencia absoluta de la clase correspondiente.
Si las clases son de la misma amplitud, la altura de los rectángulos es proporcional a dicha frecuencia. Si las clases son de diferentes amplitudes, representamos la más pequeña, y a continuación, para una clase de amplitud k veces mayor, dibujamos un rectángulo cuya base sea k veces la del primer rectángulo, procediendo igual para las demás clases.
Si unimos los puntos medios de las bases superiores de los rectángulos de un histograma, obtenemos el polígono de frecuencias.
III. Calcular la media
Cuando la variable es discreta y el total de datos es n, podemos recoger estos en una tabla como la siguiente:

donde

.
La media de X se obtiene así:

.
Cuando la variable es continua y el total de datos es n, construimos una tabla de este tipo:

Para calcular la media de esta serie, usamos la fórmula anterior, introduciendo el centro

del intervalo

, o marca de clase, en lugar de los valores de

.
Así la media de X es:

, donde

.
IV. Propiedades de la media
Cuando mediante operaciones básicas cambiamos los valores de una serie de datos, no siempre es necesario calcular de nuevo la media.
Tenemos en cuenta las siguientes propiedades:
—si

es la media de los valores

la media de los valores

, entonces la media de los valores suma

;
—si k es cualquier número real y

la media de los valores

, entonces la media de los valores suma

;
—si

es cualquier número real y

la media de los valores

, entonces la media de los valores producto

.
V. Calcular la mediana
La mediana es el valor que divide a una serie de valores, escritos en orden creciente, de tal forma que la mitad de los valores son menores o iguales que él y la otra mitad, mayores o iguales que él.
Para hallarla, escribimos en orden creciente la lista de valores, repitiendo cada uno de ellos tantas veces como aparezca. Se pueden producir entonces dos situaciones:
—si el número total de valores n es un número impar, la mediana es el valor que ocupa la posición

;
—si el número total de valores n es un número par, la mediana es el centro del intervalo formado por los valores que ocupan las posiciones

.
Cuando la serie viene agrupada en intervalos, hallamos gráficamente la mediana utilizando el polígono de frecuencias acumuladas. Para cada clase

, hallamos el valor

de la frecuencia absoluta acumulada, es decir, el número de veces que aparece un valor menor que

. A continuación, representamos los puntos

sobre un sistema de coordenadas xy, obteniendo de esta forma el polígono de frecuencias acumuladas.
La mediana es la coordenada x del punto cuya coordenada y es

.
VI. Otros parámetros
Los matemáticos dicen a veces que hay tantos parámetros estadísticos como estadísticos. Sin llegar tan lejos, además de la media y la mediana, podemos calcular los parámetros siguientes:
—los valores límites, es decir, los valores mayor

y menor

de la serie;
—el rango, que es igual a la diferencia entre los valores límites de la serie, es decir,

;
—la moda (o clase modal), que es el valor (o clase) de la serie para el que se da la mayor frecuencia absoluta.
Nota: un parámetro no es muy útil por sí solo. Lo que habitualmente hacemos con una serie de datos es cotejar varios parámetros.
Recuerda
La media de X es el valor:

.
La mediana es el número que divide a la serie de tal forma que la mitad de los datos son menores o iguales que él y la otra mitad, mayores o iguales que él.

Calcular la media y el recorrido de una serie de datos

Si registramos la temperatura de un mismo lugar de la Tierra una vez al día y durante un año y después calculamos la media de las temperaturas anotadas, obtendríamos la media anual de temperaturas para esa localidad. Esta media nos informaría acerca de si las temperaturas de ese lugar son cálidas, frías o moderadas, pero en su conjunto, globalmente. Sin embargo, no nos daría información sobre cómo varía la temperatura a lo largo del año: ya que puede haber una gran diferencia entra las temperaturas del invierno y las del verano.
Si calculamos la diferencia que hay entre la temperatura máxima y mínima de ese año, lo que se conoce en geografía con el nombre de amplitud térmica anual, tendremos una idea más real del comportamiento de la temperatura en ese sitio: una amplitud térmica grande nos mostraría que las estaciones son muy diferentes (inviernos fríos y veranos calurosos en el hemisferio norte) como es el caso, por ejemplo, de las temperaturas en lugares de clima continental. El recorrido es el concepto estadístico que se correspondería con esta noción de amplitud térmica.

¿Cómo podemos entonces calcular e interpretar media y recorrido?

I. El recorrido o rango de una serie de datos
El recorrido o rango de una serie o distribución de datos numéricos es la diferencia entre los valores máximo y mínimo de la serie. Es una medida de dispersión; es decir, nos informa acerca de cómo están distribuidos los datos de una serie, analizando cómo se encuentran de concentrados o de dispersos.

Ejemplo: consideremos la siguiente serie de datos: 2, 6, 4, 12, 25 y 13,2.

Su recorrido es: 25 – 2, es decir, 23.
II. La media de una serie de datos
1. La media de una serie de datos dados de forma extensa
La media de una serie de datos donde todos los valores vienen dados sin ordenar, de forma extensa, es el cociente de la suma de los valores de la serie entre el número de valores de la serie.
Ejemplo: queremos calcular la nota media de un estudiante que ha conseguido estas puntuaciones (sobre 20) en matemáticas durante el primer trimestre: 7, 12, 9, 15.

La media es:

, lo cual es 10,75.
Nota: puedes calcular la media usando una calculadora científica haciendo lo siguiente: introduce cada nota seguida de la tecla correspondiente

y después pulsa la tecla

.
2. Media aritmética y media ponderada
Ejemplo 1: si las series de datos son extensas y si algunos de los valores de la serie están repetidos, el cálculo de la media puede hacerse muy pesado. Puede ayudarnos el hecho de agrupar aquellos valores de la serie que estén repetidos.
La tabla de abajo nos muestra las notas (sobre 20) obtenidas en un examen por los alumnos de una clase:

Calculamos la frecuencia total: 3 + 5 + 2 + 3 + 1 + 3 + 2 + 1, por lo tanto, hay 20 alumnos.
Entonces calculamos la media de la siguiente forma:

Ejemplo 2: una prueba global está compuesta de cuatro exámenes:
—Español: ponderado con un coeficiente de 2;
—Inglés: ponderado con un coeficiente de 4;
—Geografía e historia: ponderado con un coeficiente de 3;
—Matemáticas: ponderado con un coeficiente de 4.
Una alumna sacó las siguientes puntuaciones (sobre 20): 8 en español, 13 en inglés, 14 en geografía e historia y 16 en matemáticas.
Su media ponderada es igual a la suma de los productos de cada nota por su ponderación, dividida entre la suma de todas las ponderaciones, lo cual nos da:

3. Media ponderada de una serie de datos agrupados en clases o intervalos
Una muestra de sujetos puede ser dividida en grupos llamados clases.
Ejemplo: la siguiente tabla nos muestra la distribución de las notas (sobre 20) obtenidas en un examen por una clase de 24 alumnos:

Las clases han sido etiquetadas en grupos o intervalos. Por ejemplo, hay 7 alumnos cuyas notas están comprendidas entre 12 y 14 (ambas inclusive).
Nota: tengamos cuidado de no confundir la clase (grupo de 24 alumnos) con las clases o intervalos en los cuales han sido agrupadas las notas.
¿Cómo podemos calcular la media?
Procederemos de la siguiente manera:
—calculamos el centro de cada clase o intervalo (llamado marca de clase), el cual es el punto intermedio; por ejemplo, el centro de la clase 6 ≤ x ≤ 8 es:

;
—después, creamos la siguiente tabla:

—para calcular la media, hemos de aceptar que cada uno de los 6 alumnos del intervalo 6 ≤ x ≤ 8 obtiene una puntuación de 7. Y tendremos que seguir el mismo criterio para todas las clases. Por lo tanto, la media es igual a:

Nota: en estas condiciones no es posible calcular la media exacta porque no conocemos todas las notas, pero podemos hacer un cálculo aproximado.
III. Comparando dos series de datos
Los resultados de dos clases de 21 alumnos en el mismo examen se muestran en las tablas de abajo. Vamos a comparar los resultados de estos dos grupos de alumnos para demostrar que dos medias similares pueden esconder grandes diferencias en los datos reales.
Resultados del grupo A:

Tú mismo puedes comprobar que la media de este grupo, redondeando hasta las centésimas, es igual a 10,14.
Resultados del grupo B:

Tú mismo puedes comprobar que la media de este grupo, redondeando hasta las centésimas, es igual a 10,12.
Los dos grupos de estudiantes tienen la misma población (21 alumnos) y la misma media, con una diferencia de tan solo dos centésimas.
Sin embargo, para compararlos correctamente debemos calcular el recorrido de cada serie:
—el recorrido de la serie de notas para el grupo A es: 19 – 2 = 17;
—y para el grupo B es: 13,5 – 6 = 7,5.
El primer recorrido es mucho más amplio que el segundo: podemos decir que las notas del grupo A están mucho más dispersas que las del grupo B, el cual es un grupo de alumnos más uniforme y homogéneo en su rendimiento escolar.
Podemos interpretar estos resultados diciendo que el nivel es el mismo en cada grupo (ambas medias están en torno al 10). Pero en el grupo A podemos encontrar o muy buenos o muy malos resultados, lo cual no es el caso del grupo B, donde los resultados individuales están más estrechamente agrupados en torno a la nota media.
Ver también artículo Media, mediana, moda y distribución de una serie de datos.

Los grandes inventos y descubrimientos

Media, mediana, moda y distribución de una serie de datos

martes, 28 de mayo de 2013

Calcular la media y el recorrido de una serie de datos

Entradas populares

Me gusta

Seguidores