Frecuencia y muestreo







En cualquier periódico que leamos, nos encontramos algún escrutinio o recuento de datos, con porcentajes y comentarios. ¿Pero son fiables estos escrutinios? Vamos a ver las nociones en que se basan (frecuencia y simulación) y a especificar las limitaciones de sus resultados. 
I. Tener la distribución de frecuencias de una serie de datos

Comenzamos con una serie de datos, cuyos valores y frecuencias absolutasfi, aparecen recogidos en una tabla similar a la siguiente:


Para cada valor xi, calculamos su frecuencia relativa hi.
Se halla dividiendo la frecuencia absoluta fi de ese valor entre el número total de datos n de la población estudiada, es decir: .
Construimos una tabla con los valores de la serie de datos y sus frecuencias relativas, similar a la siguiente:

Lo que habitualmente manejamos es la frecuencia relativa acumulada, que para un determinado valor de X se obtiene sumando su frecuencia relativa con las frecuencias relativas de todos los valores anteriores a él. Dicha frecuencia relativa acumulada la expresamos en valor decimal o en tanto por ciento. La frecuencia relativa acumulada del último valor de la serie debe ser igual a 1, que equivale al 100%.

II. Fluctuación de las muestras
Cuando queremos conocer la proporción p de una característica en una población numerosa, supervisar uno a uno cada individuo de la población es un proceso largo y costoso, así que tomamos una muestra.
Tomar una muestra de tamaño de la población significa tomar n individuos, o repetir el experimento n veces bajo las mismas condiciones en las que medimos la característica que estamos estudiando.
La serie de datos formada por los n resultados obtenidos es una muestra de tamaño n.
Este método no puede proporcionar el valor exacto de p, ya que diferentes muestras pueden dar diferentes proporciones.
Si tenemos varias muestras, podemos observar estas diferencias en la distribución de frecuencias. Esto es lo que llamamos fluctuación y para observarla, basta con tomar dos muestras.
III. Interpretación de un escrutinio de datos
Como acabamos de ver, con una única muestra no podemos saber la proporción exacta p de una característica en una población completa.
No obstante, si respetamos ciertas condiciones, la proporción observada pe para esa muestra es un buen valor aproximado de la proporción p.
Estas condiciones son las siguientes:
—los individuos de la muestra deben ser elegidos aleatoriamente;
—los individuos se deben devolver a la población (o repetir el experimento en idénticas condiciones);
—el tamaño n de la muestra debe ser bastante grande; se tiene que cumplir que .
Cumpliéndose estas condiciones, podemos asegurar que en el 93% de los casos (de las muestras observadas) se cumple que:
, lo que significa que pe es un valor aproximado de p con una imprecisión o error absoluto de .
IV. Simulación de un experimento
Un experimento aleatorio es un experimento cuyo resultado es impredecible a priori, depende de la suerte.
Simular un experimento aleatorio significa sustituir el experimento real por otro también aleatorio que nos proporcione resultados similares a los del real.
Simulamos un experimento cuando el experimento original es difícil de reproducir, bien porque sea demasiado costoso, bien porque llevaría demasiado tiempo o bien porque sería muy difícil de observar.
Simulando varias veces un experimento (por ejemplo, tomando varias muestras), podremos sacar conclusiones de la distribución de frecuencias y de la fluctuación.
Para simular un experimento podemos usar la tecla de una calculadora o una hoja de cálculo (Excel, por ejemplo, tiene la función RAND).
En una calculadora, esta tecla o función proporciona un número aleatorio con unas 10 cifras decimales.
Ejemplo:
Hemos metido 35 prendas rojas y 65 verdes en una caja. El experimento consiste en extraer 10 prendas de la caja, reemplazando cada vez la prenda extraída. ¿Cómo podemos simular este experimento? Usando una calculadora, activamos 10 veces la función obteniendo 10 números decimales. Observamos las dos primeras cifras de la parte decimal de cada número. Si el número que forman esas dos cifras está comprendido entre 1 y 35, consideramos que hemos extraído una prenda roja, de lo contrario consideramos que la prenda extraída ha sido verde. De esta manera podemos simular nuestro experimento tantas veces como queramos.
Recuerda
—La frecuencia relativa hi de un valor perteneciente a una serie de datos viene dada por el cociente entre la frecuencia absoluta fi de dicho valor y el tamaño n de la población: .
—La proporción observada pe de una característica en una muestra de tamaño n es un valor aproximado de la proporción p de dicha característica en la población total, y cuya imprecisión es .
—Si nuestra calculadora tiene la tecla , pulsándola podemos simular experimentos aleatorios.


No hay comentarios:

Publicar un comentario

Entradas populares

Me gusta

Seguidores