MEDIDAS DE DISPERSIÓN
Los estadísticos de tendencia central o posición son de utilidad para analizar el centro de los datos o lugares particulares en la información, pero rara vez esta información es suficiente para entender el comportamiento del conjunto. Una descripción más completa del conjunto de datos puede obtenerse si se mide que tan próximas se encuentran las observaciones entre sí o si, por el contrario, están muy dispersas.
Precisamente, las medidas de dispersión indican cuan diseminados se encuentran los datos en torno a la media. Es decir, son medidas utilizadas para mostrar el grado de variación entre los valores en los datos. En este curso se estudiaran las siguientes medidas de dispersión: el rango, la desviación media, la varianza, la desviación estándar y el coeficiente de variación.
Rango
Es una medida de distancia que indica la diferencia entre el valor más alto y el más bajo de los datos observados. El rango viene dado por:
Esta es la medida de dispersión más simple. Su ventaja es que es fácil de calcular, pero no es tan útil como otras medidas de dispersión, pues solo considera dos de las observaciones que hay en el conjunto de datos. Además, se puede ver afectada por alguna observación extrema.
Desviación Media
También es llamada desviación promedio de la media o desviación absoluta promedio. Se define como el promedio de las desviaciones, tomadas en valor absoluto, con respecto a la media. En otras palabras, se encuentra la cantidad por la cual cada observación se desvía de la media y se haya la media de tales desviaciones, tal como indica la siguiente ecuación:
La desviación media es una mejor medida de dispersión que el rango, pues tiene en cuenta a todas las observaciones del conjunto. No obstante, es un método de dispersión poco usado debido a razones técnicas que exceden el ámbito de la asignatura.
Varianza
Se define como el promedio de los cuadrados de las desviaciones de cada observación con respecto a la media. Es decir, se calcula la diferencia entre la media y cada elemento, se elevan al cuadrado tales desviaciones y, en el caso de la varianza muestral, la suma se divide entre el número total de los elementos que hay en la muestra –1. He aquí las fórmulas:
Se dice que al utilizar como denominador n – 1 se garantiza que la varianza muestral sea un estimador sin sesgo de la varianza poblacional. Es decir, los valores de la varianza de la muestra tienden a igualar el valor de la varianza de la población (en la Unidad IV se hará la distinción en la notación y la ecuación para cálculo de la varianza a partir poblaciones y muestras).
A pesar del uso común de la varianza esta tiene como desventaja los cuadrados de las unidades de los datos; es decir, el resultado obtenido siempre se expresa en términos de los datos originales elevados al cuadrado, debido a que cada desviación es elevada al cuadrado. Esto ocasiona que, en la mayoría de los casos, la varianza se exprese en unidades que no tienen interpretación lógica. Sin embargo, esta complicación puede resolverse rápidamente hallando la desviación estándar.
Desviación Estándar
También llamada desviación típica, indica cuanto tiende a alejarse cada observación del promedio en un conjunto de datos. Concretamente, está definida como la raíz cuadrada de la varianza y se obtiene a partir de la siguiente ecuación:
La desviación típica se caracteriza por ser siempre positiva, de hecho, mientras más grande es el resultado obtenido mayor es la variación de los datos. Su valor solo es igual a cero cuando todos los valores del conjunto de datos son el mismo número.
Esta es la medida de dispersión más útil y de uso frecuente en la realización de análisis estadísticos y predicciones acerca del conjunto de datos. La única desventaja de la desviación estándar es que los valores extremos presentes en los datos pueden distorsionar el valor del estadístico.
Coeficiente de Variación
Es una medida de dispersión relativa da una idea general de la magnitud de la desviación estándar en relación con la magnitud de la media. El coeficiente de variación viene dado por:
Este coeficiente se emplea cuando se desea comparar dos o más distribuciones que tienen medias significativamente diferentes, o que están medidas en unidades distintas, pues resulta peligroso sacar conclusiones con respecto a la dispersión sólo con base en la desviación estándar. El coeficiente de variación es más útil en estos casos, pues expresa en porcentaje la relación de tamaño existente entre la desviación estándar y la media.
En el Ejemplo 05 se presenta una explicación detallada del procedimiento de cálculo de todas las medidas de dispersión. Se empleará la misma información del Caso A (datos sin agrupar) y el Caso B (datos agrupados en una distribución de frecuencias) que se desarrollaron en los Ejemplos 03 y 04 (para más detalles consulte las secciones medidas de tendencia central y medidas de posición).
Ejemplo 05
Como se ha enfatizado, la desviación estándar es la medida más precisa para determinar donde se sitúan los valores de una distribución de frecuencias en relación con la media. Una forma diferente de lograr una apreciación de los valores de la desviación estándar es la regla empírica, que permite medir con mayor precisión el porcentaje de elementos que caen dentro de intervalos específicos bajo una curva simétrica. Esta regla establece lo siguiente:
- Cerca del 68% de las observaciones están dentro de más o menos 1 desviación estándar de la media.
- Cerca del 95% de las observaciones están dentro de más o menos 2 desviaciones estándar de la media.
- Cerca del 99% de las observaciones están dentro de más o menos 3 desviaciones estándar de la media.
Por ejemplo, en el Caso A (ejemplo para datos sin agrupar) tenemos que el peso promedio de los 14 estudiantes muestreados es 77,99 kilogramos con una desviación estándar de 10,98 kilogramos. La regla empírica señala que, si la distribución es simétrica (como se observa en la figura anterior), cerca del 68% de los datos (10 de los 14 estudiantes) se encontrarán a 1 desviación estándar de la media, esto es:
No obstante, solo 7 de los 14 estudiantes (50% de las observaciones) están realmente dentro del intervalo de 67,01 a 88,97 kilogramos, por lo que la distribución es bastante asimétrica. Esto es así porque 50% está lejos del 68% teórico para un intervalo de 1 desviación estándar respecto a la media. En la sección medidas de asimetría se introducen nuevos estadísticos que permiten corroborar esta deducción.