MEDIDAS DE RESUMEN DE TENDENCIA CENTRAL PARA VARIABLES CUANTITATIVAS:
Son unas medidas que resumen todos los datos cuantitativos en uno solo, siendo tres las más usadas: media, mediana y la moda, las cuales claramente sólo aplican a variables cuantitativas.
.- Media o promedio (): es la suma del total de los valores de los datos (variables) y luego este resultado se divide entre total de número de datos.
Cuando el número de datos es muy grande se usa la tabla de datos aplicando la siguiente fórmula:
.- Mediana (me): es el dato central equidistante de los extremos (teniendo por encima y por debajo igual número de datos) después de ordenarlos en una tabla (si el número total es par será el promedio de los datos centrales) o sea que la mediana divide la población exactamente en dos y entonces va a corresponder al cuartil 2 (Q2), al decil 5 (D5) y al percentil 50 (P50).
En caso que el número de datos sea muy grande se utiliza la frecuencia acumulada (Fi) de las tablas de datos, para lo cual se toma el número total de datos o variables (n) y se divide en 2 y el resultado se busca en la columna de las frecuencias acumuladas (Fi), pudiéndose presentar dos casos:
- Caso 1: Que el número obtenido no coincida con ninguna frecuencia acumulada (Fi) entonces la mediana corresponde a la variable o dato (Xi) correspondiente de la Fi siguiente al valor obtenido.
- Caso 2: Que el número obtenido coincida con una frecuencia acumulada (Fi) entonces la mediana corresponde al promedio de las variable o dato (Xi) correspondiente de la Fi coincidente y al siguiente o sea me= (Xi de la Fi coincidente + Xi siguiente)/2
En el caso que los datos estén en una tabla de datos agrupados en intervalos se hace igual pero se usa la marca de clase y no se usa el intervalo y el resultado se llama intervalo mediana.
.- Moda (mo): es el valor de la variable que más se repite o el dato con mayor frecuencia absoluta (fi), pudiendo presentarse más de una moda (bimodal, multimodal). Cuando los datos que se están analizando corresponden a un intervalo (tabla de datos agrupados en intervalos) entonces se habla de intervalo o clase modal, o se podría decir que la moda es la marca de clase de dicho intervalo modal.
Es importante resaltar que en una curva de distribución normal (campana de Gauss) deben coincidir la media, la mediana y la moda.
MEDIDAS DE RESUMEN DE DISPERSIÓN O DE VARIABILIDAD DE LAS VARIABLES CUANTITATIVAS:
Las medidas de resumen de tendencia central no nos indican que tan homogéneos o heterogéneos son los datos (variables) que se obtienen de una muestra y entonces necesitamos conocer la variabilidad de los datos, para lo cual usamos las medidas de resumen de dispersión, por medio de las cuales nos permiten medir que tan variable son los datos (variables independientes) o sea son medidas que nos sirven para medir qué tan lejos se encuentran los datos del centro (media) de los mismos pudiendo estar los datos muy alejados de la media (gran variabilidad) o pueden estar muy cerca (homogeneidad), a pesar que las medidas de tendencia central sean los mismos tanto en casos de alta y baja variabilidad.
Las medidas de resumen de dispersión son entre otras las siguientes:
- Valor máximo,
- Valor mínimo,
- Rango o amplitud,
- Rango medio,
- Desviación media,
- Varianza muestral.
- Desviación estándar o típica muestral y
- Coeficiente de variación de Pearson.
- Cuartiles,
- Deciles y
- Percentiles.
.- Valor máximo:
Es el mayor valor de las variables.
Ejemplo: para la muestra 2, 2, 4, 7 y 8, el valor máximo es 8.
.- Valor mínimo:
Es el menor valor de las variables.
Ejemplo: para la muestra 2, 2, 4, 7 y 8, el valor mínimo es 2.
.- Amplitud o Rango:
Es la diferencia (simple resta) entre el valor máximo y el mínimo de los datos (dicho de otra forma es el intervalo entre el valor máximo y el mínimo o también que tan “ancha” es la campana), para calcularlo se ordenan los números según su tamaño y luego se resta del valor mínimo del valor máximo o sea: Rango = (Max-Min).
Ejemplo para la muestra (2, 2, 4, 7, 8) el valor mínimo es 2 y el valor máximo es 8. Sus valores se encuentran en un rango de: Rango = (8-2) = 6
.- Rango medio o medio rango:
Es la media de la suma del valor mínimo y del valor máximo, de un conjunto de valores numéricos, utilizando la siguiente fórmula: Rango medio = (valor máximo + valor mínimo)/2
Ejemplo: Para las mismas muestras del ejemplo anterior = (8+2)/2 = 5
El rango medio se representa gráficamente así:
.- Desviación media (DM):
Para hallar la desviación media (DM), se siguen los siguientes pasos:
PASO 1).- Se calcula la media (promedio) de los datos de la muestra,
PASO 2).- Se calcula la desviación de cada dato respecto de la media o sea la diferencia entre cada uno de los datos y la media o sea la dispersión o cuanto se aleja o desvía cada dato (variable independiente) de la media, teniendo en cuenta que si el resultado es negativo se elimina el signo y se anota como positivo. Sin embargo al sumar los resultados teniendo en cuenta el signo el resultado debe ser cero (0).
PASO 3).- Se suman todas las desviaciones de cada dato respecto de la media.
PASO 4).- Se calcula la media de las desviaciones de cada dato o sea se suman los desviaciones y el resultado se divide entre el número total de datos de la población o si es de una muestra (como es en este cado de estadística descriptiva) se resta 1 al número total de datos (n-1). Esta media o promedio de las desviaciones es la desviación media (DM).
Ejemplo: si se tiene las siguientes variables independientes de una muestra de un estudio científico, el cálculo de la desviación media (DM) es:
Variable independiente de edad:
Unidad de observación A: 30 años.
Unidad de observación B: 20 años.
Unidad de observación C: 10 años.
PASO 1).- Cálculo de la media (promedia) de las variables independientes (datos) de la muestra:
Media de las variables independientes = (30 + 20 + 10) / 3 = 20 años.
PASO 2).- Calculo de la desviación (dispersión) de cada dato o sea cuanto se aleja cada dato de la media:
Dato A – media: 30 – 20 = 10 años
Dato B – media: 20 – 20 = 0 años
Dato A – media: 10 – 20 = -10 años
Sumatoria ∑: 0
PASO 3).- Se suman todas las desviaciones de cada dato respecto de la media (sin tener en cuenta el signo).
Dato A – media: 30 – 20 = 10 años
Dato B – media: 20 – 20 = 0 años
Dato A – media: 10 – 20 = 10 años (se elimina el signo negativo).
Sumatoria ∑: 20 años
PASO 4).- Cálculo de la media de las desviaciones para lo cual se divide la sumatoria de las desviaciones entre el número de datos de la muestra:
Desviación media = 20 años / (3-1) = 10 años
Varianza muestral (“s2”):
Es una medida que no tiene un significado intrínseco sino que es una medida que debemos obtener para poder hallar las otras medidas de dispersión. No tiene significado intrínseco porque es difícil de interpretar por estar en otra unidad de medida diferente a las de los datos, ya que está en medida al cuadrado.
Para hallar la varianza muestral, se siguen los siguientes pasos:
PASO 1).- Se calcula la media (promedio) de los datos de la muestra,
PASO 2).- Se calcula la desviación de cada dato o sea la diferencia entre cada uno de los datos y la media o sea la dispersión o cuanto se aleja o desvía cada dato (variable independiente) de la media. La suma de todas las desviaciones debe ser igual a 0.
PASO 3).- Cada diferencia se eleva al cuadrado.
PASO 4).- Se calcula la media de los cuadrados obtenidos o sea se suman los cuadrados y el resultado se divide entre el número total de datos si los datos son de una población o si es de una muestra se resta 1 al número total de datos (n-1). Esta media o promedio de los cuadrados es la varianza muestral.
Ejemplo: en el caso del mismo ejemplo anterior donde se tiene las siguientes variables independientes, el cálculo de la varianza muestral es:
Variable independiente de edad:
Unidad de observación A: 30 años.
Unidad de observación B: 20 años.
Unidad de observación C: 10 años.
PASO 1).- Cálculo de la media (promedia) de las variables independientes (datos) de la muestra:
Media de las variables independientes = (30 + 20 + 10) / 3 = 20 años.
PASO 2).- Calculo de la desviación (dispersión) de cada dato o sea cuanto se aleja cada dato de la media:
Dato A – media: 30 – 20 = 10 años
Dato B – media: 20 – 20 = 0 años
Dato A – media: 10 – 20 = -10 años
Sumatoria ∑: 0
PASO 3).- Elevación al cuadrado de las desviaciones o dispersiones o diferencias.
102 = 100 años2
02 = 0 años2
-102 = 100 años2
PASO 4).- Cálculo de la media de las deviaciones elevadas al cuadrado; en este caso como es una muestra al número total de datos se le resta 1 (n-1).
Media de las desviaciones elevadas al cuadrado = (100 + 0 + 100) / (3-1) = 100 años2
RESPUESTA: LA VARIANZA MUESTRAL ES DE 100 años2
Desviación estándar o típica muestral (“s”):
Es la variabilidad que presenta un grupo de datos de una muestra con respecto a la media, expresada en valores originales de la variable, y se calcula sacando la raíz cuadrada de la varianza muestral (por eso se saca la raíz cuadrada).
Es la medida de dispersión que nos indica sobre la dispersión de los datos respecto a la media, de tal suerte que si todos los datos son iguales la desviación estándar es cero. Esta desviación estándar o típica es la que permite obtener las gráficas o curvas con los percentiles y siempre se calcula respecto de la media.
Para calcular la desviación estándar o típica muestral, solo se debe aplicar la raíz cuadrada a la varianza muestral, por ejemplo para la muestra utilizada para explicar la varianza la desviación estándar muestral es:
Entre mayor sea el valor de la desviación estándar muestral más heterogénea es la muestra o sea que los datos están más alejados de la media y al contrario entre menos sea la desviación estándar más homogénea es la población o la muestra.
Coeficiente de variación de Pearson (Cv o Cvx o Cx o ϒ):
Permite comparar el nivel de distribución o variabilidad entre 2 series de datos (variables) diferentes, por ejemplo queremos comprar la media (promedio) de noches que pernoctan los turistas en Cartagena con la media de las noches que pernoctan en Villa de Leiva.
El cálculo y la interpretación del coeficiente de variación de Pearson son:
.- Cálculo del cv:
- Se divide la desviación estándar o típica muestral, por la media de la misma muestra;
- El resultado se puede expresar en la misma forma como se obtiene o lo podemos expresar en porcentaje para lo cual lo multiplicamos por 100 así:
Cv = ( s / promedio ) . 100.
- El resultado es adimensional o relativa: porque no tiene unidades.
- La media (promedio) siempre debe ser positivo, y en caso que sea negativo se le quita el signo.
.- Interpretación del Cv de Pearson:
- Dependiendo si se deja el resultado como se presenta o se multiplica por 100 el resultado va a variar entre 0 y 1 (0≤Cv≤1) y se llama “en tanto por 1” o entre 0% a 100% (0% ≤Cv≤100%) y se llama “en tanto por ciento”.
- Entre más se acerque o tienda a 0 o a 0% indica que los datos (variables) de la muestra están muy concentradas o sea que son muy similares a la media (promedio) o sea es una muestra muy homogénea y como conclusión se dice que la media (promedio) es representativa. Todo lo contrario si se acercan o tienden al 1 o al 100% (los datos de la muestra son muy heterogéneos) y por tanto la media no es representativa.
- Por lo anterior el Coeficiente de variación de Pearson evalúa o da información de la media (promedio).
- Cuando el Cv es ≤ a 0,3 o al 30%, se dice que la dispersión es óptima o controlada y por tanto la media es representativa.
- Cuando el Cv es ≥ a 0,5 o al 50%, se dice que la dispersión NO es óptima y que la media es poco representativa.
Ejemplo:
Queremos saber que tan representativa es la media (promedio) de una muestra, el promedio de notas de los estudiantes de un salón es de 5.5 o sea queremos saber si esa nota promedio es representativa o si es muy heterogénea. Un ejemplo de que es representativa es que un alumno sacó 5 y el otro sacó 6. Un ejemplo de que no es representativa es que uno sacó 10 y el otro sacó 1. Para saber si la media es representativa sacamos el coeficiente de variación de Pearson (lógicamente si la serie de variables o datos es grande y no se puede sacar por lógica como en el ejemplo).