Mensaje de error

  • Notice: Undefined variable: ub en my_visitors_get_count() (línea 254 de /home/fundamentosc/public_html/sites/all/modules/my_visitors/my_visitors.module).
  • Notice: Undefined variable: ub en my_visitors_get_count() (línea 266 de /home/fundamentosc/public_html/sites/all/modules/my_visitors/my_visitors.module).

LA POBLACIÓN,  MUESTRA Y MUESTREO:

Población:

Es todo el universo de seres vivos, objetos o fenómenos que posee una característica determinadas que satisface los criterios para incluir en un estudio epidemiológico, ejemplo: personas de sexo masculino, mayores de 18 años, fumadores, que se encuentre sintomáticos respiratorios, residentes en Bucaramanga.

 Los datos obtenidos de una población se denominan “parámetros”.

La población siempre es el denominador cuando se va a calcular una tasa.

La población puede ser:

  • Población finita: se conoce el tamaño y puede construirse un marco muestral.
  • Población infinita: No se conoce el tamaño y no puede construirse el marco muestral.
  • Población diana u objeto: población a ser estudia a la cual el investigador desea generalizar los resultados.

 

Unidad de observación (UO) o de análisis (UA): Es cada uno de los elementos que componen el universo de la población (sea un individuo, un elemento o un fenómeno) que se estudia en una investigación.

 

Marco muestral:

Corresponden a la lista total de las unidades de observación que componen el universo y de las cuales se extraerá la muestra. Como se puede deducir la facilidad de realizar este marco muestral depende de la cantidad de unidades de observación, porque en caso de ser infinito es imposible realizar el marco muestral, pero si es finito (por ejemplo los clientes de una empresa) es muy fácil realizarlo.

 

Muestra:

Es un subgrupo o fracción de unidades de observación de una población definida que se incorporan realmente a un estudio epidemiológico. La utilidad de la muestra se debe a que se puede realizar el proceso inverso con el resultado de lo observado en ella o sea la generalización o proyección o extrapolación a la población general o universo, claro aceptando que existe un cierto grado de error por el azar.

 Los datos obtenidos de una muestra se denominan “estadísticos”.

Fracción muestral:

Es la relación que existe entre el tamaño de la población (marco muestral) y el tamaño de la muestra.

 

PROCESO DE MUESTREO:

El proceso de muestreo es el método por el cual se eligen las unidades de observación de la población que van a formar la muestra, existiendo dos metodologías el probabilístico y el no probabilístico.

 

Tamaño y fórmula para cálculo de la muestra:

El tamaño de la muestra depende de 2 criterios: máximo error aceptable y el tamaño del universo.

a).- Máximo error  aceptable debido al azar (si se desea cero error el tamaño de la muestra es la misma población). Para fijar el máximo error que se está dispuesto a aceptar en la muestra se utiliza el margen de error y el nivel de confianza.

 

.- Margen de error: es un valor en porcentaje (%) que define el intervalo (hacia arriba y abajo) entre el cual se encuentra el resultado que se obtiene en el estudio, lo cual solo es aplicable si el resultado es un promedio (media) o una proporción (un sea un porcentaje).

  • Promedio (media): ejemplo el promedio de cigarrillos que fuman diariamente los fumadores colombianos es de 10 cigarrillos/día con un margen de error del 5% o sea que puede estar entre 9,5 y 10,5 cigarrillos/día,
  • Proporción (porcentaje): ejemplo el 20% de la población colombiana fuma con un margen de error del 5%, quiere decir que entre el 19% y el 21% de la población colombina fuma.

 

Cuando la distribución de los datos dentro del intervalo dado por el margen de error es una distribución “normal” se  forma la “campana de Gauss”, o sea que el dato obtenido queda junto con la mayoría de los datos en el centro de la campana y a medida que se aleja de ese valor es menos probable que existan datos.

 

.- Nivel de confianza: Es un valor en porcentaje que expresa la certeza de que el dato que se obtiene del estudio de la muestra se encuentre entre el intervalo del margen de error, el cual por lo general es del 95%, pero puede ser del 90% o del 99% ejemplo: el promedio de cigarrillos que fuman diariamente los fumadores colombianos es de 10 cigarrillos/día con un margen de error del 5% y un nivel de confianza del 95%, esto quiere decir que el dato obtenido en el estudio se encuentra con una certeza del 95% entre el intervalo de 9,5 a 10,5 cigarrillos/día, o sea que si se repite el estudio 100 veces, el 95% de las veces el resultado está en este intervalo.

Existe una relación entre tamaño de muestra, margen de error y nivel de confianza así:

  • Si se disminuye el margen de error aumenta el tamaño de la muestra.
  • Si se aumenta el nivel de confianza se  aumenta el tamaño de la muestra.
  • Si aumenta el tamaño de la muestra disminuye el margen de error y aumenta el nivel de confianza.

 

b).- Tamaño del universo, pero tiene la propiedad fundamental que entre más grande es el universo más pequeña es proporcionalmente la muestra que se requiere (aunque si lógicamente es mayor en números absolutos, pero no aumenta proporcionalmente).

 

Las fórmulas para el tamaño de la muestra:

La fórmula para el cálculo de la muestra  teniendo en cuenta del error tolerable por el azar y el nivel de confianza definidos previamente en el diseño del estudio epidemiológico, depende si el resultado que se busca con el estudio se expresa como una proporción (%)  o como un promedio (media).

a).- Formula para cálculo de muestras cuando el resultado es una proporción (%):

Donde:

n= tamaño de la muestra a calcular.

N= Población o universo de unidades de observación.

Z=  Es una constante que depende del nivel de confianza deseado  y determina la desviación a cada lado de la campana de Gauss del valor medio, para lograr el nivel de confianza deseado, así:

  • Nivel de confianza 90%, entonces la Z es de  1,645
  • Nivel de confianza 95%, entonces la Z es de 1,96
  • Nivel de confianza 99%, entonces la Z es de 2,575

e = Es el margen de error máximo admitido que puede ser del 10%, 5% o 1%.

p = Es el valor de la proporción (%) que esperamos encontrar luego de realizar el estudio, para lo cual en caso que tengamos alguna información que nos oriente de este valor (por ejemplo un estudio previo hace 1 año) se colocará dicho valor; pero en caso que no se tenga esta información, entonces se coloca un 50%, porque en el peor de los casos la población se distribuye por partes iguales.

 

Ejemplo: Tenemos una población de 136 millones de habitantes de un país entre 15 y 65 años, queremos saber qué proporción (porcentaje) de ellos vive en una vivienda de su propiedad, con un margen de error del 5% y un nivel de confianza del 95%. Supondremos que no tenemos ninguna información previa sobre cuál puede ser el % de propietarios que podemos obtener en la encuesta, por tanto usamos p=50% (pues no se tiene  información previa sobre el resultado esperado):

Si utilizamos la fórmula para universos < 100.000 unidades de análisis.

n= (136.000.000). (1.962). (0.5).(1-0.5) / ((136.000.000 -1). (0.052)) + ((1.962). (0.5). (1-0.5))

n= (136.000.000). (3,8416). (0.5). (0.5) / ((135.999.999). (0.0025)) + ((3,8416). (0.5). (0.5))

n= (136.000.000). (3,8416). (0.5). (0.5) / ((135.999.999). (0.0025)) + ((3,8416). (0.5). (0.5))

n= 130.614.400 / 339.999,9975 + 0,38416

n= 130.614.400 / 340.000,38166

n= 384,15 → 385 personas deben hacer parte de la muestra.

 

Para el mismo ejemplo anterior pero con la formula simplificada para universos > a 100.000 unidades de observación:

n = 1,962 * 0,5 * (1 - 0,5) / 0,052 = 384,16 → 385 personas deben hacer parte de la muestra.

 

En caso que por ejemplo 1 año antes se haya realizado el mismo estudio y la proporción que se obtuvo fue que el 20% poseían vivienda propia y se espera que la proporción de este año haya variado en unos 5 puntos (o sea que podría estar entre el 15% y 25%), podemos reemplazar p por la mayor proporción esperada o sea el 25% y entonces tenemos:

n = 1,962 * 0,25 * (1 - 0,25) / 0,052 = 288,12 → 289 personas deben hacer parte de la muestra.

 

b).- Formula para cálculo de muestras donde el resultado es un promedio (media):

Es igual a la fórmula para cálculo de una proporción con la diferencia que se reemplaza p. (1-p) por la varianza poblacional (σ2) que esperamos encontrar en la población o la que conocemos de un estudio previo. Recordemos que la varianza poblacional es el cuadrado de la desviación estándar.

 

Entonces por ejemplo:

Si dese estimar cual es el coeficiente intelectual promedio (media) de la población mundial con un margen de error del 10%, con un nivel de confianza del 99% (o sea con una Z de 2,575), teniendo un estudio anterior donde la desviación estándar fue del 50 unidades. Utilizando la fórmula simplificada tenemos:

n = 2,5752 * 502 / 102 = 165.76 → 166 personas deben hacer parte de la muestra.

En resumen cuando el universo es muy grande a partir de cierto tamaño (cerca de las 100.000 unidades de observaciones), el tamaño de la muestra no crece proporcional al tamaño del universo, de tal suerte que el tamaño de muestra necesaria para tener un error del 5% con un nivel de confianza del 95% es según el universo, son las siguientes:

Vemos que en universos mayores de 1.000.000 de unidades de análisis (UA) si toleramos un margen de error del 5% y un nivel de confianza del 95%, con solo 385 individuos es una muestra adecuada. Así mismo vemos que en universos muy pequeños (como 10 se deben incluir todos en la muestra).

 

TÉCNICAS DE MUESTREO:

Existen 2 técnicas de muestreo:

  • Muestreo probabilístico o aleatorizado (randomized en inglés).
  • Muestreo no probabilístico.

En algunos textos se ha usado como un anglicismo (equivocado por su puesto) para describir al muestreo aleatorio como “randomizado” por decir aleatorizado, es importante que nosotros no cometamos este error.

a).- Técnica de muestreo probabilístico o aleatorizado (randomized):

Se realiza mediante técnicas de muestreo aleatorio (por azar), que en inglés se denomina  “randomized”, cumpliendo los 2 siguientes requisitos:

  • Que todas las unidades de observación de la población tienen una probabilidad mayor a cero para ser incluidas en la muestra, y
  • Que se conoce la probabilidad mayor a cero para cada unidad de ser incluida en la muestra.

Esta técnica tiene la ventaja de ser más representativas y por tanto sus resultados son generalizables a la población general, siendo uno de las métodos para evitar los sesgos y solo queda el riesgo del error al azar (pero este es imposible de evitar al 100%), pero sin embargo puede estimarse y limitarse.

Las técnicas de muestreo aleatorio (randomized) son:

  • Muestreo aleatorizado simple (MAS),
  • Muestreo aleatorizado estratificado (MAE),
  • Muestreo aleatorizado sistemático,
  • Muestreo aleatorizado por conglomerado (MAC).

 

.- Muestreo aleatorio simple (MAS): El muestreo aleatorio simple por lo general se realiza elaborando una lista con todas unidades de observación de la población a los cuales se le asigna un número y luego por “sorteo” se van escogiendo las unidades que forman la muestra (sorteo sea manual por ejemplo con balotas o mediante un computador, al estilo de una lotería). Existen dos modalidades de MAS una con reemplazo (donde las UA que se van seleccionando ingresan nuevamente al sorteo de tal suerte que pueden seleccionarse más de una vez) y sin reemplazo donde una vez son seleccionadas no pueden volver  a participar, siendo mejor la segunda técnica.

Se deben usar cuando:

  • La población es pequeña (menor de 200 UO).
  • La población tiene poca distribución geográfica.
  • Cuando el patrón de distribución de las variables a estudiar es uniforme o no se sabe.

Desventaja:

  • Se requiere elaborar una lista enumerada de todas las UO o sea listar todo el marco muestral, lo cual en la mayoría de los casos es imposible en muchos casos.
  • Puede ser costosa si el universo es grande y/o disperso.
  • Pueden haber subgrupos en el universo que sea difícil diferenciarlos y por tanto no quedan representados.

El cálculo del número de la muestra se lleva a cabo con la formula ya explicada.

 

.- Muestreo aleatorio estratificado:

Consiste en dividir la población en subgrupos o estratos asegurando que una UO solo  pueda pertenecer a un subgrupo, de tal suerte que las UO de cada subgrupo son homogéneas pero los subgrupos son heterogéneos entre sí. Por lo general los subgrupos se organizan por variables características de las poblaciones tales como edad, género, estratos socioeconómicos etc. Luego de formados los subgrupos homogéneos internamente y heterogéneos  entre sí, de estos se escogen las UO que van a formar parte de la muestra pudiéndose escoger por cualquier otra técnica como por ejemplo aleatoria simple.

 

Este tipo de MAE reduce el error al azar y lógicamente evita el error sistemático.

Los muestreos aleatorios estratificados se clasifican en:

  • MAE proporcionado: cuando los subgrupos formados son de diferente tamaño (por ejemplo subgrupos por raza), entonces la cantidad de UO que aporta cada subgrupo al total de la muestra es proporcional, por ejemplo: si la muestra es de 1000 UO y el subgrupo de blancos es de 15.350 (62%), de negros de 8.204 (32%) y orientales de 1.224 (6%) personas, entonces el primero aporta 620, el segundo 320 y el cuarto 60 personas, para un total de una muestra de 1000 personas.
  • MAE uniforme: cuando los subgrupos aportan iguales UO a la muestra sin importar el tamaño de los subgrupos, dándole mayor importancia a los subgrupos con menor UO, lo cual reduce la precisión en los resultados.
  • MAE óptimo (respecto de la desviación estándar): El tamaño de los subgrupos depende de la desviación estándar, construyéndose subgrupos más grandes en los estratos con mayor variabilidad interna.

Se debe usar el MAE:

  • Entre más variabilidad exista entre las UO de la población.

El cálculo de la muestra en los MAE se realiza con una fórmula diferente al del muestreo aleatorio simple (ya explicada):

Donde:

n= Tamaño de la muestra.

Z=  Es una constante que depende del nivel de confianza deseado  y determina la desviación a cada lado de la campana de Gauss del valor medio, para lograr el nivel de confianza deseado, así:

  • Nivel de confianza 90%, entonces la Z es de  1,645
  • Nivel de confianza 95%, entonces la Z es de 1,96
  • Nivel de confianza 99%, entonces la Z es de 2,575

L= número de subgrupos en que se subdivide la muestra

h= es el índice que se refiere a un estrato concreto, pudiendo variar entre 1 y L estratos.

p = Es el valor de la proporción (%) que esperamos encontrar luego de realizar el estudio, para lo cual en caso que tengamos alguna información que nos oriente de este valor (por ejemplo un estudio previo hace 1 año) se colocará dicho valor; pero en caso que no se tenga esta información, entonces se coloca un 50%, porque en el peor de los casos la población se distribuye por partes iguales.

ph= es la misma proporción buscada pero dentro de cada uno de los estratos.

σ2= es la varianza que el dato buscado (en el caso de estimar medias) tiene en el total de la población.

σh2 = es la varianza dentro de cada estrato.

e= es el margen de error aceptado.

Wh= es el peso que el estrato tiene en la muestra (tamaño del estrato respecto al total de la muestra). Si hablamos de estratificación proporcional, cada Wh es igual a la proporción que ese estrato representa en la población. Si hablamos de estratificación óptima, cada Wh se calcula en función de la dispersión dentro de cada estrato.

 

.- Muestreo aleatorio sistemático:

Para lo cual se debe listar todas las UO del marco muestral y luego tomamos una UO cada determinado intervalo. Para calcular el intervalo se divide el número de UO del marco muestral (población) entre la cantidad de UO calculados para la muestra. Luego escogemos al azar la primera UO contenido entre el primer intervalo y a partir de esta se suma el valor del intervalo y así sucesivamente.

 

Ejemplo: Si tenemos una población (marco muestral) de 6.000 UO y deseamos obtener una muestra de 100 UO. En primer lugar se divide el marco muestral en 100 fragmentos de 60 UO.  Luego seleccionamos un número aleatorio entre 1 y 60, para extraer la primera UO al azar del primer intervalo: por ejemplo el 14. A partir de esta UO, queda definida la muestra extrayendo las UO del listado con intervalos de 60 unidades, así: 14, 74, 134, 194,..., 4.974

 

La desventaja es que puede haber alguna algún tipo de periodicidad oculta que coincida con el intervalo escogido para generar la muestra, lo cual genera una muestra sesgada, por ejemplo a la misma hora o el mismo día.

 

.- Muestreo aleatorio por conglomerado:

Este muestreo se parece al estratificado porque en ambos se divide la población en subgrupos (en este caso en conglomerados), pero se diferencia en:

  • La subgrupos se organizan “aprovechando” la existencia de conglomerados en la población que representan adecuadamente  a toda la población respecto de la característica en estudio; o sea que cada subgrupo o conglomerado contienen toda la variabilidad de la población y por eso podemos seleccionar alguno o algunos de estos conglomerados para escoger la UO de la muestra. Un ejemplo de característica que agrupa un conglomerado que comparten la variable en estudio puede ser por ejemplo la ubicación geográfica o el grado de escolaridad o el género.
  • A diferencia de los grupos estratificados, los grupos por conglomerados son heterogéneos internamente y homogéneos entre los conglomerados.

Pero al igual que los estratificados, una vez definidos los conglomerados se obtienen las UO por otras técnicas de muestreo como por ejm aleatorio simple o aleatorio sistemático; sin embargo si el conglomerado es pequeño se puede escoger todo como la muestra.

 

Las ventajas de las muestras aleatorias por conglomerados es principalmente económica, sobre todo si el criterio del conglomerado es el geográfico.

La principal desventaja es que no sea realmente heterogéneo internamente el conglomerado y/o homogéneo entre los demás.

 

b).- Técnica de muestreo no probabilístico:

Cuando no es posible cumplir con los dos criterios para ser aleatorizado, como por ejemplo cuando no se disponga de un marco muestral y entonces no es posible garantizar que todas las unidades tengan la oportunidad de ser seleccionadas (porque ni siquiera sabemos cuáles son en su totalidad), o porque no podemos garantizar la misma oportunidad de participar en la muestra a todas las unidades, por lo anterior cuando se realiza este tipo de muestreo no se puede calcular el margen de error ni el nivel de confianza, y lo que se debe decir es "si esta muestra fuese probabilística, ofrecería un margen de error X y un nivel de confianza Z" al homologarla con las aleatorizadas, para el cálculo de la muestra.

 

En esta técnica de muestreo no probabilístico la selección de las unidades de observación se basa en conocimiento o hipótesis de la población de interés, lo cual se conoce como criterios de selección, por ejemplo seleccionar los integrantes de la muestra en proporción a la raza teniendo en cuenta los porcentajes predefinidos para la raza blanca, negra u oriental respectivamente.

 

El principal inconveniente de este tipo de muestreo no probabilístico es que no se pueden generalizar los resultados con precisión estadística.

Las técnicas de muestreo no probabilístico son:

  • Muestreo por conveniencia,
  • Muestreo accidental o casual,
  • Muestreo discrecional o por juicio,
  • Muestreo de voluntarios,
  • Muestreo secuencial,
  • Muestreo por cuotas,
  • Muestreo por bola de nieve.

 

.- Muestreo no probabilístico por conveniencia:

Consiste seleccionar la muestra por el hecho de estar fácilmente disponibles y no por criterios estadísticos.

Tienen de ventaja que son de bajo costo y fáciles operativamente, siempre y cuando las UO accesibles no posean razones fundamentales que las diferencien de del total de la población.

Tienen de desventaja que no se pueden extrapolar a la población con rigor estadístico, porque puede existir gran posibilidad de sesgo y no se puede calcular el margen de error ni el nivel de confianza (es incorrecto describirlos cuando la muestra se obtuvo de esta forma).

Ejemplo: Para conocer mediante una muestra probabilística la opinión de los estudiantes universitarios Colombianos acerca de la economía, se necesitaría utilizar censo del total de estudiantes de todas las universidades Colombianas, con el fin de seleccionar la muestra para encuestarlos. Pero si se realiza la muestra por conveniencia se puede encuestara solo a los estudiantes de las 3 universidades más cercanas, utilizando como criterio solo que están situadas en la ciudad del encuestador, y luego encuestar a unos cuantos estudiantes que acepten participar cuando terminan su jornada en la tarde.

 

Muchos ensayos clínicos preventivos o de tratamientos, así como estudios piloto, escogen la muestra mediante selección voluntaria de los participantes, los cuales se consideran representarán a una población como por ejemplo pacientes diabéticos (en un ensayo clínico) o consumidores (en estudios piloto).

 

.- Muestreo accidental o casual:

La muestra se va formando con UO a medida que estas van apareciendo al momento del muestreo sin juicios previos.

Solo es útil para evaluar la opinión de una población respecto a un producto, servicio o tema.

 

.- Muestreo por juicio o discrecional:

Muestra se forma por UO seleccionadas discrecionalmente por el investigador basado en su criterio dada por la experiencia o por conocer estudios anteriores similares o idénticos, o por el conocimiento pleno de la población y el comportamiento de esta frente características que se estudian. Es útil si la población es reducida y conocida por el investigador.

 

.- Muestro por voluntarios:

Cuando el investigador promociona su investigación e invita a participar en la muestra, por ejemplo en la segunda etapa de un ensayo clínico cuando se prueba un medicamento.

 

  .- Muestreo no probabilístico por cuotas:

Es el mejor método cuando se realizan estudios Online y corresponde a la versión de “muestreo estratificado no probabilístico”.

Para llevarlo a cabo se hace en 3 pasos similares al MAE proporcional:

1).- Se divide la población en grupos en forma exhaustiva y excluyente (o sea que todas las UO deben estar en algún grupo y que cada UO solo puede estar en un grupo), por lo general con base en variables sociodemográfica como sexo, edad, región o clase social, escogiendo la variable que más incida en el resultado que queremos medir; con el objetivo que la muestra sea lo más representativa posible.

2).- Se fija el tamaño de la muestra por cuotas: lo cual se hace tomándose las UO proporcionalmente de cada grupo (igual al MAE proporcionado)

3).- Selección de participantes y comprobación de cuotas: en este paso es la diferencia con el MAE proporcional porque la selección de la cantidad de UO definidas por la fórmula de cálculo de muestreo se obtienen por un muestreo no probabilístico por conveniencia o voluntario.

 

A pesar que las cuotas siguen siendo un muestreo no probabilístico y por tanto no se puede calcular el margen de error ni el nivel de confianza, sin embargo disminuye la posibilidad de sesgo a pesar que no lo disminuye totalmente.

 

.- Muestreo por bola de nieve (snowball sampling):

La muestra en esta técnica se obtiene a través de las mismas UO o sea que los individuos seleccionados para ser estudiados reclutan a nuevos participantes entre sus conocidos, siendo útil para estudio de variables de muy baja prevalencia o UO de muy difícil acceso, como por ejemplo enfermedades huérfanas o colectivos muy específicos como aficionados a la filatelia o aficionados a un tipo de música o practicantes de un deporte, etcétera.

 

Se puede identificar dos tipos de muestres por “snowball sampling”:

  • Muestreo lineal: Cada UO reclutada debe recomendar a otra UO, de forma que la muestra crece a un ritmo lineal.
  • Muestreo exponencial: Cada UO reclutada debe recomendar dos o más UO.

 

Las ventajas del muestreo por bola de nieve son:

  • Aplicable a poblaciones de difícil acceso por baja prevalencia o por accesibilidad.
  • Es económico y sencillo que no requiere gran planificación.

Las desventajas del muestreo por snowball sampling son:

  • No garantiza representatividad, ni permite conocer el grado de precisión.
  • No hay control sobre el tamaño de la muestra ni como se recolectan, ya que no permite definir a priori el tamaño de la muestra.
  • Es muy común el sesgo de muestreo, porque los participantes se obtienen por invitación de otros ya seleccionados, y entonces se puede presentar que todos los individuos compartan alguna característica o rasgo, independientemente del rasgo objeto de estudio, por lo que el muestreo estaría accediendo sólo a un subgrupo de la población a estudiar.