domingo, 17 de febrero de 2019

De tamaños, una muestra.


A la hora de recoger datos para obtener conclusiones, la estadística se ve obligada a interactuar con la población objetivo (aquella sobre la cual se realizará la medición). El inconveniente es que, en la mayoría de los casos, no es posible tener acceso a la población completa, ya sea porque es costoso o es imposible, y es por esto por lo que se debe trabajar sobre una muestra, es decir, un subconjunto de esta población. Ahora bien, ¿un mayor número de individuos en una muestra que en otra garantiza de alguna manera que las conclusiones que se obtengan de la primera tengan más fiabilidad que las de la segunda?

La respuesta rápida y sin rodeos es que no. Puede que nos sintamos inclinados a pensar que (salvo por las deudas y alguna que otra cosa) más es mejor. En muchos aspectos es necesario definir qué es eso de lo que se necesita de "más" para que algo sea mejor. Particularmente, que una muestra tenga más tamaño que otra no garantiza que sea mejor. Esto es así porque una muestra, para considerarse como tal, debe poseer las siguientes tres características:
  • Aleatoriedad: Le da el carácter de objetividad a la elección.
  • Representatividad: La muestra debe representar los distintos estamentos de la población.
  • Tamaño suficiente: Se obtiene de acuerdo al tipo de muestreo y al objetivo del estudio
En esta entrada no pretendo enfocarme en los tipos de muestreo, sino que vamos a simular una situación e ilustrar con un ejemplo visual como para mismos tamaños de muestra, la credibilidad de las conclusiones que se pueden tomar están más o menos garantizadas dependiendo de la forma en la que se tome la muestra.

Como algunos sabrán, una imagen digital no es otra cosa que una matriz de colores. A mayor resolución, mayor número de elementos. Así, por ejemplo, una imagen de 800x600 pixeles es una matrix 480.000 componentes, donde cada una es un color. Pues bien, supongamos que tenemos una imagen de 1571x2000 pixeles. Esto representa una población total de 3.142.000 píxeles. Supongamos que nos interesa conocer la imagen, o características de ella, pero no nos es posible acceder a toda la población, por lo que es necesario recurrir a una muestra. Veamos si una muestra no aleatoria de 336 (16x21) pixeles nos es suficiente para conocer. La figura 1 representa la misma.
Fig. 1: Muestra de 336 individuos
(No aleatoria).
A partir de ella se deberíamos extraer algunas conclusiones que nos permitieran caracterizar la imagen total. A primera vista, no parece haber un patrón que nos indique algo sobre la imagen. Sí parece haber un degradado de color, pero esto no resulta suficiente para describir la imagen total. Podríamos intentar tomar una muestra aproximadamente cuatro veces mayor y ver qué ocurre. Así, si la población es de 1.386 (33x42) tenemos lo siguiente:
Fig. 2: Muestra de 1.386 individuos
(No aleatoria).
Aquí empiezan a aparecer algunas líneas que nos pueden llegar a dar una idea de que es lo que se está viendo. La forma que aparecía en la muestra anterior aparece más definida. Pese a esto, sigue siendo un caos visual así que vamos a aumentar el tamaño de la muestra una vez más. Para una población de 3.038 (49x62) individuos se tiene:
Fig. 3: Muestra de 3.038 individuos
(No aleatoria).
El asunto no ha mejorado mucho, y podría considerarse que el tamaño de muestra es excesivo para tan poca información y no compensa seguir aumentando el tamaño. Pero, ¿qué ocurre si cambiamos el tipo de muestreo? Pues bien, volvamos a la imagen total y tomemos muestra de 336 individuos como se hizo la primera vez, pero ahora de manera aleatoria. Así, algo que se esperaría tener es lo que se ve en la figura 4.
Fig. 4: Muestra de 336 individuos.
(Aleatoria)
A partir de ahora nos es posible distinguir un relieve más nítido de lo que ocupa la imagen. Si entrecerramos los ojos para que la imagen se vuelva borrosa o nos alejamos de la misma es posible conjeturar que se trata de la silueta de una persona que, además, parece tener el cabello suelto sobre los hombros. Si tomamos una muestra de igual manera, pero de 1.386 individuos y de 3.038, como se hizo previamente, se tienen las dos imágenes siguientes:
Fig. 5: Muestra de 1.386 individuos.
(Aleatoria)
Fig. 6: Muestra de 3.038 individuos.
(Aleatoria)
A partir de aquí ya se puede afirmar casi con total certeza que se trata de la silueta de lo que parecería ser una mujer. De hecho, el personaje de la imagen corresponde a Hipatia de Alejandría, una filósofa, matemática y astrónoma del siglo IV.
Fig. 7: Población total de
3.142.000 individuos.
Las conclusiones a las que accedimos a partir de los primeros 336 individuos de la muestra aleatoria no estaban alejadas de la realidad. Lo curioso de esto es que las obtuvimos para una población que es aproximadamente 10.000 veces más grande que esta muestra! Para entender mejor lo que representa una diezmilésima imaginemos que el cuadrado blanco de la figura 8 tiene área 10.000 (población). Un cuadrado de área 1 (muestra) tendría un área comprendida entre el que ocupa la posición 6 y la posición 7 de la sucesión de cuadrados negros.
Fig. 8
Otra forma de verlo es la siguiente: suponiendo que el tamaño de muestra representa un segundo, entonces la población total serían dos horas y cuarenta y seis minutos! Basta con un segundo para tener una idea de que ocurre en el transcurso de casi tres horas! Evidentemente nos estamos yendo demasiado del contexto, pero no deja de ser curiosa la proporción. Claro, como ocurre con las muestras, debería tomarse este segundo de una manera poco convencional. Si tomamos un segundo de manera continua nos hallaríamos en el caso de la muestra no aleatoria. En cambio, si tomamos centésimas de segundo distribuidas de manera aleatoria en todo el intervalo de tiempo podríamos garantizar que vamos por buen camino. .

A modo de conclusión pregunto: ¿acaso no nos ha dado más información sobre la estructura de la imagen la segunda muestra de 336 individuos que la primera de 3.038 que tenía alrededor de 10 veces más? Pues bien, es ahí donde se evidencian dos cosas:
  1. La importancia de elegir un tipo de muestreo acorde a las necesidades y
  2. que no es suficiente un tamaño de muestra excesivo para garantizar conclusiones fehacientes.


Fuentes:
  • www.nationalgeographic.com.es. (2015). La sabiduría de Grecia. [online] Available at: https://www.nationalgeographic.com.es/historia/grandes-reportajes/hipatia-la-cientifica-de-alejandria-2_9797 [Accessed 8 Dec. 2018].
  • Mendelhall Beaver y Beaver (2007) Introducción a la Probabilidad y Estadística. 12va edición. Ed. Mc Graw Hill.

4 comentarios:

  1. Excelente!!
    ¿Como hiciste las ilustraciones?

    ResponderEliminar
    Respuestas
    1. Hola. Gracias!
      Están hechas en Corel Draw. Tanto los recortes de las fotos (con una intersección de objetos) de este post, como los logos.
      Saludos.

      Eliminar
  2. Muy buena entrada. Despierta interés en estos temas de probabilidad y estadística. Saludos!

    ResponderEliminar