Datos estadísticos y tipos de datos

 

Introducción

En su desempeño profesional, constantemente van a tener que tomar decisiones o entregar información sobre la marcha de los procesos en los cuales van a estar involucrados. En otras ocasiones, van a realizar trabajos experimentales para hallar relaciones entre determinados fenómenos, resultados o variables de salida (variables dependientes en general), y las variables que sobre ellos inciden. Para todo esto van a tener que recopilar información que van a procesar de una u otra forma para llegar a resultados confiables (ya hablaremos de que puede significar esta confianza en los resultados). Entonces, la recopilación de la información no es una tarea trivial y que podemos hacer sin cuidado. Pongamos un ejemplo. Podemos disponer de técnicas muy avanzadas de análisis químico, pero si la muestra que analizamos no tiene buena representatividad, se contamina o simplemente no está bien tomada, en nada podrá ayudarnos la técnica, por avanzada que sea, para llegar a un buen resultado. Tomando en cuenta lo anterior, resulta conveniente que nos detengamos en algunos conceptos relacionados con los datos que se puede obtener en la industria en particular y en la práctica de su profesión en general.

 

La recopilación de datos.

Recopilar datos significa obtenerlos efectuando mediciones, muestreos, encuestas, etc. Una vez que los hemos recopilado tenemos que representarlos o sea expresarlos en gráficos, tablas, en forma de texto o combinando las anteriores, de manera que sea más fácil (e incluso en ocasiones factible), su análisis ulterior). De esto nos ocuparemos en esta unidad temática.

Etapas ulteriores en el trabajo con los datos nos van a ocupar en próximas unidades. Resulta oportuno mencionar que esos datos (ya representados), los vamos a condensar, o sea vamos a describirlos con algunos valores representativos de todo el conjunto de datos. Ya veremos que de esto se ocupa la estadística descriptiva y que estos valores representativos se denominan estadísticos o estadígrafos y que incluyen la media, la varianza, etc. Posteriormente, se utilizarán herramientas estadísticas para analizar esta información y haremos estimaciones o inferencias para poder tomar decisiones acertadas con un fundamento científico.

Entonces, una de las primeras cuestiones que tenemos que definir a la hora de planear la recopilación de datos, es saber el universo de mediciones, objetos o fenómenos al que nos vamos a circunscribir y al cual vamos a definir, desde el punto de vista de la estadística, como población. Este conjunto de elementos lo vamos a aislar del resto en función de las relaciones mutuas entre ellos o de determinadas características del sistema que estamos sometiendo a estudio estadístico. Sólo así adquieren sentido los valores que se obtienen de la estadística. Por ejemplo, si decimos que el pH es 6.8, esto no nos da una información relevante. Si le añadimos que ese pH corresponde al valor medio de un lote de 5000 botellas de agua producidas en una semana en una purificadora, ya esto representa una información valiosa.

Siguiendo con el ejemplo de las botellas de agua, puede resultar inoperante que se le mida el pH a todas las botellas (5000). Entonces se puede seleccionar un grupo de ellas, que nos permita juzgar sobre el pH de todas. A este grupo, que es un subconjunto de toda la población, lo definiremos como muestra. Se toman muestras, cuando no se puede o no es conveniente tomar la población entera para la recopilación de los datos. Estos casos se dan por ejemplo:

·    Cuando la población es muy grande;

·    La toma de los datos es muy cara;

·    El tiempo de recopilación de los datos es significativo (e implica gastos en personal);

·    Al tomar los datos se deteriora o destruye el objeto (si abro las botellas de agua del ejemplo, para medir el pH, es poco probable que después se puedan vender o distribuir).

Por supuesto, hay casos en los que es imprescindible analizar la totalidad de la población y en esto el avance tecnológico influye, pues hay dispositivos que nos permiten medir de forma automática a todos los elementos del conjunto (por ejemplo un dispositivo óptico que determine el nivel de un líquido en un recipiente transparente).

Los métodos de muestreo que garanticen que obtengamos una muestra representativa de la población, serán vistos en otro momento e incluso en otra asignatura (Calidad).

 

Otro concepto que resulta conveniente definir es el de censo:

El censo es el recuento de individuos que conforman una población estadística, definida como un conjunto de elementos de referencia sobre el que se realizan las observaciones. En otras palabras, consiste básicamente en obtener mediciones del número total de personas mediante diversas técnicas de recuento y se realiza cada determinado período.

 

Podemos plantearnos las siguientes etapas generales en la recopilación de datos, incluyendo cuando vamos a establecer una forma de proceder para ello en la industria:

  1. Determinación de los objetivos de la recopilación de datos. En la industria la recopilación puede convertirse en una tarea pesada, por lo que hay que tomar en cuenta la facilidad con que pueden recopilarse, compilarse y distribuirse los datos. Por ello es importante seleccionar indicadores, variables, etc., que estén directamente relacionados con los objetivos para economizar tiempo y recursos. Es necesario revisar cuidadosamente las normas y estándares que se aplicarán en todo el trabajo con los datos. En ocasiones, para dar validez a los datos, es necesario recopilar más información de la estrictamente requerida. Una vez que tenemos decididos los datos a recopilar hay que ver cuales son imprescindibles y cuales simplemente deseables. Como cada tipo de datos puede emplearse para una variedad de cálculos es necesario ver que su registro permita utilizarlos para distintos fines. En esta etapa también determinaremos la población objetivo de estudio y las hipótesis necesarias que nos permitirán simplificar el trabajo.
  2. Determinación de los recursos necesarios para la recopilación de los datos. Aquí tenemos que determinar los recursos humanos, materiales y financieros que nos son necesarios para poder cumplir con la recopilación. En los recursos materiales, tenemos que contemplar todos los bienes necesarios: medios de transporte, de muestreo, de análisis en el laboratorio, software, etc. Aquí obtendremos información que nos puede llevar a varias alternativas para la recopilación por lo que se procederá a evaluarlas, seleccionando la más viable.
  3. Realización de una prueba a pequeña escala. Esto nos permitirá hacer los ajustes necesarios en todo el procedimiento que se empleará.
  4. Realización de la recopilación de los datos. Aquí es importante que todos los que participen se ajusten al procedimiento final que se elaboró después de la prueba a pequeña escala. Cualquier desviación en los mismos nos representará un esfuerzo inútil y gasto de tiempo y dinero que no nos dará los frutos esperados.

 

Recuerde que muchas veces, hablando de mediciones de magnitudes físico-químicas en las muestras, las mismas se destruyen. Haga una buena planeación para que no tenga que decir “si yo hubiera determinado tal cosa en las muestras ………”.

 

Tipos de datos.

Analicemos las siguientes definiciones.

Magnitud: Es toda característica, o cualidad, de un elemento integrante de la población bajo estudio estadístico, susceptible de ser observada.

Variable: Es toda magnitud que permite diferenciar entre sí a los componentes de una misma población.

Parámetro: Es toda magnitud que tiene el mismo valor dentro de una población. O sea, no permite diferenciar entre sí a sus elementos componentes. Por ejemplo en un lote de envases de mermelada,  el número de lote es un parámetro, o sea, una magnitud constante. Si tenemos diferentes lotes el número de lote es una variable.

Valor o Dato: Es el resultado obtenido al medir una magnitud en un elemento de la población.

De estas definiciones podemos concluir que todos los datos no son del mismo tipo. Veamos una clasificación:

 

Los datos, y lo que expresamos a continuación es válido también para las variables, en primera instancia pueden ser de dos tipos: cuantitativos y cualitativos. Cuando, al comparar una magnitud con un estándar dado, obtenemos un dato numérico, ese dato es cuantitativo. Por ejemplo si determinamos el pH del agua contenida en una botella y obtenemos el valor 6.9, estamos obteniendo un dato cuantitativo. Por otro lado si evaluamos en una prueba de degustación el sabor de una mermelada, obtenemos un valor cualitativo. Se pueden codificar incluso con números los resultados (por ejemplo si escribimos en la encuesta para la mermelada, diga cómo evalúa su sabor en una escala de 1 a 5), pero no dejan de ser cualitativos. A su vez un dato cuantitativo se llamará continuo cuando pueda adoptar cualquier valor numérico dentro de un intervalo (por ejemplo los grados Brix de una mermelada) y discreto cuando sólo puede adoptar valores enteros, por ejemplo el número de botes de mermelada que son rechazados por el control de calidad, donde no podemos decir, por ejemplo que en un lote de 1000 unidades se rechazaron 4.5 botes.

Por su parte los datos cualitativos se dividen en ordinales, cuando las categorías siguen una gradación (por ejemplo, la intensidad del olor) y nominales con dos (dicotómicos) o más categorías no ordenadas (politómicos). En las categoría de datos nominales (también se les llama atributos), tenemos a las propiedades organolépticas de los alimentos: color, olor, sabor, textura, etc., donde se usan los sentidos para medir y se obtienen en general sin utilizar instrumentos.

Dependiendo del tipo de datos podremos usar unas gráficas u otras y unos tests estadísticos u otros. Muchas veces, con fines clasificatorios, se utiliza un dato cuantitativo, de tipo incluso continuo, como dato cualitativo. Por ejemplo cuando decimos que si el pH está por debajo de 6 clasificaremos aun producto como ácido, de 6 a 8 como neutro y mayor de 8 como alcalino. Esto dependerá de la convención que se utilizará para expresar los resultados. Es conveniente señalar que en estos casos perdemos mucho de la riqueza de la información que brindan los datos cuantitativos.

Por último, es necesario tomar en cuenta que en ocasiones obtenemos datos o variables compuestas, en las que se relacionan datos o variables simples.

 

REGRESAR