Análisis de regresión
Modelo de regresión lineal simple.
En el análisis de los resultados de experiencias de laboratorio, de actividades en la industria, etc., surge con frecuencia la necesidad de determinar la relación entre dos o más variables procedentes de una población. En general se busca modelar un proceso que, sin entrar en profundizaciones teóricas de este término, abarca distintos objetivos entre los cuales se destacan:
a. Determinar si las dos variables están correlacionadas, es decir si los valores de una variable tienden a ser más altos o más bajos para valores más altos o más bajos de la otra variable.
b. Poder predecir el valor de la variable dependiente dado un valor determinado de la o las variables independientes.
c. Determinar el grado de correspondencia entre valores predichos por la ecuación de un modelo y los valores experimentales obtenidos
Ya vimos algo de esto cuando en la UT 3 abordamos la descripción simultánea de dos conjuntos de datos. Ahora vamos a profundizar en algunos de esos conceptos.
En general el objetivo del análisis de regresión es determinar una curva que ajuste de la mejor manera los datos experimentales. En ocasiones esto lo hacemos porque conocemos a priori que existe una relación entre las variables y, en otros casos, nos interesa una relación empírica, útil desde el punto de vista práctico, aunque no conozcamos con certeza la posible relación de causalidad entre las variables. En ocasiones no podemos utilizar una ecuación concreta derivada del análisis de regresión y en estos casos es posible que tengamos que quedar satisfechos con un análisis de correlación, que aunque con algunos rasgos comunes con el análisis de regresión, no es exactamente lo mismo. Abordaremos, de acuerdo con el alcance del curso, el análisis de regresión.
El análisis de regresión consiste en determinar los parámetros de la ecuación que relaciona una variable dependiente con una o más variables independientes. En este curso nos interesa básicamente la determinación de si existe una relación lineal entre 2 variables y por tanto nos ocuparemos del modelo de regresión lineal simple. Lo anterior se resume en que buscamos una relación del tipo Y = a + b X, que es la ecuación de una recta.
Evidentemente lo primero que tenemos que hacer es graficar los resultados para apreciar si existe una relación lineal, como lo ilustramos en la siguiente figura:
En ella se ve que la variable Y1 tiene una clara relación lineal positiva con X, Y2 no la tiene y Y3 tiene una relación lineal negativa, menos clara pero que se puede apreciar, con X.
Estimación de la recta de la regresión por mínimos cuadrados.
El método más utilizado para estimar la recta que mejor describe a nuestros datos experimentales es el método de los mínimos cuadrados. Recordemos que una recta viene definida por la fórmula: y = a + bx o y = a0 + a1x
Donde "y" sería la variable dependiente, es decir, aquella que viene definida a partir de la otra variable "x" (variable independiente). Para definir la recta hay que determinar los valores de los parámetros "a" y "b":
El parámetro "a" es el valor que toma la variable dependiente "y", cuando la variable independiente "x" vale 0, o sea es el punto donde la recta cruza el eje vertical.
El parámetro "b" determina la pendiente de la recta, o sea su inclinación.
Estos parámetros los determinaremos por el método de los mínimos cuadrados.
Es bueno señalar que el cálculo de la ecuación de la recta de regresión y del coeficiente de correlación se realiza muy fácilmente con diferentes tipos de programas al efecto, como es por ejemplo Excel, con el que se hizo el ejemplo mostrado:
Excel permite también hallar las ecuaciones y el coeficiente de correlación para otras relaciones aparte de la lineal.
Para la correcta aplicación del método hay ciertos supuestos (hipótesis), que deben cumplirse:
La variable independiente se mide sin error. Esto no es otra cosa que decir que controlamos los valores de x, los conocemos y medimos exactamente. Si realizamos una cinética en una fermentación y medimos los valores de un analito, los tiempos a los cuales los medimos son conocidos exactamente, tomamos las muestras a los 5, 10, 30, etc., minutos. Sin profundizar en esto por ahora, este tipo de experimentos son activos. Puede darse el caso de que hagamos experimentos pasivos, digamos tomamos muestras de un alimento y pretendemos hallar una relación entre una variable x y otra y que se presentan en el alimento. Los valores de x no los establecemos de antemano, los determinamos en ese momento y pueden tener también un determinado error, aunque sea pequeño.
El valor esperado de la variable ŷ para un valor dado de la variable x está determinado por la relación ŷ = a + bx
Para cualquier valor de x los valores de ŷ se distribuyen normal e independientemente según ŷ = a + bx + e, siendo e un error con media 0 y desviación estándar s. Esto significa que para cada valor de x tenemos un gran número de valores posibles de ŷ al hacer la medición y que tienen una distribución normal.
Todos los valores esperados de la variable dependiente son homocedásticos, lo que significa que las varianzas del error en cada punto son las mismas.
En estos supuestos hemos escrito a y b para enfatizar que son parámetros.
Visto esto, el método de los mínimos cuadrados se basa en minimizar los errores e que se mencionaron. La deducción de las ecuaciones no la veremos. Los parámetros a y b se determinan por las ecuaciones:
Es conveniente señalar que cuando no se dispone de un programa para hallar la recta de regresión, una tabla bien organizada permite simplificar los cálculos.
Veamos un ejemplo clásico, tomado de Internet:
Se determinan la talla y el peso de un grupo de 20 niños y se obtienen los resultados que se indican en la tabla:
X(talla, cm) |
72 |
76 |
59 |
68 |
60 |
58 |
70 |
65 |
54 |
83 |
64 |
66 |
61 |
66 |
57 |
81 |
59 |
71 |
62 |
75 |
Y (peso, kg) |
9 |
10 |
6 |
8 |
10 |
5 |
8 |
7 |
4 |
11 |
7 |
7 |
6 |
8 |
5 |
11 |
5 |
9 |
6 |
10 |
Hallar la recta que mejor describe los datos por el método de los mínimos cuadrados.
La siguiente tabla nos facilita los cálculos
|
X(talla, cm) |
Y (peso, kg) |
x-xm |
y-ym |
(x-xm)(y-ym) |
(x-xm)2 |
|
72 |
9 |
5.65 |
1.4 |
7.91 |
31.92 |
|
76 |
10 |
9.65 |
2.4 |
23.16 |
93.12 |
|
59 |
6 |
-7.35 |
-1.6 |
11.76 |
54.02 |
|
68 |
8 |
1.65 |
0.4 |
0.66 |
2.72 |
|
60 |
10 |
-6.35 |
2.4 |
-15.24 |
40.32 |
|
58 |
5 |
-8.35 |
-2.6 |
21.71 |
69.72 |
|
70 |
8 |
3.65 |
0.4 |
1.46 |
13.32 |
|
65 |
7 |
-1.35 |
-0.6 |
0.81 |
1.82 |
|
54 |
4 |
-12.35 |
-3.6 |
44.46 |
152.52 |
|
83 |
11 |
16.65 |
3.4 |
56.61 |
277.22 |
|
64 |
7 |
-2.35 |
-0.6 |
1.41 |
5.52 |
|
66 |
7 |
-0.35 |
-0.6 |
0.21 |
0.12 |
|
61 |
6 |
-5.35 |
-1.6 |
8.56 |
28.62 |
|
66 |
8 |
-0.35 |
0.4 |
-0.14 |
0.12 |
|
57 |
5 |
-9.35 |
-2.6 |
24.31 |
87.42 |
|
81 |
11 |
14.65 |
3.4 |
49.81 |
214.62 |
|
59 |
5 |
-7.35 |
-2.6 |
19.11 |
54.02 |
|
71 |
9 |
4.65 |
1.4 |
6.51 |
21.62 |
|
62 |
6 |
-4.35 |
-1.6 |
6.96 |
18.92 |
|
75 |
10 |
8.65 |
2.4 |
20.76 |
74.82 |
Media |
66.35 |
7.60 |
|
Suma |
290.8 |
1242.55 |
Desv.Est. |
8.0869 |
2.1374 |
|
|
|
|
Los cálculos arrojan:
Un caso importante es cuando la recta obtenida por la regresión, debe pasar por el origen. Este caso se presenta en la calibración en los métodos analíticos. Por ejemplo, en un espectrofotómetro este punto corresponde a la primera lectura que se hace colocando agua destilada o el solvente solo en la cubeta de medición. El tratamiento de la calibración lineal y de la calibración no lineal se encuentran estandarizados en las normas ISO 8466-1 y -2. El tratamiento estadístico correspondiente escapa al alcance de este curso.
Algo más sobre el coeficiente de correlación
Como ya se vió en la UT3, la cuantificación de la fuerza de la relación lineal entre dos variables cuantitativas, se estudia por medio del cálculo del coeficiente de correlación de Pearson. Dicho coeficiente oscila entre –1 y +1. Un valor de +1 ó –1 indica una relación lineal o línea recta positiva o negativa perfecta. Una correlación próxima a cero indica que no hay relación lineal entre las dos variables.
En el ejemplo que vimos en las primeras gráficas los coeficientes son: para Y1 0.988; para Y2 0.058; para Y3 -0.883.
El realizar la representación gráfica de los datos para demostrar la relación entre el valor del coeficiente de correlación y la forma de la gráfica es fundamental ya que existen relaciones no lineales.
El coeficiente de correlación posee las siguientes características:
a. El valor del coeficiente de correlación es independiente de cualquier unidad usada para medir las variables.
b. El valor del coeficiente de correlación se altera de forma importante ante la presencia de un valor extremo, como sucede con la desviación estándar. En estos casos conviene realizar una transformación de datos que cambia la escala de medición y modera el efecto de valores extremos (como la transformación logarítmica).
c. El coeficiente de correlación mide solo la relación con una línea recta. Dos variables pueden tener una relación de otro tipo (cuadrática, exponencial. Por tanto cuando analicemos las relaciones entre dos variables es conveniente primero analizar la gráfica y después calcular el coeficiente de correlación.
d. El coeficiente de correlación no se debe extrapolar más allá del rango de valores observado de las variables en estudio ya que la relación existente entre X e Y puede cambiar fuera de dicho rango.
e. La correlación no implica causalidad. La causalidad es un juicio de valor que requiere más información que un simple valor cuantitativo de un coeficiente de correlación.
Cuando no se dispone de un programa al efecto, el coeficiente de correlación puede ser hallado por la ecuación siguiente, que para el ejemplo de las tallas y pesos da:
En la siguiente figura se muestra la gráfica de Excel obtenida con Excel y la recta de ajuste:
ANOVA del modelo lineal
Para comprobar la válidez de la regresión lineal se hace también un análisis de varianza y se construye una tabla ANOVA. Para ello se descompone la variabilidad de la variable respuesta (y) en variabilidad explicada por el modelo más la variabilidad no explicada o residual, esto permitirá contrastar si el modelo es significativo o no. Bajo la hipótesis de que existe una relación lineal entre la variable respuesta y la independiente, se quiere realizar el siguiente contraste de hipótesis,
H0: y = a0
frente a la alternativa:
H1 y = a0 + a1x
por tanto, si se acepta H0, la variable independiente no influye y no hay relación lineal entre ambas variables. En caso contrario, si existe una dependencia lineal de la variable respuesta con la independiente.
Para todos los datos muestrales se hace la siguiente descomposición
Donde yi – valores experimentales; ŷi – valores calculados por la ecuación;
Esto es similar a lo que se vió en la demostración de ANOVA. Haciendo la sumatoria, elevando al cuadrado y considerando la anulación de la sumatoria de los productos cruzados se obtiene:
Siendo SCG la suma de cuadrados global; SCE la suma de cuadrados explicada por el modelo (la recta) y SCR la suma de cuadrados de los residuales. Entonces se puede construir la tabla ANOVA siguiente:
Fuente de variación |
Suma de cuadrados |
Grados de libertad |
Varianzas
|
|
Por la recta |
SCE |
1 |
SCE/1 |
F =2*SCE/SCR |
Residual |
SCR |
n - 2 |
SCR/2 |
|
Global |
SCT |
n - 1 |
|
Fcalc se compara con Ftabla con 1 y n-2 grados de libertad para el grado a de significación que se desee. Si Fcalc > Ftabla (o sea la varianza de los valores predichos respecto a la media general es mayor que la varianza de los valores reales respecto a los predichos, dentro de lo estadísticamente aceptable para el grado de significación), se rechaza H0, pues entonces la x si influye.
Prueba de hipótesis sobre r
Tras realizar el cálculo del coeficiente de correlación debemos determinar si dicho coeficiente es estadísticamente significativo. Para dicho cálculo se aplica una pruba basada en la distribución de la t de student aplicando la fórmula:
Si el valor del r calculado (en el ejemplo previo r = 0.885) supera al valor del error estándar multiplicado por la t de Student, para el nivel de significación que se escoja, con n-2 grados de libertad, diremos que el coeficiente de correlación es significativo.
En el ejemplo previo con 20 niños, los grados de libertad son 18 y el valor de la tabla de la t de Student para un nivel de confianza de 0.95 es de 2.10 (la prueba es de dos colas). Entonces:
Como r = 0.885 es mayor que 2.10×0.109 = 0.229 se puede asegurar que el coeficiente de correlación es significativo (p < 0.05).
Ejercicio: Para la determinación de Cu mediante EAA se obtienen los siguientes datos de Absorbancia contra Concentración. Ajuste por mínimos cuadrados y determine el coeficiente de correlación.
Conc |
Absorbancia |
0 |
0.0008 |
0.1 |
0.0119 |
0.2 |
0.0238 |
0.3 |
0.0345 |
0.4 |
0.0448 |
0.5 |
0.0528 |
0.6 |
0.0734 |
0.7 |
0.0768 |
0.8 |
0.088 |
0.9 |
0.1009 |
1 |
0.1173 |
Tarea:
1. Ajuste por mínimos cuadrados la relación entre peso y talla de la tabla mostrada en el ejemplo de los 20 niños. Determine la validez del ajuste por ANOVA.
2. En el análisis de la influencia de la concentración de un aditivo en la vida de anaquel de un producto, se obtuvieron los datos de horas que transcurren hasta la aparición de los productos de oxidación de los componentes del alimento contra la concentración del aditivo en mg/kg. Determine si hay una relación lineal válida y halle la ecuación que la expresa.
Aditivo |
Horas |
Aditivo |
Horas |
Aditivo |
Horas |
50 |
105.1 |
31 |
67.1 |
30 |
66.6 |
59 |
119.2 |
41 |
84.7 |
40 |
88.0 |
35 |
74.2 |
32 |
70.3 |
35 |
75.4 |
37 |
77.1 |
33 |
70.2 |
48 |
96.9 |
45 |
90.3 |
46 |
98.0 |
43 |
93.5 |
39 |
79.7 |
48 |
96.8 |
55 |
117.5 |
52 |
108.3 |
52 |
107.0 |
38 |
76.2 |
34 |
75.6 |
39 |
80.5 |
47 |
96.2 |
38 |
77.4 |
57 |
120.7 |
60 |
122.4 |
42 |
89.0 |
58 |
122.5 |
51 |
108.9 |