CAPrTULO 3 - OISTRIBUCIÓN OE FRECUENCIAS Con datos muestrales los intervalos son: X ± S ~ Contiene aprox. el 68% de los datos. X ± 2S ~ Contiene aprox. el 95% de los datos. X ± 3S ~ Contiene aprox. el 99% de los datos. Gráficamente se ilustran estos intervalos en la Figura 3.20. I I I I I I I I I .I _ 0 - ; ¡.L-3O ¡.L-20 ¡.L-o ¡.L ¡.L o II \\. Y ) ¡.L+20 ¡.L+3O \\. 68% ) \\. Y ) 95% Y 99% Figura 3.20 Intervalos para la media en una distribución normal. 3.2 Distribuciones bidimensionales de frecuencia En este caso se analiza la distribución de frecuencias de dos variables simultáneamente. Se estudia el caso donde las dos variables son discretas o continuas, pero no la combinación de ellas. 3.2.1 Distribución bidimensional en variables discretas En este caso se considera que las dos variables en análisis son de carácter discreto. La distribución de frecuencias consiste en elaborar una tabla de dos entradas, donde se ESTAOrSTICA DESCRIPTIVA PARA INGENIERrA AMBIENTAL CON SPSS 89
VIVIANA VARGAS FRANCO colocan en la primera fila los valores diferentes de la primera variable y en la primera columna los valores diferentes de la segunda variable; en ambos casos los valores de cada variable deben ser diferentes y estar ordenados en forma ascendente. En la Tabla 3.10 se presenta la distribución bidimensional para dos variables discretas. Tabla 3.10 Frecuencia bidimensional para variables discretas. ~VIfiBbII x Y, y] Y3 · .. Yk-/ Y, Frecuencias ·X, nll n,z n'3 .. n/,k _1 n\"k margina/es de X hll h/2 h'3 hlk _ 1 h\"k n,. X2 n21 n2Z nZ3 · .. nZ,k- 1 nz,' h,. hZI hzz hZ3 hU _1 hu nz. X3 n31 n3Z n33 · .. n3,k_1 nu hz. h31 h3Z hu h33 hU _1 n3. h3. Xp\" np_u np _I,z np_I,3 · .. np _/,k - I np _I,k np_l\" h._u h. _1.2 h. _I,3 · .. h. _lk _1 h. _u h. _l . Xp · .. npl npz np3 np,k_1 npk np. Frecuencias hnl hoz h3 h.,k_1 h.k h•. n,k_1 n-n margina/es de Y n, nz n3 h,k_1 n.k h, h.z h3 hk h.• 100\" En este caso cada frecuencia absoluta, nij' es el número de datos que presentan los valores Xi y lj, simultáneamente. Por ejemplo, n]3 es el número de datos que toman los valores X] y Y3' simultáneamente. n34 es el número de datos que tienen los valores de X3 y Y4, simultáneamente. Así mismo se pueden hallar las frecuencias absolutas marginales, que son equivalentes al análisis de las variables unidimensionales o de una variable independiente de la otra y se denota por ni. para la variable X y nj . para la variable Y. Por ejemplo, n3. es el número de datos que toman el valor de X3 para cualquier valor de la variable Y y es equivalente a la expresión: Lk n3.=n3/+n31 + ...... +n3k = n3j j =/ n.4 es el número de datos que toma el valor de Y4 para cualquier valor de la variable X y es equivalente a la expresión: 90 ESTADrSTICA DESCRIPTIVA PARA INGENIERrA AMBIENTAL CON SPSS
CAPfTULO 3 - DISTRIBUCiÓN DE FRECUENCIAS fn.4+ n 14 + nu+ ...... + np4 = nu ;=1 En la tabla de frecuencias se deben verificar las siguientes expresiones: k n./+n.l +n.3+ ...... +n.k = ~~n.J. =n j =/ p ~~n . =n l. i=/ De forma similar: Donde n es el número total de datos considerados en el estudio. De modo similar se procede para el cálculo de las frecuencias relativas, recordando que estas son el cociente entre la frecuencia absoluta sobre el total de datos. También se pueden calcular las frecuencias relativas con relación al número de datos de las filas o al número de datos de las columnas. Cada frecuencia relativa, hij' es el porcentaje de datos que presentan los valores Xi y lj, simultáneamente. Por ejemplo, h23 es el porcentaje de datos que toman valores de Xl y Y3, simultáneamente. h34 es el porcentaje de datos que tienen valores de X 3 y Y4, simultáneamente. Así mismo se pueden hallar las frecuencias relativas marginales, que son equivalentes al análisis de las variables unidimensionales o de una variable independiente de la otra y se denotan por h. para la variable X y h.j para la variable Y. Por ejemplo, h3. es el porcentaje de datos que toman el valor de X 3 para cualquier valor de la variable Y y es equivalente a la expresión: k h3.=h3/+h 3Z + ...... +h3k = ¿h3j j =/ h.4 es el porcentaje de datos que toman el valor de Y4 para cualquier valor de la variable X y es equivalente a la expresión: fh.4= h/4+ hu+ ...... + hp4 = hu 91 i=/ / ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS
VIVIANA VARGAS FRANCO Para las frecuencias relativas se deben verificar las expresiones: k h. l + h.Z + h.3+ ...•.• + h.k= ¿hj= 1 Ó 100% j =1 fh l.+ h z. + h3. + ...... + hp. = hL = 1 Ó 100% ;=1 De forma similar: h ll + h 12 + h13+ ••..•. + hpl + hpz +···· + hpk=f \"ihij= 1 Ó 100% ;=1 j =1 También es posible calcular las frecuencias acumuladas absolutas y relativas, Nij y Hij' considerando los criterios anteriores y la definición de cada una de ellas. En la Figura 3.21 se muestra la representación gráfica de una distribución bidimensional para variables discretas. En este caso se deben graficar en el espacio tridimensional; dos dimensiones para las variables X y Y, Yotra para las frecuencias relativas o absolutas. La gráfica se realiza levantando sobre cada punto del plano XY, es decir (Xi'Yj ), un segmento vertical de longitud igual a nij para la frecuencias absolutas o hij para las frecuencias relativas. n, (h,J II x Y, x, Ix: x .. 1( I A,A X,/ y, 7 '. 1/ / y, / / // 11 / / / / // // / y, / / / / / / y Figura 3.21 Gráfica de distribución defrecuencia bidimensionalpara dos variables discretas , 92 ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS
CAPITULO 3 - DISTRIBUCiÓN DE FRECUENCIAS 3.2.2 Distribución bidimensionalpara variables continuas Para el caso de dos variables continuas se deben realizar intervalos tanto para la variable X como para la variable Y. En este sentido los intervalos se pueden definir por experiencia de los investigadores o se pueden construir siguiendo los pasos recomendados para la definición de intervalos de una variable continua del caso unidimensional. En la Tabla 3.11 se presenta la distribución de frecuencias bivariadas para dos variables continuas ( X Y Y). En la primera columna se colocan los intervalos de la variable X y en la primera fila se colocan los intervalos de la variable Y, o viceversa. Tabla 3.11 Frecuencia bidimensional para dos variables continuas. ~Variable X [Yo. V,I IY,.Y21 IY2.Y31 · .. (YK.,.YKI Frecuencias · .. [X•• Xd n11 n12 n13 · .. n1K marginales de X h11 h12 h13 · .. h1K IX1• X21 n1. n21 n22 n23 n2K h1. IX2• X31 h21 h22 h23 h2k n31 n3K n2. h31 n32 n33 h3K h2. h32 h33 n3. h3. IXp.1• Xpl np1 np2 np3 · .. npK np. hp1 hp2 hp3 hpK hp. Frecuencias n' l n'2 n'3 · .. n'K n.. -n marginales de V h' l h'2 h'3 h'K h.. -100% Las frecuencias absolutas nij consisten en el número de datos que se encuentran en los intervalos ( Xi_l , XJ y ( lj-l' lj], simultáneamente. Por ejemplo, nl3 es el número de datos que se dan en los intervalos (Xl' Xl] Y ( YH Y3 ] simultáneamente. n34 es el número de datos que tienen los intervalos (Xl' X 3] y (Y3, Y4] simultáneamente. Así mismo , se pueden hallar las frecuencias absolutas marginales, que son equivalentes al análisis de cada una de las variables unidimensionales o de una variable independiente de la otra y se denota por ni. para la variable X y n.j para la variable Y. ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 93
VIVIANA VARGAS FRANCO Por ejemplo, n 3. es el número de datos que hay en el intervalo ( X] ,X3 J, independientemente de los intervalos de la variable Y. Es equivalente a la siguiente expresión: k ¿n3• = n31 + nn+ ...... + n3k = n3j j=/ n.\" es el número de datos que hay en el intervalo (Y3, YJ, independientemente de los intervalos de la variable X. Es equivalente a la expresión: p n.4=n14 +nu + ...... +np\"= ¿ni\" i= I En la tabla de frecuencias se deben verificar las expresiones: k n.l = n.] + n.3 + ...... + n.k = ~~n./. =n j=1 p nI. + n].+ .n3 + ...... + np. = ~~ n· = n L i=1 De forma similar: f fn 11 + n J] + n /3 + ...... + np / + np] + .... + npk = nij = n i=1 j = 1 Donde n es el número total de datos considerados en el estudio. De forma similar, se procede para el cálculo de las frecuencias relativas, recordando que son el cociente entre la frecuencia absoluta sobre el total de datos. También se pueden calcular las frecuencias relativas en cuanto al número de datos de las filas o al número de datos de las columnas. Cada frecuencia relativa hij consiste en el número de datos que se encuentran en los intervalos ( Xi_l , XJ Y( lJ-l' lJJ, simultáneamente. Por ejemplo, h]3 es el porcentaje de datos que toman valores entre (XI' Xzl Y ( y] , Y3J simultáneamente. h]3 es el porcentaje de datos que tienen valores entre ( X]' X 3J y ( Y3 , Y\"J, simultáneamente. Así mismo, se pueden hallar las frecuencias relativas marginales, que son equivalentes al análisis de las variables unidimensionales o de una variable independiente de la otra y se denota por hi. para la variable X, y hj para la variable Y. 94 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS
CAPiTULO 3 - DISTRIBUCiÓN DE FRECUENCIAS Por ejemplo, h3' es el porcentaje de datos que toman valores entre ( X 2, X 3] para cualquier valor de la variable Y. Es equivalente a la siguiente expresión: k h3.=h3/+h32+······ +h3k= ¿h3j j =/ h.4es el porcentaje de datos que toman valores entre (Y3' yJ para cualquier valor de la variable X. Es equivalente a la expresión: fh.4 = hl4+ hu+ ...... + hp4 = hu ;=/ En la tabla de frecuencias se deben verificar las expresiones: ¿k h./ + h.2+ h.3 + ...... + h.k= h.j = 1 Ó 100% j =/ h/.+h2. +h3. + ...... +hp. = fh¿ = 1 Ó 100% ;=/ De forma similar: Pk hlJ +hll + h/3 +...... + hp1 +hp 2 + .... +hpk =¿¿hij =1 Ó 100% i=l j =l También es posible calcular las frecuencias acumuladas absolutas y relativas Nij y Hij, considerando los criterios anteriores y la definición de cada una de ellas. La Figura 3.22 muestra la representación gráfica de una distribución bidimensional para variables continuas. En este caso se deben graficar en el espacio tridimensional; dos dimensiones para las variables X y Y Y otra para las frecuencias relativas o absolutas. En el caso unidimensional las frecuencias se representan por áreas de rectángulos en el histograma, ahora en el caso bidimensional, las frecuencias se representan por volúmenes de paralelepípedos en el denominado estereograma. ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 95
VIVIANA VARGAS FRANCO n¡(h) // // ¿:. f- / / ~ // V /V / // // h YI / \"XI Xl XJ / x. ~ 1/ I // V Xl .... 1/ ,. /// YJ / 1/ 1/ / / / 1/ 1/ V / / ,/ / V / / / / ///// y Figura 3.22 Estereograma, gráfica de distribución bidimensional de frecuencia para dos variables continuas. 96 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS
CAPíTULO 4 Medidas ygráficas de posicion Las medidas de tendencia central y dispersión presentan limitaciones cuando se desea realizar análisis con respecto a la posición que ocupan los datos; por tal razón surgen las medidas de posición que se usan para describir la posición que tienen un valor específico en relación con el resto de datos. Estas medidas sintetizan las distribuciones de frecuencias e indican qué porcentaje de datos, dentro de una distribución, hay antes o después de un valor determinado. Las medidas de posición más utilizadas en estadística son los cuartiles, deciles y percentiles: Cuartiles: Dividen la distribución en 4 partes iguales; existen 3 cuartiles: primero, segundo y tercer cuartil. Deciles: Dividen la distribución en 10 partes iguales; existen 9 deciles: primero al noveno decil, son también llamados cuantiles. Percentiles: Existen 99 percentiles que dividen una distribución en 100 partes iguales: primero al noventa y nueve percentil, también se llaman centiles. A continuación se describe la forma de estimar cada una de estas medidas, las cuales se pueden calcular para datos agrupados y datos sin agrupar. También es posible estimarlos a partir de la ojiva ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 97
VIVIANA VARGAS FRANCO 4.1 Cuartiles Los cuartiles son los valores que dividen un conjunto de datos que previamente han sido ordenados en forma creciente, en cuatro partes iguales. Existen tres cuartiles que se denominan Q/ , Q2 y Q3 y presentan las siguientes características: Q/ : Es el valor de la variable donde el 25% de los datos es menor que este valor y el 75% de los datos es mayor que él. Q2: Es el valor de la variable donde el 50% de los datos es menor y el 50% de los datos es mayor que este valor. Coincide con el valor de la mediana. Q3: Es el valor de la variable donde el 75% de los datos es menor que él y el 25% de los datos es mayor que este valor. • Entre los valores Q/ y Q3 se encuentra el 50% de los datos. Entre dos cuartiles consecutivos se encuentra un 25% de los datos, tal como se observa en la Figura 4.1. 25% 25% 25% 25% mín. Ql Q2 Q3 máx. Datos ordenados en forma creciente Figura 4.1 Esquema gráfico de la ubicación de los cuartiles en una distribución. Cuartiles para datos sin agrupar, en este caso se deben ordenar los datos de forma creciente. El cálculo de los cuartiles se debe realizar considerando diferentes opciones de acuerdo con el número de datos. Generalmente los textos presentan que el cuartil .. Xn +X4n+ / SI n es par y que uno, Q¡, se puede calcular como X n +/ SI n es Impar o 4 42 .. X73n +X73n+ / . el cuartll tres, Q3' se puede calcular como X3 (n +/) SI n es par o SI n 42 es impar, pero estas fórmulas no funcionan en todos los casos. (El lector puede verificarlo con los ejemplos que se muestran en este capítulo). 98 ESTAOlsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS
CAPITULO 4 - MEDIDAS Y GRÁFICAS DE POSICiÓN Después de un detallado análisis de las posibilidades para el cálculo de los cuartiles se llega, en este libro, a las fórmulas generales que permiten estimar estos valores en forma precisa. El cuartil dos, Q;z, sólo depende del valor de paridad que toma n , mientras que para el cálculo del cuartil uno, Qb y el cuartil tres, Q3' deben considerarse adicionalmente otros argumentos, como la paridad de ; o de n ~ 1 . Para el cálculo de los cuartiles los datos deben estar ordenados en forma ascendente, los valores repetidos deben considerarse en el conjunto de datos. Las diferentes opciones para el cálculo de cuartiles se presentan en las siguientes ecuaciones: • Si n es impar: Q;Z=X\"+;z I (4.1) (4.2) S1. -n-+2l- es par: Si n + 1 es impar: QI =X\"+3 (4.3) 24 (4.4) (4.5) Q3 =X3\" +J 4 (4.6) Q1= X-1\"+X,-1,+ 1 (4.7) 2 • Si n es par: Si !!. es par: 3X-\"+1 +X-\" O, 75X-\"¡+I +0,25X-\"¡ 2 QI= 4 4 4 (4.8) Si n es impar: O, 75X\" +1 +0,25X\" + 6 (4.9) 2 44 3XJ\" +1 + X3\"-1 Q3 =---4=--4-4~- = 0,75XJ\"+1 + 0,25X311 _1 (4.10) 44 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 99
VIVIANA VARGAS FRANCO Ejemplo 4.1 Se tienen los datos de Demanda Química de Oxígeno (DQO) en mg/l, en el efluente de una planta de tratamiento anaeróbico para agua residual tipo UASB (Upflow Anaerobic Sludge Blanket), la serie de datos ordenados en forma creciente se presenta a continuación: 110; 126; 135; 145; 152; 155; 160; 181; 191; 191; 200; 208; 216; 257; 260; 312; 315,: 320 y 320 (mg/l) . Considerando que el número de datos es impar, n=19, y que n ~ 1 10 es un número par, se utilizan las ecuaciones 4.1,4.2Y 4.3 para elprimero, segundo y tercer cuartil, respectivamente, tal como se presenta a continuación: Q/ = X S + X6 0,5Xj + 0,5X6 = 0,5( 152) + 0,5( 155) = 153,5 mg / I 2 Es decir, el 25% de los datos son menores que 153,5 mg/l y el 75% de los datos superan este valor en el efluente de DQO en la planta UASB. Q2=X/o=191 mg/I Donde el 50% de los datos son menores que 191 mg/I y el 50% de los datos supera este valor. Es el valor de la mediana. Q3 = X U2+X/5 = 0,5Xu + 0,5X/5 = 0,5( 257) + 0,5( 260) = 258,5 mg / I Significa que el 75% de los datos es menor que 258,5 mg/l y e125% de los datos supera este valor en el efluente de DQO en la planta UASB. Cuartiles para datos agrupados: En este caso se considera que los datos están agrupados en una tabla de frecuencias y se debe ubicar el intervalo donde se encuentre cada uno de los cuartiles. Los cuartiles se pueden calcular a través de la ecuación 4.11 si se utilizan las frecuencias relativas, o con la ecuación 4.12 si se utilizan las frecuencias absolutas. Q. =x + ( 0 , 2 5 k2- H / ) (L) (4.11) 1-/ 1- Q. =X¡-/ + (knl4 -nN1_/) (L) (4.12) 1 100 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS
CAPiTULO 4 - MEDIDAS Y GRÁFICAS DE POSICiÓN Donde: k : Valor del k-ésimo cuartil a ser calculado (k = 1, 2 Ó 3)_ X¡ _/: Límite inferior del intervalo que contiene el valor cuartiL n : Número de observaciones. H¡ - 1: Frecuencia relativa acumulada del intervalo anterior al que contiene el cuartil (sin porcentaje). h¡ : Frecuencia relativa del intervalo donde se encuentra el cuartil (sin porcentaje). N¡ - 1: Frecuencia absoluta acumulada del intervalo anterior al que contiene el cuartiL n¡ : Frecuencia absoluta del intervalo donde se encuentra el cuartiL L : Longitud del intervalo donde se encuentra el cuartiL Ejemplo 4.2 Considerando la Tabla 4.1, donde se presenta la distribución de frecuencias para la variable nivel de presión sonora en el día, ruido, tomada en diferentes estaciones de la ciudad de Santiago de Cali, se procede a estimar los cuartiles para datos agrupados. (Esta tabla es equivalente a la Tabla 3.5). Tabla 4.1 Distribución de frecuencias para la presión sonora en el día (LD). Número Intervalos de Marca Datos por Datos acumula- Porcentaje de Porcentaje del ruido intervalo de de dos por datos acumulado de por de datos intervalo (X,-\" X,} ruido intervalo de (dB) clase ruido intervalo de ruido por k ni intervalo X¡' ¡ h¡=n;ln (%) de ruido (dB) N/=¿n¡ / /- 1 H¡=¿h¡(%) ¡- I 1 [50,54J 52 3 3 6 6 12 2 (54,58J 56 3 6 6 24 46 3 (58,62J 60 6 12 12 58 82 4 (62,66J 64 11 23 22 100 5 (66,70J 68 6 29 12 ..... 6 (70,74J 72 12 41 24 7 (74,78J 76 9 50 18 .... Tota/es ..... 50 ..... 100% ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 101
VIVIANA VARGAS FRANCO A partir de la tabla de distribución de frecuencias se utiliza la fórmula de la ecuación 4.11, para el cálculo de los cuartiles: • Primer cuartil Se encuentra en el cuarto intervalo, considerando que los datos hasta allí son menores o iguales que 46% y el tercer intervalo contiene el 24% de los datos, según la columna de frecuencia relativa acumulada. El primer cuartil es el valor que genera el 25% de los datos menores que él. Por lo tanto, se generan los siguientes valores: n = 50; k = 1; X3 = 62 dB; H3 = 24% = 0,24; h4 = 22% = 0,22; L = 4 Entonces: Q¡ = 62 + ( 0,250,-220,24) (4) = 62,2 dB Significa que e125% de los datos es menor que 62.2 dB Yel 75% de los datos supera este valor. • Segundo cuartil Se encuentra en el quinto intervalo, considerando que los datos hasta allí son menores o iguales que 58% y en el cuarto intervalo los datos son menores o iguales al 46%, según la columna de frecuencia relativa acumulada, presentándose los siguientes valores: n = 50; k = 2; X 4 = 66 dB; H4 = 46% = 0,46; hs = 12% = 0,12; L = 4 Entonces: Ql = 66 + ( 0,500,-120,46) (4) = 67,3 dB Es decir, el 50% de los datos es menor que 67,3 dB Y el 50% de los datos supera este valor. Coincide con el valor de la mediana. • Tercer cuartil Se encuentra en el sexto intervalo, pues los datos hasta allí son menores o iguales al 82%, según la columna de frecuencia relativa acumulada. Por lo tanto, se generan los siguientes valores: n = 50; k = 3; X s = 70 dB; Hs = 58% = 0,58; hó = 24% = 0,24; L = 4 Entonces: Q3 = 70 + (0,75 - 0,58) (4) = 72,8 dB 0,24 102 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS
CAPITULO 4 - MEDIDAS Y GRÁFICAS DE POSICiÓN Significa que el 75% de los datos es menor que 72,8 dB Ye125% de los datos supera este valor. 4.2 Deciles Los deciles son los valores que dividen el conjunto de datos, ordenados en forma creciente, en diez partes iguales. Existen nueve deciles que se denominan DI' D2J•••, D9' Cada decil representa el! 0% del total de los datos y entre dos deciles consecutivos se encuentra un 10% de los datos, tal como se presenta en la Figura 4.2. El cálculo de los deciles se puede realizar para variables no agrupadas y variables agrupadas. Datos ordenados en forma creciente Figura 4.2 Esquema gráfico de los valores deciles de una distribución. Deciles para datos sin agrupar, en este caso se deben ordenar los datos en orden creciente. Si se considera el conjunto de datos ordenados XI' X]' X]' •••••••••••• X\" _1 , X\" los deciles se pueden estimar a partir de la ecuación 4.13. X... si n es par (4.13) si n es impar ¡10 D= k Xk(It+I) 10 Donde k es el número del decil a calcular. Ejemplo 4.3 Para los datos del ejemplo 4.1, sobre la Demanda Química de Oxígeno (DQO) en el efluente de una planta de tratamiento anaeróbico para agua residual tipo UASB (Upflow Anaerobic Sludge Blanket): 110; 126; 135; 145; 152; 155; 160; 181; 191; 191; 200; 208; 216; 257; 260; 312; 315; 320 Y 320 (mg/l). Se calculan a continuación los deciles del conjunto de datos (n=19): DI =X I (II+I) =X] =126 mg / 1 10 ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 103
VIVIANA VARGAS FRANCO D 2 =X2 (fI+l) =X4 = 145 mg / I lO DJ =XJ(fI+l) =X6 =155 mg / I 10 D 4 =X4 (n+I)=Xa=181 mg/I lO =Ds X s(fI + 1) =X IO =191 mg / I 10 = = =D 6 X 6 (fI + 1) X 12 208 mg / I 10 D 7=X7(fI+l) =X14 = 257 mg / I 10 Da =Xa(fI+l) =X16 =312 mg / I lO D9 =X9(fI+l) =Xla =320 mg/I 10 El decil 3, DJ , significa que el 30% de los valores es menor que 155 mg/l y el 70% de los datos supera este valor. El decil5, D s, significa que el 50% de los datos es menor que 191 mg/l y el 50% de los datos supera este valor. El decil 9, D 9 , significa que el 90% de los datos es menor que 320 mg/l y el1 0% de los datos supera este valor. Decilespara datos agrupados: En este caso se considera que los datos están agrupados en una tabla de frecuencias y se debe ubicar el intervalo donde se encuentre cada uno de los deciles a estimar. Los deciles se pueden calcular a través de la ecuación 4.14, si se utilizan las frecuencias relativas, o con la ecuación 4.15, si se utilizan las frecuencias absolutas. =x.D + (O,lk-HI _ I ) (L) (4.14) h (4.15) k ,-1 I D =X + (knll0-N¡ _/ ) (L) k 1- / ni 104 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS
CAPITULO 4 - MEDIDAS Y GRÁFICAS DE POSICiÓN Donde: k : Valor del k-ésimo decil a ser calculado. (k = 1,2, 3, 4, ...., 9) X¡ _I : Límite inferior del intervalo que contiene el valor decil. n : Número de observaciones en el conjunto de datos. H¡ _I : Frecuencia relativa acumulada del intervalo anterior al que contiene el decil (sin porcentaje). h¡ : Frecuencia relativa del intervalo donde se encuentra el decil (sin porcentaje). N¡_ I : Frecuencia absoluta acumulada del intervalo anterior al que contiene el decil. n¡ : Frecuencia absoluta del intervalo donde se encuentra el decil. L : Longitud del intervalo donde se encuentra el decil. Ejemplo 4.4 Considerando los datos del ejemplo 3.2 y la tabla de distribución de frecuencias 4.1, donde se presentan las frecuencias de la variable nivel de presión sonora de ruido medido en decibeles (dB), para diferentes estaciones de la ciudad Santiago de Cali, en el día. Se calculan a continuación los deciles D¡, DsY D\", utilizando la ecuación 4.14. • Primer decil Se encuentra en el segundo intervalo, debido a que los datos hasta allí son menores o iguales al 12%, según la columna de frecuencia relativa acumulada y el primer decil es el valor que genera el 10% de los datos menores que él. Por lo tanto, se generan los siguientes valores: n = 50; k = 1; XI = 54 dB ; HI = 6% = 0,06; h } = 12% = 0,12; L = 4 Entonces: D =X + [0,1(l)-H¡J (L) h II 1 D = 54 + [ 0,1 - 0,06 J = 553 dB 1 0,12 ' Es decir, el 10% de los datos es menor que 55,3 dB Y el 90% de los datos supera este valor. ESTADIsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 105
VIVIANA VARGAS FRANCO • Quinto decil Se encuentra en el quinto intervalo, debido a que los datos hasta allí son menores o iguales al 58%, según la columna de frecuencia relativa acumulada y el quinto decil es el valor que genera el 50% de los datos menores que él. De esta manera se generan los siguientes valores: n = 50; k = 5; X 4 = 66 dB; H 4 = 46% = 0,46; h5 = 12% = 0,12; L = 4 Entonces: D =66+ (0,50-0,46) (4)=6~3dB 5 0,12 ' Es decir, el 50% de los datos es menor que 67,3 dB Y el 50% de los datos supera este valor. Coincide con el valor de la mediana. • Noveno decil Se encuentra en el séptimo intervalo, pues los datos hasta allí son menores o iguales al 100%, según la columna de frecuencia relativa acumulada, y el noveno decil es el valor que genera el 90% de los datos menores que él. Por lo tanto, se generan los siguientes valores: n = 50; k = 9; Xó = 74 dB; Hó = 82% = 0,82; h7 = 18% = 0,18; L = 4 Entonces: D = 74 + (0,9 - 0,82) (4) = 758 dB 9 0,18 ' Significa que el 90% de los datos es menor que 75,8 dB Yel 10% de los datos supera este valor. 4.3 Percentiles Los percentiles son aquellos valores que dividen los datos ordenados de forma creciente, en cien partes iguales. Existen noventa y nueve percentiles que se denotan por P¡, P2 , ....... oo. , P99 , donde cada percentil representa el 1% del total de los datos. El percentil 1, PI> supera el uno por ciento de los valores y es superado por el 99% de los datos restantes. El percentil 95, P95, supera el 95% de los datos y es superado por el 5% de los datos. Pk : Percentil k-ésimo, es aquel valor de la variable que deja a su izquierda el k% de la distribución. 106 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS
CAPITULO 4 - MEDIDAS Y GRÁFICAS DE POSICiÓN Percentiles para datos sin agrupar, en este caso se deben ordenar los datos en forma creciente. Si se considera el conjunto de datos ordenados XI' X 2 , X 3 , •••••••••••• X n _ l' X n , los percentiles se pueden calcular a través de la ecuación 4.16. x ... si n espar (4.16) ¡lOO si n es impar P= Ir XIr(If+J) 110 Donde k es el número del percentil a calcular. Ejemplo 4.5 Para los datos del ejemplo 4.1, sobre la Demanda Química de Oxígeno (DQO) en el efluente de una planta de tratamiento anaeróbico para agua residual tipo UASB (Upflow Anaerobic Sludge Blanket): Se calculan a continuación los percentiles 35, 80 Y 95. =P 35 =X35 (n+J) =X7 160 mg /1 100 Pao =Xao(n +l) =X16 = 312 mg /1 100 P95 =X95 (n+l) =X19 = 320 mg /1 10 El percentil 35, P35, significa que el 35% de los valores es menor que 160 mg/l y el 65% de los datos es mayor que este valor. El percentil 80, Pao, significa que el 80% de los datos es menor que 312 mg/l y el 20% es mayor que este valor. El percentil95, P95, significa que el 95% de los datos es menor que 320 mg/l y el 5% es mayor que este valor. Percentiles para datos agrupados. En este caso, se considera que los datos están agrupados en una tabla de frecuencias y se debe ubicar el intervalo donde se encuentre cada uno de los percentiles a estimar. Los percentiles se pueden calcular a través de la ecuación 4.17, si se utilizan las frecuencias relativas, o con la ecuación 4.18, si se utilizan las frecuencias absolutas. ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 107
VIVIANA VARGAS FRANCO P =x. + (0,01k-Hi _ l ) (L) (4.17) h,. k ,-1 P =X _ + (kn/100-N¡ 1) (L) (4.18) k i1 ni Donde: k : Valor del k-ésimo percentil a ser calculado. (k = 1,2,3,4,5, 6, 7, .... , 98,99) Xi - J : Límite inferior del intervalo que contiene el valor percentil. n : Número de observaciones. N i _ 1 : Frecuencia absoluta acumulada del intervalo anterior al que contiene el percentil. nk : Frecuencia absoluta del intervalo donde se encuentra el percentil. Hi _J : Frecuencia relativa acumulada del intervalo anterior al que contiene el percentil (sin porcentaje). hk : Frecuencia relativa del intervalo donde se encuentra el percentil (sin porcentaje). L : Longitud del intervalo donde se encuentra el percentil. Ejemplo 4.6 Considerando los datos del ejemplo 3.2 y la tabla de distribución de frecuencias 4.1, donde se presentan las frecuencias de la variable nivel de presión sonora de ruido medido en decibeles (dE), para diferentes estaciones de la ciudad de Santiago de Cali, en el día. Se calculan a continuación los percentiles 25, 80 Y 95, utilizando la ecuación 4.17. • Percentil 25 Se encuentra en el cuarto intervalo, debido a que los datos hasta allí son menores o iguales al 46%, según la columna de frecuencia relativa acumulada y el percentil 25 es el valor que genera el 25% de los datos menores que él, lo cual genera los siguientes valores: n = 50; k = 25; X 3=62 dB; H3 = 24% = 0,24; h4 = 22% = 0,22; L = 4 108 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS
CAPrTULO 4 - MEDIDAS Y GRÁFICAS DE POSICiÓN Entonces: ( 0,25 - 0,24 ) P15 = 62 + 0,22 ( 4 ) = 62,2 dB Es decir, el 25% de los datos es menor que 62,2 dB Y el 75% de los datos supera este valor. • Percentil 80 Se encuentra en el sexto intervalo, debido a que los datos hasta allí son menores o iguales al 82%, según la columna de frecuencia relativa acumulada. De esta manera se generan los siguientes valores: n = 50; k = 80; X5 = 70 dB; H5 = 58% = 0,58; h5 = 24% = 0,24; L = 4 Entonces: ( 0,80 - 0,58 ) Pao = 70 + 0,24 ( 4) = 73,7 dB Es decir, el 80% de los datos es menor que 73,7 dB Yel 20% supera este valor. • Percentil 95 Se encuentra en el séptimo intervalo, pues los datos hasta allí son menores o iguales al 100%, según la columna de frecuencia relativa acumulada. De esta manera se generan los siguientes valores: n = 50; k = 90; Xó = 74 dB ; Hó = 82% = 0,82; h 7= 18% = 0,18; L = 4 Entonces: ( 0,95 - 0,82 ) (4)= 76,9dB P95 =74+ 0,18 Significa que el 95% de los datos es menor que 76,9 dB Yel 5% supera este valor. También existen los quintiles que dividen el conjunto de datos en cinco partes iguales; existen cuatro quintiles que se pueden denominar k l , k], k j Y k\". En teoría, los percentiles 25%, 50% Y75% son el primero, segundo y tercer cuartil, respectivamente. Así mismo, los percentiles P/O ' p]O ' PjO, P\"o , Pso , Póo, P70, Pao Y P90 corresponden a cada uno de los deciles DI ' D] , D j , Do Ds, Dó, D7 , DaY D9, respectivamente. Tal como se presenta a continuación: PJO = DI ; P10 = Dl ; P30= Dj Yasí sucesivamente hasta P90 = D9 Y ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 109
VI VI ANA VARGAS FRANCO P2S= Q¡ ; P SO=Q2= DS y P 7S= QJ 4.4 Medidas de dispersión para indicadores de posición Algunas medidas de dispersión para las medidas de posición se relacionan a continuación. Éstas permiten representar, en forma gráfica, las medidas de posición y comprender la dispersión del conjunto de datos a través de los intervalos inter- cuartil, inter-decil, inter-percentil y semirrecorrido inter-cuartil, tal como se presenta en las ecuaciones 4.19, 4.20, 4.21 Y4.22, respectivamente. Intervalo o recorrido ;nter-cuartil (4.19) (4.20) Ra=R1C=QJ-Q¡ (4.21) (4.22) Este intervalo contiene el 50% de los datos analizados Intervalo o recorrido ;nter-decil RD=D9-D¡ Este intervalo contiene el 80% de los datos analizados Intervalo o recorrido ;nter-percentiJ RC=P99- P¡ Este intervalo contiene el 99% de los datos analizados Sem;rrecorr;do ;nter-cuartil SRa = QJ- Q¡ 2 4.5 Representación gráfica de las medidas de posición 4.5.1 Diagramas de cajas y alambres Este diagrama constituye una buena síntesis de la distribución de frecuencias y su sencillez lo hace muy útil, sobre todo en aquellas situaciones donde es necesario comparar dos o más distribuciones (poblaciones o tratamientos). Los diagramas de cajas y alambres (boxplots o box and whiskers), muestran cómo se distribuyen los datos, de tal forma que proporcionan información acerca de la localización, la dispersión, el sesgo y las colas del conjunto de datos, que se pueden apreciar en un solo gráfico. 110 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS
CAPfTULO 4 - MEDIDAS Y GRÁFICAS DE POSICiÓN Este diagrama ha sido un aporte fundamental realizado por Tukey (1977). Es un gráfico simple debido a que se realiza con cinco números y se observan en forma clara la distribución de los datos y sus principales características. Los diagramas de cajas y alambres son útiles para diversos fines, entre los objetivos de estos se destacan : • Identificar los datos alrededor de la mediana • Tener idea de la dispersión de los datos, basándose en la longitud de la caja (rango intercuartílico), pues la caja corresponde al 50% de los datos que están en la parte central. Además, se aprecia el rango de los datos que corresponde a la distancia entre las observaciones más extremas. • Permitir conocer el grado de asimetría de una distribución, al comparar la proporción de la caja que queda a la izquierda de la mediana con la que queda a la derecha, igualmente la longitud de los alambres respectivos. • El diagrama es útil para identificar posibles outliers (datos fuera de lo común) a través de los cercos internos pero dentro de los externos y outliers fuera de los cercos externos. • Permitir comparar varias poblaciones a través de sus distribuciones. En este caso se construye un diagrama para cada distribución y se dibujan en una misma escala (sobre un mismo plano), lo cual permite fácilmente hacerse una idea de las semejanzas y las diferencias de los rasgos más importantes de las distribuciones. Similarmente se pueden comparar diversas variables para una misma población. Existen dos opciones para graficar el diagrama de cajas y alambres : uno general y otro identificando valores extremos y outliers. Diagrama general. Se basa en el valor mínimo, los cuartiles (Q/> Q2 y Q3) y el valor máximo. Los pasos para construirlo se presentan a continuación: • Dibujar y marcar un eje de medida horizontal o vertical. • Construir una caja (rectángulo), con ancho arbitrario (el ancho no tiene representación estadística alguna), cuyo borde izquierdo (inferior) sea el valor del primer cuartil y el borde derecho (superior) sea el valor del segundo cuartil. • Construir una segunda caja a partir del límite derecho (superior) de la primera caja, hasta el valor del tercer cuartil. ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 111
VIVIANA VARGAS FRANCO • Dibujar un primer segmento de recta (bigote) desde el valor mínimo hasta el borde izquierdo (inferior) del primer rectángulo. • Dibujar un segundo segmento de recta (bigote) desde el borde derecho (superior) del segundo rectángulo hasta el valor máximo del conjunto de datos. Siguiendo los pasos anteriores se construye el diagrama general de cajas y alambres para un conjunto de datos, el cual se puede presentar de forma horizontal o vertical, tal como se observa en la Figura 4.3. El bigote de la izquierda (inferior) representa el 25% de los valores entre el valor mínimo y el primer cuartil, Q¡; la primera caja corresponde al 25% de los datos, los cuales se encuentran entre Q¡ y Q2; la segunda caja corresponde al 25% de los datos, los cuales se encuentran entre Q2 y Q3' El bigote de la derecha (superior) viene dado por los datos que se encuentran entre Q3 y el valor máximo del conjunto de datos. - \",4x. -Q3 - M. =Qz mín. Q¡ Qz = M. Q] máx. -Q¡ -mín. II I I (a) (b) Figura 4.3 Diagrama general de cajas y alambres en un eje vertical (a) y un eje horizontal (b). La interpretación del diagrama de cajas se presenta a continuación: • La longitud de la caja refleja el grado de dispersión de los datos. A mayor longitud, mayor dispersión. Ahí se encuentra el 50% de los datos. • La línea que divide la caja principal es el valor de la mediana. Si ésta se encuentra en el punto medio de la caja o cercano a éste, indica simetría de los datos con relación a la mediana. También indica homogeneidad en la distribución de los datos. 112 ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS
CAPrTULO 4 - MEDIDAS Y GRÁFICAS DE POSICiÓN • La dispersión está dada tanto por la longitud de la caja, como por la distancia entre los extremos de los bigotes. • El sesgo se observa en la desviación que exista entre la línea de la mediana en relación con el centro de la caja, y también la relación entre las longitudes de los bigotes. • Las colas de la distribución se pueden apreciar por la longitud de los bigotes en cuanto a la altura de la caja, y también por las observaciones que se marcan explícitamente. Ejemplo 4. 7 Considerando el ejemplo 4.1 sobre los datos de Demanda Química de Oxígeno (DQO) en mg/l, en el efluente de una planta de tratamiento anaeróbico para agua residual tipo UASB (Upflow Anaerobic Sludge Blanket): 110; 126; 135; 145; 152; 155; 160; 181; 191; 191; 200; 208; 216; 257; 260; 312; 315; 320 y 320 (mg/l). Se desarrolla el diagrama de cajas y alambres con base en los valores de los cuartiles: QJ=153,5 mg/l, Ql=191 mg/l, Q3=258,5 mg/I Considerando el valor mínimo 110 mg/l y el valor máximo 320 mg/l, se construye en la Figura 4.4 el diagrama de cajas y alambres. :l_ : '::lf·¡::I~,·. • !( I I I II 110 153,5 191 258,5 320 Xmín Q¡ Qz QJ Xmáx Niveles de DQO (mg/I) Figura 4.4 Diagrama de cajas y alambres para los datos de DQO en una planta de tratamiento UASB. Considerando que en cada cuartil se encuentra e125% de los datos, se puede analizar que la distribución es asimétrica en relación con la mediana, así mismo, que existe menor dispersión en el intervalo (153,5; 191) mgll que en el intervalo (191; 258,5) mgll. El bigote de la izquierda presenta menor longitud que el bigote de la derecha, evidenciando que por debajo del valor de la mediana; 191 mgll, el conjunto de datos presenta menor nivel de variación que por encima de este valor. ESTADrSTICA DESCRIPTIVA PARA INGENIERrA AMBIENTAL CON SPSS 113
VIVIANA VARGAS FRANCO Diagrama con puntos extremos. En este caso se realizan las cajas como en el caso del diagrama general, adicionando los límites generados por cercos internos y externos, utilizando las siguifntes expresiones: cerco interno inferior ~ QJ-1.5*RlC cerco interno superior ~ Q3+ 1.5*RlC cerco externo inferior ~ QJ-3*RlC cerco externo superior ~ Q3 +3*RlC Donde RlC = QJ- Q2 es el rango intercuartílico que corresponde a la longitud de la caja, es decir, donde se encuentra el 50% de las observaciones analizadas. Se deben prolongar líneas rectas desde los bordes de las cajas, QJ y Q3' identificando los límites a una distancia de 1,5*RlC (cerco interno) y a una distancia de 3*RlC (cerco externo). Los puntos que se encuentren entre las distancias 1,5*RlC y 3*RlC se deben marcar con círculos abiertos, \"o\", y significan puntos inusuales suaves o puntos extremos. Los puntos que se encuentren por encima de una distancia de 3*RIC son puntos atípicos o que se salen de la tendencia general de los datos, a estos puntos generalmente se les llama \"outliers\" o puntos raros y se marcan con \"*\". Si no hay datos en esta región se considera que no hay puntos outliers en el conjunto de datos. La representación de este diagrama de cajas y alambres se ilustra en la Figura 4.5. * Puntos raros u \"outliers\" * o* - - 3RlC o Puntos extremos o _ 1,5RlC -QJ} _ Ql 50 % de datos -Q/ o- 1,5RlC Puntos extremos O 3RIC O Puntos raros u \"outliers\" * ** Figura 4.5 Representación del diagrama de cajas y alambres con datos extremos. 114 ESTAOfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS
CAPiTULO 4 - MEDIDAS Y GRÁFICAS DE POSICiÓN La interpretación en este caso es similar al diagrama general de cajas y alambres, pero se deben tener las siguientes consideraciones: • Si hay valores extremos por debajo o por encima de la caja, se presenta una mayor dispersión en el conjunto de datos. • Cuando hay valores extremos, la media aritmética no es representativa. • Los puntos outliers deben analizarse cuidadosamente, con el fin de tomar decisiones en relación con ellos. Ejemplo 4.8 Se tienen los datos de precipitación anual (mm) registrada desde 1994 hasta el 2002, en el municipio de Morales-Cauca, tal como se presenta en la Tabla 4.2. Se desea comparar, mediante un diagrama de cajas y alambres con valores extremos, la precipitación de los meses de julio y octubre a través de los años analizados. Tabla 4.2 Precipitación (mm) anual registrada en el municipio de Morales, departamento del Cauca, desde 1994 al 2002. ~ En. Feb Mlr Abr Jun Jul Al' 5., Oct Nov Die 89,5 92,5 100,5 115,3 158,9 99,4 97,8 1994 63,5 70,4 160,5 101 1995 58,4 78,3 168,9 110 95,6 80.7 115,2 120,3 166,2 103 89.7 1996 60,2 80,1 152,3 108 102 89,6 97,3 109,4 171,3 96,5 80,4 1997 70,2 70,4 156,3 112 98,4 86,9 103,3 110,3 169,2 97,5 86,3 1998 98,2 78,2 159.7 106 90,1 90,6 105,8 114,5 160,5 89,3 94,2 1999 57,3 69,8 148,9 98.7 85,6 79,4 95,4 100,2 149.7 90,1 85,2 2000 68,2 75,6 158,9 112 98,9 88,1 108,4 109,8 168,4 86,3 79,8 2001 59,8 71.2 160,2 105 88,5 83.7 104,2 118,2 170,2 90,4 86,3 2002 68,1 73,2 156.7 110 96,8 91.7 107,9 111,8 165,9 94.7 95,8 Precipitación en el mes de julio Con base en las ecuaciones 4.1 a 4.5 se calculan los cuartiles, el RlC y los cercos internos y externos: Q¡=X3 = 83,7 mm, Q2=XS = 88,1 mm y Q3=X7 = 90,6 mm RlC= Q3 - Q¡ = 6,9 mm ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 115
VIVIANA VARGAS FRANCO Cerco interno inferior: QJ -1,5* RlC= 83,7 -10,4 = 73,3 mm Cerco interno superior: QJ + 1,5* RlC= 90,6 + 10,4 = 101 mm Cerco exterior inferior: QJ - 3* RlC= 83,7- 20,7 = 63 mm Cerco exterior superior: QJ + 3* RlC= 90,6 + 20,7= 111,3 mm Precipitación en el mes de octubre QJ= 160,5 mm , Q2 =166,2 mm y Q3 =169,2 mm RlC= Q3 - QJ =8,7 mm Cerco interno inferior: QJ -1,5* RlC= 160,5 -13,1 =147,4 mm Cerco interno superior: Q, + 1,5* RlC= 169,2 + 13,1 =182,3 mm Cerco exterior inferior: Q, - 3* RlC= 160,5 - 26,1 =134,4 mm Cerco exterior superior: Q, - 3* RlC= 169,2 - 26,1 =195,3 mm Como se puede apreciar en la Figura 4.6, no existen valores extremos ni puntos outliers en la precipitación de los meses de julio y octubre. Se puede analizar que existe mayor precipitación en el mes de octubre que en el mes de julio. Las dos distribuciones presentan ligera asimetría en relación con la mediana, considerando que la longitud de las cajas no es similar. La precipitación enjulio es mucho menor que en octubre. 116 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS
CAPfTULO 4 - MEDIDAS Y GRÁFICAS DE POSICiÓN 200 195.3 150 182,3 ,......, 169.2 ª'-' 166,2 160.5 Q 147,4 'O ' (3 100 134.4 :..'&.\".. 111 .3 eU !101 p., 90,6 50 88.1 83,7 73.3 63 Julio Octubre Meses Figura 4.6 Diagramas de cajas y alambres para la precipitación mensual del municipio de Morales- Cauca, en los meses de julio y octubre, durante los años 1994 a 2002. ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 117
VIVIANA VARGAS FRANCO Ejemplo 4.9 Considerando los datos de precipitación anual (mm) registrada en los años de 1994 hasta el 2002, en el municipio de Morales-Cauca, se desea comparar, mediante un diagrama de cajas y alambres con valores extremos, la precipitación de los años 1994 y 2002. Precipitación en el año 1994: 63,5 70,4 89,5 92,5 97,8 99,4 100,5 101 115,3 158,9 n;. Como n =11Y 1 = 6, par, entonces se utilizan las fórmulas 4,1,4,2Y 4,3 para el cálculo de los cuartiles. Q¡ = 0,5X3+ 0,5X4=0,5( 89,5) + 0,5( 92,5) = 91 mm Q2 =X6 = 99,4 mm Q3 = 0,5Xa + 0,5X9 =0,5( 101) + 0,5( 115,3) = 108,2 mm RlC= Q3 - Q¡ = 17,2 mm Cerco interno inferior: Q¡ -1,5* Rle= 91- 25,8 = 65,2 mm Cerco interno superior: Q¡ + 1,5* Rle= 108,2 + 25,8 = 134 mm Cerco exterior inferior: Q, - 3* Rle= 91- 51,6 = 39,4 mm Cerco exterior superior: Q, + 3* Rle= 108,2 + 51,6 = 159,8 mm Precipitación en el año de 2002: 68,1 73,2 91,7 94,7 95,8 96,8 110 107,9111,8 156,7 165,9 Como n = 11 Y n + 1 = 6, par, se utilizan las fórmulas 4.1, 4.2 Y 4.3. 2 Q¡ = 0,5X3 + 0,5X4 =0,5( 91,7) + 0,5( 94,7) = 93,2 mm Q2=X6 = 96,8 mm Q3 = 0,5Xa + 0,5X9 =0,5( 107,9) + 0,5( 111,8) = 109,9 mm Rle= Q3 - Q¡ =16,7 mm Cerco interno inferior: Q¡ -1,5* Rle= 93,2 - 25,1 = 68,1 mm Cerco interno superior: Q3+ 1,5* Rle= 109,9 + 25,1 = 135 mm 118 ESTAD ISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS
CAPITULO 4 - MEOIDAS y GRÁFICAS DE POSICiÓN Cerco exterior inferior: Q¡- 3* RlC= 93,2 - 50,1 = 43,1 mm Cerco exterior superior: Q3 + 3* RlC= 108,2 - 50,1 =158,3 mm Como se puede apreciar en la Figura 4.7, no existen diferencias marcadas en la precipitación de los años 1994 y 2002, pero en el año 2002 se presentó un punto atípico o \"outlier \", con valor de 165,9 mm. Precipitación o \\65 ,9 (mm) \\ 58,3 \\ 59,8 \\35 \\34 \\ 09,9 08 ,2 96,8 99,4 93,2 9\\ 68, \\ 65,2 43 ,\\ 39,4 1994 2002 Años Figura 4.7 Diagramas de cajas y alambres para la precipitación mensual del municipio de Morales- Cauca, para los años de 1994 y 2002. ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 119
VIVIANA VARGAS FRANCO 4.5.2 Diagrama de tallos y hojas También denominado diagrama de Tukey, es un procedimiento semigráfico para presentar información en variables cuantitativas; es una forma rápida de obtener una representación visual del conjunto de datos a través de su recuento y ordenación. En términos generales, se puede decir que los diagramas de tallos y hojas, además de ser fáciles de elaborar, presentan más información que los histogramas, teniendo solo como limitación que no muestran las frecuencias, aunque se pueden desarrollar en columnas anexas al diagrama. Los pasos para construirlo son los siguientes: • Se deben seleccionar uno o dos dígitos iniciales de la variable de análisis, para los valores de tallo y el dígito o dígitos finales se convierten en hojas. • Luego se hace una lista de los valores de tallo en una columna vertical (entre 5 y 20 tallos). • Se procede a registrar la hoja por cada observación junto al valor correspondiente al tallo. • Finalmente se indican las unidades de tallos y hojas en algún lugar del diagrama. El diagrama de tallos y hojas permite visualizar: • El centro de la distribución. • La forma general de la distribución: simétrica si las porciones a cada lado del centro son imágenes espejos de las otras; sesgada a la izquierda si la cola izquierda (los valores menores) es mucho más larga que los de la derecha (los valores mayores) y sesgada a la derecha opuesto a la sesgada a la izquierda. • Desviaciones marcadas de la forma global de la distribución. • La forma de comparar dos distribuciones en forma simultánea. Ejemplo 4.10 Considerando los datos de precipitación anual (mm) registrada en los años 1994 a 2002 en el municipio de Morales-Cauca, presentados en la tabla 4.2, se realiza a continuación el diagrama de tallos y hojas para la precipitación del mes de enero y del mes de octubre, durante los años 1994 a 2002. Precipitación en el mes de enero: 63,5 58,4 60,2 70,2 98,2 57,3 68,2 59,8 68,1 (mm) 120 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS
CAPITULO 4 - MEDIDAS Y GRÁFICAS DE POSICiÓN Estos datos transformados a números enteros quedan como: 635584602702 982573682598681. En este caso es conveniente escoger el primer número como el tallo y los dos últimos términos como las hojas. El diagrama de tallos y hojas se presenta a continuación: Enero 98 82 81 Tallos Hojas (n=9) 5 73 84 6 02 35 7 02 8 9 82 Como se puede apreciar, las mayores frecuencias de precipitación para el mes de enero se presentan en los rangos de 50 mm y 60 mm, muy poca frecuencia en los rangos de 70 mm a 90 mm. Precipitación en el mes de octubre: 158,9166,2171,3 1 6 9 , 2 1 6 0 , 5 1 4 9, 7 1 6 8 , 4 1 7 0 , 2 1 6 5 , 9 ( m m ) Estos datos transformados a números enteros quedan como: 1589 1662 1713 16921605 1497 1684 17021659. En este caso es conveniente escoger los dos primeros términos como el tallo y los dos últimos términos como la hoja, tal como se presenta a continuación: Octubre Tallos Hojas (n = 9) 14 97 15 89 16 05 59 62 84 92 17 02 13 Como se puede apreciar, las mayores frecuencias para el mes de octubre se presentan alrededor de 160 mm y muy pocas frecuencias entre 140mm y 150mm. Otra ventaja de los diagramas de tallos y hojas consiste en la comparación de dos distribuciones, tal como se presenta en el siguiente ejemplo. ESTADISTICA DESCRIPTIVA PARA ING ENIERfA AMBIENTAL CON SPSS 121
VIVIANA VARGAS FRANCO Ejemplo 4.11 Mediante un diagrama de tallos y hojas, comparar la distribución de la precipitación de los años 1995 y 2000, indicados en la Tabla 4.2. A continuación se presentan los datos transformados: Año 1995: 584783168911009568071152120316621030897 (mm) Año 2000: 682 75615891120989881108410981684863798 (mm) Generando el siguiente diagrama: Año 1995 Tal/os Año 2000 Hojas Hojas 84 5 6 82 83 7 5698 9707 8 6381 9 89 56 10 8498 3000 11 20 12 52 15 89 03 16 84 8962 Como se puede apreciar, las distribuciones de precipitación de los años 1995 y 2000 no presentan grandes diferencias, concentrándose las mayores frecuencias entre 70 mm y 110 mm. 122 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS
Modelos de regresión Cuando se realizan estudios que involucran varias variables, evaluadas simultáneamente para cumplir un objetivo específico, se puede analizar la relación inherente a ellas. Definir relaciones que posibiliten predecir una o más variables en términos de otras es uno de los objetivos fundamentales de muchas investigaciones, lo cual se puede abordar a través de las técnicas estadísticas de modelos de regresión. Los modelos de regresión se usan para estimar \"la mejor\" relación funcional entre una variable dependiente y una o varias variables independientes, mientras que los métodos de correlación se utilizan para medir el grado de asociación de las distintas variables. El término \"regresión\" fue definido por Francis Galton (1822-1911), en su libro Natural inheritance (1889), refiriéndose a la \"ley de la regresión universal\". Él estudió la eugénica, término también introducido por él para definir el estudio de la mejora de la raza humana a partir de las características hereditarias. Galton estudió la altura de los hijos en relación con la altura de sus padres, y probó que la altura de los hijos, de padres altos, \"regresaba\" hacia la media de la altura de la población a lo largo de sucesivas generaciones. Esto es, hijos de padres demasiado altos tendían a ser en promedio más bajos que sus padres, e hijos de padres muy bajos tendían a ser en promedio más altos que sus padres. ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 123
VIVIANA VARGAS FRANCO Así mismo, se realizó un estudio con más de mil registros de grupos familiares y se encontró la relación que se presenta en la ecuación 5.1, que permite estimar la altura media del hijo a partir de la altura del padre. Altura del hijo =85 (cm) + (0,5)* altura del padre (cm) (5.1) y=a+bx Por ejemplo, si el padre mide 2,0 m = 200 cm, entonces se desea estimar la estatura media de su hijo, es decir, cuánto vale y = ?, para un valor x =200 cm, reemplazando en la ecuación 5.1 se obtiene: y = 85 + 0,5( 200) =185 cm Entonces, se espera que el hijo mida 185 cm = 1,85 m, es decir alto, pero no tanto como el padre. El valor tiende a regresar a la media. Si el padre mide 1,2 m = 120 cm, entonces se desea estimar qué se espera de la estatura de su hijo: y =85 + 0,5( 120 ) =145 cm En este caso, se espera que el hijo mida 1,45 m, es decir bajo, pero no tanto como el padre. El valor tiende a regresar a la media. Actualmente el término regresión se utiliza para predecir una variable en función de otra, y no implica que se esté estudiando si se produce una regresión a la media. El aspecto estadístico de la regresión consiste en lograr una estimación funcional de la relación entre dos o más variables. En este proceso es necesario identificar una variable independiente o de respuesta, y, la cual no es controlada en el estudio; los valores de esta variable dependen de una o más variables independientes o de regresión, que se denominan x\" x], x3 , •• •••••, x n. Estas variables independientes o de regresión no son aleatorias y no tienen propiedades poblacionales. La variable y puede ser de carácter cuantitativo o dicotómico (aquella que sólo admite dos categorías que definen opciones o características mutuamente excluyentes: sí o no). En el primer caso se habla del modelo de regresión lineal y en el segundo caso del modelo de regresión logística. La diferencia fundamental entre el modelo de regresión lineal y de regresión logística es que el primero predice el valor medio de la variable dependiente (y) a partir de una o más variables independientes; mientras que el segundo permite predecir la proporción de una 124 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS
CAPITULO 5 - MODELOS DE REGRESiÓN de las dos categorías de la variable dependiente dicotómica, en función de una o más variables independientes. En el caso del modelo de regresión lineal, la relación entre dos variables cuantitativas, una dependiente y una independiente, se denomina regresión simple y cuando se trabaja una variable dependiente en función de varias variables independientes, se denomina modelo de regresión múltiple, tal como se presenta en la Figura 5.1. Modelo de regralóa I I Simple I!I Una variable independiente x Múldple Varias variables independientes Una variable dependiente: y x\"xz,···,x\" • Una variable dependiente: y • Lineal No lineal Lineal No lineal Figura 5.1. Clasificación de modelos de regresión La relación fija para un conjunto de datos de un estudio, se caracteriza por una ecuación de predicción que recibe el nombre de ecuación de regresión o modelo probabilístico, en contraposición de un modelo determinístico. Un modelo se denomina determinístico cuando el valor de y es único para un único valor de x. Es decir, dado un valor de entrada se obtiene un único valor de salida cada vez que se opere el modelo, mientras que en un modelo estocástico o probabilístico que incluye una o varias componentes probabilísticas, para un valor de entrada se obtiene una respuesta diferente cada vez que se opere el modelo, tal como se muestra en la Figura 5.2. El modelo determinístico genera una relación de causa-efecto, mientras que el modelo estocástico no necesariamente. Modelo ~ Entrada Modelo -'\" Entrada ~ determinístico estocástico Única Posibles salida . salidas (n respuestas) ~ (a) (b) Figura 5.2. Esquema operativo de un modelo determinístico (a) y un modelo estocástico (b). ESTADfsTICA DESCRIPTIVA PARA INGENIER fA AMBIENTAL CON SPSS 125
VIVIANA VARGAS FRANCO Algunos ejemplos de modelos determinísticos son: la ecuación del balance hidrológico, la fórmula racional y el hidrograma unitario, y algunos ejemplos de modelos estocásticos son: series de lluvias, series de caudales, niveles de embalses y eventos extremos. La Figura 5.3 presenta el ejemplo de una ecuación determinística correspondiente al balance de agua en un embalse (a) y un ejemplo de un modelo estocástico, que estima la remoción en un sistema de tratamiento de agua por Filtración Lenta en Arena (FLA) (h). Et Evapotranspiración Caudales de entrada EMBALSE Qv Excesos dS Suministro Cambio en almacenamiento Q P Precipitación Infiltración F BALANCE: 1+ P = Et + F + Qv + Q + dS a) Esquema de un modelo determinístico. Balance de agua en un embalse Ag Ul1 F.L.A. atl lente ,- -. ¡.... Posibles valores en el agua ••• agua etluente arena Agua efluente = J30+J3¡agua afluente + Error b) Esquema de un modelo estocástico. Estudio de la eficiencia de unfiltro lento en arena (FLA) Figura 5.3. Ejemplos físicos de un modelo determinístico (a) y un modelo probabilístico (b). 126 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS
CAPfTULO 5 - MODELOS DE REGRESiÓN 5.1 Modelo de regresión lineal simple El análisis de regresión lineal simple se realiza cuando se pretende explicar una variable dependiente, y , cuantitativa, en función de una variable independiente, x, cuantitativa. Este modelo permite estimar la función lineal matemática entre x y y, con el fin de hallar la estimación media de y, a partir de valores de x, tal como se presenta en la ecuación 5.2. (5.2) Donde: Y¡ : Valores de la variable de respuesta o dependiente. Genera un vector fila transpuesto de dimensión (n x 1): [Y¡'Y]'Y3' .......'YnlT x¡ Valores de la variable independiente. Genera un vector fila transpuesto de dimensión (n x 1) : [x¡, x]' x3 , •••••••, xnlT }Jo Valor poblacional desconocido, el cual se estima a través del conjunto de datos. Es el valor de y cuando la variable x toma el valor de O. Punto de corte con el ejey }J, Valor poblacional desconocido, el cual se estima a través del conjunto de datos. Es el valor de la pendiente de la recta. E¡ Error aleatorio. Genera un vector de dimensión (n x 1) : [E\" E], E3 , ......., EnlT Los errores aleatorios, E¡ , son valores no observables, en estos se pueden recoger los posibles errores de medida, tanto de la variable x como de la variable y, así como los errores en la especificación lineal del modelo y que pueden afectar a la variable dependiente del modelo. Los coeficientes poblacionales de correlación}Jo y }J, se estiman con los datos muestrales del estudio generando los valores de a y b respectivamente, como se presenta a continuación: ¡ ....--- Modelo poblacional Estimación de parámetros y=a+bx Modelo muestral ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 127
VIVIANA VARGAS FRANCO La predicción de y se realiza a través de valores promedios o valores esperados; a través de la ecuación 5.3 se puede estimar el valor promedio de y para un valor específico de x . I'xIy = E (y / x) = E ( Y) = y = a + bx (5.3) Donde: I'ylx = E (y / x) = E ( Y) es la esperanza de y. A partir de la ecuación 5.3 los errores se pueden calcular como e¡ =!y¡ - y¡!; es la diferencia entre el valor muestral y y el valor estimado de la línea de regresión, y. Existen dos formas de estimar los coeficientes del modelo de regresión (a y b): el método de los mínimos cuadrados y el método de máxima verosimilitud. El método de los mínimos cuadrados consiste en estimar los coeficientes de regresión, de tal forma que se minimicen las distancias de los puntos muestrales a la recta estimada, como se ilustra en la Figura 5.4. El método de máxima verosimilitud consiste en hallar un modelo matemático o función de verosimilitud con los datos, de tal forma que maximice la probabilidad de los parámetros del modelo. Variable y y= a +bx Variable x Figura 5.4 Esquema gráfico del método de mínimos cuadrados. 128 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS
CAPITULO 5 - MODELOS DE REGRESiÓN En general, la técnica más utilizada es la de mínimos cuadrados, que consiste en un método de ajuste de curvas, sugerido originalmente a principios del siglo XIX por el matemático francés Adrien Legendre (1752-1833). Tal como se presentó anteriormente, el método de los mínimos cuadrados consiste en hallar los valores de los parámetros del modelo de regresión, a partir de minimizar la suma total de residuos o errores aleatorios generados por la estimación de la línea de regresión, como se muestra en la ecuación 5.4 . ¿ ¿ ¿ft n ft eJ = (YI- y¡i = (YI- a - bx¡i (5.4) 1- / ¡ - / 1- / Para obtener los mínimos de la ecuación 5.4 se deben encontrar primero las derivadas parciales con respecto de a y b, tal como se presenta en las ecuaciones 5.5 y 5.6, respectivamente. (5.5) (5.6) Seguidamente se igualan a cero las dos ecuaciones anteriores; generando las expreSlOnes: ¿- 2 (y¡ - a - bx¡i =O -2 ¿x¡(y,-a-bx,i= O Aplicando propiedades del operador sumatoria, se obtienen las expresiones: ¿ ¿ ¿Y¡ - a - b x¡ =O ¿ ¿x¡Y¡- a ¿x¡-b x/=O ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 129
VIVIANA VARGAS FRANCO Realizando operaciones algebraicas, se genera el sistema de ecuaciones 5.7, denominado sistema de ecuaciones normales de la regresión, el cual es un sistema de dos ecuaciones con dos incógnitas: a y b. na+b ¿\"x¡=¿\"y¡ (5.7) ¡ - 1 ¡- I ¿a ¿\"x;+ b \" x/ =¿\"x¡y¡ ¡- 1 ;- 1 ;- 1 Utilizando alguno de los métodos para resolver sistemas de ecuaciones lineales, se obtiene el valor de b a través de la ecuación 5.8. LXi)\" \" \" n (¿x;y¡) - ( (¿y;) b=; \" ;¡ (5.8) \" n (¿x/) - ( ¿xli ¡; Una vez calculado b se puede despejar de alguna de las ecuaciones del sistema 5.7 el valor de a, generando la ecuación 5.9. \" ¡- b L\"Xi ¿YI b ¿ x1 ¿y n =y-bx a = _ _---'---1-=----1_....:....1-....:....1_ nn (5.9) Es decir, los coeficientes poblacionales'po y.PI se estiman a través de los datos muestrales, por el método de los mínimos cuadrados, con las ecuaciones 5.8 y 5.9. Primero se debe calcular el coeficiente b y luego el coeficiente a. a es el punto de corte con el eje y; es el valor de la variable x, cuando y = OYb es la pendiente de la recta; es la razón media de cambio de y por cada unidad de cambio en x. En la actualidad el cálculo de estas constantes se puede realizar de forma ágil utilizando diferente tipo de software y estimar diversos modelos para un estudio en particular. De manera similar, se pueden hallar los coeficientes de regresión de un modelo de regresión, con los parámetros en forma lineal, realizando las derivadas parciales, encontrando y solucionando el sistema de ecuaciones normales respectivo. 130 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS
CAPITULO 5 - MOOELOS OE REGRESiÓN 5.2 Supuestos del modelo de regresión lineal simple Para obtener los estimadores de los parámetros desconocidos del modelo de regresión lineal simple se debe cumplir un conjunto de supuestos, para el uso adecuado e interpretación del modelo de regresión. Algunos de estos supuestos se requieren para el análisis de inferencia de los parámetros, el cual no se desarrolla en el presente texto. Los supuestos se presentan a continuación: • El modelo es lineal en las variables y en los parámetros Las variables independiente y dependiente que se analizan en el modelo se deben encontrar en forma lineal, en la primera descripción del modelo o a través de un proceso de transformación, y los parámetros o coeficientes de regresión asociados a dichas variables también deben aparecer en forma lineal. Este supuesto es fundamental, puesto que las técnicas estadísticas son diferentes para modelos lineales que para modelos no lineales. Por ejemplo, el modelo y =.Po +.P¡X + e es lineal en sus variables y en sus coeficientes de regresión, mientras que el modelo y =.P~I + e no es lineal en la variable independiente, pero lo es en sus parámetros. Sin embargo, este modelo se puede transformar en un modelo lineal, como se presentara más adelante en este capítulo. • El modelo está correctamente definido Este supuesto implica que se han incluido las variables explicativas o independientes adecuadas dentro del modelo de regresión. Además no se deben haber omitido variables independientes relevantes para explicar la variable dependiente, y la relación matemática debe permanecer en el período muestral, lo cual implica que los coeficientes de regresión son constantes. • Variable independiente no estocástica Los valores de la variable x son fijos para muestras repetidas, x es una variable no estocástica, lo que equivale a realizar el análisis estadístico condicionado a la muestra que se ha observado. De este modo, se supone que el modelo de regresión y sus supuestos se aplican al conjunto particular de los valores de la variable dependiente, x. • Identijicabilidad de los parámetros Significa que los coeficientes'po y.PI se pueden estimar de forma única a partir de unas observaciones dadas, lo cual sucede cuando la variable x no sea constante, es decir, que presente variabilidad. Si la variable x es constante, el modelo presentaría ESTAOlsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 131
VIVIANA VARGAS FRANCO dos términos constantes: el asociado al parámetro fJo y el asociado al parámetro fJ/ y ambos coeficientes medirían el mismo efecto. • La esperanza de los errores condicionada a la información dada es nula Significa que las observaciones de x no contienen información sobre el valor esperado de ej. Este supuesto se utiliza en el proceso de inferencia de los parámetros estimados, en forma algebraica: E {e¡} ro E {el] O E { e;} = O=> E { e;} = I = E {en]1 I O • Los errores presentan varianza constante Esto significa que la varianza de los errores es constante, en forma algebraica: v (e¡) = rl = constante i = 1, 2, 3, ....., n • Los errores se distribuyen de forma normal En forma estadística significa que la distribución de los errores es simétrica, es decir, presenta una distribución normal, con media cero y varianza rl. E ( e¡) - N ( o,rl) El cumplimiento de este supuesto permite realizar inferencias sobre los parámetros estimados del modelo de regresión. 5.3 Diagrama de dispersión Existen diversas opciones para estudiar la forma del modelo de regresión: el primero es a través de la relación conceptual de las variables analizadas, esto es, si se conoce a priori la ecuación matemática de la relación entre las dos variables. Otra es a través del diagrama de dispersión, que consiste en graficar en el plano cartesiano las parejas de datos observados para realizar el análisis de regresión. Este permite visualizar la tendencia del conjunto de datos y da una idea del tipo de relación matemática existente entre las dos variables analizadas. El diagrama de dispersión, permite evidenciar si existen datos que se alejan de la tendencia general 132 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS
CAPfTULO 5 - MODELOS DE REGRESiÓN del conjunto de datos; puntos atípicos u outliers, los cuales se pueden confirmar a través de las gráficas de cajas y alambres. Estos diagramas se pueden realizar con relativa facilidad en diferentes programas de computador. En la Figura 5,5 se presenta el esquema general de un diagrama de dispersión, el cual representa una gran ayuda en la definición de la ecuación matemática que permita estimar la tendencia de los datos. Por ejemplo, en la Figura 5,6 se evidencia una tendencia de los datos a una línea recta, con pendiente positiva y corte en el origen. y .Yi -:•••-•+-¡•••••••• • . •~•• •••~•*• ~ Xi x Figura 5.5 Esquema general de un diagrama de dispersión. Ejemplo 5.1 Se tienen las medidas de sólidos suspendidos y turbiedad, evaluados en una estación de monitoreo sobre el río Cauca, en el departamento del Valle del Cauca. (Fuente: Cinara,1991), como se presentan a continuación: Se desea calcular un modelo de regresión lineal que permita estimar valores de sólidos suspendidos a partir de valores de turbiedad, es decir, la variable dependiente, y, es sólidos suspendidos, pues esta es la que se desea estimar a partir de la variable independiente, x; turbiedad. Realizando el gráfico de dispersión entre turbiedad y sólidos suspendidos, se observa en la Figura 5.6 que esta tendencia es una línea recta y que la relación es directa, es decir, a medida que aumentan los niveles de turbiedad aumentan los niveles de sólidos suspendidos. ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 133
VIVIANA VARGAS FRANCO 1200 • =~ 1000 200 400 600 800 Turbiedad (UNT) !. '\" 800 \"ª~ 5 600 :~:s -~''\"\" 400 ~ 200 O O Figura 5.6 Diagrama de dispersión entre las variables sólidos suspendidos (y) y turbiedad (x). Para hallar los parámetros a y b del modelo de regresión lineal se presenta en la Tabla 5.1 el cálculo de las operaciones requeridas para su estimación. Tabla 5.1 Datos de turbiedady sólidos suspendidos en una estación del río Cauca, para ser analizados en un modelo de regresión lineal. Número de Fecha Turbiedad Sólidos *Xi X, . observación (UNT) suspendidos 04·Mar-91 1764 x, * y, i 07-Mar·91 Xi (mg/l) 5184 11·Mar·91 129600 2982 1 14-Mar·91 42 Yi 1225 10512 2 08·Abr·91 72 4225 181800 3 11·Abr·91 360 71 14400 2135 ; 4 15·Abr·91 35 146 10000 8840 5 14·May-91 65 505 36100 20280 6 16·May-91 120 61 422500 19000i 7 20·May-91 100 136 52900 51110 I 8 23·May-91 190 169 11025 635700 9 27-May-91 650 190 5625 90620 10 30·May-91 230 269 4761 18480 11 105 978 9000 12 75 394 6831 13 69 176 120 99 Continúa en la página siguiente 134 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS
CAPíTULO 5 - MODELOS DE REGRESiÓN Viene de la página anterior Número de Fecha Turbiedad Sólidos x¡*x¡ X¡*Yi observación (UNT) Suspendidos x¡ 15625 16625 i (mgfl) 7225 11900 125 y¡ 1024 1696 14 04·Jun·91 85 1156 1836 15 06·Jun·91 32 133 7225 10455 16 11·Jun·91 34 140 202500 255600 17 13·Jun·91 85 53 2601 4284 18 17·Jun-91 450 54 1369 2701 19 24-Jun·91 51 123 3844 5208 20 02·Jul·91 37 568 21 04-Jul·91 62 84 22 11·Jul-91 73 84 21 3074 4626 941878 1367595 ¿=suma 139,727273 210,272727 ;=/ Media Utilizando los resultados de la Tabla 5.1 y las ecuaciones 5.8 y 5.9 se tienen los siguientes resultados para los coeficientes de regresión a y b. b = 22 (1367595) - ( 3074 )(4626) = 1 40765 22 (941878) - (3074/ ' a = (210,272727 -1,40765) (139,727273) = 13,5856 Entonces, el modelo de regresión lineal que relaciona turbiedad y sólidos suspendidos en la estación de monitoreo en el río Cauca queda definido por la ecuación 5.10. E (y) =y =SS =13,5856 + 1,40765 * TU (5.10) El valor del intercepto en algunas ocasiones no tiene significado práctico, como en este caso; significa que para un valor de turbiedad de O unidades, los sólidos suspendidos son de 13,58 mg/l. El valor de la pendiente significa que por cada unidad de cambio en los niveles de turbiedad, los sólidos suspendidos aumentan en promedio en 1,4 unidades. ESTADíSTICA DESCRIPTIVA PARA INGENIERíA AMBIENTAL CON SPss 135
VIVIANA VARGAS FRANCO Con el modelo de regresión hallado se pueden realizar estimaciones del valor promedio de sólidos suspendidos a partir de un valor fijo de turbiedad. En general, se recomienda realizar estimaciones en el rango de valores de la variable independiente turbiedad, es decir [ 32; 650J UNT, esto con el fin de evitar posibles inconsistencias, debido a que no se conoce la forma de la relación por fuera de este rango. Por ejemplo, para un valor de turbiedad de 50 UNT se espera que el valor medio de sólidos suspendidos en el río Cauca, sea: ss =13,5856 + 1,40765 ( 50 UNT) = 83,9681 mgll Para un valor de turbiedad de 450 UNT se espera que el valor medio de sólidos suspendidos en el río Cauca sea: ss =13,5856 + 1,40765 ( 450 UNT) = 647,03 mgll Valores por fuera del rango de turbiedad no se recomiendan estimar, pues la fuerza del modelo de regresión es la estimación y no el pronóstico, para esto último se utilizan con mucha confiabilidad los modelos de series de tiempo. 5.4 Otros modelos de regresión Aunque la ecuación de la línea recta es una de las más utilizadas, en general un conjunto de datos puede ajustarse a otra función matemática para describir en mejor forma la asociación entre las variables. Se considera un modelo lineal si los parámetros a estimar aparecen de manera lineal en la ecuación. En la Tabla 5.2 se presentan diversos modelos lineales, en los parámetros de regresión. Tabla 5.2 Modelos de regresión lineales en los parámetros de regresión. Nombre de la función Ecuación Parábola o cuadrático Polinomio de grado 3·cúbico y =.Po +.PI X+.P1K + 8 Polinomio grado-n ry =.Po +.PI X+.P1K +.P3 + 8 Senoidal ry =.Po +.PI X+'pzK +.P3 + .•.... +.PIIX' + 8 logarítmica Semi logarítmica y =.Po +.PIsen x +.P2COS X+ 8 In y =.Po +.PI In x + 8 y =.Po +.PI In x + 8 Inversa y =.Po + -.xP+I 8 Continúa en la página siguiente 136 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS
CAPfTULO 5 - MODELOS DE REGRESiÓN Viene de la página anterior Ecuaci6n Nombre de le funci6n y =flo +fl¡x'h + 8 Raíz cuadrática 1 y =flo +fl¡x 'h +fllX + 8 Raíz cuadrática 2 Cuadrático del logarítmico y =flo +fl¡lnx +fll( Inxl + 8 Y =flo +fl¡ e-x + 8 Otras ecuaciones lineales Y =flo +fl¡~ +fll ln x + 8 Y =flo +fl¡x +fll ~ + 8 Y =flo +fl¡lnx +fl2 ..¡x+ 8 Y =flo +fl¡x·5 +fl2 eX + 8 Y =flo +fl¡lnx +fl2(ln xl + 8 In y = In flo +fl Iln x + 8 Los modelos lineales son útiles en muchas situaciones, y aunque la relación entre la variable de respuesta y las variables regresoras no sea lineal, en muchos casos la relación es \"linealizable\" en el sentido de que haciendo transformaciones con logaritmos o funciones inversas en la variable de respuesta y/o algunas variables regresoras, la relación se convierte en lineal. Sin embargo, existen situaciones donde una relación no lineal no es factible su linealización. En este último caso se denomina modelo de regresión no lineal (El estudio de un modelo de regresión no lineal es muy extenso y complejo, pero existe una amplia literatura sobre el tema). En la Tabla 5.3 se presentan ejemplos de modelos no lineales y su transformación a modelos lineales en los parámetros y variables de regresión. Tabla 5.3 Modelos de regresión no lineales y su transformación a modelos de regresión lineales. Funci6n Modelo no lineal Modelo transformado a lineal Hipérbola 1 1 1 y= +8 -y=flo+fl¡ X+8 flo+ fl1x Hipérbola 2 x +8 1 fl¡ y= flox-fl¡ y=flo--X+ 8 Contmúa en la págma sIguIente ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 137
VIVIANA VARGAS FRANCO Viene de la página anterior Exponencial 1 y =fJofJ/ +& In y = In fJo + x In fJ¡ + & Exponencial 2 y =fJOeP'X + & Iny = InfJo +fJ¡x + & In y =In fJo +fJ¡ In x + & Geométrica o y =fJOxP'+ & potencia 1 Iny=lnfJo+-X Infl¡+& Raíz y =fJofJ~+ & logística 1 1 In y = -lnfJo -x InfJ¡+ & logística 2 Y = fJofJ; + & In (fJ] -1) =fJo +fl¡x + & y ~+&;fJ¡<O Y logística 3 y =fJo (l-eP'X) + & ; fJ¡ < O In (1- to )=fJ¡x+& Gamma o y =fJOeP1XxP' + & In y = InfJo +fl¡x +fJ]ln x + & especial de Hoerl y =fJo eP¡{X -fJ,/ + & ; fJ¡ < O Iny = InfJo +fJ¡ (x-fJ]l + & Gauss Especial 1 y =flo eP'/. + & Iny=lnfJo + fxJ¡ +& Especial 2 1 1 x Y =fJo+fJ¡e- +& En la Tabla 5.4 se muestra el sistema de ecuaciones lineales para algunos modelos de regresión, las cuales se pueden resolver con un conjunto específico de datos, para estimar los parámetros a y b. 138 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS
Search
Read the Text Version
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
- 28
- 29
- 30
- 31
- 32
- 33
- 34
- 35
- 36
- 37
- 38
- 39
- 40
- 41
- 42
- 43
- 44
- 45
- 46
- 47
- 48
- 49
- 50
- 51
- 52
- 53
- 54
- 55
- 56
- 57
- 58
- 59
- 60
- 61
- 62
- 63
- 64
- 65
- 66
- 67
- 68
- 69
- 70
- 71
- 72
- 73
- 74
- 75
- 76
- 77
- 78
- 79
- 80
- 81
- 82
- 83
- 84
- 85
- 86
- 87
- 88
- 89
- 90
- 91
- 92
- 93
- 94
- 95
- 96
- 97
- 98
- 99
- 100
- 101
- 102
- 103
- 104
- 105
- 106
- 107
- 108
- 109
- 110
- 111
- 112
- 113
- 114
- 115
- 116
- 117
- 118
- 119
- 120
- 121
- 122
- 123
- 124
- 125
- 126
- 127
- 128
- 129
- 130
- 131
- 132
- 133
- 134
- 135
- 136
- 137
- 138
- 139
- 140
- 141
- 142
- 143
- 144
- 145
- 146
- 147
- 148
- 149
- 150
- 151
- 152
- 153
- 154
- 155
- 156
- 157
- 158
- 159
- 160
- 161
- 162
- 163
- 164
- 165
- 166
- 167
- 168
- 169
- 170
- 171
- 172
- 173
- 174
- 175
- 176
- 177
- 178
- 179
- 180
- 181
- 182
- 183
- 184
- 185
- 186
- 187
- 188
- 189
- 190
- 191
- 192
- 193
- 194
- 195
- 196
- 197
- 198
- 199
- 200
- 201
- 202
- 203
- 204
- 205
- 206
- 207
- 208
- 209
- 210
- 211
- 212
- 213
- 214
- 215
- 216
- 217
- 218
- 219
- 220
- 221
- 222
- 223
- 224
- 225
- 226
- 227
- 228
- 229
- 230
- 231
- 232
- 233
- 234
- 235
- 236
- 237
- 238
- 239
- 240
- 241
- 242
- 243
- 244
- 245
- 246
- 247
- 248
- 249
- 250
- 251
- 252
- 253
- 254
- 255
- 256
- 257
- 258
- 259
- 260
- 261
- 262
- 263
- 264
- 265
- 266
- 267
- 268
- 269
- 270
- 271
- 272
- 273
- 274
- 275
- 276
- 277
- 278
- 279
- 280
- 281
- 282
- 283
- 284
- 285
- 286
- 287
- 288
- 289
- 290
- 291
- 292
- 293
- 294
- 295
- 296
- 297
- 298
- 299
- 300
- 301
- 302
- 303
- 304
- 305
- 306
- 307
- 308
- 309
- 310
- 311
- 312
- 313