Important Announcement
PubHTML5 Scheduled Server Maintenance on (GMT) Sunday, June 26th, 2:00 am - 8:00 am.
PubHTML5 site will be inoperative during the times indicated!

Home Explore Estadistica-descriptiva-para-ingenieria-ambiental-con-SPSS

Estadistica-descriptiva-para-ingenieria-ambiental-con-SPSS

Published by veroronquillo1, 2021-05-04 06:37:31

Description: Estadistica-descriptiva-para-ingenieria-ambiental-con-SPSS

Search

Read the Text Version

CAPrTULO 2 - MEDIDAS DESCRIPTIVAS Tabla 2.4 Ventajas y limitaciones de la moda. Ventajas Limitaciones • Es fácil de calcular y entender. • La moda no necesariamente ocurrirá como un valor central. • Las unidades de la moda son las mismas de • La moda no siempre existe. • No se pueden realizar procesos algebrai- la variable. cos. • No requiere cálculo. • No presenta mucha utilidad con pocos datos en el conjunto de análisis. • En general cuando el conjunto de datos no • Puede utilizarse para datos cualitativos y resulta unimodal se debe a posibles fallas en el muestreo ofaltadehomogeneidad de datos cuantitativos. los mismos. • A pesar de describirse como una medida • No es afectada por datos extremos aisla- de centralidad, cuando los datos no son dos. simétricos, no la representa. Ejemplo 2.8 Considerando la situación del ejemplo 2.1, se estima la moda: Primer muestreo: 5; 4; 5; 4; 8; 10; 9 (UNT) -+ Mol = 4 (UNT) Y Mol = 5 (UNT) Con un dato adicional: 12 (UNT) -+ Mol = 4 (UNT) y Mol = 5 (UNT) Con otro dato adicional: 150 (UNT) -+ MOl = 4 (UNT) y Mol = 5 (UNT) Con otro dato adicional: 320 (UNT) -+ Mol = 4 (UNT) y Mol = 5 (UNT) Los datos del primer muestreo presentan dos modas, es decir, es un conjunto de datos bimodal; los valores que mayorfrecuencia presentan en turbiedad son 4 UNTy 5 UNT A medida que se incorporan datos extremos al conjunto de datos las modas se mantienen constantes, en este caso específico. Si se obtienen diferentes muestras de una población en forma aleatoria, la media varia en cada una de ellas, lo mismo sucede con la mediana y la moda. Sin embargo, la media varía menos que la mediana y la moda, lo cual es muy importante en la estadística inferencial y es una de las principales razones del uso de la media en ESTADrSTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 39

VIVIANA VARGAS FRANCO esta rama de la estadística. Una media muestral con seguridad está más cerca de la media poblacional que la mediana o la moda de la muestra. La media, la mediana y la moda proporcionan una parte de la descripción del conjunto de datos. Sin embargo, es necesario definir indicadores que permitan estimar el grado de variación o dispersión de los datos con relación a las medidas de tendencia central y del conjunto de datos en general. Estas medidas por sí solas no son suficientes para analizar y tomar decisiones en relación con un fenómeno en estudio, como se ilustra en el siguiente ejemplo. Ejemplo 2.9 Se evalúa el efluente de dos reactores en paralelo para tratamiento de aguapotable, en la variable color real medida en Unidades de Platino Cobalto (UPC), generando las siguientes medias: Reactor 1: Xl =10 UPC Reactor 2: Xl =10UPC En el análisis y comparación de estos dos reactores se estaría muy tentado a concluir la igualdad en el efluente para color real. Sin embargo, los datos con los cuales se calcularon las medias se presentan a continuación: Reactor 1: 10; 12; 10; 12; 8; 10; 8 UPC Reactor 2: 58; 2; 2; 2; 2; 2; 2 UPC Como se puede apreciar, los datos arrojados por los dos reactores en color real difieren significativamente, factor que no se puede evidenciar sólo a través del valor de la media. Por lo tanto, a pesar de ser la media una de las medidas más utilizadas para resumiry analizar un conjunto de datos, es necesario acompañar esta medida con otras medidas de centralidady dispersión, las cuales permitan estimar el grado de variación del conjunto de datos. En la Tabla 2.5 se presentan otras medidas de centralidad que permiten analizar de forma más integral la calidad de agua en color real de los dos reactores. Se puede apreciar, a través de estas medidas, que el reactor 1 tiene más homogeneidad en el conjunto de datos, en comparación con el reactor 2, debido a que en el primero las medidas de tendencia central son muy similares, mientras que en el segundo difieren significativamente. 40 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS

CAPiTULO 2 - MEDIDAS DESCRIPTIVAS Tabla 2.5 Medidas de tendencia central de dos reactores para potabilización de agua en color real. Medidas de tendencia central Color Real (UPC) Media Reactor 1 Reactor 2 Mediana Media geométrica 10 10 Moda 10 2 9,9 3,2 10 2 Se puede generalizar que un conjunto de datos es homogéneo cuando la media, la mediana y la media geométrica presentan valores similares, en caso contrario se presenta heterogeneidad en el conjunto de datos_ Sin embargo, existen medidas descriptivas que miden en forma adecuada el grado de dispersión o variabilidad del conjunto de datos, denominadas medidas de dispersión. 2.2 Medidas de dispersión Las medidas de dispersión o variabilidad permiten generar criterios sobre el grado de homogeneidad o heterogeneidad del conjunto de datos que se está analizando, en relación con una medida de centralidad, o con respecto a los datos en sí. Las medidas estadísticas más utilizadas para medir el grado de variabilidad o dispersión son: rango, desviación media, varianza, desviacióv estándar y coeficiente de variación. 2.2.1 Rango Es la diferencia entre el valor máximo y el valor mínimo del conjunto de datos. Mide la longitud en la cual se encuentran los datos, en general a mayor longitud mayor dispersión de los datos; sin embargo, es necesario analizar la variable y las unidades en las cuales se está midiendo, con el fin de hacer un análisis adecuado de esta medida de dispersión. El rango de una muestra aleatoria o de una población se define por la ecuación 2.16. (2.16) En la Tabla 2.6 se presentan algunas ventajas y limitaciones de esta medida de dispersión. ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 41

VIVIANA VARGAS FRANCO Tabla 2.6 Ventajas y limitaciones del rango. Ventajas Limitaciones • Es la medida de variación más fácil • No se pueden realizar cálculos algebraicos. de calcular y entender. • Sólo incluye dos datos para su cálculo: el valor • las unidades coinciden con las de máximo y el valor mínimo, ignorando los valores la variable de análisis. intermedios. • Es fuertemente afectada por los valores extremos. • Se debe acompañar de otras medidas de dispersión para su análisis. Ejemplo 2.10 Considerando la situación del ejemplo 2.1 se calcula el rango: Datos del primer muestreo: -+ R = X máx - X min = 6 (UNT) 5; 4; 5; 4; 8; 10; 9 (UNT) -+ R =Xmáx-Xmín = 8 (UNT) -+ R =Xmáx-Xmln =146 (UNT) Con un dato adicional: 12 (UNT) -+ R =Xmáx-Xmín =316 (UNT) Con otro dato adicional: 150 (UNT) Con otro dato adicional: 320 (UNT) Para elprimer muestreo el rango es 6 UNT, es decir, la diferencia entre el valor mínimo y el valor máximo es 6 UNT A medida que se incorporan datos extremos el rango aumenta considerablemente, evidenciando el grado de dispersión de los datos. Como se puede apreciar, a medida que el conjunto de datos presenta más variación o heterogeneidad, el rango incrementa su valor de forma significativa. El rango es una buena medida del grado de dispersión de un conjunto de datos. 2.2.2 Desviación media Se define como la media aritmética de los valores absolutos de las desviaciones de los datos, con respecto a la media; también se puede calcular en relación con la mediana, en este último caso la desviación media representa un valor menor. Una limitación de esta medida es su poca facilidad para el desarrollo algebraico. En la obtención de esta medida intervienen todos los valores del análisis; por lo tanto, permite una información relativa de todos ellos, y da mejor conocimiento del grado de variabilidad de la distribución de los datos que el rango. 42 ESTADrSTICA DESCRIPTIVA PARA INGENIERrA AMBIENTAL CON SPSS

CAPfTULO 2 - MEDIDAS DESCRIPTIVAS Si Xl' Xl' X3 , ............, X,, _I' X\" representan los valores de una variable en una muestra, entonces la desviación media se calcula por medio de la ecuación 2.17. ¿\" Ix;-xl (2.17) dm =.:..;=.-:1'----_ _ n Si los datos son el total de la población, la notación de la desviación media se presenta a continuación: Si XI' Xl' X 3 , ••••••••••••, XN _ I' XN representan los valores de una variable en una población, entonces la desviación media se calcula por medio de la ecuación 2.18. ¿N IX;-pl (2.18) =.:. ;DM =.-:1'------ N Ejemplo 2.11 Considerando la situación del ejemplo 2. 1 se calcula la desviación media: Datos del primer muestreo: 7 5; 4; 5; 4; 8; 10; 9 (UNT) -+ ¿lx;-xl Con un dato adicional: dm= ;= I =2,2 (UNT) 12 (UNT)-+ 7 Con otro dato adicional: 8 150 (UNT) -+ ¿lx;-xl Con otro dato adicional: dm= ;=/ =2,6 (UNT) 320 (UNT)-+ 8 9 ¿1x;-xl dm= ;= / =28,2 (UNT) 9 10 ¿Ix;-xl dm= ;=1 = 72,9 (UNT) 10 La desviación media para elprimer conjunto de datos toma el valor de 2,2 UNT, que indica el nivel de dispersión de los datos con relación al valor medio, que es 6,4 UNT Cuando se introducen datos extremos al muestreo, la desviación media aumenta evidenciando el grado de dispersión del conjunto de datos. ESTADfsTICA DESCRIPTIVA PARA INGENIER fA AMBIENTAL CON SPSS 43

VIVIANA VARGAS FRANCO A medida que el conjunto de datos presenta mayor variabilidad la desviación media aumenta su valor y permite medir el grado de variabilidad del conjunto de datos. 2.2.3 Varianza Debido a las limitaciones algebraicas que evidencian el rango y la desviación media, se origina el concepto de varianza, que mide las variaciones del conjunto de datos con respecto a su media aritmética y se define como la media aritmética de los cuadrados de las desviaciones de cada dato a la media aritmética. En general, cuanto menor sea el valor de la varianza, menor es el grado de variación o heterogeneidad del conjunto de datos con respecto a su media aritmética. Sin embargo, es necesario contextualizar el análisis de esta medida a la variable y las unidades en que está medida. Si Xl' X 2 , X 3 ,••••••••••••, X,,_I' X\" representan los valores de una variable seleccionada de una muestra, entonces se define la varianza muestral como la ecuación 2.19. n ~S2 (x¡-X/ = (X¡-X/+(X2 -X/+(X3-X/+ •••• + (Xn-X/ n-l n-l (2.19) El cociente (n -1) se utiliza en reemplazo de n, debido a que con esta definición se obtiene una mejor estimación de la variable poblacional, es decir, el valor esperado de S es igual a ,;2, en términos matemáticos: E (S) =,;2 Además, S cumple con la propiedad de ser un estimador insesgado, una característica deseable para un estimador. En el caso de que los datos sean el total de la población, la notación se presenta a continuación: Si Xl' X 2 , X 3 , ••••••••••••, XN_1' XN representan los valores de una variable seleccionada de una población, entonces se define la varianzapoblacional como la ecuación 2.20. N ~1= (x¡- f.l/ = (X¡- f.l/+ (X2 - f.l/+ (X3 - f.l/+ .... + (XN- f.l/ NN (J 0\": es la letra griega \"sigma\" (2.20) 44 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS

CAPITULO 2 - MEDIDAS DESCRIPTIVAS En la Tabla 2.7 se muestran algunas ventajas y limitaciones de la varianza. Tabla 2.7 Ventajas y limitaciones de la varianza. Ventajas limitaciones • Es de las medidas de variación, la más utili· • Las unidades de esta medida son las uni· dades de la variable al cuadrado. zada. • No es fácil su interpretación debido a sus • Se pueden realizar cálculos algebraicos. unidades. • Se debe acompañar de otras medidas de • Se incluyen todos los datos en su cálculo. dispersión para su análisis. Ejemplo 2.12 Considerando la situación del ejemplo 2.1 se puede calcular el valor de la varianza: Datos del primer muestreo: 7 5; 4; 5; 4; 8; 10; 9 (UNT) ~ ¿(Xi-Xl Con un dato adicional: S= ;gl 7-1 = 6,3 (UNTl 12 (UNT) ~ Con otro dato adicional: ¿8 (X/-Xl 150 (UNT) ~ Con otro dato adicional: S= ;~1 8-1 = 9,3 (UNTl 320 (UNT) ~ 9 2276,3 (UNTl s = ¿(X¡-Xl c...-; -01_ _ __ 9-1 ¿10 (X;-Xl S = ;-1 10-1 =10844,3 (UNTl Como se puede apreciar la varianza genera una idea significativa del grado de variabilidad de un conjunto de datos, pues a medida que aumenta el grado de heterogeneidad esta medida aumenta sustancialmente, aunque sus unidades elevadas al cuadrado limitan fuertemente su interpretación. 2.2.3.1Propiedades de la varianza • El valor de la varianza es siempre positivo o igual a cero, esto es: S ~ O,para cualquier conjunto de datos. ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 45

VIVIANA VARGAS FRANCO • Si todos los valores de un conjunto de datos son constantes, el valor de la varianza es igual a cero. Algebraicamente: Si Xi = k ,para todo i = 1, 2, ..... n, entonces S2 = O. • La varianza no se altera cuando a cada uno de los datos se le suma o se le resta una constante. En términos algebraicos: S: S: .Si 1'; = Xi ± k, para todo i = 1, 2, ..... n, entonces = • Si cada uno de los datos en análisis se multiplica por una constante, la varianza resultará multiplicada por la constante al cuadrado. Algebraicamente: S: S: .Si 1'; = kXi, para todo i = 1, 2, ..... n, entonces = k 2 • Si se divide por un mismo número a cada uno de los datos en análisis, la varianza quedará multiplicada por el cuadrado de dicho divisor. En este caso la constante debe ser diferente de cero. Algebraicamente: /2Si Yi = : Xi ' para todo i =1,2, ..... n, entonces S: = S: ; k,* O Una ecuación alternativa para el cálculo aproximado de la varianza se presenta a continuación: n IX; S2=~-X2 n 2.2.4 Desviación estándar La forma de superar una de las limitaciones de la varianza, sus unidades al cuadrado, es a través del uso de la raíz cuadrada, dando origen al concepto de desviación estándar. La desviación estándar muestral se define como la raíz cuadrada positiva de la varianza muestral, tal como se presenta en la ecuación 2.21. S=-Vs2= I\" (2.21) (Xi-Xl /-1 n-1 La desviación estándarpoblacional se define como la raíz cuadrada positiva de la varianza poblacional, tal como se presenta en la ecuación 2.22. u={Gi= IN (2.22) (Xi-P.)] i-l N , 46 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS

CAPITULO 2 - MEDIDAS DESCRIPTIVAS En la Tabla 2.8 se presentan algunas ventajas y limitaciones de la desviación estándar. Tabla 2.8 Ventajas y limitaciones de la desviación estándar. Ventajas Limitaciones • Es, junto con la varianza, una de las medidas • Se debe acompañar de otras medidas de de variación más utilizadas. dispersión para su análisis. • Tiene las mismas unidades de la variable analizada. • Para su cálculo primero debe calcularse la • Se pueden realizar cálculos algebraicos. varianza. • Se incluyen todos los datos en su cálculo. Ejemplo 2.13 Considerando la situación del ejemplo 2.1 se calcula el valor de la desviación estándar: Datos del primer muestreo: 5; 4; 5; 4; 8; 10; 9 (UNT) ~ S = ...JS2 = _i-_'____ = 2,5 (UNT) 7-1 Con un dato adicional: ...JS212 (UNT) ~ S = = _ia_,_ _ _ =3 (UNT) 8-1 Con otro dato adicional: 150 (UNT) ~ S = ...JS2 = ; - 1 =47,7 (UNT) 9-1 Con otro dato adicional: 320 (UNT) ~ S = ...JS2 = i=' =104,1 (UNT) 10-1 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 47

VIVIANA VARGAS FRANCO Para los datos del primer muestreo la desviación estándar es 2,5 UNT, que indica poca variación entre los datos, es decir, los datos se alejan de la media (6,4 UNT) en una desviación estándar en 2,5 UNT hacia adelante yen 2,5 UNT hacia atrás de la media. A medida que el conjunto de datos se vuelve heterogéneo, la desviación estándar toma valores bastante grandes. Por ejemplo, con todo el conjunto de datos analizados, el valor de la desviación estándar es 104,1 UNT, lo que significa que los datos se alejan en promedio 104,1 UNT del valor medio (6,4 UNT). Ésta es una buena medida del grado de dispersión del conjunto de datos; a medida que aumenta el grado de variación de los datos esta medida aumenta, en las mismas unidades de la variable de origen. 2.2.5 Coeficiente de variación El coeficiente de variación permite estimar la relación porcentual entre el valor de la media y la desviación estándar. A medida que se presenta mayor heterogeneidad en el conjunto de datos, el valor del coeficiente de variación es mayor. Esta medida puede tomar valores negativos sólo cuando la media tiene un valor negativo, por ejemplo, en el caso de la variable temperatura o nivel de pérdidas. En este caso se sugiere tomar el valor absoluto para una mejor interpretación del coeficiente de variación. El coeficiente de variación muestral consiste en expresar la desviación estándar muestral como un porcentaje de la media muestral, tal como se presenta en la ecuación 2.23 s (2.23) CV= X x 100% Siempre que X\"# O El coeficiente de variación poblacional consiste en expresar la desviación estándar poblacional como un porcentaje de la media poblacional, tal como se presenta en la ecuación 2.24. (1 (2.24) CV=¡¡-x 100% Siempre que JI. \"# O Esta medida es adimensional, sus unidades están dadas en porcentaje, por lo tanto es un buen indicador de comparación entre dos o más diferentes variables o dos o más diferentes poblaciones. 48 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS

CAPiTULO 2 - MEDIDAS DESCRIPTIVAS Como una guía para su interpretación se puede tomar el siguiente esquema: 0% 30% Datos variables 70% 100% o heterogéneos Datos poco variables Datos muy variables ---. u homogéneos o muy heterogéneos De otra forma: Si S~ O.3X entonces el conjunto de datos es poco variable u homogéneo con relación a la media. Si O.3X < S ~ O. 7X entonces el conjunto de datos es variable o heterogéneo con relación a la media. Si S>0.7X entonces el conjunto de datos es muy variable o muy heterogéneo con relación a la media. Ejemplo 2.14 Considerando la situación del ejemplo 2.1, se calcula el coeficiente de variación: Datos del primer muestreo: 5; 4; 5; 4; 8; 10; 9 (UNT) -+ CV = 2,5 x100% =39,1 % (UNT) o S = 0,39 X 6,4 Con un dato adicional: 12 (UNT) -+ CV=.-L x100% = 42,3% (UNT) o S = 0,42 X 7,1 Con otro dato adicional: 150 (UNT) -+ CV = 47, 7xl00% = 207,4% (UNT) o S = 2,07 X 23 Con otro dato adicional: 320 (UNT) -+ CV= 104,1 x100% =197,6% (UNT) o S = 1,97 X 52,7 Para el primer conjunto de datos el CV = 39%, indica que los datos presentan variación con relación a la media. A medida que se consideran datos extremos en el muestreo, el CV toma valores de 207% y 197%, que indica una gran variación de los mismos con relación a la media. El coeficiente de variación aumenta considerablemente a medida que la distancia entre la media y la desviación estándar crecen. ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 49

VIVIANA VARGAS FRANCO Ejemplo 2.15 Considerando los datos presentados en el ejemplo 2.8: Se evalúan dos reactores en paralelo para tratamiento de agua potable, en la variable color real en Unidades de Platino Cobalto (UPC), generando las siguientes series de datos: Reactor 1: 10; 12; 10; 12; 8; JO; 8 UPC Reactor 2: 58; 2; 2; 2; 2; 2; 2 UPC En la Tabla 2.9 se presentan las principales medidas de tendencia central y dispersión para este conjunto de datos. Tabla 2.9 Medidas descriptivas para la comparación de dos reactores para potabilización de agua, en color real. Medidas Símbolo Reactor 1 Reactor 2 I descriptivas matemático Media 10 UPC 10 UPC . Mediana X 10 UPC 2 UPC Media geométrica 9,9 UPC 3,2 UPC Moda Me 10 UPC 2 UPC Rango 4 UPC 56 UPC Varianza Xg 2,7 UPC2 448 UPC2 Desviación estándar 1,6 UPC 21,2 UPC Coeficiente de variación Mo 16,3 % 211,7 % R SZ S e.v. A pesar de tener los mismos promedios en color real, los dos reactores presentan eficiencias bastante diferentes, tal como se puede evidenciar en las medidas de dispersión. El rango para el primer reactor es 4 UPC Ypara el segundo es 56 UPC, 10 cual evidencia que en los datos del segundo reactor la distancia entre el valor mínimo y el valor máximo es mucho mayor que la del reactor 1. La desviación estándar, esto es, el promedio de la distancia de los datos con respecto a la media, es 1,6 UPC para el primer reactor y 21,2 UPC para el segundo reactor. Es decir, los datos se alejan de la media en 1,6 UPC para el primer reactor y se alejan 21,2 UPC para el segundo reactor, lo cual permite concluir que existe una mayor variación en el reactor 2. El coeficiente de variación es también un buen indicador del grado de variación de los datos en relación con la media; para el reactor 1 es 16,3% y para el reactor 2 es 211,7%. Un CV=16,3% significa que el conjunto de datos es homogéneo para el caso 50 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS

CAPITULO 2 - MEDIDAS DESCRIPTIVAS del reactor 1; sin embargo, un CV= 211,7% significa gran variación o heterogeneidad en el conjunto de datos, para el caso del reactor 2. También, las medidas de centralidad, como la mediana, la media geométrica y la moda, indican el grado de variación de un conjunto de datos, pues en el reactor 1 estas medidas toman valores similares, contrario a lo que sucede en el reactor 2. En general las medidas descriptivas permiten resumir adecuadamente un conjunto de datos en medidas de centralidad y medidas de dispersión que permiten caracterizar el fenómeno en estudio. Adicionalmente es necesario estudiar la distribución del conjunto de datos, tal como se desarrolla en el próximo capítulo. ESTADIsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 51

CAPITULO 2 - MEDIDAS DESCRIPTIVAS del reactor 1; sin embargo, un CV= 211,7% significa gran variación o heterogeneidad en el conjunto de datos, para el caso del reactor 2. También, las medidas de centralidad, como la mediana, la media geométrica y la moda, indican el grado de variación de un conjunto de datos, pues en el reactor 1 estas medidas toman valores similares, contrario a lo que sucede en el reactor 2. En general las medidas descriptivas permiten resumir adecuadamente un conjunto de datos en medidas de centralidad y medidas de dispersión que permiten caracterizar el fenómeno en estudio. Adicionalmente es necesario estudiar la distribución del conjunto de datos, tal como se desarrolla en el próximo capítulo. ESTADIsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 51

CAPíTULO 3 Distribución de frecuencias Las medidas de tendencia central y dispersión resumen el conjunto de datos en uno o varios indicadores estadísticos, perdiéndose la tendencia y las frecuencias de agrupación de los datos. Esta limitación se soluciona con el estudio de la distribución de frecuencias, que consiste en describir numérica y gráficamente la forma y composición del agrupamiento del conjunto de datos. La distribución de frecuencias puede realizarse para una, dos o más variables. En el caso de una variable se denomina distribución univariada, en el análisis de dos variables se denomina distribución bivariada y para más de dos se denomina distribución multivariada. La manera de construir la distribución de frecuencias puede resultar tediosa, si se realiza manualmente y si el número de datos es considerablemente grande; para ello se recomienda el uso de software estadístico. Sin embargo, en este capítulo se desarrollarán ejemplos que ilustran la forma de construir la distribución de frecuencias de forma manual y en el capítulo lOse presenta el proceso con el software SPSS. 3.1 Distribución de frecuencias univariadas Corresponde a la agrupación de una sola variable a través de categorías o intervalos, de tal forma que se presentan las frecuencias o repeticiones en cada una de ellas. En el caso de una variable discreta, los datos se agrupan en categorías, mientras que para una variable continua se agrupan en intervalos. ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 53

VIVIANA VARGAS FRANCO 3.1.1 Distribución de frecuencias univariadas para una variable discreta Para generar la distribución de frecuencias en una variable discreta se deben seguir los pasos que se describen a continuación, los cuales permiten organizar la distribución de los datos en una tabla de cinco columnas: Paso 1: Identificar los valores diferentes que toma la variable y escribirlos en la primera columna de la tabla, en orden ascendente. Se denotará por k el número de valores diferentes que se encuentran en el conjunto de datos y se denotarán por Xl' X]' X 3 , .... , X k_ 1' X k. En esta columna no deben haber valores repetidos. Paso 2: La segunda columna consiste en calcular la frecuencia absoluta, ni' que es el número de veces que se repite el valor Xi en el conjunto de datos. La suma de los ni es igual al número total de datos en análisis. Por ejemplo, el valor de n3 es el número de veces que se repite la observación X 3 en el conjunto de datos. Paso 3: El cálculo de la frecuencia absoluta acumulada, Ni' consiste en diligenciar la tercera columna y es equivalente a sumar los valores menores o iguales de las frecuencias absolutas, ni' de cada valor Xi' como se presenta a continuación. N¡ =n¡ N] = NI + n} = nI + n] N 3 =N 2 + n3 = nI + n2+ n3 :: : N k_¡ =Nk_] + n k _¡ = n¡ + n] + n 3 + ..... + n k _] + n k_1 N k =Nk_¡ + n k = nI + n] + n3 + ..... + nk_1 + n k= n Por ejemplo, el valor N4 es el número de datos que tienen valores menores o iguales aX4 • En este caso se debe cumplir la desigualdad de la ecuación 3.1. nI =N¡ ~N2 ~N3\"\"'\" ~Nk_¡ ~Nk= n (3.1) Paso 4: La cuarta columna consiste en calcular la frecuencia relativa, hi , la cual es el valor relativo o porcentual, que representa el valor de cada Xi . Generalmente este valor se multiplica por 100%, tal como se ilustra a continuación: 54 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS

CAPfTULO 3 - DISTRIBUCiÓN DE FRECUENCIAS n, h,=-lOO% n : : hk _ ]=n~lOO% n Por ejemplo el valor de h3 es el porcentaje de veces que aparece la observación X3 en el conjunto de datos. La suma de todos los valores h¡ debe ser 100%. En el caso que cada h¡ no sea haya multiplicado por 100%, la suma debe ser 1. Paso 5: La quinta columna consiste en calcular la frecuencia relativa acumulada, H¡, que es equivalente a sumar los valores menores o iguales de las frecuencias relativas de cada valor X¡ , como se presenta a continuación. H] =h¡ H 2 = H¡ + h2 = h¡ + h2 H3 =Hz + h3 =h¡ + h2 + h3 :: :: H k_¡ =Hk_2 + hk_¡ = h¡ + h 2 + h3+ ....• + hk_2 + h k_¡ Hk =Hk_¡+hk=h¡+hz+h; + •.... +hk _¡+hk=l ólOO% Por ejemplo, el valor de H 4 es el porcentaje de datos que tienen valores menores o iguales a X4 • En este caso se debe cumplir la desigualdad de la ecuación 3.2. (3.2) ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 55

VIVIANA VARGAS FRANCO Siguiendo los pasos del 1 al5 se construye la Tabla 3.1, que representa la distribución de frecuencias para una variable cuantitativa discreta, presentando un buen resumen del conjunto de datos de la muestra o población estudiada. Tabla 3.1 Distribución de frecuencias para una variable discreta. Valores Frecuencia Frecuencia Frecuencia Frecuencia de la absoluta absoluta relativa relativa variable acumulada X; n; n; acumulada 1%1 ; h;=-100% Xl nI ; Xz nz N;=¿n¡ n Xl n] ;= I H;=¿h; : : hl : : NI hz ;-1 : : Nz h] X k_l N] Hl Xk nk_l : : Hz nk : H] Totales k : : : ¿n;=n N k_l : Nk=n : ;~1 h k_l H k_1 -- hk H k= 100% k ¿h;=100% -- ;=1 Cuando se tiene un número considerable de categorías en una variable discreta se procede a generar intervalos para construir la tabla de distribución de frecuencias, debido a que al utilizar la metodología descrita anteriormente se genera una distribución poco significativa, pues es posible que cada dato presente una o dos repeticiones, 10 que generaría una tabla casi igual al conjunto de datos analizados. 3.1.1.1 Medidas de tendencia central y dispersión para datos agrupados en una variable discreta Cuando se tiene una tabla de frecuencias para una variable discreta, es posible estimar a partir de la información de la distribución, algunas medidas descriptivas tales como: media, varianza, desviación estándar y coeficiente de variación. La media se puede calcular utilizando la distribución de frecuencias de la Tabla 3.1, a través de la ecuación 3.3. 56 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS

CAPiTULO 3 - DISTRIBUCiÓN DE FRECUENCIAS XII' = (3.3) X'\" : media calculada con datos agrupados La varianza para datos agrupados se puede calcular a través de la fórmula de la ecuación 3.4. n-l ;-/ El valor de h; debe utilizarse sin porcentaje (%), tanto para el cálculo de la media como de la varianza. A partir de estas dos medidas se pueden estimar la desviación estándar y el coeficiente de variación; su conceptualización, interpretación y unidades son similares a las presentadas en el Capítulo 2. 3.1.1.2 Representación gráfica de la distribución para una variable discreta Gráfica de frecuencias absolutas Esta gráfica se construye ubicando los diversos valores de la variable en el eje X, en el eje y] la frecuencia absoluta y en el eje Y2 la frecuencia relativa, o viceversa, tal como se observa en la Figura 3.1. Esta gráfica muestra la tendencia de la distribución de los datos. Gráfica de frecuencias acumuladas Esta gráfica coincide con la función discontinua escalonada. En el eje X se ubican los valores que toma la variable X, en el eje Y¡ la frecuencia relativa acumulada y en el eje Y2 la frecuencia absoluta acumulada, o viceversa. Tal como se presenta en la Figura 3.2. Según esta gráfica el valor de H\" es el porcentaje de datos que tienen valores menores o iguales a X\". (Ver Figura 3.1 y Figura 3.2 en la página siguiente) ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 57

VIVIANA VARGAS FRANCO Jj 1 •• JY2 ni Y hJ%) nj n3 h¡ n2 nk h3 t nk _ 1 h2 hk hk _ 1 XI X 2 X3················Xk _ 1 X k Variable X Figura 3.1 Gráfica de frecuencias absoluta y relativa para una variable discreta. !hK =10Y0,% ro---e Nk=n H K_ I H K_] o---e Nk_1 o---e Nk _] H4 o---e N4 H3 o---e N3 N] H] o---e N¡ H¡ o---e XI X] X3 X4 X k _] X k _ 1 X k Variable X Figura 3.2 Gráfica de frecuencias acumuladas para una variable discreta. 58 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS

CAPiTULO 3 - DISTRIBUCiÓN DE FRECUENCIAS Ejemplo 3.1 Se tomaron muestras de coliformes totales, mediante el método de filtración por membrana, para la estimación de la calidad del aire en los predios de la Universidad Nacional de Colombia-Sede Palmira y se encontró la siguiente serie de datos: 23; 10; 47; 47; 232; 156,' 99; 47; 156; 23; 47 Y 99 UF C / m 3 . Considerando que la variable coliformes totales es una variable cuantitativa discreta, se utilizan los pasos descritos anteriormente para construir la tabla y gráficas de distribución de frecuencias. La Tabla 3.2 presenta la distribución de frecuencias, donde se puede analizar que el 75% de los datos toman valores menores o iguales a 99 UFC/m3, el valor de 232 UFC/m3 tiene una frecuencia de un dato en la muestra y corresponde a un porcentaje del 8,3%, y el valor de 47 UFC/m3 tiene una frecuencia de cuatro muestras equivalentes a un porcentaje del 33,3%. Tabla 3.2 Distribución de frecuencias para coliformes totales en el análisis de la calidad de aire en la Universidad Nacional de Colombia-Sede Palmira. Número de Datos %de datos de %de datos acumu- datos de acumulados de colifor· lados de coliformes Coliformes coliformes coliformes totales totales mes totales totales XI totales ni ; I 10 = ni 0 0 % 23 1 NI = ¿ni hl -1 HI=¿h¡ (%) 47 n 99 2 1- 1 1- 1 156 4 232 1 8,3 8,3 Totales 2 3 16,7 25,0 2 7 33,3 58,3 1 9 16,7 75,0 11 16,7 91,7 n=12 12 8,3 100% -- 100% - - La Figura 3.3 muestra la gráfica de frecuencias absoluta y relativa, no acumuladas, donde se puede analizar que la mayor frecuencia la presenta el valor de 47 UFC/m 3 con una frecuencia absoluta de cuatro datos y una frecuencia relativa , de 33,3%, y con menores frecuencias los valores de 10 UFC/m3 y 232 UFC/m3 con frecuencias absolutas de un dato y frecuencias relativas de 8,3 %. ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 59

VIVIANA VARGAS FRANCO ni h¡(%) 33,3 4 16,7 2 ~ 8,3 1 10 23 47 99 156 232 Coliformes IOlales (UFC/m J ) Figura 3.3. Frecuencias absoluta y relativa para el estudio de calidad de aire en coliformes totales en la Universidad Nacional de Colombia-Sede Palmira. La Figura 3.4 presenta la gráfica de frecuencias acumuladas, donde se analiza que el 58,3% de los datos son menores o iguales a 47 UFC/m3 y el 91,7% de los datos son menores o iguales a 150 UFC/m3• HJ%) Ni 100 o o 12 91,7 oo 11 75,0 o o 9 58,3 0----0 7 25,0 0-----0 47 99 150 3 1 8,3~ 232 10 23 Co li f o rm es IOlales (UFC /m J ) Figura 3.4. Frecuencias absoluta y relativa acumuladas para el estudio de calidad de aire en coliformes totales en la Universidad Nacional de Colombia- Sede Palmira. 60 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS

CAPITULO 3 - DISTRIBUCiÓN DE FRECUENCIAS Utilizando las ecuaciones 3.3 y 3.4 para el cálculo de la media y la varianza considerando datos agrupados, se presentan a continuación estas medidas para coliformes totales en el análisis de calidad de aire: 6 ¿ n ¡ X¡ ¡ s I =82,2 (UFC 1m3 ) n ¿6 n¡ ()(- 82,2/ S 2 = -¡-a l- - 1 1 - - - - => Sag = 68,1 (UFC 1m3) ag Con la fórmula alterna: Sa~ = ¿6 h¡ ()(- 82,2/ = 4649,8 (UFC I m 3 => S ag = 65,2 (UFC 1m3) / ¡= I El coeficiente de variación se puede estimar a partir de los anteriores valores: CV=82,8% La media de coliformes totales es 82,2% (UFC/m3) , con desviación estándar de 68 ,1 ( U FC / m 3 y coeficiente de variación de 82,8%, lo que indica gran ) dispersión del conjunto de datos con relación a la media. Aunque generalmente debido a la gran variación de la variable coliformes se sugiere el uso de la media geométrica. 3.1.2 Distribución de frecuencias univariadas para una variable continua En el caso de una variable continua, los datos se agrupan en intervalos o clases para definir la distribución de frecuencias. Los criterios de frecuencias: absolutas y relativas, acumuladas y no acumuladas, son los mismos que para el caso de una variable discreta, analizada anteriormente. La diferencia consiste en la definición de intervalos y el concepto de marca de clase, así mismo la representación gráfica tiene algunas particularidades. La definición de los intervalos la puede hacer el investigador, de acuerdo con su conocimiento sobre la variable o el interés por rangos específicos. También se pueden utilizar algunas reglas que permiten estimar ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 61

VIVIANA VARGAS FRANCO el número de intervalos. A continuación se presentan los pasos para la definición de los intervalos, la marca de clase y la forma de construcción de la tabla de frecuencias. Paso 1: Estimar el número de intervalos a considerar; esto se puede hacer de dos maneras: que el investigador defina el número de intervalos que requiere, o utilizar como guía la ecuación 3.5, donde k es el número aproximado de intervalos y n es el número de datos de la variable analizada. k =1 + 3,3 Ig( n ) (3.5) El valor de k generalmente toma valores decimales, por lo tanto es necesario aproximarlo a un valor entero; el número de intervalos es un valor entero, se deben hacer 4 ó 5 intervalos y no 4,5. Otra opción para hallar el número de rn.intervalos es utilizando la fórmula: k = Se recomienda aproximar este valor al mayor entero. En general la literatura recomienda usar entre cinco y veinte intervalos Paso 2: Una vez definido el número de intervalos, se requiere estimar la longitud de cada intervalo. Se recomienda que la longitud sea igual en cada uno de los intervalos, pues esto facilita la interpretación de la distribución de frecuencias. La longitud de cada intervalo se calcula mediante la ecuación 3.6. L=JL (3.6) K Donde R es el rango; R = X máx - X min Yk el número de intervalos a elaborar. A continuación se presentan los pasos para la definición de los intervalos, la marca de clase y la construcción de la tabla de frecuencias. Paso 3: Definir los límites de cada intervalo, se inicia con el valor inicial X o, que puede ser definido como el valor mínimo del conjunto de datos, o como el menor valor entero al valor mínimo, con el fin de que los límites de los intervalos tengan valores enteros y esto facilite la interpretación de la distribución de frecuencias. Los intervalos deben definirse con la notación matemática de conjuntos, pues esto evitará ambigüedades en la ubicación de cada dato en particular, tal como se presenta a continuación: 62 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS

CAPiTULO 3 - DISTRIBUCiÓN DE FRECUENCIAS primer intervalo [Xo, XI] segundo intervalo (XI, Xzl tercer intervalo (X2 , Xl] (k -1) ésimo intervalo (Xk - 2 , X k -¡) k-ésimo intervalo Cada límite se calcula sumándole la longitud del intervalo al límite anterior: XI = X o+ L; X2 = Xl + L; :::::; Xk- I =X k- 2 + L; X k = X k- I + L Paso 4: Calcular la marca de clase, que se define como el punto medio de cada intervalo, y se calcula mediante la ecuación 3.7. XI' (3.7) Paso 5: Construir la distribución de frecuencias como se presenta en la Tabla 3.3: • La primera columna consiste en enumerar los intervalos definidos con la ecuación 3.5. • La segunda columna es la definición de los intervalos construidos sobre la base de los pasos 2 y 3, descritos anteriormente. • La tercera columna es la marca de clase definida en el paso 4. • La cuarta columna es la frecuencia absoluta, ni' que consiste en contar el número de datos de la muestra o población que se encuentran en cada intervalo. • La quinta columna es la frecuencia absoluta acumulada, N¡, definida como el valor acumulado del número de datos en cada intervalo. • La sexta columna es la frecuencia relativa, h¡, definida como la representación porcentual de cada intervalo. • La séptima columna es la frecuencia relativa acumulada, H i, que consiste en el valor acumulado de las representaciones porcentuales, h¡, en cada intervalo. ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 63

VIVIANA VARGAS FRANCO Tabla 3.3. Distribución de frecuencias univariadas para una variable continua. Frecuencia Frecuencia relativa Número Intervalo Marca Frecuencia absoluta acu· Frecuencia del (X;-J,XJ de absoluta mulada acumulada clase relativa intervalo {Xo,Xti X'. n¡ ¡ ¡ k (X\"Xz] (Xz' X,] I N¡=¿n¡ h¡=n¡ln (%) H¡=¿h¡ 1 : x', ¡= / ; =1 :z : (X. _l , X. _ti X'z n, N, h, H, 3 (X. _\"X.] X'J hz Hz : : nz Nz hj Hj : Totales nj Nj : : k-l : : : k :: h._, H. _, X'. _, h. H.=IOO% -- :: x'. 100% -- n _ 1 N. _, -- k n. N.=n n -- 3.1.2.1 Medidas de centralidad y dispersión para datos agrupados en una variable continua Media, para datos agrupados de una variable continua se calcula utilizando la ecuación 3.8. kk ¿n;X/ ¿n;X/ k Xag = ;=1 = ;-1 =¿h;X/ (3.8) k ; =1 ¿ni n ;=1 El cálculo de la media a través de la tabla de frecuencias genera un error en relación con la media de los datos originales, pues como se puede analizar de las fórmulas, se supone que la marca de clase es un representante de cada intervalo. Este error se denomina error de agrupación, que es equivalente al error relativo de un número aproximado y se calcula con la fórmula de la ecuación 3.9. Para calcular el error de agrupación de la media se debe calcular la media del conjunto de datos sin agrupar. IEagl = X -XXag I100% (3.9) I Siempre que X:f:: O 64 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS

CAPITULO 3 - DISTRIBU CiÓN DE FRECUENCIAS Varianza, para datos agrupados de una variable continua se calcula utilizando la fórmula de la ecuación 3.10. kk ¿nJX/-X\"gl ¿nJX¡:\"'X\"gl k -::::.'Lh/(x/-x.l Sl= .....:/:..-......:..'----- = / - 1 (3.10) ¡ /-/\"11 (fn,)-l n-l /- / El error de agrupamiento para la varianza se presenta en la ecuación 3.11. Para calcularlo se debe hallar la varianza de los datos sin agrupar. (3.11) Siempre que S #: O Desviación estándar, para datos agrupados de una variable continua se calcula utilizando la fórmula de la ecuación 3.12. (3.12) El error de agrupamiento para la desviación estándar se presenta en la ecuación 3.13. Para calcularlo se debe hallar la desviación estándar de los datos sin agrupar. (3.13) Siempre que S #: O En general, se puede decir que los datos están bien agrupados si el error de agrupación presenta valores menores al 30%, medianamente bien agrupados si éste se encuentra entre 30% y 70% Yun deficiente agrupamiento para errores mayores a 70%, tal como se ilustra a continuación: ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 65

VIVIANA VARGAS FRANCO 0% 30% 70% 100% Datos bien Datos medianamente Agrupación agrupados bien agrupados deficiente Mediana, cuando los datos se agrupan en intervalos de clase, la mediana no puede calcularse en forma exacta; sin embargo, si se supone que las observaciones en cada intervalo están distribuidas uniformemente, puede obtenerse una aproximación de la mediana. El primer paso consiste en localizar el intervalo que contiene el valor de la mediana, es decir, saber dónde se halla el 50% de los datos, o dónde se encuentra la mitad de ellos. La mediana se calcula a través de la ecuación 3.14 utilizando las frecuencias absolutas, o la ecuación 3.15 empleando las frecuencias relativas. N 1-1 1-2- Me:: X I _ 1 + [ n ni (L) (3.14) 1M :::: ,- X +O'5 - H1-1 ./'L'/I (3.15) h I-J [ 1 Donde: X;-J Límite inferior del intervalo que contiene el valor de la mediana n Número de observaciones en el conjunto de datos X; -1 Frecuencia absoluta acumulada hasta el intervalo anterior a la clase que contiene la mediana ni Frecuencia absoluta del intervalo donde se encuentra la mediana H¡-l Frecuencia relativa acumulada hasta el intervalo anterior a la clase que contiene la mediana (sin porcentaje) h¡ Frecuencia relativa del intervalo donde se encuentra la mediana (sin porcentaje) L Longitud del intervalo donde se encuentra la mediana 66 ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS .!J

CAPfTULO 3 . DISTRIBUCiÓN DE FRECUENCIAS Moda, similarmente como se calculó la mediana, la moda se puede estimar a partir de la tabla de distribución de frecuencias. El primer paso consiste en identificar el intervalo donde se encuentra la moda, es decir, el intervalo que tenga la mayor frecuencia absoluta o relativa. Una vez determinado el intervalo modal, la moda se puede estimar a partir de la ecuación 3.16. (3.16) Donde: X; - 1 límite inferior del intervalo que contiene el valor de la moda dI =Ini- ni-! I diferencia entre la frecuencia absoluta del intervalo modal y la frecuencia absoluta del intervalo precedente. d] =Ini- nj+ 1I diferencia entre la frecuencia absoluta del intervalo modal y la frecuencia del intervalo siguiente. L longitud del intervalo donde se encuentra la moda Si la longitud de los intervalos es igual, se pueden considerar las frecuencias relativas (sin porcentaje), tal como se presenta a continuación: 3.1.2.2 Representación gráfica de las frecuencias para una variable continua En el caso de una variable continua las gráficas de la distribución de frecuencias tienen nombre específico y juegan un papel protagónico para estimar la tendencia de la distribución poblacional y tienen una fuerte incidencia en los procesos de: inferencia, cálculo de probabilidades, estimación de intervalos de confianza y pruebas de hipótesis, entre otros. Histograma, es la representación gráfica de los intervalos en el eje X y las frecuencias relativa y absoluta en los ejes YI y y], como se presenta en la Figura 3.5. Con el histograma se puede analizar la tendencia de los datos y es la primera aproximación a la forma de distribución poblacional del conjunto de datos. Polígono de frecuencias, es la representación gráfica de la marca de clase de cada intervalo en el eje X y las frecuencias relativa y absoluta en los ejes YI y y], como se presenta en la Figura 3.6. Se puede dibujar sobrepuesta al histograma o en forma separada. El polígono de frecuencias permite estudiar la forma de la distribución ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 67

VIVIANA VARGAS FRANCO de frecuencias, y a partir de la forma se pueden inferir algunas características importantes, tales como la simetría con relación al centro del conjunto de datos. h,f\") \", hJ \"J h, \"1 h , \"1 hk nk X o X, Xl XJ •••••••• Xk _ 1 X k Variable X Figura 3.5. Histograma, gráfica de los intervalos de clase vs. las frecuencias absoluta y relativa. h,(%) n/ thJ ~ !3 h1 n \"~ n1 h h'l_ k 1 .. 1ni n_ hk t k1 t nk X/ x/ X3' X/_I xk' Variable X Figura 3.6. Polígono de frecuencias, gráfica de las marcas de clase vs. las frecuencias relativas y absolutas. 68 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS

CAPITULO 3 - DISTRIBUCiÓN DE FRECUENCIAS Ojiva es la representación gráfica de cada límite de clase en el eje X y la frecuencia relativa y absoluta acumulada en los ejes Y¡ Y Yz, como se observa en la Figura 3.7. La ojiva se puede presentar para valores mayores o iguales (a) o para valores menores o iguales al límite superior de cada intervalo (b). H¡(%) Variable X (a) Ojiva, para valores menores o iguales H¡(%) Ni H J=100% NJ=n H1 N1 HJ NJ N4 H4 ------e X_ kJ Variable X (b) Ojiva, para valores mayores o iguales Figura 3.7 Ojiva, gráfica de los intervalos y las frecuencias relativa y absoluta acumuladas. ESTADIsTICA DESCRIPTIVA PARA INGENIERrA AMBIENTAL CON SPSS 69

VIVIANA VARGAS FRANCO A partir de la gráfica de la ojiva es posible obtener en forma aproximada el valor de la mediana. Ésta es el valor que divide la distribución en dos partes iguales, es decir, el 50% de los datos están por encima de la mediana y el 50% de los datos están por debajo de la mediana. Ubicando el valor del 50% en el eje Y, se estima en el eje X el valor de la mediana en forma aproximada, como se presenta en la Figura 3.8. HJ%) NI 100% Nk=n HK_J N _ J k HJ / NJ 50% N2 H2 NJ HJ Xo XJ X2 XJ X_ Xk kJ Me = valor de la mediana Variable X Figura 3.8 Estimación de la mediana a partir de la ojiva. Ejemplo 3.2 Los datos de la Tabla 3.4 corresponden a un muestreo de ruido ambiental del nivel de presión sonora (LP) medida en decibeles (dE) en diferentes estaciones de la ciudad de Cali durante el día (LPD) y la noche (LPN). Como el nivel de presión sonora es una variable cuantitativa continua, se procede a realizar los pasos para construir la tabla de frecuencias, el histograma y la ojiva, tanto para el nivel de ruido en el día y en la noche. Análisis para el nivel de presión sonora de la ciudad de Cali durante el día (lPO) El número de intervalos se estima utilizando la ecuación 3.5: k = 1 + 3,3 19(50) = 6,6::::: 7 70 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS

CAPITULO 3 - DISTRIBUCiÓN DE FRECUENCIAS Tabla 3.4 Muestras del nivel de presión sonora de ruido medida en decibles (dB) en diferentes estaciones de la ciudad de Cali. (LPD, en el día; LPN, en la noche). N' dI estlci6n LPD(dB) LPN(dB) N° dllStlci6n LPD(dB) LPN(dB) 1 63,7 56,6 26 65,1 57,6 2 66,9 60,2 27 55,3 47,1 3 66,8 56,0 28 71,3 61,7 4 75,3 72,3 29 72,3 72,8 5 70,8 67,2 30 64,6 54,6 6 75,0 68,3 31 59,6 55,8 7 76,3 67,3 32 70,6 70,7 8 75,0 69,4 33 65,3 60,0 9 71,4 72,3 34 74,0 68,3 10 77,4 70,7 35 74,9 69,9 11 71,6 65,7 36 64,1 59,8 12 70,5 65,1 37 53,3 44,2 13 73,7 65,9 38 62,5 52,7 14 71,0 64,7 39 62,3 56,6 15 56,1 54,1 40 75,4 70,0 16 69,0 63,1 41 61,1 49,6 17 72,1 68,5 42 65,9 57,7 18 74,1 71,0 43 62,6 63,0 19 76,5 71,0 44 50,2 42,0 20 57,3 55,4 45 50,9 44,6 21 71,6 67,4 46 62,0 52,7 22 67,2 63,5 47 64,0 54,4 23 62,3 55,5 48 58,7 50,6 24 69,4 64,5 49 68,2 62,7 25 60,5 60,7 50 61,6 49,1 Es decir, se construirán siete intervalos en la tabla de frecuencias. La longitud de cada intervalo se estima a partir de la ecuación 3.6: =L X máx -Xmín = 27,2 = 39::::: 4dB k 7' ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 71

VIVIANA VARGAS FRANCO Esto es, la longitud de cada intervalo será de 4 dB. Considerando que el valor mínimo es de 50,2 dB, se selecciona el menor entero al valor mínimo como el valor de X o, es decir: X o=50dB A partir del valor mínimo se generan los límites superiores de los intervalos: Xl = X o+ L = 50 + 4 = 54 dB X2 = X¡ + L = 54 + 4 = 58 dB X3 = X2 + L = 58 + 4 = 62 dB X4 = X3 + L = 62 + 4 = 66 dB X s = X4 + L = 66 + 4 = 70 dB Xó = X s + L = 70 + 4 = 74 dB X 7 =Xó +L= 74+4= 78dB Las marcas de clase se construyen como el valor medio de los intervalos de clase: X; Xo+X¡ 50+54 = =52dB 22 X'= X¡+X2 54+58 22 =56dB 2 y así sucesivamente hasta llegar a la última marca de clase: X; Xó +X7 = 74 + 78 = 76dB 22 A partir de los anteriores valores se genera la Tabla 3.5 de distribución de frecuencias. La columna de frecuencias absolutas consiste en contar el número de datos que se encuentra en cada intervalo dentro del conjunto de datos analizado, por ejemplo n¡ = 3, es el número de datos de la muestra que se encuentran en el intervalo [ 50,54 J dB, que en porcentaje, frecuencia relativa, corresponde a h¡ = %0 100% = 6%, es decir, el 6% de los datos se hallan en este intervalo. El valor de N s = 29 significa que 29 datos son menores o iguales a 70 dB Yen términos porcentuales representan el 58% de los datos y el valor de H 4 = 46% significa que el 46% de los datos son menores o iguales a 66 dB. 72 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS

CAPfTULO 3 - DISTRIBUCiÓN DE FRECUENCIAS Tabla 3.5. Distribución de frecuencias para el nivel de presión sonora en el día en la ciudad de Cali. Número Intervalos de Marca Número de Número de Porcentaje de Porcentaje del ruido de datos por datos datos por acumulado de intervalo intarvalo (X¡_oX¡) clasa da ruido acumulados intervalo de ruido datos por por intervalo de intervalo k (dB) x.,' ni h¡=n¡ln(%) de ruido ruido 52 ; 56 ; 60 H¡=¿hl (%) 64 N¡=¿n; 68 ;=1 1-1 72 1 [50,54] 33 6 6 2 (54,58] 76 36 6 12 3 (58,62] 6 12 12 24 4 (62,66] --- 5 (66,70] 11 23 22 46 6 (70,74] 6 29 12 58 7 (74, 78] 12 41 24 82 -- Totales 9 50 18 100 100% 50 --- --- La Figura 3.9 presenta el histograma para el nivel de presión sonora en el día en la ciudad de Cali, donde se puede apreciar que las mayores frecuencias se dan en los intervalos de ruido entre (62, 66JdB y (70, 74JdB, con frecuencias relativas del 22% y el 24%, respectivamente. Las menores frecuencias se dan en los intervalos [50,54JdB y (54,58JdB con frecuencias relativas del 6%. La Figura 3.10 presenta la ojiva, que consiste en graficar los límites superiores de cada intervalo versus los valores de frecuencia relativa acumulada. Aquí se puede analizar que el 46% de los datos tienen niveles de ruido menores o iguales a 66dB y el 82% niveles de ruido menores o iguales a 74dB. ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 73

VIVIANA VARGAS FRANCO 25 ~~ 20 .~ ji 15 ~ ;:sr----1''\"\"\".~ 10 \"~ 5 lt., O 58-62 62-66 66-70 70-74 74-78 50-54 54-58 Niveles de ruido LPD (dB) Figura 3.9 Histograma de niveles de ruido en el día para la ciudad de Cali. ~~ 100 i5 90 ..s 80 ;:s § 70 g 60 .~ 50 Ji 40 <\\) ~ 30 .~ 20 <~ll la ~ O~I~~-:~~~--~--~~--~-- 54 58 62 66 70 74 78 Niveles de ruido LPD (dB) Figura 3.10 Ojiva para los niveles de ruido en el día para la ciudad de Cali. A continuación se presentan algunas medidas de centralidad y dispersión para la medición de ruido en el día. Como el nivel de presion sonora se mide en dB (decibelios), paraca\\cular las medidas de centralidad y dispersión se debe tener en cuenta que para promediar el nivel de presión sonora es necesario utilizar la ecuación 3.17: - [1nLP=101og ~~10O,I.LP] (3.17) 74 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS

CAPfTULO 3 - DISTRIBUCiÓN DE FRECUENCIAS Donde: LP Nivel de presión sonora equivalente. n Número de mediciones. LP Nivel de presión. Es decir, el nivel de presión sonora (LP) no se puede promediar directamente ya que esta medida se encuentra en escala logarítmica. Es necesario entonces utilizar como parámetro la ecuación 3.17. Redefiniendo las ecuaciones 3.8 a la 3.16 con base en la ecuación 3.17 y la información de la Tabla 3.5, se calculan la media, varianza, desviación estándar, mediana y moda. LX ag = 10 /og (-~ ni. 1(yO,J)(XiV = 70,9dB 7 -IEagl% = 1 °':;,;°,9 1 = 0,3% El valor medio de ruido en el día en la ciudad de Cali es 70,9 dB, el error de agrupamiento es 0,3% para este estadístico, que significa que la tabla de distribución de frecuencias resume muy bien el conjunto de datos. • S;g = 162,ldB2 -IEagl% = 1159,195-91,962,11 %= 1,3% • =Sag 12,6dB -1 Eag 1%=112,71~,1/,61 %=0,7% La desviación estándar del nivel de ruido durante el día en la ciudad de Cali es 12,6 dB. La distribución de frecuencias representa muy bien la variación del conjunto de datos, con un error de agrupamiento del 0,7%. La moda estimada a partir de la distribución de frecuencias representa adecuadamente la moda del conjunto de datos, dado que el error de agrupamiento es sólo del 3,1%. 1%= 167,05-67,31• Me\"-\"'67,.3dB -lEag %=0,4% 67,05 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 75

VIVIANA VARGAS FRANCO El valor de la mediana estimado con la distribución de frecuencias es un buen indicador de la mediana del conjunto de datos, pues el error de agrupamiento es tan solo del 0,4%. Análisis para el nivel de presión sonora en la noche (LPNJ Siguiendo la misma metodología para el análisis de ruido en el día, se realiza la distribución de frecuencias para el nivel de presión sonora en la noche. La distribución de frecuencias se presenta en la Tabla 3.6. Tabla 3.6 Distribución de frecuencias para el nivel de presión sonora en la noche para la ciudad de Cali. Número Intervalos Marca Datos por Datos Porcentaje de Porcentaje acumulado del de de intervalo acumulados por datos por interva· de datos por intervalo ruido de ruido intervalo de ruido intervalo clase lo de ruido de ruido k (X¡_/J X¡} n¡ / x.I ' h¡=n¡ln (%) / (dB) N¡=¿n¡ H¡=¿h/(%) /- 1 /- 1 1 [42,47} 44,5 3 3 6 6 2 (47, 52} 49,5 4 7 8 14 3 (52, 57} 54,5 11 18 22 36 4 (57,62) 59,5 7 25 14 50 5 (62,67) 64,5 9 34 18 68 6 (67,72) 69,5 13 47 26 94 7 (72, n) 74,5 3 50 6 100 -- Totales -- 50 -- 100% -- La Figura 3.11 presenta el histograma para el nivel de presión sonora en la noche en la ciudad de Cali, donde se puede apreciar que las mayores frecuencias suceden en los intervalos de ruido entre (52,57]dB y (67, 72]dB, con frecuencias relativas del 22% y el 26%, respectivamente. Las menores frecuencias se dan en los intervalos (42,47]dB y (72, 77]dB con porcentajes del 6%, respectivamente. 76 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS

CAPITULO 3 - DISTRIBUCiÓN DE FRECUENCIAS 30 25 ~~ .~ 20 .§ ~ 15 .~ \"s::: ;<oIsl 10 \"~ ~ 5 O 4 7-52 52-5 7 57-62 62-67 67- 72 72- 77 42-4 7 Niveles de ruido LPD (dB) Figura 3.11 Histograma del nivel de presión sonora, ruido, medido en la noche en la ciudad de Cali. En la Figura 3.12 se presenta la ojiva, que representa la gráfica de los límites superiores de clase versus los valores de frecuencia relativa acumulada. Donde se puede analizar que el 50% de los datos tienen niveles de ruido menores o iguales a 62dB y el 94% niveles menores o iguales a 72dB. 100 .----. ~~ 90 / ~ 80 -S;:!s ¡;; 70 ;:s \"<:s 60 .~ 50 -S! .----/ 40 ~ .~ 30 st.:J:: 20;<:\\s) t.J c.~.:; l a O 54 58 62 66 70 74 78 Niveles de ruido LPD (dB) Figura 3.12 Ojiva para los niveles de ruido en la noche para la ciudad de Cali. ESTADISTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 77

VIVIANA VARGAS FRANCO A continuación se calculan algunas medidas de centralidad y dispersión para la medición de ruido en la noche; como el nivel de presión sonora se mide en dB (decibelios), para calcular las medidas de centralidad y dispersión se debe tener en cuenta que para promediar el nivel de presión sonora es necesario utilizar la expresión de la ecuación 3.17, y redefinir las ecuaciones 3.8 a la 3.16. ag (~X = 10 log ¿ni. 1ffO,J)(XV = 66,7dB _1 Eag 1% = 166,166-,166, 7 I= 0,9% El valor medio de ruido en la noche en la ciudad de Cali es de 66,7 dB Y el error de agrupamiento es de 0,9% para este estadístico, que significa que la tabla de distribución de frecuencias resume muy bien el conjunto de datos. • S;g= 153,8dBl -lEa 1%=1153,3 -153,81 %=0,3% g 153,3 • Sag= 12,4dB -1 Eag 1%= 112,31~,~2,41 %= 0,8% La desviación estándar del nivel de ruido durante la noche en la ciudad de Cali es 12,4 dB. La distribución de frecuencias representa muy bien la variación del conjunto de datos, con un error de agrupamiento del 0,8 %, para este estadístico. _1Mo~ 68,4dB Eag1%=156,;;;8,4 1%=20% • Me~62dB -IEagl %=162,262-,262 1 % =0,3% Los valores de la moda y la mediana son menores en las horas de la noche que en las horas del día. El error de agrupamiento de la moda, en este caso, es mucho mayor que el presentado para el nivel de ruido en las horas del día. Ejemplo 3.3 La producción de basura diaria por vivienda y por habitante en el municipio de Talaigua, departamento de Bolívar, se presenta en la Tabla 3.7. 78 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS

CAPiTULO 3 - DISTRIBUCiÓN DE FRECUENCIAS Tabla 3.7 Datos de producción de basura diaria en el municipio de Talaigua (Bolívar) . Vivienda No. de Basura Basura por Vivienda No. de Basura Basura por No. habitantas por vivien· habitante No. habitantas por vivien· habitante (kg/dial (kg/dial 1 da 20 da 2 (kg/dial 21 (kg/dial 3 22 4 3 1.70 0,57 23 6 3,93 0,65 5 24 6 5 4,51 0,90 25 8 4,06 0,51 7 26 8 5 5,14 1,03 27 5 4,29 0,86 9 28 10 4 0,95 0,24 29 10 4.71 0,47 11 30 12 6 1.73 0,29 31 6 2,59 0,43 13 32 14 5 1,08 0,22 33 3 3,87 1,29 15 34 16 10 8,55 0,86 35 5 6.75 1,35 17 36 18 8 3.73 0,47 37 8 5,83 0.73 19 8 8,87 1,11 11 10,65 0,97 2 2,72 1,36 6 3,72 0,62 7 1,01 0,14 4 2,18 0,54 5 1,80 0,36 4 1,97 0,49 2 2,26 1,13 2 2,09 1,04 5 6,39 1,28 10 5,00 0,50 7 5,43 0.78 5 6,44 1,29 7 3.71 0,53 2 1,14 0,57 7 7,86 1.12 9 3,39 0,38 6 6,67 1,11 6 4,12 0,69 6 4,44 0.74 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 79

VIVIANA VARGAS FRANCO Análisis para producción de basura diaria por vivienda Siguiendo los pasos para construir la tabla de distribución de frecuencias, se presenta en la Tabla 3.8, la distribución para la producción de basura producida por vivienda (kgldía). Tabla 3.8 Distribución defrecuencias para la producción de basura por vivienda (kg/día) Número Intervalos de Marca Datos por Datos Porcentaje de Porcentaje del basura por de intervalo acumulados datos por acumulado de vivienda de basura por intervalo de intervalo de datos por intervalo de intervalo (X¡./1X¡j clase basura k (kg/día) ni basura basura X.,' h;=n;ln(%) ; ; (kg/día) N;=Ln; H;=Lh¡(%) ;=1 ¡= I 1 rO,2] 1 8 8 21,6 21.6 11 19 29,7 51,3 2 (2,4] 3 10 29 27,0 78,3 5 34 13,5 91.8 3 (4,6] 5 2 36 97,2 1 37 5A 99,9 4 (6,8] 7 37 -- 2,7 -- 5 (8,IO] 9 100% 6 (lO,12] 11 -- Totales -- El histograma para la producción de basura por vivienda se muestra en la Figura 3.13, donde se puede analizar que las mayores frecuencias se tienen en los intervalos (0,2), (2A) Y (4,6) (kg/día), con frecuencias relativas de 21,6%, 29,7% Y 27,0%, respectivamente. La menor frecuencia se encuentra en el intervalo (10,12) (kg/día), con un porcentaje del 2,7%. 80 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS

CAPfTULO 3 - DISTRIBUCiÓN DE FRECUENCIAS 35 30 ~~ 25 ...~. ..!:! 20 ~ .S! 15 u ~ ;u: 10 t:~.; 5 I II O 0-2 2-4 4-6 6-8 8 -10 10 - 12 Basura por vivienda (kg/día) Figura 3.13. Histograma de producción de basura por vivienda en el municipio de Talaigua (Bolívar). La ojiva se muestra en la Figura 3.14, donde se puede analizar que el 51,3% de los datos son menores o iguales a 4 kg/día por vivienda y el 91,8% de los datos son menores o iguales a 8 kg/día por vivienda. 100 ~~ 90 ~ 80 -S;:l ;t:: 70 <.> 60 ~ ~ 50 ] ~ 40 .9 30 <.> s.:: 1\\) ;: <.> 20 J: 10 o 2 4 68 la 12 Basura por vivienda (kg/día) Figura 3.14. Ojiva de la producción de basura por vivienda en el municipio de Ta/aigua (Bolívar) . ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 81

VIVIANA VARGAS FRANCO A continuación se presentan medidas de centralidad y dispersión para la medición de producción diaria de basura por vivienda en kg/día, estimados a partir de la distribución de frecuencias. XQg = 4,2 (kg/día) -IEQgl % = 0% S:g = 6,4 (kg/día) -IEQgl % =12,3% SQg =2,5 (kg/día) -1 1EQg % =4,2% Me ~ 3,9 (kg/día) -1 1EQg % = 0% Mo ~ 3,5 (kg/día) -IEQgl % =No existe El valor medio de producción de basura por vivienda es 4,2 kg/día, con una desviación de 2,5 kgldía. La mediana y la moda toman valores de 3,9 kgldía y 3,5 kgldía, respectivamente. En general, las distribuciones de frecuencias presentan una buena agrupación del conjunto de datos, pues se obtuvieron errores de agrupamiento relativamente pequeños. El error de agrupamiento de la moda no existe, debido a que en el conjunto de datos no existe moda, a pesar de que este valor se puede estimar con la tabla de frecuencias. Análisis para producción de basura diaria por habitante La distribución de frecuencias para la producción de basura diaria por habitante para el municipio de Talaigua (Bolívar), se presenta en Tabla 3.9. El histograma para la producción diaria de basura por habitante del municipio de Talaigua se presenta en la Figura 3.15, donde se puede analizar que la producción de basura con mayor frecuencia sucede en el intervalo (O,4-0,6]kg/día, con una frecuencia relativa del 27%. La producción con menor frecuencia se da en el intervalo (O-O,2]kg/día con una frecuencia relativa del 2,7%. La ojiva para la producción de basura diaria por habitante se presenta en la Figura 3.16, donde se puede analizar que el 43,2% de los habitantes tienen una disposición de basuras menor o igual de 0,6 kgldía, el 70,2% tienen una disposición de basura menor o igual a 1,0 kg/día y el 86,4% tienen una disposición menor o igual a 1,2 kgldía. 82 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS

CAPITULO 3 - DISTRIBUCiÓN DE FRECUENCIAS Tabla 3.9 Distribución defrecuencias para la producción de basura por habitante (kg/día). Número Intervalos de Marca Datos por Datos Porcentaje de Porcentaje del basur por de intervalo datos por acumulado habitente clase de basura acunwlados intervalo de de datos por inter· intervalo por intervalo basura k (X¡./JX,j X1' ni de basura valo de hl=n¡ln(%) basura (kg/dÚl) (kg/dÚI) 1 ¡ N¡=Ln¡ H1=Lhl(%) 1- / i- l 1 [0-0,2} 0,1 1 1 2,7 2,7 16,2 2 (0,2-0,4) 0,3 5 6 13,5 43,2 59,4 3 (O, 4-0,6} 0,5 10 16 27,0 70,2 86,4 4 (O, 6-0, 8} 0,7 6 22 16,2 99,9 5 (O,8-l) 0,9 4 26 10,8 -- 6 (J-l,2) 1,1 6 32 16,2 7 (J ,2-l,4) 1,3 5 37 13,5 -- Totales -- 37 -- 100% 30 ~ 25 ~ ~~ 20 15 ·9 ~ 10 ~5 O +------+------r-----~----~r_----~----~----~ 1-1,2 1,2 -1,4 Basura por vivienda (kg/día) Figura 3.15 Histograma de producción de basura diaria por habitante para el municipio de Talaigua (Bolívar). ESTADISTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 83

VIVIANA VARGAS FRANCO 100 ~~ 90 .g 80 -S;:sl 70 ;E::s: 60<.;¡ (] .;(:] 50 ~ 40 ~ .S! 30 <.;¡ s:: \";~:s 20 ~ ~ 10 O 0,2 0,4 0,6 0,8 1 1,2 1,4 Basura por vivienda (Kg/día) Figura 3.16 Ojiva de producción de basura diaria por habitante para el municipio de Talaigua (Bolívar) . A continuación se presentan medidas de centralidad y dispersión para la medición de basura por habitante en kg/día, estimados a partir de la distribución de frecuencias. X ag = 0,7 (kg/día) -IEagl%=O% S:g = 0,1 (kg/día) -IEagl%=O% Sag = 0,3 (kg/día) -IEagl%=O% Me;:;; 0,7 (kg/día) -IEagl%=O% Mo ;:;; 0,5 (kg/día) - l Eag 1%=1 0,60-,06 ,51=16'7% Q El valor medio de la producción de basura por habitante es 0,7 kg/día, con una desviación de 0,3 kg/día. La mediana y la moda toman valores de 0,7 kg/día y 0,5 kg/día, respectivamente. En general, la distribución de frecuencias presenta una buena agrupación del conjunto de datos, pues se obtuvieron errores de agrupamiento iguales a cero, excepto para el valor de la moda. 84 ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS

CAPíTULO 3 - DISTRIBUCiÓN DE FRECUENCIAS 3.1.2.3 Asimetría y nivel de apuntamiento de las gráficas de frecuencias La suavización de los polígonos de frecuencias muestrales son una aproximación a la curva de frecuencias poblacional; esta aproximación es más precisa a medida que aumenta el tamafio de la muestra. La Figura 3.17 muestra diversas formas de tendencia de los datos, generadas a través de las curvas del polígono de frecuencias. a) Simétrica o normal b) Sesgada a la derecha c) Sesgada a la izquierda d) En forma de J (sesgo positivo) (sesgo Negativo) e) En forma de J v invertida j) En forma de U g) Bimodal h) M ultimodal i) Rectangular o uniforme Figura 3.1 7Diagramas de distribución para una variable continua (Spiegel, 1970). (a) Curva de frecuencias simétricas. Se caracterizan porque las observaciones que equidistan el máximo central tienen la misma frecuencia. Curva normal. (b) Curva sesgada a la derecha (sesgo positivo). La cola de la curva a un lado del máximo central es mayor que al otro lado. Si la cola ESTADIsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS 85

VIVIANA VARGAS FRANCO mayor se presenta a la derecha de la curva se dice que está sesgada a la derecha o sesgo positivo. (e) Curva sesgada a la izquierda (sesgo negativo). Si ocurre lo contrario se dice que la curva está sesgada a la izquierda o sesgo negativo. (d) Curva en forma de J. El máximo se presenta en un extremo. (e) Curva en forma de J invertida. El mínimo se presenta en un extremo. (f) Curva en forma de U. Tienen el máximo en ambos extremos. (g) Curva bimodal. Tiene dos máximos. (h) Curva multimodal. Tiene más de dos máximos. (i) Rectangular o uniforme. Dos medidas ayudan a caracterizar una curva de frecuencias : el grado de asimetría, medido por el indicador de sesgo, y el grado de apuntamiento de la curva, medido por el coeficiente de curtosis. Sesgo, es el grado de asimetría o falta de simetría de una distribución. Una curva es simétrica si las observaciones son equidistantes con el valor máximo central de la curva. Si el polígono de frecuencias de una distribución tiene una cola más larga a la derecha del máximo central que a la izquierda, la distribución se llama asimétrica positiva o sesgada a la derecha o que tiene sesgo positivo. En el caso de que la distribución tenga una cola más larga a la izquierda, la distribución se llama asimétrica negativa o sesgada a la izquierda o que tiene sesgo negativo. El sesgo o nivel de asimetría de una distribución se puede estimar a partir de la ecuación 3.18. asimetría = A = medía - moda (3.18) ss Aquí, s es la desviación estándar de la muestra. El nivel de sesgo o asimetría presenta las siguientes interpretaciones: • Cuando es igual a cero, la simetría es perfecta; la curva presenta forma de campana o distribución normal. • Cuando el valor es cercano a 0,1, indica una distribución de frecuencias ligeramente asimétrica. Si el valor es mayor que 0,1, indica una distribución de frecuencias con asimetría notoria. • El signo positivo indica una asimetría con cola hacia la derecha. 86 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS

CAPITULO 3 - DISTRIBUCiÓN DE FRECUENCIAS • El signo negativo indica una asimetría con cola hacia la izquierda. Un valor aproximado de la moda será el valor más alto de la curva del polígono de frecuencia. Una curva de frecuencia puede tener más de una moda, sin embargo, en la mayoría de las aplicaciones relacionadas con las investigaciones experimentales son raras las distribuciones que tienen más de una moda. La presencia de dos o más modas significa generalmente que los datos no son homogéneos o que se han combinado dos o más distribuciones distintas. Si la distribución es unimodal y simétrica, entonces la media, mediana y moda serán iguales entre sÍ. Un ejemplo de esto es la curva con forma de campana o normal. Cuando la distribución es asimétrica, la media y la mediana no serán iguales. Así, en el caso de una distribución asimétrica en forma negativa o sesgada negativamente, la media será menor que la mediana. Con una curva asimétrica en forma positiva o sesgada positivamente, la media será mayor que la mediana, tal como se observa en la Figura 3.18. M o =M• =X M o <M• <X X < M• < Mo As <O As=O As>O (e) (a) (b) Figura 3.18. Opciones de asimetría presentadas en una distribución de frecuencias. (a) Asimetría perfecta; distribución normal (b) Asimetría positiva, cola hacia la derecha, sesgo positivo (e) Asimetría negativa, cola hacia la izquierda, sesgo negativo Coeficiente de curtosis, es el grado de apuntamiento de una distribución, este se toma generalmente con relación a la distribución simétrica o curva normal; una distribución que presenta un apuntamiento relativamente alto se llama leptocúrtica;una distribución achatada se llamaplaticúrtica y la distribución normal o acampana con relación al centro se llama mesocúrtica. Una medida del coeficiente de curtosis se emplea utilizando la ecuación 3.19. ESTADIsTICA DESCRIPTIVA PARA INGENIERIA AMBIENTAL CON SPSS 87

VIVIANA VARGAS FRANCO curtosis =k ¿\"(X¡-Xl (3.19) 1-/ ns4 Donde s es la desviación estándar y n el número de datos en la muestra. Este índice presenta la siguiente interpretación: Cuando es igual a 0,263, se dice que es una distribución mesocúrtica o distribución normal. Cuando es mayor que 0,263 se dice que es una distribución leptocúrtica. Cuando es menor que 0,263 se dice que es una distribución platicúrtica. Para las distribuciones no normales que tienen un gran apuntamiento, la mediana puede ser una medida de centralidad más fiable que la media, y entonces resulta preferible. En la Figura 3.19 se presentan las diversas opciones del coeficiente de curtosis. k=0,263 ~ k> 0,263 (a) Mesoeúrtiea: (e) Leptoeúrtiea: distribución normal k < 0,263 distribución apuntada (b) Platieúrtiea: distribución achatada Figura 3.19 Clasificación del nivel de apuntamiento de una curva a través del coeficiente de curtosis. Intervalos para la media. Para una distribución aproximadamente normal se pueden estimar intervalos con relación a la media y la desviación estándar, como se ilustra a continuación: f.I. ± a : contiene aproximadamente el 68% de los datos. f.I. ± 2a: contiene aproximadamente el 95% de los datos. f.I. ± 3a: contiene aproximadamente el 99 % de los datos. 88 ESTADfsTICA DESCRIPTIVA PARA INGENIERfA AMBIENTAL CON SPSS


Like this book? You can publish your book online for free in a few minutes!
Create your own flipbook