5.6 5.6. Ejercicios y problemas Ejercicio 5.6 El valor de la variable reducida es z = x − µx σ(x) 2,3 − 3,0 = 0,5 = − 1,4 De modo que P (x < 2,3) = P (z < −1,4) = 0,5 − P (0 < z < −1,4) = 0,5 − P (0 < z < 1,4) = 0,081 Ejercicio 5.7 Queremos calcular P (778 < x < 834) = P (x < 834) − P (x < 778) = P (z < z1) − P (z < z2) Procedemos a calcular las variables reducidas z1 y z2 z1 = 778 − 800 = −0,55 40 834 − 800 z2 = 40 = 0,85 de modo que P (x < 778) = P (z < −0,55) = 0,5−P (−0,55 < z < 0,0) = 0,5−P (0,0 < z < 0,55) = 0,2912 P (x < 34) = P (z < 0,85) = 0,5 + P (0,0 < z < 0,85) = 0,8023 P (778 < x < 834) = P (x < 834) − P (x < 778) = 0,8023 − 0,2912 = 0,5111 Ejercicio 5.8 Los cojinetes que se descartarán son aquellos que esten fuera del intervalo (2.9,3.1) cm. Para calcular la fracción de cojinetes que se descartan calcularemos la fracción de cojinetes que esperamos que esten dentro del intervalo, P (2,9 < x < 3,1) Las variables reducidas vienen dadas por z1 = 2,99 − 3,0 = −2,0 0,005 3,01 − 3,0 z2 = 0,005 = +2,0 P (2,9 < x < 3,1) = P (−2 < z < 2) = 2P (0 < z < 2) = 0,9544 Esperamos que un 4.56 % de los cojinetes no cumplan las especificaciones. Ejercicio 5.9 µ = 2,90043 , σ2 = 0,0625 100
5 5. Distribuciones de probabilidad de variables aleatorias continuas Distribución t de student Ejercicio 5.11 (a) P (T > t1) = 0, 05 Teniendo en cuenta que la probabilidad del suceso seguro es 1 (ver definición axiomática de probabilidad): P (T ≤ t1) + P (T > t1) =1,00 P (T ≤ t1) + 0,05 =1,00 P (T ≤ t1) =0,95 Consultando la tabla de la distribución t de Student tenemos t1 = t0,95(ν = 9) = 1,83. (b) Siguiendo el mismo procedimiento que en la sección a obtenemos t1 = t0,975(ν = 9) = 2,26. (c) P (−t1 < T < t2) = 0, 99 Si el intervalo no es símetrico hay infinitos pares de valores de t1 y t2 que cumplen la condición prescrita para definir los límites del intervalo. Sin embargo, sólo hay un par de valores de t1 y t2 tales que si −t1 = t2, P (−t1 < T < t2) = 0, 99. Teniendo en cuanta la simetría de la distribución t de Student, la condición P (−t2 < T < t2) = P (−t2 ≤ T ≤ 0) + P (0 ≤ T ≤ t2) = 0,99 P (T ≤ −t2) + P (T ≥ t2) = 2,0 × P (T ≥ t2) = 0,01 P (T ≥ t2) = 0,005 Utilizando los razonamientos de la sección a tenemos que t2 = t0,995(ν = 9). Consultando la tabla de la distribución t de Student tenemos −t1 = t2 = t0,995(ν = 9) = 3,25. (d) P (t1 < T < t2) = 0, 975 Siguiendo el mismo razonamiento que en la parte (c) obtenemos t2 = −t1 = t0,9875(ν = 9) = 2,73. El valor de la percentila t0,9875(ν = 9) no está incluido en la tabla. Se puede aproximar utilizando una interpolación lineal entre los valores de la tabla couespondientes a las percentilas t0,975(ν = 9) y t0,99(ν = 9). (e) P (T ≥ t1) = 0, 90 Teniendo en cuenta la simetría de la distribución t de Student P (T ≥ t1) = P (T ≤ −t1) = 0, 90 de modo que t1 = −t0,9(ν = 9) = −1, 38 101
5.6 5.6. Ejercicios y problemas Ejercicio 5.13 (a) P (U > c) = 0,05 Teniendo en cuenta que la probabilidad del suceso seguro es 1 (ver definición axiomática de probabilidad): P (U > c) + P (U ≤ c) = 1 0,05 + P (U ≤ c) = 1 P (U ≤ c) = 0,95 Consultando la tabla de la distribución t de Student tenemos c = t0,95(ν = 9) = 1,83. (b) P (−c ≤ U ≤ c) = 0,98 Teniendo en cuanta la simetría de la distribución t de Student, tenemos P (−c ≤ U ≤ c) = P (−c ≤ U ≤ 0) + P (0 ≤ U ≤ c) = 0,98 P (U ≤ −c) + P (U ≥ c) = 2, 0xP (U ≥ c) = 0,02 P (U ≥ c) = 0,01 Finalmente tenemos c = t0,99(ν = 10) = 2,76. (c)P (U < c) = 0,20 Teniendo en cuanta la simetría de la distribución t de Student tenemos P (U < c) = P (U > −c) = 0,20 de modo que P (U < −c) = 0,80 Consultando la tabla de la distribución t de Student tenemos c = −t0,80(ν=10)=−0,879. (d) P (U ≥ c) = 0,20 Teniendo en cuenta la simetría de la distribución t de Student P (U ≥ c) = P (U ≤ −c) = 0,90 de modo que c = −t0,9(ν = 10) = −1, 37 Distribución χ2 Ejercicio 5.14 La varianza muestral es s2(x) = 0,815. Suponiendo que las vida media de las bate- rias sigue una distribución normal, la variable aleatoria (ecuación 5.27) X2 = (n − 1) s2(x) σ2(x) sigue una distribución χ2(ν = n − 1). 102
5 5. Distribuciones de probabilidad de variables aleatorias continuas Sustituyendo obtenemos X2 = 4 × 0,815 = 3,26 1 Consultando el apéndice A.3 tenemos que el intervalo simétrico que contiene el 95 % de las medidas está comprendido entre χ20,025(ν = 4) = 0,484 y χ20,975(ν = 4) = 11,143. El resultado obtenido esta dentro del intervalo y no contradice la hipótesis inicial σ2(x) = 1 5.7. Lecturas recomendadas Para completar la preparación de este tema recomendamos la lectura de: Capítulo 2. Estadística de medidas repetidas. del texto de Miller y Miller[3]. Capítulo 1. Magnitudes aleatorias y sus caracterísitcas. del texto de Spiridonov y Lopatkin[7]. Revisa los contenidos del tema. Adecuado para revisar la teoría del tema. Capítulo 4. Distribuciones de Probabilidad especial del libro de Spiegel y cols.[5]. Adecuado para revisar ejercicios. En este tema los autores del libro también se tratan otras distribuciones como la multinomial, hipergeométrica, Cauchy o gamma. No se han estudiado porque no son de apliación frecuente en Química. Es mejor obviar las secciones en las que se explican esas distribuciones pues no son imprescindibles para comprender el tratamiento de las distribuciones normal, t, χ2 o F. Se recomienda la revisión de los siguientes ejercicios: • Distribución normal. Ejercicios 4.12 a 4.15 • Aproximación normal a la distribución binomial. Ejercicios 4.17 a 4.19 • La distribución chi cuadrado. Ejercicios 4.38 a 4.40 • La distribución t de Student. Ejercicios 4.43 y 4.44 • La distribución F . Ejercicios 4.47 En el caso de los ejercicios relacionados con la distribución normal se ilustra como identificar los parámetros de la distribución normal y el uso de las tablas para la evaluación de probabi- lidades. El resto de los ejercicios que se recomienda revisar, ilustran como utilizar las tablas de las percentilas de las distribuciones t, χ2 y F . Sirven para revisar como se usan las tablas estad´sticas y adquirir confianza en su manejo. Capítulo 4. Funciones de variables aleatorias. del texto de Walpole y Myers[6]. De este capí- tulo es útil la revisión de las secciones: 6.4 Muestreo aleatorio. 6.5 Algunas estadísticas importantes. 103
5.7 5.7. Lecturas recomendadas 6.8 Distribuciones muestrales de medias. 6.9 La distribución muestral de (n − 1)s2/σ2 6.10 La distribución t 6.11 La distribución F 104
6 Intervalos de probabilidad e intervalos de confianza Contenidos Intervalos de probabilidad Definición. Cálculo del intervalo de proba- bilidad de la media. Cálculo del intervalo de probabilidad de la varianza. Intervalos de confianza Definición. Cálculo del intervalo de confianza de la media Cálculo del intervalo de confianza de la diferencia de las medias Cálculo del intervalo de confianza de la varianza para variables normalmente distribuidas Objetivos Comprender las diferencias entre intervalo de probabilidad e intervalo de confianza Conocer las características que diferencian un intervalo de probabilidad y un intervalo de confianza Calcular intervalos de probabilidad de una magnitud aleatoria. Calcular intervalos de confianza de la media de una variable gaussiana Calcular intervalos de confianza de la varianza de una variable gaussiana Calcular el intervalo de confianza de la diferencia de la media de variables gaussianas Comparar datos apareados utilizando el test de la t de Student para datos apareados 105
6.1. Distribución de probabilidad del error aleatorio. Considere un conjunto de medidas x1, x1 , . . ., xn de una magnitud. En ausencia de error sistemá- tico sólo debemos tener en cuenta el error aleatorio. Por tanto, el resultado de una medida, xi, viene dado por la suma del valor real, µx, y el error aleatorio asociado a esa medida εi. xi = µx + εi (6.1) Para estimar el valor real, µx, necesitamos conocer que función de densidad de probabilidad des- cribe el error aleatorio. Asumiremos que ei sigue una distribución normal de media µε = 0 y varianza σ2(ε). Como εi sigue una distribución normal y µx es una constante, los resultados de las medidas xi también siguen una distribución normal. La media de la distribución normal de las medidas es µx y su varianza, s2(x), es igual que la varianza del error aleatorio, σ2(x) = σ2(ε). Estas propiedades se demuestran fácilmente utilizando las propiedades de la esperanza matemáti- ca µxi = E [xi] = E [(µx + εi)] = µx + E [(εi)] = µx + µεi = µx + 0 = µx (6.2) σ2(xi) = E (xi − µxi)2 = E ((µx + εi) − (µx + µεi))2 = E ((εi − µεi)2 = σ2(εi) (6.3) El error aleatorio puede que no este distribuido normalmente. En algunos casos es evidente, por ejemplo cuando sabemos que nuestros datos siguen una distribución uniforme, binomial o de Poisson. En otros casos es necesario comprobar que los datos se ajustan a una distribución de probabilidad pos- tulada (gaussiana, log-normal, exponencial, etc). Realizar esta comprobación es importante cuando el método utilizado para calcular las estimas poblacionales no es robusto. Un método de cálculo de es- timas no es robusto cuando (i) que los datos utilizados no se ajusten a la distribución de probabilidad postulada para desarrollar el método, implica que (ii) las estimas de los parámetros poblacionales que se obtienen pueden ser erróneas. 6.2. Intervalos de probabilidad 6.2.1. Definición Sea x una estima del parámetro poblacional ξ (por ejemplo, la media o la varianza). Se define como el intervalo de probabilidad de la estima x del parámetro ξ con un nivel de probabilidad p al intervalo de valores de x xm´ın = ξ − em´ın x ξ + em´ax = xm´ax (6.4) que cumple P (xm´ın x xm´ax) = p (6.5)
6 6.Intervalos de probabilidad e intervalos de confianza Los límites del intervalo de probabilidad xmin y xmax son valores constantes y se calculan cono- cidos la forma de la función de distribución (o de densidad de probabilidad) y los parámetros que la caracterizan (media, varianza). Se pueden definir infinitos intervalos de probabilidad de una estima x de un parámetro poblacional ξ con un nivel de probabilidad p. Nosotros trabajaremos con intervalos de tres tipos: P (xm´ın x) = p (6.6) P (x xm´ax) = p (6.7) P (xm´ın x xma´x) = p (6.8) Para este último intervalo imponemos la condición adicional de que probabilidad de obtener un valor de x fuera del intervalo de probabilidad sea igual en ambos lados. Es decir « P (xm´ax 1−p (6.9) « P (xm´ax x) = 2 1−p x) = 2 6.2.2. Intervalos de probabilidad de las medidas Hemos supuesto que los errores aleatorios siguen una distribución normal. Por tanto, las medidas experimentales aisladas también siguen una distribución normal. Como la distribución normal es simétrica respecto de la media cuando se calcula el intervalo de probabilidad de una medida frecuente trabajar con intervalos simétricos alrededor de la media A = µ − D xi µ + D = A (6.10) donde D es una constante que se elige dependiendo del valor de nivel probabilidad p del intervalo, P (µ − D xi µ + D) = p (6.11) D suele fijarse como un múltiplo de σ, D = kσ. Así la probabilidad asociada al intervalo depende exclusivamente del valor de k: k = 1,00 P (A xi A) = P (−1,00 z 1,00) = 2,0 ∗ P (0 z 1,00) = 0,68 k = 1,96 P (A xi A) = P (−1,96 z 1,96) = 2,0 ∗ P (0 z 1,96) = 0,95 k = 2,00 P (A xi A) = P (−2,00 z 2,00) = 2,0 ∗ P (0 z 2,00) = 0,955 k = 3,00 P (A xi A) = P (−3,00 z 3,00) = 2,0 ∗ P (0 z 3,00) = 0,997 107
6.2 6.2. Intervalos de probabilidad 6.2.3. Intervalos de probabilidad de las medias El intervalo de probabilidad se calcula del mismo modo que el intervalo de probabilidad de los datos pero teniendo que para n medidas (ver sección 5.2.1): µ (x¯) = µ (x) (6.12) σ2 (x¯) = σ2 (x) (6.13) n Ejemplo 1. Cálculo del intervalo de probabilidad de un conjunto de medidas En una práctica de laboratorio se midió el pH de una disolución. El análisis del conjunto de los resultados condujo a los valores µpH = 5,00 y σ2(pH) = 0,04. Determine el intervalo de valores que comprende el 95 % de las medidas del pH. Para una distribución normal estandarizada (ver sección 5.2 y apéndice 1) tenemos P (−1,96 z 1,96) = 2 P (0 z 1,96) = 0,95 donde z = x − µx σ(x) De donde sigue que los límites del intervalo que queremos calcular cumplen z = pH − µpH = ±1,96 → −1,96 = pHm´ın−5,0 → pHm´ın = 4,61 σ(pH ) 0,2 pHm´ax−5,0 +1,96 = 0,2 → pHm´ın = 5,39 El intervalo de pH donde se encuentra el 95 % de las medidas es [4.80,5.20]. 6.2.4. Intervalos de probabilidad de las varianzas La varianza muestral s2(x) sigue una distribución χ2 (ver sección 5.4.1). Esta distribución es asimétrica, y los valores de las cuantilas que necesitamos para calcular los límites del intervalo de probabilidad, A y A, dependen del nivel de probabilidad elegido, p y del número de medidas, n. Si la muestra comprende n medidas y queremos calcular el intervalo de probabilidad con un nivel de probabilidad p, el intervalo de probabilidad de s2(x) viene dado por σ2(x) · χ2 (ν) s2(x) σ2(x) · χ12− p (ν ) (6.14) (n − 1) 1−p (n − 1) 2 2 108
6 6.Intervalos de probabilidad e intervalos de confianza Figura 6.1: Si la magnitud X está normalmente distribuida, y D = 1,96σ, la probabilidad de que el resultado de una medida x se encuentre entre los valores A y A es PN (A ≤ x ≤ A) = 0,95 6.3. Intervalos de confianza 6.3.1. Definición Sea x una estima del parámetro poblacional ξ . Se define como el intervalo de confianza del parámetro x con un nivel de confianza 1 − α como el intervalo de valores de x xm´ın = x − em´ın ξ x + em´ax = xm´ax que cumple P (xm´ın ξ xma´x) = p = 1 − α 1 − α es el nivel o grado de confianza del intervalo [x1, x2]. El nivel de confianza es una medida de la probabilidad de que el parámetro x esté dentro del intervalo [x1, x2]. α es el grado de significación y da idea de la probabilidad de que el parámetro x esté fuera del intervalo estimado. Una diferencia importante entre los intervalos de probabilidad y los intervalos de confianza es la naturaleza de los extremos. En un intervalo de probabilidad con un nivel de probabilidad p los extremos del intervalo xmin y xmax son constantes, no cambian al repetir el experimento. En un intervalo de confianza con un nivel de confianza 1 − α = p, los extremos del intervalo son xmin y xmax son números aleatorios. Esto se debe al hecho de que para calcularlos utilizamos la estima de 109
6.3 6.3. Intervalos de confianza ξ, x, que es una variable aleatoria. Por tanto, los extremos dependen de los datos empleados para calcular x y pueden ser distintos en distintos experimentos. Consideremos un experimento en que σ2(x) es conocida con gran precisión. Se realiza una medida y se obtiene un valor xi. El valor de xi puede no coincidir con µ pero está incluido dentro del intervalo de probabilidad p dado por que corresponde al intervalo de valores en el que esperamos obtener xi con una probabilidad p, conocidos los valores de µx y σ2(x). Esto es, xi está comprendido entre A y A en la figura 6.2. Si no conocemos µx sólo podemos intentar estimar el intervalo en que esperamos que encontrar a µx (constante) conocido el valor de su estima xi (variable aleatoria), es decir µ − kσ xi µ + kσ (6.15) Esto corresponde a que M está comprendida entre B y B en la figura 6.2 xi − kσ µ xi + kσ (6.16) Figura 6.2: Comparación de (a) intervalo de probabilidad, µx − kσ ≤ xi ≤ µx + kσ, y (b) el intervalo de confianza xi − kσ ≤ µx ≤ xi + kσ. Basado en la figura 6.2 del texto de J. Mandel reseñado en la bibliografía. Aunque las dos expresiones anteriores son equivalentes algebraicamente, tienen distinto signifi- cado. La primera (6.15) expresa el hecho de que la variable aleatoria x está comprendida entre las constantes µx − kσ y µx + kσ (un intervalo de probabilidad). La segunda (6.16) implica que espera- mos que la constante µ que se encuentre en un intervalo definido por dos variables aleatorias xi −kσ y xi + kσ (un intervalo de confianza). La interpretación teórica de los intervalos de confianza es debida a Neyman y Pearson: el intervalo de confianza expresa la probabilidad de que µx este comprendida en el intervalo aleatorio que se extiende de xi − kσ a xi − kσ (en el intervalo B’ B de la figura 6.2). Si cada experimento consta de n medidas, la estima de µx es la media muestral, . El intervalo de probabilidad para la media muestral es µ − k √σ x µ + k √σ (6.17) nn 110
6 6.Intervalos de probabilidad e intervalos de confianza mientras que el intervalos de confianza de la media poblacional es x − k √σ µ x + k √σ (6.18) nn La figura 6.3 ilustra el concepto del concepto de intervalo de confianza. En las figura se representan los resultados de una serie de medidas con sus respectivos intervalos de confianza. Cada medida hace referencia a una estimación independiente del parámetro µx. Debido a la naturaleza aleatoria de los errores, las estimas fluctúan alrededor del valor µx. Las barras de error representan los intervalos de confianza de las estimas de µx basadas en la medida xi o en la media muestral de n medidas, x¯. Las barras de error de cada medida equivalen a los intervalos de√confianza B’B de la figura 6.2. El límite inferior de la barra de error r√epresenta el valor x¯ − k σ(x)/ n, mientras que el límite superior representa el valor de a x¯+k σ(x)/ n. En el diagrama suponemos que todas las estimas se realizaron utilizando n√medidas, en consecuencia la longitud de los intervalos de confianza es constante e igual a 2k σ(x)/ n . Observe que en la figura 6.3 no todos los intervalos de confianza cortan la línea discontinua (que corresponde al valor del parámetro µx). El nivel de confianza asociado de cada intervalo puede in- terpretarse como la frecuencia con la que esperamos que los intervalos obtenidos experimentalmente incluyan el valor real de la magnitud que estemos estimando (µx en este ejemplo) cuando dibujáramos una gráfica como la de la figura 6.3 y el número de medidas fuera muy grande. Figura 6.3: Intervalos de confianza de la media cuando la varianza σ2(x) es conocida. La longitud de los segmentos es constante pero la posición de sus puntos medios es una variable aleatoria. Note que la longitud de los segmentos es proporcional al número de medidas utilizadas para calcular x¯. Basado en la figura 6.3 del texto de J. Mandel reseñado en la bibliografía. 111
6.4 6.3. Intervalos de confianza Si tanto la media µx como la varianza σ2(x) son desconocidas, utilizaremos las estimas muestrales de µxy σ2(x), x¯ y s2(x) para calcular el intervalo de confianza de m. Sabemos que t = x¯ − µ√x (6.19) s(x)/ n es una variable aleatoria que sigue una distribución una distribución t de Student con ν = n − 1 grados de libertad (ver sección 5.3.1 ). Con esta expresión podemos obtener un intervalo centrado en la media muestral (intervalo de confianza) |x¯ − µx| tp · s√(x) (6.20) n x¯ − tp · s√(x) µx x¯ + tp · s√(x) (6.21) n n donde el valor de tp depende del número de medidas y del nivel de confianza (p = 1 − α). Además, puesto que s(x) es una variable aleatoria, la longitud del intervalo de confianza varia de muestra a muestra. La figura 6.4 ilustra el concepto del concepto de intervalo de confianza en este caso. En las figura se representan los resultados de una serie de medidas con sus respectivos intervalos de confianza. Cada medida hace referencia a una estimación independiente del parámetro µx. Debido a la naturaleza aleatoria de los errores, las estimas fluctúan alrededor del valor µx. Además como los extremos del intervalo se calculan utilizando la varianza muestral, s2(x), la longitud de los intervalos de confianza es una variable aleatoria. Figura 6.4: Intervalos de confianza de la media cuando la varianza σ2(x) se desconoce. Como s(x) varia de experimento a experimento, tanto la longitud de los intervalos como sus puntos medios son variables aleatorias. Además, la longitud de los segmentos también es proporcional al número de medidas utilizadas para calcular x¯. Basado en la figura 6.3 del texto de J. Mandel reseñado en la bibliografía. 112
6 6.Intervalos de probabilidad e intervalos de confianza 6.4. Calculo de intervalos de confianza para la media 6.4.1. Datos distribuidos normalmente con varianza σ2(x) conocida Suponga que dispone de n observaciones x1, x2, . . ., xn distribuidos de acuerdo con una distribu- ción normal de media µx y varianza σ2(x), PN (x; µx, σ2(x)) y de la que no conocemos µx. Puesto que la media muestral sigue una distribución normal, PN (x; µx, σ(x)/n el intervalo de confianza de µx con un nivel de confianza 1 − α es x¯ − k1− α · σ√(x) µx x¯ + k1− α · σ√(x) (6.22) 2 n 2 n x¯ − k1− α · σ√(x), x¯ + k1− α · σ√(x) (6.23) 2 n 2 n x¯ ± k1− α · σ√(x) (6.24) 2 n donde k1−α/2 toma un valor tal que se cumple P x¯ − k1− α · σ√(x) µx x¯ + k1− α · σ√(x) =P −k1− α µx −√x¯ k1− α =1−α 2 n 2 n 2 σ(x)/ n 2 (6.25) 6.4.2. Datos distribuidos normalmente con varianza finita y con n grande Suponga que dispone de n observaciones x1, x2, . . ., xn que siguen la misma distribución de probabilidad con media µx y varianza σ2(x) finita, ambas desconocidas pero con un valor de n grande (n ≥ 50). De acuerdo con el teorema del límite central (ver 5.2.1), x¯, sigue una distribución normal de media µx y varianza σ2(x). Así, la variable aleatoria x¯ − µ √ (6.26) z= n σ(x) sigue una distribución normal de media µz = 0 y varianza varianza σ2(z) = 1, PN (z; 0, 1). Para valores grandes de n podemos hacer la aproximación σ2(x) ∼= s2(x) (6.27) De modo que el intervalo de confianza de la media con un nivel 1 − α viene dado por x¯ − k1− α · σ√(x) µx x¯ + k1− α · σ√(x) (6.28) 2 n 2 n 113
6.4 6.4. Calculo de intervalos de confianza para la media x¯ ± k1− α · σ√(x) (6.29) 2 n donde k1−α/2 toma un valor tal que se cumple P x¯ − k1− α · σ√(x) µx x¯ + k1− α · σ√(x) =P −k1− α µx −√x¯ k1− α =1−α 2 n 2 n 2 σ(x)/ n 2 (6.30) ¿Cuando es n lo suficientemente grande?. El valor de n depende de la función de distribución que caracteriza al conjunto de datos estudiado. El tema va más allá de los contenidos de este curso. Como referencia podemos utilizar n ≥ 50. Ejemplo 2. Cálculo del intervalo de confianza de la media (I) Para una variable aleatoria x distribuida normalmente con varianza σ2(x) = 1 se obtuvieron los siguientes datos : +0.250, +1.620, + 0.014, -0.366, + 0.756, + 0.608, -2.150, +1.162. Determine el intervalo de confianza del 95 % de la media poblacional El intervalo de confianza viene dado por las ecuaciones 6.22, 6.23 ó 6.24. Por comodidad utili- zaremos la ecuación 6.24 x¯ ± k1− α · σ√(x) 2 n √ Calculamos x¯ = 0,205 y σ(x¯) = σ(x)/ n = 1/3 Puesto que el nivel de confianza es del 95 %, P −k µ−x¯ √ k = 2P 0 µ−x¯ √ k = 0,95 σ(x) n σ(x) n P0 µ−x¯ √ k = 0,475 → k = 1,96 σ(x) n Sustituyendo en la ecuación 6.24 obtenemos 0,205 ± 1,96 · 1 = 0,653 3 6.4.3. Datos distribuidos normalmente con varianza σ2(x) desconocida Suponga que dispone de n observaciones x1, x2, . . ., xn distribuidos de acuerdo con una distri- bución normal de media µx y varianza σ2(x), PN (x; µx, σ2(x)), pero que desconoce la media y la varianza. Para obtener el intervalo de confianza haremos uso de que la variable aleatoria (ver 5.3.1) t = x¯ − µ√x (6.31) s(x)/ n 114
6 6.Intervalos de probabilidad e intervalos de confianza que está distribuida de acuerdo con una distribución t de Student con ν = n − 1 grados de libertad. Recuerde que la distribución t de Student es simétrica respecto a t = 0. Por tanto x¯ − t1− α (ν = n − 1) · s√(x) µx x¯ + t1− α (ν = n − 1) · s√(x) (6.32) 2 n 2 n x¯ − t1− α (ν = n − 1) · s√(x) , x¯ + t1− α (ν = n − 1) · s√(x) (6.33) 2 n 2 n x¯ ± t1− α (ν = n − 1) · s√(x) (6.34) 2 n (6.35) donde tp(n = 1 − n) corresponde al valor de t tal que P −t1− α (ν = n − 1) t(ν = n − 1) = 1 − α 2 −t1− α (ν = n − 1) · s√(x) µx −√x¯ t1− α (ν = n − 1) (6.36) 2 n s(x)/ n 2 Ejemplo 3. Cálculo del intervalo de confianza de la media (II) Considere los de resultados de un experimento en los que se determinó la densidad de un polí- mero de alto peso molecular: ρ¯ = 1,25510 g.cm−3, s(ρ) = 3,7 10−4 g.cm−3 y n = 5. Determine el intervalo de confianza del 95 % de la media poblacional El intervalo de confianza viene dado x¯ ± t1− α (ν = n − 1) · s√(x) (6.37) 2 n Puesto que el nivel de confianza es del 95 %, ρ =1,25510 ± t0,975(ν = 4) 3,7√10−4 = 1,25510 ± 2,776 3,7√10−4 5 5 =1,25510 ± 0,0005 g.cm−3 115
6.5 6.5. Calculo de intervalos de confianza para la varianza Ejemplo 4. Cálculo del intervalo de confianza de la media (III) Diez análisis de la concentración de albúmina dieron una media de 20.92 µg/l y una desviación típica de 0.45 µg/l. Calcule el intervalo de confianza del 95 El intervalo de confianza viene dado x¯ ± t1− α (ν = n − 1) · s√(x) (6.38) 2 n Puesto que el nivel de confianza es del 95 %, c =20,92 ± t0,975(ν = 8) 0√,45 = 20,92 ± 0,45 9 2,31 3 =20,92 ± 035 g.cm−3 6.4.4. Datos que siguen una distribución desconocida con varianza finita y con n pequeña En este caso no podemos decir nada. Para poder aplicar el teorema del límite central (ver necesi- tamos más medidas. 6.5. Calculo de intervalos de confianza para la varianza Considere que dispone de un conjuntos de n observaciones independientes x1, x2, . . ., xn que siguen una distribución normal PN (x; µx, σ2(x)) de la que se desconoce µx y σ2(x). Se puede demostrar que la variable aleatoria n (xi − x¯)2 s2 (x) 1) X2 = σ2 (x) = (n − σ2 (x) (6.39) i=1 sigue una distribución χ2 con ν = n − 1 grados de libertad. Por tanto, P χ2α/2(ν) (n − 1) · s2 (x) χ21−α/2(ν) = 1 − α (6.40) σ2 (x) donde χα2 /2 y χ12−α/2 son las cuantilas de α/2 y 1 − α/2 de las distribución χ2(ν). Reordenando esta expresión se obtiene (n − 1) · s2 (x) σ2 (x) (n − 1) · s2 (x) =1−α (6.41) P χ12−α/2(ν) χα2 /2(ν) 116
6 6.Intervalos de probabilidad e intervalos de confianza y el intervalo de confianza con un nivel de confianza a viene dado por (n − 1) · s2 (x) (n − 1) · s2 (x) χ12−α/2(ν) , (6.42) χ2α/2 (ν ) Note que el intervalo no es simétrico respecto de s2(x). Ejemplo 5. Cálculo del intervalo de confianza de la varianza Considere de nuevo el experimento de la determinación de la densidad de un polímero. En una tanda de experimentos se obtuvo s2(ρ) = 14,0 10−8 g2.l−2, n = 5. Determine el intervalo de confianza de σ2(ρ) con α = 0,90. El intervalo de confianza viende dado por (n − 1) · s2 (x) (n − 1) · s2 (x) χ21−α/2(ν) , χ2α/2 (ν ) Tenemos: (n − 1) · s2 = 5,6 10−7 Consultando el apéndice 3, obtenemos χ02,05(ν = 4) = 0,711 y χ02,95(ν = 4) = 9,49. Sustituyendo 5,67 10−7 5,67 10−7 = (0,60, 7,97) 10−7 , 9,49 0,711 6.6. Cálculo de intervalos de confianza para la diferencia de las medias Considere que dispone de un conjuntos de observaciones independientes x1, x2, . . ., xn1 e y1, y2, . . ., yn2 con n1 y n2 medidas cada uno. Sean µ1 y µ2 las medias poblacionales de x e y respectivamente . En esta sección explicaremos como calcular el intervalo de confianza de µ1 − µ2. 117
6.6 6.6. Cálculo de intervalos de confianza para la diferencia de las medias 6.6.1. Datos distribuidos normalmente con varianzas σ12(x) y σ22(y) conocidas La suma de dos variables aleatorias gaussianas sigue también una distribución gaussiana (ver 5.2.1). Si x sigue una distribución PN (x; µx, σ12(x)) e y una distribución PN (x; µy, σ22(y)). La variable aleatoria d = x − y sigue una distribución gaussiana PN (d; µ1 − µ2, σ12(x)/n1 + σ22(y)/n2). Por tanto la variable d, definida como d = (x¯ − y¯) − (µ1 − µ2) (6.43) +σ12 σ22 1/2 n1 n2 sigue una distribución PN (d; 0, 1) y el intervalo de confianza viene dado por σ12 + σ22 1/2 n1 n2 (x¯ − y¯) ± z(1− α ) (6.44) 2 6.6.2. Datos distribuidos normalmente con varianzas σ12(x) y σ22(y) desconoci- das pero iguales Considere dos variables aleatorias tales que x sigue una distribución PN (x; µx, σ12(x)) e y una distribución PN (x; µy, σ22(y)). La variable aleatoria d = x − y sigue una distribución gaussiana PN (d; µ1 − µ2, σ12(x)/n1 + σ22(y)/n2). Si las varianzas no son conocidas pero podemos suponer que σ12(x) = σ22(y), se puede suponer que la variable aleatoria t t = (x¯ − y¯) − (µ1 − µ2) (6.45) 1/2 +1 1 s (x − y) n1 n2 sigue una distribución t de Student con ν = n1 + n2 − 2 grados de libertad. La estima de σ2(x − y), s2(x − y) se calcula utilizando la ecuación s2 (x − y) = (x − x¯)2 + (y − y¯)2 = (n1 − 1) s21 + (n2 − 1) s22 (6.46) n1 + n2 −2 n1 + n2 − 2 El intervalo de confianza viene dado por 11 1/2 + (x¯ − y¯) ± t1− α (n1 + n2 − 2) s (x − y) (6.47) 2 n1 n2 118
6 6.Intervalos de probabilidad e intervalos de confianza Ejemplo 6. Cálculo del intervalo de confianza de la diferencia de las medias En la comparación de dos métodos de preparación de polímeros, se obtuvieron los siguientes resultados para la densidad media de las disoluciones de polímero preparadas en cada método. Método 1.barρ = 1,21510 g.cm - 3 s2 (ρ) = 1,4 10−7 g.cm - 3 n1 = 5 Método 1.barρ = 1,21650 g.cm - 3 s2 (ρ) = 6,5 10−7 g.cm - 3 n2 = 4 Determine el intervalo de confianza del 90 % de la diferencia de las medias. ¿Hay una diferencia significativa en la densidad del polímero generado en estos métodos?. El intervalo de confianza viende dado por 11 1/2 + (x¯ − y¯) ± t1− α (n1 + n2 − 2) s (x − y) 2 n1 n2 donde (x¯ − y¯) = −1,4 10−3 s2 (x − y) = (n1 − 1) s21 + (n2 − 1) s22 = (4 · 14 + 3 · 60,5) 10−8 = 33,9 10−8 n1 + n2 − 2 (5 + 4 − 2) (6.48) s (x − y) = 5,82 10−4 s (x − y) 11 1/2 t0,95 (ν = 7) = 1,895 + n1 n2 = 2,91 10−4 Sustituyendo se obtiene el intervalo de confianza de la diferencia de las medias: ∆ρ12 = (−1,4 ± 0,5) 10−3 g.l−1 (6.49) Note que el intervalo de confianza no incluye el cero lo que indica que con un nivel de confianza del 90 % las densidades de los polímeros producidos por ambos métodos son diferentes. 6.6.3. Datos que siguen cualquier distribución con varianza finita y con n1 y n2 grandes De acuerdo con el teorema del límite central (ver 5.2.1) para valores grandes de n1 y n2, las variables aleatorias zX = x¯ − µx √ zY = y¯ − µy √ (6.50) σ(x) n1 σ(y) n2 siguen distribuciones normales de media 0 y varianza 1.0. 119
6.7 6.7. Análisis de datos emparejados Para valores grandes de n podemos hacer la aproximación σ2(x) ∼= s2(x) (6.51) σ2(y) ∼= s2(y) de modo que el intervalo de confianza µ1 − µ2 de la media con un nivel de confianza 1 − α es s21 + s22 1/2 n1 n2 (x¯ − y¯) ± z(1− α ) (6.52) 2 6.6.4. Datos distribuidos normalmente con varianzas σ12(x) y σ22(y) desconoci- das y distintas Consideremos las variables x e y con distribuciones PN (x; µ1, σ12(x)) y PN (x; µ1, σ12(x)), de las que no conocemos sus varianzas pero sospechamos que σ12(x) = σ22(y). Para estimar el intervalo de confianza de la media utilizaremos el estadístico t = (x¯ − y¯) − (µ1 − µ2) (6.53) +s21 s22 1/2 n1 n2 que sigue una distribución t de Student con ν grados de libertad que se calculan redondeando el valor obtenido de la expresión ν= +s12 s22 2 n1 n2 +s14 s24 (6.54) n22(n2−1) n21(n1−1) ν1 = n1 − 1 ν2 = n2 − 1 a un número entero. Finalmente, el intervalo de confianza viene dado por s21 + s22 1/2 n1 n2 (x¯ − y¯) ± t1− α (ν) (6.55) 2 6.7. Análisis de datos emparejados A menudo se compararan dos métodos de análisis estudiando muestras de ensayo que contienen sustancialmente diferentes cantidades de analito. Por ejemplo, suponga que se desea comparar dos métodos para la determinación de la concentración de paracetamol en pastillas. Con este fin, se ana- lizan diez pastillas de diez lotes diferentes para ver si difieren los resultados obtenidos por los dos métodos. Como siempre existe variación entre las medidas debida al error aleatorio de la medida. Además, las diferencias entre las tabletas y entre los métodos pueden contribuir también a la varia- ción entre las medidas. Esto último es lo que interesa en este ejemplo: se desea saber si los métodos producen resultados significativamente diferentes. Estudiar la diferencia entre las médias de los resul- tados obtenidos con cada método no es apropiado en este caso porque no separa la variación debida 120
6 6.Intervalos de probabilidad e intervalos de confianza al método de la que resulta de la variación entre las pastillas: se dice que los dos efectos se «con- funden». Esta dificultad se soslaya observando la diferencia, d, entre cada par de resultados dados por los dos métodos. Si no existen diferencias entre los dos métodos, entonces estas diferencias se obtienen de una población con media µd = 0. Para probar la hipótesis nula, se prueba si d¯ difiere significativamente de cero utilizando el estadístico t. Para contrastar si n resultados emparejados se extraen de la misma población, es decir, H0 : µd = 0, se calcula el estadístico t: t = d¯√ (6.56) s(d)/ n donde d¯ y S(d) son la media y la desviación estándar, respectivamente, de d, la diferencia entre los valores que forman cada par de medidas. El número de grados de libertad de t es ν = n − 1. Los contrastes por parejas descritos no requieren que las precisiones de los dos métodos sean igua- les. Suponen que las dife rencias, d, están distribuidas normalmente. En efecto, esto exige que cada conjunto de medidas se distribuya normalmente y que la precisión y sesgo (si acaso) de cada método sean constantes en el intervalo de valores en que se realizaron las medidas. Los datos pueden constar de medidas individuales, como en o de medias de medidas repetidas. Sin embargo, es necesario que se realice el mismo número de medidas sobre cada muestra por el primer método y análogamente por el segundo método: es decir, n medidas de cada muestra por el método 1 y por el método 2, donde m y n deben ser iguales. Hay diferentes circunstancias por las cuales puede ser necesario o deseable diseñar un experimento, de manera que cada muestra sea analizada por cada uno de los dos métodos, proporcionando resultados que están emparejados de forma natural. Algunos ejemplos son: 1. La cantidad de muestra disponible a examen es suficiente para sólo una determinación por cada método. 2. Las muestras a examen pueden presentarse durante un extenso período de tiempo por lo que es necesario eliminar los efectos de las variaciones en condiciones ambientales como temperatura, presión, etc. 3. Los métodos se van a comparar utilizando una amplia variedad de muestras de diferente proce- dencia y posiblemente con concentraciones muy distintas Ejemplo 7. Contraste de datos emparejados Los datos de la tabla recogen los resultados de medias de la concentración de paracetamol (en mg) para un lote de 10 pastillas Lote 1 2 3 4 5 6 7 8 9 10 UV 84.63 84.38 84.08 84.41 83.82 83.55 83.92 83.69 84.06 84.03 NIR 83.15 83.72 83.84 84.20 83.92 84.16 84.02 83.60 84.13 84.24 ¿Hay una diferencia significativa entre los resultados obtenidos por los dos métodos? 121
6.7 6.7. Análisis de datos emparejados Las diferencias entre los pares de válores (restando el segundo al primero son): Lote 1 2 3 4 5 6 7 8 9 10 UV 84.63 84.38 84.08 84.41 83.82 83.55 83.92 83.69 84.06 84.03 NIR 83.15 83.72 83.84 84.20 83.92 84.16 84.02 83.60 84.13 84.24 d +1.48 +0.66 +0.24 +0.21 -0.10 -0.61 -0.10 +0.09 -0.07 -0.21 Estos valores tienen una media d¯ = 0,159 y desviación típica s(d) = 0,570. Si H0 : µd = 0,de acuerdo con la ecuación 6.56 texp = d¯√ < t0,95(ν = 9) s(d)/ n texp = 0,88 que es menor que el valor crítico t0,95(ν = 9) = 2,26. Es decir, ambos métodos no proporcionan resultados significativamente diferentes para la concentración de paracetamol. 122
6 6.Intervalos de probabilidad e intervalos de confianza 6.8. Ejercicios y problemas Cuestión 6.1 Indique la mejor respuesta La variable aleatoria x¯ esta distribuida de acuerdo con una distribución (a) normal (b) t de Student con ν = n grados de libertad (c) t de Student con ν = n − 1 grados de libertad (d) χ2 con ν = n − 1 grados de libertad (e) F con ν1 = n − 1 y ν2 = n grados de libertad (f) Ninguna de las anteriores Cuestión 6.2 Indique la mejor respuesta √ La variable aleatoria y = (x¯ − µx)/(s(x)/ n) esta distribuida de acuerdo con una distribución (a) normal (b) t de Student con ν = n grados de libertad (c) t de Student con ν = n − 1 grados de libertad (d) χ2 con ν = n − 1 grados de libertad (e) F con ν1 = n − 1 y ν2 = n grados de libertad (f) Ninguna de las anteriores Cuestión 6.3 Indique la mejor respuesta La variable aleatoria s2(x) de datos que siguen una distribución normal esta distribuida de acuer- do con una distribución (a) normal (b) t de Student con ν = n grados de libertad (c) t de Student con ν = n − 1 grados de libertad (d) χ2 con ν = n − 1 grados de libertad (e) F con ν1 = n − 1 y ν2 = n grados de libertad (f) Ninguna de las anteriores 123
6.8 6.8. Ejercicios y problemas Cuestión 6.4 Verdadero o falso. Jusitfique la respuesta. Sea x una estima del parámetro poblacional ξ. El intervalo de probabilidad de la estima x del parámetro ξ con un nivel de probabilidad p es el intervalo de valores de x que cumple Se define como el intervalo de probabilidad de la estima x del parámetro ξ con un nivel de probabilidad p al intervalo de valores de x xm´ın = ξ − em´ın x ξ + ema´x = xma´x (6.57) que cumple P (xm´ın x xma´x) = p (6.58) Hay infinitos intervalos de probabilidad que cumple esta condición Cuestión 6.5 Indique aquellas afirmaciones que sean correctas Un intervalo de probabilidad simétrico (a) sólo existe para datos que siguen distribuciones de probabilidad simétricos (b) está centrado alrededor de la media (c) para x¯ está centrado en µx (d) para x está centrado en µx (e) para s2(x) no está centrado en σ2(x) (f) cumple que « P (xm´ax x) = 1−p y « P (xm´ax x) = 1−p 2 2 Cuestión 6.6 Indique la mejor respuesta Los límites x1 y x2 del intervalo de probabilidad simétrico xm´ın = ξ − em´ın x ξ + ema´x = xm´ax (6.59) con nivel de probabilidad p son (a) constantes (b) números aleatorios (c) Ninguna de las anteriores. Justifique la respuesta Cuestión 6.7 Defina intervalo de confianza. Cuestión 6.8 Cuando se trabaja con intervalos de confianza, ¿qué indicamos con el nivel de con- fianza del intervalo?. 124
6 6.Intervalos de probabilidad e intervalos de confianza Cuestión 6.9 Indique aquellas afirmaciones que sean correctas Los intervalos de confianza con nivel de confianza 1 − α para la media pueden calcularse como (a) x¯ ± z1− α · σ√(x) 2 n (b) µx ± z1− α · σ√(x) 2 n (c) x¯ ± t1− α (ν = n − 1) · s√(x) 2 n (d) µx ± t1− α (ν = n − 1) · s√(x) 2 n Problema 6.1 Para investigar la reproducibilidad de un método para la determinación de selenio en alimentos, se realizaron nueve medidas sobre un lote de arroz tostado, con los siguientes resultados: 0,07 0,07 0,08 0,07 0,07 0,08 0,08 0,09 0,08 µg.g−1 Calcular la media, desviación estándar y desviación estándar relativa de estos resultados. La desviación estándar relativa se define como 100 × s(x)/x¯. Problema 6.2 Siete medidas del pH de una solución reguladora proporcionaron los siguientes resul- tados: 5,12 5,20 5,15 5,17 5,16 5,19 5,15 Calcular los límites de confianza para el verdadero pH al nivel de confianza del (i) 95 (Suponer que no existen errores sistemáticos.) Problema 6.3 Diez análisis repetidos de la concentración de mercurio en una muestra de condensa- do de gas comercial proporcionaron los siguientes resultados: 23,3 22,5 21,9 21,5 19,9 21,3 21,7 23,8 22,6 24,7 ng.ml−1 Calcular la media, desviación estándar, desviación estándar relativa de estos resultados y límites de confianza de la media al 99 Problema 6.4 Seis análisis repetidos de otra muestra proporcionaron los siguientes valores: 13,8 14,0 13,2 11,9 12,0 12,1 ng.ml−1 Calcular la media, desviación estándar, desviación estándar relativa de estos resultados y límites de confianza de la media al 99 Problema 6.5 Se midió la concentración de plomo en el fluido sanguíneo para una muestra de 50 niños de un colegio próximo a una calle con mucho tráfico. La media muestral fue 10.12 ng.ml−1 y la desviación estándar fue 0.64 ng.ml−1. Calcular el intervalo de confianza al 95 % para la concentración media de plomo de todos los niños de la escuela. Problema 6.6 Considere los datos del problema 6.5. ¿Qué tamaño debería tener la muestra para reducir la longitud del intervalo de confianza a 0.2 ng.ml−1 (es decir: ±0,1 ng.ml−1)? 125
6.8 6.8. Ejercicios y problemas Problema 6.7 Para la evaluación de un método para la determinación de fluoreno en agua de mar, se adicionó a una muestra sintética de agua de mar 50 ng.ml−1 de fluoreno. Diez muestras repetidas de la concentración de fluoreno en la muestra tuvieron una media de 49.5 ng.ml−1 con una desviación estándar de 1.5 ng.ml−1. Calcule los límites de confianza de la media al 95 %. ¿Está el valor adicionado de 50 ng.ml−1 dentro de los límites de confianza al 95 % ? Problema 6.8 Se utilizó una disolución 0.1 M de ácido para valorar 10 ml de una solución de álcali 0.1 M , registrándose los siguientes volúmenes de ácido: 9,88 10,18 10,23 10,39 10,21 ml Calcule los límites de confianza de la media al 95 % y utilícelos para decidir si existe alguna evidencia de error sistemático. Problema 6.9 En un método nuevo para determinar selenourea en agua, se obtuvieron los valores para muesstras de agua de grifo adicionadas con 50 ng.ml−1 de selenourea 50.4 50.7 49.1 49.0 51.1 ¿Hay alguna evidencia de error sistemático? Problema 6.10 En una comparación de dos métodos para la determinación de cromo en muestras de hierba de centeno se obtuvieron los siguientes resultados (mg.Kg−1) Método 1 Media = 1.48 d.e. = 0.28 Método 2 Media = 2.33 d.e. = 0.31 Para cada método se realizaron 5 determinaciones. ¿Estos dos métodos proporcionan resultados cuyas medias difieren significativamente? Problema 6.11 En una serie de experimentos para la determinación de estaño en productos ali- menticios las muestras fueron llevadas a ebullición con HCl a reflujo para diferentes tiempos. Los resultados fueron: Tiempo de reflujo (min) Estaño encontrado 30 55 57 59 56 56 59 75 57 55 58 59 59 59 ¿Es significativa la diferencia entre las cantidades encontradas obtenidas para los dos de ebulli-2 ción? Problema 6.12 Los datos de la siguiente tabla proporcionan la concentración de tiol (mM) en el lisado sanguíneo de dos grupos de voluntarios siendo el primer grupo \"normal el segundo sufriendo artritis reumatoide ¿Es significativa la diferencia entre las cantidades de tiol en sangre encontradas para los distintos grupos de voluntarios?. 126
6 6.Intervalos de probabilidad e intervalos de confianza Normal 1.84 1.92 1.94 1.92 1.85 1.91 2.07 Reumatoide 2.81 4.06 3.62 3.27 3.27 3.76 Problema 6.13 Para evaluar un método espectrofotométrico para determinar titanio, se aplicó el método a muestras de aleaciones conteniendo diferentes cantidades certificadas de titanio. Los resul- tados ( % Ti) se muestran a continuación. Muestra Valor celtificado Media Desviación estándar 1 0.496 0.482 0.0257 2 0.995 1.009 0.0248 3 1.493 1.505 0.0287 4 1.990 2.002 0.0212 Para cada aleación se realizaron 8 determinaciones repetidas. Para cada aleación, contraste si el valor medio difiere significativamente del valor certificado. Problema 6.14 La tabla recoge los resultados de la medida de una propiedad mediante dos técnicas experimentales diferentes. Lote Ensayo espectrométrico UV Espectroscopía de reflectancia en el IR cercano 1 84.63 83.15 2 84.38 83.72 3 84.08 83.84 4 84.41 84.20 5 83.82 83.92 6 83.55 84.16 7 83.92 84.02 8 83.69 83.60 9 84.06 84.13 10 84.03 84.24 ¿Son las diferencias entre pares de medidas significativas?. Problema 6.15 Los siguientes datos proporcionan la recuperación de brofnuro adicionado a mues- tras con contenido vegetal, medido mediante un método cromatográfico gas-líquido. La cantidad de bromuro potásico añadido a cada tipo de vegetal fue la misma. Tomate (µg.g−1) 777 790 759 790 770 758 764 Pepino (µg.g−1) 782 773 778 765 789 797 782 (a) Contrastar si la recuperación en los dos vegetales tiene varianzas, que difieran significativa- mente. (b) Contrastar si las tasas de recuperación medias difieren significativamente. Siete medidas del pH de una solución reguladora proporcionaron los siguientes resultados: 127
6.8 6.8. Ejercicios y problemas Problema 6.16 La siguiente tabla proporciona la concentración de norepinefrina (µmol por g de creatinina) en la orina de voluntarios sanos de veinte años. Hombres 0.48 0.36 0.55 0.45 0.46 0.47 Mujeres 0.35 0.37 0.27 0.29 ¿Existe evidencia que la concentración de norepinefrina difiera entre sexos? Problema 6.17 Seis análisis repetidos de otra muestra proporcionaron los siguientes valores: 13,8 14,0 13,2 11,9 12,0 12,1 ng.ml−1 Calcular la media, desviación estándar, desviación estándar relativa de estos resultados y límites de confianza de la media al 99 Problema 6.18 La siguiente tabla recoge resultados de un trabajo en el que fueron comparados dos métodos diferentes para la determinación de cromo en materiales orgánicos. Agujas de pino Método 1 media= 2.15 d.e. = 0.26 Hojas de haya Método 2 media =2.45 d.e. = 0.14 Planta acuática Método 1 media= 5.12 d.e. = 0.80 Método 2 media =7.27 d.e. = 0.44 Método 1 media= 23.08 d.e. = 2.63 Método 2 media =32.01 d.e. = 4.66 En cada caso la media es el promedio de 5 valores. Para cada material probar si la media de los resultados obtenidos por los dos métodos difiere significativamente. Problema 6.19 Un nuevo procedimiento enzimático de análisis por inyección en flujo para determi- nar peróxido de hidrógeno en agua fue comparado con un método volumétrico redox convencional con permanganato potásico aplicando ambos métodos a muestras de peróxido de uso farmacéutico. La siguiente tabla proporciona la cantidad de peróxido de hidrógeno, en mg.ml−1. Cada valor es la media de cuatro réplicas. Muestra Método enzimático Método del permanganato 1 31.1 32.6 2 29.6 31.0 3 31.0 30.3 Probar si los resultados obtenidos por ambos métodos difieren significativamente. Problema 6.20 Las siguientes cifras se refieren a la concentración de albúmina, en gl−1, en el suero sanguíneo de 16 adultos sanos: Hombres 37 39 37 42 39 45 42 39 Mujeres 44 40 39 45 47 47 43 41 ¿Difiere significativamente la concentración media para hombres y mujeres?. 128
6 6.Intervalos de probabilidad e intervalos de confianza Problema 6.21 Se comparó un nuevo método espectroscópico de absorción atómica de llama para determinar antimonio en la atmósfera con el método colorimétrico recomendado. Para muestras de atmósfera urbana, se obtuvieron los siguientes resultados: Muestra Antimonio encontrado (mg.m−3) 1 Método nuevo Método estándar 2 3 22.2 25.0 4 19.2 19.5 5 15.7 16.6 6 20.4 21.3 19.6 20.7 15.7 16.8 ¿Hay diferencias significativas entre los resultados obtenidos por los dos métodos? 129
6.9 6.9. Lecturas recomendadas 6.9. Lecturas recomendadas Para completar la preparación de este tema recomendamos la lectura de: Capítulo 3. Contrates de significación. del texto de Miller y Miller[3]. Chapter 7. Point Estimators, Confidence Intervals del texto de Graham[2] Útil para completar el estudio del tema Chapter 6. The Precission and Accuracy of Measurements del texto de Mandel[4] Útil para completar el estudio del tema 130
7 Cálculo de errores Contenidos Calculo de errores en medidas directas. Cálculo de errores. Deses- timación de medidas: el test Q de Dixon. El test de la τ de Thompson modificada. Calculo de errores en medidas indirectas Error de escala: determina- ción del error máximo y más probable. Error aleatorio. Combinación de errores. Media ponderada de medidas independientes Objetivos Reconocer Reconocer Realizar Comprender Conocer Comprender Utilizar 131
7.1 7.1. Cálculo de errores en medidas directas 7.1. Cálculo de errores en medidas directas En general podemos expresar el resultado de una medida como x = µ ± εi donde la incertidumbre, εi, podemos expresarla como εi = εsistemtico + εescala + εaleatorio Nuestro objetivo es estimar la magnitud de cada una de estas incertidumbres que pasaremos a discutir una a una. 7.1.1. Errores de escala La contribución del error de escala a la incertidumbre la podemos considerar constante para cada medida. Utilizaremos como valor del error de escala la mitad de la escala de medida del aparato, a no ser que las especificaciones del aparato indiquen lo contrario. 7.1.2. Errores de sistemáticos La determinación de los errores sistemáticos no es siempre sencilla. En los casos más benignos son constantes o varían de manera conocida (por ejemplo, si utilizamos un aparato mal calibrado) y las medidas pueden corregirse. En general, para acotar los errores sistemáticos es necesario hacer experimentos de calibrado y utilizar técnicas de diseño de experimentos. En este curso supondremos que los errores sistemáticos están enmascarados por otras fuentes de error. 7.1.3. Errores accidentales o aleatorios Para estimar su valor tenemos que proponer un modelo para la función de distribución de proba- bilidad de las medidas. En adelante supondremos que nuestras medidas están distribuidas de acuerdo con una función de distribución gaussiana o que podemos utilizar el teorema del límite central. Para decidir si la incertidumbre en las medidas se ajusta a este modelo debemos hacer uso de las técnicas de ensayo de hipótesis y diseño de experimentos. Supongamos que tenemos n medidas independientes x1, x1 , . . ., xn de una magnitud obtenidas en un mismo aparato, utilizando el mismo método e iguales condiciones iniciales. Esta condición equivale a decir que las medidas son muestras de la misma población y están caracterizadas por la misma distribución de probabilidad. Si suponemos que los errores están distribuidos de acuerdo con una distribución gausiana, el valor de la magnitud a determinar coincidirá con su media, µ. La incertidumbre en las medidas estará relacionada con su desviación típica, σ(x), que es una medida de la dispersión de los datos alrededor de la media di = xi − µ. Si no conocemos ni µ ni σ(x) sólo podemos estimar su valor. Para determinar las estimas de µ y σ(x) tenemos que utilizar métodos de determinación de estimas. Frecuentemente se utilizan las técnicas de máxima verosimilitud y el método de mínimos cuadrados. Aplicando estos métodos se obtiene: 132
7 7.Cálculo de errores (1) La estima de la media general de la magnitud coincide con la media aritmética x¯, de las obser- vaciones: 1n xi x¯ = n i=1 (2) ) La estima de la varianza de las medidas es la varianza muestral 1 n n−1 s2(x) = (xi − x¯)2 i=1 (3) y la varianza de la media muestral viene dada por s2(x¯) = s2(x) n Para estimar el grado de proximidad de la media muestral,x¯, a la media poblacional, µ, utilizare- mos el intervalo de confianza de la media. Los límites del intervalo de confianza se fijan de manera que la media está contenida en este intervalo con una probabilidad predeterminada. En general se emplean valores del coeficiente de confianza, 1 − α , entre 1 − α = 0,95 y 1 − α = 0,99. Indicaremos el resultado de nuestras medidas como x¯ ± k1− α · σ√(x) (7.1) 2 n si conocemos, σ, ó si σ(x) es desconocida. x¯ ± t1− α (ν = n − 1) · s√(x) (7.2) 2 n Note que k = 1,96(1 − α = 0,95) y k = 2,575(1 − α = 0,95). Ejemplo 1. Cálculo de incertidumbres (I) En la determinación de la molaridad de una disolución de ácido sulfúrico por valoración con hidróxido sódico de concentración conocida, se han obtenido los siguientes resultados: 0.4311, 0.4315, 0.4310, 0.4313, 0.4312 y 0.4311 M. Determine el valor medio, la desviación típica de las medidas, la desviación típica de la media muestral y la incertidumbre (error accidental) con un nivel de confianza del 95 %. 133
7.2 7.1. Cálculo de errores en medidas directas i xi di = xi − x¯ di2 1 0.4311 −110−3 1,10−6 2 0.4315 +310−3 9,10−6 3 0.4310 −210−3 4,10−6 4 0.4313 +110−3 1,10−6 5 0.4312 010−3 0,10−6 6 0.4311 −110−3 1,10−6 n=6 xi = 2,5872 di = 0 di2 = 1,6 10−5 x¯ = 0,4312 M s(x) = n di2 = 1.789910−3M s(x¯) = s√(x) = 7,30410−4 Dado que σ(x) es desconocida. −1 n x¯ ± t1− α (ν = n − 1) · s√(x) 2 n t.975(ν = 5) = 2,57 [H2SO4] = 0,431 ± 0,002 M Ejemplo 2. Cálculo de incertidumbres (II) Diez medidas del cociente de áreas de dos picos en un experimento de cromatografía líquida dieron los siguientes resultados: 0.4911, 0.4898, 0.4923, 0.4919, 0.4999, 0.4961, 0.4947, 0.4986, 0.4902, 0.4822. Determine el valor medio, la desviación típica de las medidas, la desviación típica de la media muestral y la incertidumbre (error accidental) con un nivel de confianza del 95 %. n = 10 xi = 4,9268 di = 0 d2i = 2,3 10−4 x¯ = 0,4927 s(x) = di2 = 0,0051 s(x¯) = s√(x) = 0,0016 Dado que σ(x) es desconocida. n−1 n x¯ ± t1− α (ν = n − 1) · s√(x) 2 n t.975(ν = 9) = 2,26 x = 0,4927 ± 2,26 · 0,0016 = 0,4927 ± 0,0036 134
7 7.Cálculo de errores 7.2. Desestimación de medidas Puede suceder que algunas medidas se alejen demasiado del resto por lo que pueden considerarse como poco representativas de las magnitudes que se quieren medir. Estas medidas deben eliminarse ya que utilizarlas afecta al valor de las estimas de las magnitudes que queremos calcular. Consideramos que una medida es errática cuando la probabilidad de obtener ese valor es muy baja. Podemos considerar que una medida es poco probable cuando está fuera del intervalo de confianza, sin embargo este criterio sólo es fiable si el número de medidas es relativamente grande (n >10) o se conoce µ con gran exactitud. Cuando el número de observaciones es pequeño tenemos que utilizar otro criterio.Vamos a consi- derar dos métodos para detectar medidas erráticas: El ensayo de la Q de Dixon La técnica de la τ de Thompson modificada 7.2.1. El ensayo de la Q de Dixon En este método se comparan la diferencia entre el valor sospechoso y la medida más próxima a éste con el rango de las medidas (diferencia entre el mayor y menor valores observados: xmax y xmin). La variable que utilizamos como referencia es el cociente de ambas magnitudes, la Q de Dixon: Q = xsospechoso − xmás próximo (7.3) xmáximo − xmínimo Si el valor de Q es mayor que el valor crítico de Q para un nivel de confianza del 95 % desestima- remos el valor sospechoso. n 4 5 6 7 8 9 10 Qcrit 0.831 0.717 0.621 0.570 0.524 0.492 0.464 Cuadro 7.1: Valores críticos de Q con un nivel de confianza del 95 % Ejemplo 3. Desestimación de valores mediante el método de la Q de Dixon En la medida de una cinética de primer orden se obtuvieron los siguientes valores de k (s−1): 4.51, 4.54, 4.52, 4.66, 4.51, 4.50, 4.48, 4.49, 4.51, 4.52. Determine el valor de k. Verifique si tiene que despreciar alguna de las observaciones. 135
7.2 7.2. Desestimación de medidas A partir de los datos experimentales podemos obtener i 1 2 3 4 5 6 7 8 9 10 ki 4.51 4.54 4.52 4.66 4.51 4.50 4.48 4.49 4.51 4.52 ki − k¯ 0.01 0.02 0.00 0.14 0.01 0.02 0.04 0.03 0.00 0.01 k¯ = 4.52 s−1, s(k) = 0.05 s−1, s(k¯) = 0.02 s−1 Para la medida 4, k4 − k¯ s(k). Esta medida parece sospechosa. Determinaremos si hay que despreciar la medida 4: 4,66 − 4,54 Qexp = 4,66 − 4,48 = 0,67 > Qcrit(n = 10) = 0,452 Descartamos la medida de k= 4.66 y repetimos el cálculo de Qexp. 4,54 − 4,52 Qexp = 4,54 − 4,48 = 0,33 < Qcrit(n = 9) = 0,492 No descartamos ningún otro dato. Repitiendo los calculo obtenemos k¯ = 4.51 s−1, s(k) = 0.018 s−1, s(k¯) = 0.006 s−1. k = 4,51 ± 0,01 s−1 con un nivel de confianza del 95 %. Sin embargo, este método no es útil si en la muestra están presentes dos valores erráticos muy próximos o muy separados entre si. Por ejemplo considere los valores: 2.1 2.0 2.1 2.3 2.9 2.3 3.1 2.2 2.0 2.3 En este caso 3,1 − 2,9 Qexp = 3,1 − 2,0 = 0,18 < Qcrit(n = 10) = 0,464 el método no es capaz de discernir la presencia de dos valores erráticos muy próximos. Es necesario aplicar técnicas que tenga en cuenta la posibilidad de observar dos o más valores erráticos. 7.2.2. La técnica de la τ de Thompson modificada Este es el método recomendado en el documento Measurement Uncertainty (ANSI/ASME, 1986). En este método se siguen los siguientes pasos: (1) Se calcula la media x¯ y la desviación típica s(x) de las n medidas. (2) Se ordenan las medidas de menor a mayor. (3) Los valores mínimo y máximo son marcados como posibles valores erráticos (outliers). 136
7 7.Cálculo de errores Figura 7.1: Ilustración de un ejemplo donde el test Q de Dixon no es capaz de discirminar los datos erráticos. Este ejemplo ilustra la importancia de hacer una representación gráfica de los datos. (4) Para es los dos valores sospechosos se calcula el valor absoluto de su desviación respecto de la media: δi = |xi − x¯| (7.4) (5) El mayor valor de δi se compara con el producto τ · s(x), donde τ depende del número de medidas realizadas (ver tabla 7.2). (6) Si δi > τ · s(x) se desecha xi y se repiten los pasos (1) a (5) hasta que el valor con mayor δi cumpla δi < τ · s(x) n 3 4 5 6 7 8 9 10 11 12 13 τ 1.150 1.393 1.572 1.656 1.711 1.749 1.777 1.798 1.815 1.829 1.840 Cuadro 7.2: Valores de la τ de Thompson para distintos números de medidas 137
7.3 7.3. Cálculo de errores de medidas indirectas Ejemplo 4. Desestimación de valores mediante el método de τ de Thompson modificada Nueve medidas de conductividad de una disolución dieron los siguientes resultados: 12.02, 12.05, 11.96, 11.99, 12.10, 12.03, 12.00, 11.95, 12.16 mS. Determine si hay algun valor errático (1) Calculamos c¯ y s(x). c = 12.03 mS s(c) = 0.07 mS (2) Calculamos δmin y δmax. δmin = |cmin - c| = |11.95 - 12.03| = 0.08 mS δmax = |cmax - c| = |12.16 - 12.03| = 0.13 mS (3) Calculamos el valor crítico de δ. Con n = 9, τ = 1,777. δcrit = 1,777 × 0,07 = 0,12 (4) Rechazamos el valor xmax. Cuando repetimos el proceso obtenemos c¯= 12.01 mS, s(c) = 0.05 mS, y ningún valor deber desecharse. 7.3. Cálculo de errores de medidas indirectas En este caso la magnitud que queremos determinar, φ, no se puede medir directamente sino que se expresa como una función de n magnitudes mensurables θ1, θ2, . . ., θn. Como de las magnitudes θ1, θ2, . . ., θn tienen un error experimental, sólo podemos obtener sus estimas experimentales x¯1, x¯2, . . ., x¯n. ¿Cómo podemos estimar el valor de φ y acotar su incertidumbre?. Se puede demostrar que una estima quasi-insesgada de φ es y = f (x¯1, x¯2, ..., x¯n) (7.5) Al igual que para medidas directas podemos escribir y = φ + ε(y) (7.6) donde ε(y) = εsist(y) + εescala(y) + εaleatorio(y) (7.7) Como en el estudio de las magnitudes directas ignoramos los errores sistemáticos. Si fueran co- nocidos su tratamiento seria semejante al error de escala. 138
7 7.Cálculo de errores A la hora de evaluar la incertidumbre de las medidas podemos considerar tres casos: Sólo es necesario considerar el error de escala. Este es el caso en el que no podemos estimar εaleatorio, o εescala εaleatorio. Sólo es necesario considerar el error aleatorio: εescala εaleatorio. Las magnitudes de εescala y εaleatorio son comparables y no podemos despreciar ninguno. 139
7.3 7.3. Cálculo de errores de medidas indirectas 140
Parte I Apéndices 141
APÉNDICE A Tablas estadísticas A.1. Área bajo la curva normal tipificada 143
A.2 A.1. Área bajo la curva normal tipificada 144
A A.Tablas estadísticas A.2. Valores de las percentilas tp para un distribución t de Stu- dent con ν grados de lbertad 145
A.3A.3. Valores de las percentilas χ2p para un distribución χ2 de Student con ν grados de lbertad A.3. Valores de las percentilas χ2p para un distribución χ2 de Stu- dent con ν grados de lbertad 146
A A.Tablas estadísticas A.4. Valores de las percentilas F0,95(ν1, ν2) para un distribución F Recuerde que ν1 es el número de grados de libertad del numerador y ν2 es el número de grados de libertad del denominador. 147
A.5 A.5. Valores de las percentilas F0,99(ν1, ν2) para un distribución F A.5. Valores de las percentilas F0,99(ν1, ν2) para un distribución F Recuerde que ν1 es el número de grados de libertad del numerador y ν2 es el número de grados de libertad del denominador. 148
Bibliografía [1] P. R. Bevington and D. K. Robinson. Data Reduction and Error Analysis for the Physical Scien- ces. Second edition. McGraw-Hill, New York, 1994. [2] Richard C. Graham. Data Analisis for the Chemical Sciences. VCH, New York, 1993. . [3] Jane C. Miller James N. Miller. Estadística y Quimiometría para Química Analítica. Prentice Hall, Madrid, 2002. . [4] John Mandel. The Statistical Analysis of Experimental Data. Dover, New York, 1984. [5] R. Alu Srinivasan Murray R. Siegel, John Schiller. Probabilidad y Estadística. Colección Schaum. McGraw-Hill, Bogotá, 2a edition, 2001. [6] R.H. Myers R. Walpole. Probabilidad y Estadística. McGraw-Hill, Madrid, 1992. [7] V. P. Spiridonov and A. A. Lopatkin. Tratamiento matemático de datos fisicoquímicos. Segunda edición. MIR, Moscú, 1983. TC . 149
Search
Read the Text Version
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
- 28
- 29
- 30
- 31
- 32
- 33
- 34
- 35
- 36
- 37
- 38
- 39
- 40
- 41
- 42
- 43
- 44
- 45
- 46
- 47
- 48
- 49
- 50
- 51
- 52
- 53
- 54
- 55
- 56
- 57
- 58
- 59
- 60
- 61
- 62
- 63
- 64
- 65
- 66
- 67
- 68
- 69
- 70
- 71
- 72
- 73
- 74
- 75
- 76
- 77
- 78
- 79
- 80
- 81
- 82
- 83
- 84
- 85
- 86
- 87
- 88
- 89
- 90
- 91
- 92
- 93
- 94
- 95
- 96
- 97
- 98
- 99
- 100
- 101
- 102
- 103
- 104
- 105
- 106
- 107
- 108
- 109
- 110
- 111
- 112
- 113
- 114
- 115
- 116
- 117
- 118
- 119
- 120
- 121
- 122
- 123
- 124
- 125
- 126
- 127
- 128
- 129
- 130
- 131
- 132
- 133
- 134
- 135
- 136
- 137
- 138
- 139
- 140
- 141
- 142
- 143
- 144
- 145
- 146
- 147
- 148
- 149
- 150
- 151