Important Announcement
PubHTML5 Scheduled Server Maintenance on (GMT) Sunday, June 26th, 2:00 am - 8:00 am.
PubHTML5 site will be inoperative during the times indicated!

Home Explore Estadística Matemática con Aplicaciones, 6ta Edición - John E. Freund LEP

Estadística Matemática con Aplicaciones, 6ta Edición - John E. Freund LEP

Published by veroronquillo1, 2021-10-23 06:16:46

Description: Estadística Matemática con Aplicaciones, 6ta Edición - John E. Freund LEP

Search

Read the Text Version

Capítulo 13: Prueba d e hipótesis: aplicaciones de m anera que las dos pruebas son realm ente equivalentes cuando la hipótesis altern ativ a es 0, * 02. O bserve que la p ru eb a descrita en el ejercicio 13.49, m as no la que se basa en la estadística x l se puede usar cuando la hipótesis altern a­ tiva es 0 , < 6 2 o 0 , > 0 2. APLICACIONES 13.51 C on re sp e c to al ejem p lo 13.8, m u estre q u e la reg ió n crítica e s x S 5 o r g 15 y que, correspondiendo a esta región crítica, el nivel de significancia es real­ m ente 0.0414. 13.52 Se ha afirm ado q ue m ás del 40 por ciento de todos los com pradores pueden identificar una m arca registrada a la que se le hace m ucha publicidad. Si, en una m u estra a le a to ria , 1 0 d e 18 c o m p ra d o re s p u d ie ro n id en tificar la m a rc a re g istra ­ da, p ru eb e en el nivel 0.05 de significancia si la hipótesis nula 0 = 0.40 se p u e ­ de rechazar contra la alternativa 0 > 0.40. 13.53 C on respecto al ejercicio 13.52, encuentre la región crítica y el nivel real de sig­ nificancia que corresponde a esta región crítica. 13.54 U n d octor afirm a que m enos de 30 por ciento de todas las personas expuestas a cierta cantidad de radiación sentirán algún efecto dañino. Si, en una m uestra a le a to ria , sólo 1 d e 19 p e rso n a s e x p u estas a tal rad iació n sin tió algún e fe c to d a ­ ñino, prueba la hipótesis nula 0 = 0.30 contra la hipótesis alternativa 0 < 0.30 en el nivel 0.05 de significancia. 13.55 C on resp ecto ai ejercicio 13.54, en cu en tre la región crítica y el nivel real de sig­ nificancia que corresponde a esta región crítica. 13.56 E n u n a m u e stra a le a to ria , 12 d e 14 accidentes in d u stria le s fu ero n c a u sa d o s p o r condiciones inseguras de trabajo. U se el nivel 0.01 de significancia p a ra p ro b ar la hipótesis nula 0 = 0.40 contra la hipótesis alternativa 0 ^ 0.40. 13.57 C on resp ecto al ejercicio 13.56, encuentre la región crítica y el nivel real de sig­ nificancia que corresponde a esta región crítica. 13.58 E n una en cuesta aleatoria de 1,000 hogares en E stados U nidos, se en co n tró que 29 por ciento de los hogares tenían al m enos un m iem bro con un título univer­ sitario. ¿E ste hallazgo refuta la aseveración de que la proporción de que todos estos h ogares en E stados U nidos es al m enos 35 p o r ciento? (U se el nivel 0.05 de significancia.) 13.59 E n una encuesta aleatoria de 12 estudiantes no graduados d e carreras com er­ ciales, seis dijeron que tom arían cursos avanzados en contabilidad. Use el nivel 0 .0 1 d e significancia p a ra p ro b a r la h ip ó tesis n u la 0 = 0 .2 0 , e sto es, 2 0 p o r c ie n ­ to de todos los estudiantes no graduados de carreras com erciales tom arán cur­ sos a v an zad o s de co n tab ilid ad , c o n tra la h ip ó tesis a lte rn a tiv a 0 > 0 .2 0 . 13.60 U n p ro cesad o r de alim entos q u iere saber si la probabilidad de que un cliente p referirá u n a nueva clase de em paque a la clase an terio r es realm ente 0.60. Si, e n u n a m u estra a le a to ria , siete d e 18 c lien tes p re fie re n la nu ev a clase d e em p a-

Sección 13.7: El análisis d e una tabla r X c 439 E n e ste caso hay u n a m uestra de ta m a ñ o 4(X), y los to ta le s de los ren g lo n es así com o los totales de las colum nas se dejan al azar. Es principalm ente en relación con proble­ m as com o éste que las tablas r X c se conocen com o tablas de contingencia. L a hip ó tesis nula que q u erem o s p ro b ar p o r m edio d e la tabla a n te rio r es q u e el desem peño en el trabajo de las personas que han pasado por el program a de capacita­ ción e s in d e p e n d ie n te de su IQ . E n g e n e ra l, si Q,¡ e s la p ro b a b ilid a d d e q u e un e le m e n ­ to c a e rá e n la c e ld a q u e p e rte n e c e al lésim o ren g ló n y la yésim a c o lu m n a , 0 ¡. e s la p ro b ab ilid a d de q u e un e le m e n to c a e rá en el /esim o ren g ló n , y Q.¡ e s la p ro b ab ilid a d de que un elem en to caerá en la yésima colum na, la hipótesis nula que querem os p ro b ar es eti = 0,. • 9., p ara i = 1, 2 , . . . , r y j = 1, 2 c. C orrespondientem ente, la hipótesis alternativa es Oí, * 9 , . ' 6 .i p a ra al m enos un p a r d e v a lo re s d e i y y. Puesto que el m étodo p o r el cual analizam os una tabla r X c es el m ism o sin im ­ portar si estam os tratando con r m uestras de poblaciones m ultinom iales con c resultados diferentes o una m uestra de una población m ultinom ial con re resultados diferentes, ex am in ém o slo a q u í con resp e c to al últim o. E n el ejercicio 13.71 se p e d irá al lec to r igua­ lar el trab ajo p ara la prim era clase de problem a. E n lo que sigue, d en o tarem o s la frecuencia observ ad a en el i'ésimo renglón y la yésima colum na con los totales de los renglones con los totales de las colum nas con f.j, y el gran to tal, la sum a de todas las frecuencias de las celdas, con /. C on esta n o tac ió n , estim a m o s las p ro b ab ilid a d e s 0 ¡. y Q., com o s- =Lr y y bajo la hipótesis nula de independencia obtenem os p = ñ . ñ . f = — , f = ' V ^i y “i * f f f para la frecuencia esperada para la celda en el résim o renglón y la yésima colum na. A d ­ v ierta q u e e,¡ así o b te n id a al m ultiplicar e l total d el renglón al cual pertenece la celda p o r e l total d e la c o lu m n a a ¡a cual pertenece y después d ividir entre el gran total. U n a vez q u e h e m o s calculado la e,¡, basam os n u e stra decisión e n el v alo r de ¿ í iC iii!2 i=i / « i c '/ y rechazam os la hipótesis nula si excede a *«.(r-ixc-i). El núm ero de grados de libertad e s ( r — 1)(c — 1). y en relación con esto ha­ gam os la siguiente observación: siem pre que se estim en frecuencias de celdas en fórm u­ las de ji cuadrada con base en datos de conteo m uéstrales, el núm ero de grados de libertad es s — t — 1 . donde s es el núm ero de térm inos en la sum a y t es el núm ero de parám etros independientes reem plazados p o r estim adores. A l hacer la prueba para las diferencias e n tre k pro p o rciones con la estadística ji cuad rad a de la sección 13.6, te ­ níam os s = 2 k y t = k, puesto que teníam os que estim ar los k parám etros 0 ,, 9 2 , . . . , 9 k y el n ú m e ro d e g rad o s de lib e rta d fue 2 k — k — 1 = k — 1. C u a n d o h a c e ­ m os la prueba p ara independencia en una tabla de contingencia r X c tenem os s = re

440 Capítulo 13: Prueba de hipótesis: aplicaciones y t = r + c — 2 . p u e sto q u e los r p a rá m e tro s 6 ,. y los c p a rá m e tro s 0 .; n o so n to d o s in­ d e p e n d ie n te s: sus sum as respectivas d e b e n se r igual a 1. A sí. o b ten e m o s s — t — 1 = re — (r + c — 2 ) — 1 = (r — l ) ( c — 1 ). Puesto que la estadística de prueba que hem os descrito sólo tiene aproxim ada­ m ente una distribución ji cuadrada con ( r — 1 )(c — 1 ) grados de libertad, es costum ­ bre u sa r e sta p ru e b a sólo c u a n d o n in g u n a d e las e L/ e s m e n o r q u e 5; e sto alg u n as veces requiere que com binem os algunas de las celdas con una pérdida correspondiente en el núm ero de grados de libertad. EJEM P LO 13.11 U se los d ato s m o strad o s en la siguiente tab la p ara p ro b ar en el nivel 0.01 de significan­ cia si la habilidad de u n a persona en m atem áticas es independiente de su in terés en la estadística. H abilidad en matemáticas Baja Promedio Alta Bajo 63 42 15 Interés en la estadística P rom edio 58 61 31 A lto 14 47 29 Solución 1 . H0: La habilidad en m atem áticas y el interés en la estadística son indepen­ dientes. H ]: La habilidad en m atem áticas y el interés en la estadística no son in­ dependientes, a = 0.01 2. R ech ace la hipótesis nula si j 2 13.277, donde .2 _ \\2 = ¿2-i 2/ - l e„ y 13.277 es el valor de Jo.oi.4 - 3. Las frecuencias esperadas del prim er renglón son 120 • 135 = 45.0, 360 120* 150 = 50.0, y 120 — 45.0 - 50.0 = 25.0, donde hicimos uso del he­ 360 cho q u e para cada renglón o colum na la sum a de las frecuencias de celdas esperadas es igual a la sum a de las frecuencias correspondientes observadas (véase el ejercicio 13.70). E n form a sim ilar, las frecuencias esperadas del se ­ gundo renglón son 56.25,62.5 y 31.25, y las del tercer renglón (todas se ob­ tu v iero n al restar de los to tales de las colum nas) son 33.75, 37.5 y 18.75. E ntonces, al sustituir en la fórm ula para j 2 nos da:

Sección 13.8: Bondad del ajuste 441 2 _ (63 - 45.0 ) 2 (42 ~ 50.0)2 (29 - 18.75)2 18.75 45.0 + 50.0 = 32.14 4. P u esto q ue \\ 2 = 32.14 excede a 13.277, se d eb e rechazar la hipótesis nula; concluim os que hay una relación entre la habilidad de una persona en m a­ tem áticas y su interés en la estadística. ▲ U na deficiencia del análisis ji cuadrada de una tabla r X c es que no tom a en consideración un posible orden de los renglones y/o colum nas. Por ejem plo, en el ejem ­ p lo 13.11, la habilidad en m atem áticas así com o cl interés en la estadística se o rd en an d e bajo p ro m ed io a alto, y el valor que o btenem os p ara perm anecería igual si los renglones y/o las colum nas se intercam biaran en tre sí. T am bién, las colum nas de la ta ­ bla en la página 438 reflejan un o rd en de preferir B (no preferir ,4) a ser indiferentes a preferir A . p ero en este caso no hay un orden específico de los renglones. La form a e n q u e se p u e d e to m a r en co nsideración tal o rd e n se explica e n los ejercicios 14.61 y 15.12. 13.8 B O N D A D DEL AJUSTE La prueba de bondad del ajuste considerada aquí se aplica a situaciones en las que que­ rem os d ete rm in a r si un co njunto de d a to s se puede co n sid erar com o una m uestra alea­ toria d e una población que tie n e una distribución dada. E n el cap ítu lo 14 se exam inará un segundo tipo de “bondad de ajuste” que se aplica al ajuste de una curva a un con­ jun to de pares d e datos. Para ilustrar, suponga que querem os decidir, con base en los datos (frecuencias observadas) de la siguiente tabla, si el núm ero de errores que un ca­ jista hace al com poner una galera de tipos es una variable aleatoria que tiene una dis­ tribución de Poisson: Núm ero de Probabilidades Frecuencias errores de Poisson esperadas con A = 3 0 e, 2 18 0.0498 21.9 3 4 53 0.1494 65.7 5 6 103 0.2240 98.6 7 8 107 0.2240 98.6 9 82 0.1680 73.9 46 0.1008 44.4 18 0.0504 22.2 10 0.0216 9.5 0.0081 0.0038

442 Capítulo 13: Prueba d e hipótesis: aplicaciones Para determ inar un conjunto correspondiente de frecuencias esperadas para una m uestra aleatoria de una población de Poisson, prim ero usam os la m edia de la distri- b u ción o b se rv a d a p a ra e stim a r el p a rá m e tro d e Poisson A, o b ten e m o s A = 1 341 = 3.05 o, aproxim adam ente, A = 3. Después, copiamos las probabilidades de Poisson para A = 3 de la tabla II (usam os la probabilidad d e 9 o m ás en vez de la probabilidad de 9) y m ul­ tiplicamos p or 440, la frecuencia total, y obtenem os las frecuencias esperadas m ostradas en la colum na del lado derecho de la tabla. Para probar la hipótesis nula que las frecuen­ cias observadas constituyen una m uestra aleatoria de una población de Poisson, debem os juzgar qué tan buen ajuste tenem os, o qué tan próxim a es la correlación, entre los dos conjuntos de frecuencias. En general, para probar la hipótesis nula H0 que un conjunto de datos observados viene de una población que tiene una distribución especificada con­ tra la alternativa de que la población tiene alguna otra distribución, calculam os 2_ í5 e ,f * * y rechazam os H0 en el nivel a de significancia si = X a .m -i-1 * don d e m es el n ú m e­ ro de térm inos en la sum a y t es el núm ero de parám etros independientes estim ados con base en los datos m uéstrales (véase el análisis en las páginas 439 y 440). En el ejem plo anterior, t = 1 puesto que sólo se estim a un parám etro con base en los datos, y el nú­ m ero de grados de libertad es m — 2 . EJEMPLO 13.12 P ara los datos e n la tabla 441, pru eb e al nivel 0.05 de significancia si el núm ero de e rro ­ res que el cajista hace al com poner una galera de tipos es una variable aleatoria que tie­ ne una distribución de Poisson. Solución (Puesto que las frecuencias esperadas correspondientes a ocho y nueve errores son m enores que 5, se com binan las dos clases.) 1. H0 : El n ú m ero d e e rro re s e s u n a v a ria b le a le a to ria d e Poisson. //,: El núm ero de errores no es una variable aleatoria de Poisson. a = 0.05 2. R echace la hipótesis nula si \\ 2 s 14.067, donde *& e‘ y 14.067 e s e l v a lo r d e * 0.05.7 • 3. A l su stitu ir e n la fó rm u la p a ra x 2. o b ten e m o s 2 = O8 ~ 2 1 .9 ) 2 , (53 - 6 5 .7 )2 -(3 5 .3 ) 2 X 21.9 65.7 5.3 = 6.83

Sección 13.8: Bondad del ajuste 443 4. P uesto q u e x~ = 6.83 es m enos que 14.067, no se p u ed e rechazar la h ip ó te­ sis nula; ciertam ente, la proxim idad de la correlación en tre las frecuencias observadas y esperadas sugiere que la distribución de Poisson proporciona un “buen ajuste\". ▲ EJERCICIOS 13.70 V erifiq u e q u e las frecu en cias de celda e sp erad as se calculan d e a c u erd o a la re ­ gla de la página 439, su sum a para cualquier renglón o colum na es igual a la su­ ma de frecuencias observadas correspondientes. 13.71 D e m u e stre q u e la regla de la p ág in a 439 p a ra c alcu lar las frecuencias d e celda esperadas tam bién se aplica cuando probam os la hipótesis nula que estam os m uestreando r poblaciones con distribuciones m ultinom iales idénticas. 13.72 D em uestre que la siguiente fórm ula de cálculo para es equivalente a la fórm u­ la en la página 439: ' rf /= I / = 1 '/ 13.73 U se la fórm ula del ejercicio 13.72 p ara volver a calcular \\ 2 p ara el ejem plo 13.10. 13.74 Si el an álisis de u n a tab la de co n tin g en cia m u e stra q u e hay u n a relació n e n tre las dos variables bajo consideración, la fortaleza de esta relación se puede m e­ d ir con el coeficiente de contingencia - i x2 + f donde \\ 2 es el valor obtenido p ara la estadística de prueba, y f e s el gran total com o se definió en la página 439. D em uestre que (a) para una tabla de contingencia 2 X 2 el valor m áxim o de C es j > /2; (b) para una tabla de contingencia 3 X 3 el valor m áximo de C es 5 V ó . APLICACIONES 13.75 Las m u e stra s d e un m aterial e x p e rim e n tal se p ro d u ce n m ed ia n te tre s d ife ren ­ tes prototipos de procesos y se les hace una prueba de conform idad con un es­ tán d a r de resistencia. Si las p ruebas m o straro n los resultados siguientes, ¿se puede decir en el nivel 0.01 de significancia que los tres procesos tienen la m is­ m a probabilidad de aprobar con este estándar de resistencia? N úm ero q u e pasa la prueba Proceso A Proceso B Proceso C Núm ero que falla la prueba 45 58 49 15 35 21 13.76 E n u n e s tu d io so b re las o p in io n es d e los p a d re s d e fam ilia a cerca d e u n curso obligatorio de educación sexual, 360 padres de familia, una m uestra aleatoria,

Capítulo 13: Prueba de hipótesis: aplicaciones se clasificaron de acuerdo a si tienen uno, dos, tres o m ás hijos en el sistem a escolar y tam bién si opinan que el curso es m alo, ad ecu ad o o bueno. C on base en los resultados que se m uestran en la tabla siguiente, pruebe al nivel 0.05 de significancia si hay una relación e n tre la reacción al curso de los padres de fa­ milia y el núm ero de hijos que tienen en el sistem a escolar: Num ero de niños 1 2 3 o más M alo 48 40 12 Adecuado Bueno 55 53 29 57 46 20 13.77 P ruebas sobre la fidelidad y la selectividad de 190 radios produjeron los resul­ tados q ue se m uestran en la tabla siguiente: Baja Baja Fidelidad A lta Selectividad Promedio P rom edio 7 31 A lta 35 12 18 15 59 0 13 U se el nivel 0.01 de significancia p a ra p ro b a r la h ip ó tesis nula de q u e la fideli­ dad es independiente de la selectividad. 13.78 Los siguientes datos m uéstrales corresponden a los em barques que recibió una em presa grande de tres proveedores diferentes Número de Número de N úm ero de rechazados imperfectos pero aceptables perfectos Proveedor A 12 23 89 Proveedor B Proveedor C 8 12 62 21 30 119 P ruebe en el nivel 0.01 de significancia si los tres proveedores em barcan p ro ­ ductos de igual calidad. 13.79 A nalice la tabla de 3 X 3 de la página 438, que corresponde a las respuestas de com pradores en tres ciudades diferentes con respecto a dos detergentes. Use el nivel 0.05 de significancia. 13.80 Se lanzaron cuatro m onedas 160 veces y salieron 0 ,1 , 2 ,3 o 4 caras, respectiva­ m e n te , 19, 54, 58, 23 y 6 veces. U se el nivel 0.05 d e significancia p a ra p ro b a r si

446 Capítulo 13: Prueba de hipótesis: aplicaciones (a) V erifique que la m edia y la desviación estándar de esta distribución son x = 20 y s = 5. (b ) E n c u e n tre las p ro b a b ilid a d e s d e q u e u n a variab le a le a to ria q u e tien e la distribución norm al con p = 20 y a = 5 asum irá un valor m en o r q u e 9.5, e n tre 9.5 y 14.5, e n tre 14.5 y 19.5, en tre 19.5 y 24.5, e n tre 24.5 y 29.5, e n ­ tre 29.5 y 34.5, y m ayor que 34.5. (c) E ncuentre la curva norm al de frecuencias esperada para las diversas clases al multiplicar las probabilidades obtenidas en el inciso (b) por la frecuencia total, y después pruebe en el nivel 0.05 de significancia si se pueden consi­ derar los datos com o una m uestra aleatoria de una población normal. 13.9 USO DE COM PUTADORAS A l igual q u e e n el capítulo 11, existe softw are de com putadoras p a ra todas las pruebas que hem os exam inado. U na vez más, sólo tenem os que introducir los datos originales (sin tratar) en nuestra com putadora ju n to con la instrucción apropiada. P ara ilustrar, considere el ejem plo siguiente. EJEM PLO 13.13 Las m uestras aleatorias siguientes son m ediciones de la capacidad calorífica (en m illo­ nes de caloríaspor tonelada) de m uestras de carbón de dos minas: M in a 1: 8,400 8.230 8,380 7,860 7,930 M ina 2: 7,510 7,690 7,720 8,070 7,660 U se el nivel 0.05de significancia p ara p ro b ar si la diferencia entre las m edias de las dos m uestras es significativa. Solución La im presión de com putadora en la figura 13.5 m uestra que el valor de la esta­ dística d e pru eb a es t = 2.95, el núm ero de grados de lib ertad es 8 , y el valor P es MTB > S E T C l DATA > 8400 8230 8380 7860 7930 8070 7660 MTB > S E T C2 DATA > 7510 7690 7720 MTB > POOL C l C2 TWOSAMPLE T FOR C l VS C2 SE MEAN N MEAN STDEV 113 8160 252 92 Cl 5 7730 207 C2 5 95 P C T C l FOR MU C l - MU C 2 : [9 4 , 7 6 6 ) T T E S T MU C l = MU C2 (V S N E ) : F igura 13.5 Im presió n de c o m p u ta d o ra para el e je m p lo 1 3 .1 3 .

CAPÍTULO 14 Regresión y correlación 14.1 INTRODUCCIÓN 14.2 REGRESIÓN LINEAL 14.3 EL MÉTODO DE LOS MÍNIMOS CUADRADOS 14.4 ANÁLISIS DE REGRESIÓN NORMAL 14.5 A N Á L I S I S D E C O R R E L A C I Ó N N O R M A L 14.6 REGRESIÓN LINEAL MÚLTIPLE 14.7 REGRESIÓN LINEAL MÚLTIPLE (NOTACIÓN MATRICIAL) 14.1 INTRODUCCIÓN U n objetivo im portante de m uchas investigaciones estadísticas es establecer las relacio­ nes que hagan posible predecir una o m ás variables en térm inos de otras. Así. se reali­ zan estudios para predecir las ventas potenciales de un producto nuevo en térm inos de su precio, el peso de un paciente en térm inos del núm ero de sem anas que ha seguido un régim en alim enticio, los gastos fam iliares en entretenim iento en térm inos del ingre­ so fam iliar, el consum o per cápita de ciertos alim entos en térm inos de sus valores nu- tricionales y la cantidad de d inero que se gasta en hacerles publicidad en televisión, y así sucesivamente. Aunque, por supuesto, es deseable poder predecir una cantidad exactam ente en térm inos de otras, rara vez es posible, y en la m ayoría de los casos tenem os que confor­ m arnos con predecir prom edios o valores esperados. Así, quizá no podam os predecir ex actam en te c u á n to d in e ro g anará el Sr. B row n 10 años d esp u és d e g rad u arse d e la u n i­ versidad; pero, dados los datos apropiados, podem os predecir el ingreso prom edio de los graduados universitarios en térm inos del núm ero de años transcurridos después de haber salido de la universidad. D e la misma m anera, en el m ejor de los casos podem os p red e ­ cir el rendim iento prom edio de una variedad dada de trigo en térm inos de la precipita­ ción pluvial en julio, y en el m ejor de los casos podem os predecir el desem peño prom edio de los estudiantes que inician estudios universitarios en térm inos de sus IQ. Form alm ente, si se nos da la distribución conjunta de dos variables aleatorias X y V, y se sabe q u e X asum e el v a lo r x , el p ro b lem a básico d e la reg resió n biv ariad a es d e te rm in a r la m edia condicional ju ^ ,, e sto es, el valor “ p ro m e d io ’' d e Y p a ra el valor dado de X . El térm ino “regresión”, com o se usa aquí, se rem onta a Francis G alton, quien lo utilizó para indicar ciertas relaciones en la teoría de la herencia. En problem as que contienen más de dos variables aleatorias, esto es, en la regresión m últiple, tratam os 449

450 Capítulo 14: Regresión y correlación con cantidades com o M z u l a m edia de Z p ara valores dados de X y Y, p Xtj ,,.,,.,,. la m ed ia d e X 4 p a ra valores d a d o s d e X x, X 2 y X 3, y así sucesivam ente. Si /( .r . y ) e s el valor d e la d e n sid a d co n ju n ta de do s variab les a le a to ria s A\" y y en (x, y ) , el problem a de regresión bivariada es sim plem ente determ inar la densidad con­ dicional de Y dado X = x y después evaluar la integral Mvu = E { Y \\ x ) = J y w ( y \\ x ) d y com o se bosquejó en la sección 4.8. La ecuación resultante se llam a ecuación d e reg re­ sión de Y sobre X. A lternativam ente, tal vez nos interese la ecuación de regresión OO = £ { X \\ y ) = J x 'f{x\\y) dx En el caso discreto, cuando tratam os con distribuciones de probabilidad en vez de den­ sidades de probabilidad, las integrales en las dos ecuaciones de regresión dadas arriba sim plem ente se reem plaza con sumas. C uando n o conocem os la densidad de probabilidad conjunta o distribución de las dos variables aleatorias, o al m enos no todos sus parám etros, la determ inación de nyu o nx\\y se vuelve un problem a de estim ación basado en datos m uéstrales; éste es un p ro ­ blem a to ta lm e n te d ife ren te , q u e ex a m in are m o s en las secciones 14.3 y 14.4. EJEM P LO 14.1 D adas las dos variables aleatorias X y Y que tienen la densidad conjunta ,~ 4 \\ +y) para x > o y y > 0 fa s* ■ ( r en cualquier otra parte encuentre la ecuación de regresión de Y sobre X y bosqueje la curva de regresión Solución Al elim inar y p o r integración, encontram os que la densidad m arginal de X está dada por Íg( x) e * para x > 0 0 en cualquier otra parte y por tan to la densidad condicional de Y dado X = x está dada por , , , 7\\ x , y ) x - e ~ « ' + r> w(yU) = , v = — — = x ’ e g{x) e para y > 0 y w ;(y|x) = 0 en cualquier otra parte, que reconocem os com o una densidad exponencial con 6 = j . Por tanto, al evaluar Mn» = / y x - e ^ d y Jo o al referim os al corolario 1 del teorem a 6.3, encontram os que la ecuación de re ­ g resión d e y so b re A\" e stá d a d a por:

Sección 14.1: Introducción 451 F ig u ra 14.1 Curva de regresión del ejem plo 14.1. 1 M» = I L a curva d e reg resió n c o rre sp o n d ie n te se m u estra e n la figura 14.1. EJEM PLO 14.2 Si X y Y tienen la distribución multinom ial para x = 0 , 1, 2 , . . . , n y y = 0 , 1, 2 n , con x + y 5= n, e n c u e n tre la ecuación d e re ­ gresión de Y sobre X. Solución La distribución m arginal de X está dada por para x = 0 , 1 ,2 n, que reconocem os com o una distribución binom ial con los parám etros n y 0 ,. Por tanto. w (y U ) = A * . , ) (v )* 1 g(x) (1 - *.)\"■' para y — 0 , 1, 2 , . . . , n — x, y, al reescribir esta fórm ula como:

452 Capítulo 14: Regresión y correlación w encontram os por inspección que la distribución condicional de Y dado X = x es 0 u n a d istrib u ció n b inom ial con los p a rá m etro s n — x y -1—-2—0, , d e m a n e ra q u e la ecuación de regresión de Y sobre X es de acuerdo al teorem a 5.2. _ (n - x)d2 1 - 0, ▲ Con respecto al ejem plo anterior, sea X el núm ero de veces que sale un núm ero p ar en 30 tiros de un dado balanceado y sea y el núm ero de veces que el resultado es cinco, entonces la ecuación de regresión se vuelve (3° - x ) i f iyu = ----------- -— = - ( 3 0 - x ) 1 ~~ 2 E s to es lógico, p o rq u e hay tre s p o sibilidades ig u alm en te p ro b ab le s. 1, 3 o 5, p a ra cad a u n o de los 30 — jc resu lta d o s q u e n o so n pares. EJEM PLO 14.3 Si la d e n sid a d c o n ju n ta d e A’j , X 2 y X 3 e stá d a d a p o r v f (jcj -E x 2 )e ~*1 p a r a 0 < x x < 1 , 0 < x 2 < 1 . jt3 > 0 1 0 en cualquier otra parte encuentre la ecuación de regresión de X 2 sobre X¡ y X }. Solución Al referirnos al ejem plo 3.22, encontram os q u e la d ensidad m arginal de X l y X 3 está dada por x, + paraO < x, < l,x 3 > 0 en cualquier otra parte Por consiguiente, f X / ( x i , x 2 , x 3) /•' x 2(x , + x 2) 2r, + 1 A

Sección 14.2: Regresión lineal 453 A dvierta que la esperanza condicional obtenida en el ejem plo anterior depende de x x pero no de x3. Esto se podía haber esperado, puesto que indicam os en la página 123 q u e hay u n a in d ep e n d e n c ia p o r p a re jas e n tre X 2 y X$. 14.2 REGRESIÓN LINEAL U n a característica im p o rta n te del ejem p lo 14.2 es q u e la ecuación d e regresión e s lineal: esto es, es de la form a flyu = « + Px d o n d e a y /3 son c o n sta n tes, llam adas los coeG cientes d e regresión. H ay v arias razones de p or qué las ecuaciones de regresión lineal son de especial interés: prim ero, se pres­ tan rápidam ente a un tratam iento m atem ático adicional; después, a m enudo proveen buenas aproxim aciones a ecuaciones de regresión de otra form a complicadas; y final­ m ente, en el caso de la distribución norm al bivariada, que estudiam os en la sección 6.7, las ecuaciones de regresión son, de hecho, lineales. Para simplificar el estudio de las ecuaciones de regresión lineales, expresemos los coe­ ficientes de regresión a y /3 en térm inos de algunos de los m om entos m ás pequeños d e la dis­ tribución conjunta de A 'y Y, e sto e s, en térm inos de E ( X ) = n x, E ( Y ) = ¿i2, v a r(A ) =<r\\ , v a r ( y ) = y cov(A ', Y) = o l2. Entonces, al usar tam bién el coeficiente de correlación HP = ^a\\<~*i definido en la sección 6.7, podem os p robar los siguientes resultados t e o r e m a 14.1 Si la regresión d e Y sobre X es lineal, entonces Uvu = M2 + P ^ r ( x ~ Mi) y si la regresión de X sobre Y es lineal, entonces Hx]y = Mi + P ^ r ( y - Az) D em ostración. Puesto que = a + (3x, se sigue que J y w(y\\x) dy = a + px y si m ultiplicam os la expresión en am bos lados de esta ecuación p o r g (x ) , el valor correspondiente de la densidad marginal de X , e integram os sobre x, obtenem os J j y w ( y |x ) g (x ) d y d x = a f g(x) dx + P J x - g ( x ) dx

Sección 14.3: El m éto d o d e los m ínim os cuadrados 455 14.3 EL M É TO D O DE LOS M ÍN IM O S C U A D R A D O S En las secciones anteriores hem os exam inado el problem a de regresión sólo en rela­ ción con variables aleatorias que tienen distribuciones conjuntas. En la práctica real, hay m uchos problem as donde un conjunto de datos asociados en parejas dan una indi­ cación de que la regresión es lineal, d onde no conocem os la distribución conjunta de las variables aleatorias en consideración pero, sin em bargo, querem os estim ar los coe­ ficientes de reg re sió n a y (5. Los p ro b lem as de e sta clase u su alm en te se m an ejan p o r el método de los mínimos cuadrados, un m étodo de ajuste de curvas que a principios del siglo xix sugirió el m atem ático francés A drien Legendre. Para ilastrar esta técnica, consideremos los datos siguientes sobre el núm ero de horas que 10 personas estudiaron para una prueba de francés y sus puntuaciones en la prueba: Horas estudiadas Puntuación en la prueba X y 4 31 9 58 10 65 14 73 4 37 7 44 12 60 22 91 1 21 17 84 A l hacer la gráfica de estos d ato s com o e n la figura 14.2, nos da la im presión de que una línea recta proporciona un ajuste razonablem ente bueno. A unque los puntos no caen todos en una línea recta, el patrón general sugiere que la puntuación prom edio de la prueba para un núm ero dado de horas de estudio bien puede estar relacionado con el n ú m ero de horas estu d iad as m ediante una ecuación d e la form a Hy\\x = a + Px - U na vez q ue hem os decidido en un problem a dado q ue la regresión es aproxim a­ d a m e n te lineal, nos e n fre n ta m o s al p ro b le m a d e e stim a r los coeficientes a y /3 d e los datos m uéstrales. En otras palabras, nos enfrentam os al problem a de obtener estim a­ cio n es de á y /3 ta le s q u e la línea de reg resió n estim ad a y = á + jix p ro v ea, e n algún sentido, el m ejor ajuste posible a los datos dados. A l d en o tar la desviación vertical de un punto de la línea p or e,, com o se indica en la figura 14.3, el criterio de los m ínim os cuadrados sobre el cual basarem os esta “bondad de aju ste” requiere que m inim icem os la sum a de los cuadrados de estas des­ v iac io n es. A sí. s e no s d a un c o n ju n to d e d a to s a so c ia d o s e n p a re ja s { (¿ ¿ .y ,); i = 1, 2 n }, las estim aciones d e m ínim os cuad rad o s de los coeficientes de regresión son los valores á y fi para los cuales la cantidad q = ¿ < .2 = ¿ [ y , - (o + px,)f (=i i=i aA es un mínimo. A l diferenciar parcialm ente con respecto a a y fi y al igualar a cero es­ tas derivadas parciales, obtenemos:

Sección 14.3: El m éto d o d e los m ínim os cuadrados 457 Horas estudiadas F ig u ra 1 4 .3 Criterio de mínimos cuadrados. Entonces podem os escribir la estim ación de m ínimos cuadrados de a com o nn - _ (2=i * - 5 - i2= i *i al resolver la prim era de las dos ecuaciones norm ales para á . Esta fórm ula para á tam ­ bién se puede escribir com o á = y — [i • x Para sim plificar la fórm ula p ara (i así com o algunas de las fórm ulas que encon­ tra re m o s e n las secciones 14.4 y 14.5, in tro d u zcam o s la n o tació n siguiente:

Capitulo 14: Regresión y correlación 14.8 D ada la densidad conjunta í 24xy p ara x > 0, y > 0 y x + y < 1 \\0 en cualquier otra parte dem uestre que = § 0 ~ x ) y verifique este resultado ai determ inar los valo­ res de /X]. /¿2, a , , <t2 y p y al sustituirlos e n la p rim e ra fórm ula del teo re m a 14.1. 14.9 D ada la densidad conjunta f ( x <s i yq p a ra —y < x < y y O < y < 1 e n c u a | q Uje r o t r a p a r te dem uestre que las variables aleatorias X y Y no están correlacionadas pero no son independientes. 14.10 D e m u e stre q u e si p . ^ es lineal e n x y v ar( Y |x ) es c o n sta n te , e n to n c e s v ar( Y \\ x ) = ^ i ( i - p 2). 14.11 D a d o u n p a r d e v a ria b le s a le a to ria s X y Y q u e tie n e n v a ria n za s a ] y a \\ , y el coeficiente de correlación p. use el teorem a 4 .1 4 para expresar var y var^ ^ \" — en d e a , , a 2 y p. D espués, al h a­ cer uso del hecho que las varianzas no pueden ser negativas, dem uestre que -1 S p S +1. ' 14.12 D a d a s las v a ria b le s a le a to ria s X x, X 2 y X$ q u e tie n e n la d e n s id a d c o n ju n ta / ( x , , x 2, x 3), d e m u e stre q u e si la reg resió n d e X 3 s o b re A', y X 2 es lineal y se escribe com o entonces = a + P i ( x t - P i ) + /32( x 2 - p 2) a = p3 a _ tri3<r2 — t r 12<723 1 a \\2a 2 _ a2 2 12 _ a 23^1 ~ ^12^13 P* ~ a \\2 a 2 ~ a 2n 2 d o n d e p¡ = E (X ¡ ), a ] = v a r( X ¡) y a¡¡ = c ov ( X¡ , X/ ). [Sugerencia: p ro ce d a com o en la pág in a 4 5 4 , al m ultiplicar p o r (xj — p .,) y (x 2 — p.2), resp ectiv am en te, p a ­ ra o b ten er la segunda y tercera ecuaciones.] 14.13 E n cu en tre la estim ación de m ínim os cuadrados del p arám etro en la ecuación de regresión pyu = Px - 14.14 R esuelva sim ultáneam ente las ecuaciones norm ales en la página 4 5 6 p ara d e ­ m ostrar que

462 Capítulo 14: Regresión y correlación (a) E ncuentre la ecuación de la línea de m ínimos cuadrados que nos perm iti­ rá predecir la puntuación del estudiante en el exam en final en este curso sobre la base de su puntuación en el exam en sem estral. (b) Prediga la puntuación del exam en final de un estudiante que recibió 84 en el exam en semestral. 14.18 La m ateria prim a que se usa en la producción de una fibra sintética se alm ace­ na en un lugar que no tiene control de hum edad. Las m edidas de la hum edad relativa y del contenido de hum edad de m uestras de la m ateria prim a (am bas en porcentajes) en 12 días dieron los siguientes resultados: Humedad Contenido de humedad 46 53 12 37 42 14 34 29 11 60 44 13 41 48 10 33 8 40 17 12 10 15 9 13 (a) A juste una línea de mínimos cuadrados que nos perm itirá predecir el con­ tenido de hum edad en térm inos de la hum edad relativa. (b) U se los resultados del inciso (a) para estim ar (predecir) el contenido de hum edad cuando la hum edad relativa es del 38 por ciento. 14.19 Los siguientes datos corresponden al cloro residual en una alberca en diversos m om entos después de haberse tratado con químicos: Número de Cloro residual horas (partes por millón) 2 1.8 4 1.5 1.4 6 8 1.1 10 1.1 12 0.9

466 Capítulo 14: Regresión y correlación var(B ) = ¿ v a r ( y j x ¿) •cr2 = ¿«1 tí i- 1 Para aplicar esta teoría para probar hipótesis acerca de p o construir intervalos de confianza para p . tendrem os que usar el siguiente teorem a: teorem a 1 4 3 Bajo las suposiciones del análisis de regresión norm al, <T es un valor de una variable aleatoria q ue tiene la distribución ji cuadrada con n — 2 grados de libertad. A dem ás, esta variable aleatoria y B son independientes. Al ñnal de este capítulo dam os una referencia de la dem ostración de este teorem a. Al hacer uso de este teorem a así como del resultado probado anteriorm ente que (T2 B tiene una distribución norm al con la m edia p y la varianza — , encontram os que la definición de la distribución t en la sección 8.5 nos lleva a teo r em a 14.4 B ajo las su p o sicio n es del análisis d e reg re sió n n o rm al, p -p es un valor de una variable aleatoria que tiene la distribución t con n — 2 grados de libertad. Basado en esta estadística, probem os ahora una hipótesis acerca del coeficiente de regresión p. EJEM PLO 14.5 C on respecto a los datos en la página 455 que corresponden a la cantidad de tiem po que 10 personas estudiaron para cierta prueba y a las puntuaciones que obtuvieron, p ru e b a la h ip ó te sis n u la p = 3 c o n tra la h ip ó tesis a lte rn a tiv a p > 3 e n el nivel 0.01 de significancia. Solución 1. Hq: p = 3 : p>3 a = 0.01

Capítulo 14: Regresión y correlación Solución A l copiar las diversas cantidades de las páginas 458 y 467 y al sustituirlas junto c o n fo.o25. 8 = 2.306 e n la fó rm u la del in terv alo de co n fian za del te o re m a 14.5, o b ­ tenemos 3.471 - ( 2 - 3 0 6 ) ( 4 . 7 2 0 ) ^ 5 l < p < 3.471 + ( 2 . 3 O 6 ) ( 4 . 7 2 0 ) ^ | L O 2.84 < /3 < 4.10 ▲ Puesto que los problem as de regresión de m ayor com plejidad en la realidad re­ quieren cálculos bastante extensos, hoy en día se hacen prácticam ente siem pre con el software apropiado de com putadoras. U na impresión así obtenida para nuestra ilustra­ ción se m uestra e n la figura 14.4; com o se puede ver, p ro p o rcio n a n o sólo los valores d e ¿ y j8 e n la co lu m n a e n c ab ezad a C O E F F IC IE N T , sino tam b ié n e stim acio n es d e las desviaciones estándar de las distribuciones m uéstrales de A y B en la colum na enca­ bezada ST. D E V . O F C O E F . Si hubiésem os u sado e sta im presión en ejem plo 14.5, p o ­ dríam os haber escrito el valor de la estadística t directam ente como 3.471 - 3 ' 0.2723 y en el ejem plo 14.6 podríam os h ab er escrito los lím ites de confianza d irectam en te co­ m o 3.471 ± (2.306)(0.2723). MTB > ÑAME C1 = ’ X ' MTB > ÑAME C2 = 'Y ' MTB > S E T C1 D A TA > 4 9 10 14 4 7 12 22 1 17 MTB > S E T C2 D A TA > 3 1 58 65 73 37 44 60 91 21 84 MTB > REGR C2 1 C1 TH E REGRESSION EQUATION IS Y = 21.7 ♦ 3.47 X COLUMN C O E F F IC IE N T ST. DEV. T-R A TIO = X 21.693 OF COEF. COEF/S.D. 3.4707 3 .194 6.79 0 .2723 12.74 Figura 14.4 Im presión d e co m putad o ra para ejem plos 14.4, 14.5 y 14.6.

Sección 14.4: Análisis d e regresión norm al 469 EJERCICIOS § 14.25 H aciendo uso del hecho que a = y — (3x y fi = dem uestre que XJt ¿ [y, - ( ¿ + = i,. - i= 1 14.26 D em uestre que (a) la variab le a le a to ria q u e co rre sp o n d e a ¿r2, no es un e stim a d o r inses- g ad o d e o-2; n•£ 2 (b ) S i = -------- e s un e stim a d o r insesgado d e o-2. n —2 La cantidad se a m enudo se conoce com o el error estándar de la estimación. 14.27 A l usar se (véase ejercicio 14.26) en vez de á . reescriba (a ) la e x p re sió n p a ra t e n el te o re m a 14.4; (b ) la fó rm u la del in te rv alo d e co n fian za del te o re m a 14.5. 14.28 Bajo las suposiciones del análisis de regresión norm al, dem uestre que (a) la estim ación de m ínimos cuadrados de a se puede escribir en la form a SXJ + n x 2 — n x x ¡ y¡ 1=1 nSít (b) A tiene una distribución norm al con (S„ + n x 2)a2 E (Á ) = a y var(Á ) = nS 14.29 U se el teo re m a 14.15 p ara m ostrar que cov(Á , B) = — <r2 XX 1 4 3 0 U se el resultado del inciso (b) del ejercicio 14.28 p ara dem ostrar que _ (a - a)V n5„ crV 5„ + nx2 es un valor de una variable aleatoria que tiene la distribución norm al estándar. n T a m b ié n , u se la p rim e ra p a rte d el te o re m a 14.3 y el hech o q u e A y —^ j - son <j independientes para dem ostrar que r _ (q - a)V(n - 2)5„ a \\/S .. + nx2 es un valor de una variable aleatoria que tiene la distribución i con n — 2 g ra­ dos de libertad.

470 Capítulo 14: Regresión y correlación 14.31 Use los resultados del ejercicio 14.28 y 14.29 y elhecho que E( B ) = /3 y v a r ( B ) = tr2 ~ ~ ~ — p ara m ostrar que Y0 = A + Bjt0 es unavariablealeatoria que tieneuna dis- tribución norm al con la m edia a + p x 0 = Mn., y la varianza 2f i , (xo ~ * ) *' 47 l n , T am b ién , use la p rim e ra p a rte del teo re m a 14.3 así com o el h echo q u e y 0 v ny ^ — y- son independientes para dem ostrar que t _ (yo - -2 ¿ J l + n(x” - í ) ! es un valor de una variable aleatoria que tiene la distribución r con n — 2 gra­ dos de libertad. 1432 D eriv e u n in te rv alo con (1 — a )1 0 0 % d e confianza p ara Hyu0 ' *a m edia d e Y e n x = x 0 , al re so lv e r la d esig u a ld ad d o b le —ta/2 , n - 2 < 1 < fa/2. n - i con 1 d ad a p o r la fórm ula d el ejercicio 14.31. 1433 U se los resu ltad o s de los ejercicios 14.28 y 14.29 y el hecho que E ( B ) = p y var(B ) = p a ra d e m o s tra r q u e Y0 — ( Á + Bjc0) e s una v ariab le a le a to ria ¿XX que tiene la distribución norm al con m edia cero y la varianza <T i + i + ( * - E n este caso V¡, tiene una distribución norm al con la m edia a + fix0 y la varianza <r: ; esto es. Y0 es una observación fu tu ra de Y que co rresp o n d e a x = x n. T am bién, use la p rim era p a rte del teo rem a 14.3 así com o el h ech o que Y0 — ( A + B x 0) y nÉ2 — y son independientes para dem ostrar q u e.. (T t _ [yo - ( ¿ + f e o )] VVi - 2 es un valor de una variable aleatoria que tiene la distribución t con n — 2 gra­ dos de libertad. 14.34 R esuelva la desigualdad doble —ta n ,, _ 2 < t < taj2 ,n- z con 1 d ad a P ° r Ia fó rm u ­ la del ejercicio 14.33 d e m an era que el térm in o m ed io es y0 y los dos lím ites se

Sección 14.5: Análisis d e correlación norm al 473 (a) Use el software apropiado de com putadora para ajustar un línea recta a estos datos. (b ) C o n stru y a los lím ites con 99% de confianza p ara la p en d ien te de la línea ajustada. 14.47 É stas son las cargas (gram os) q u e se colocaron en los ex trem o s d e varillas sim i­ lares de plástico con las deflecciones resultantes (cm). Carga Deflección x y 15 1.58 30 1.39 35 1.41 40 1.60 55 1.81 45 1.78 50 1.65 60 1.94 (a) Use el softw are apropiado de com putadora para ajustar una línea recta a estos datos. (b) U se el nivel 0.95 de significancia p ara p ro b ar la hipótesis nula que [i = 0.01 c o n tra la a lte rn a tiv a q u e /3 > 0.01. 14.5 AN ÁLISIS DE CO R R ELACIÓ N N O R M A L En el análisis de correlación norm al analizam os un conjunto de datos asociados en pa­ rejas i = 1, 2, d o n d e las x¡ las y, son los v alo res d e u n a m u e stra a le a ­ to ria d e una p o b lació n n o rm al b iv ariad a con los p a rá m e tro s fi¡, p 2, <r¡, <r2 y p. P ara estim ar estos p arám etro s con el m étodo de la m áxim a verosim ilitud, tendrem os que m axim izar la verosim ilitud n e = ni=/i f o . f l ) d o n d e f [ x „ y ¡ ) e s ta d a d a p o r la definición 6 .8 , y con e s te fin te n d re m o s q u e d ife ren c iar L , o ln L, p a rc ialm en te con resp e c to a p x, p,2, tr2 y p , ig u alar las ex p resio n es resu l­ tantes a cero, y después resolver el sistema resultante de ecuaciones para los cinco pará­ m etros. D ejem os los detalles al lector y enunciem os m eram ente que cuando ^ ^y a in /L ' d p ,2 se igualan a cero, obtenem os 2 ( * i “ Mi) P ¿ ( y , “ M2 ) -t- = 0 --------------- 4- =0 ,7V r ? rri

476 Capítulo 14: Regresión y correlación 5 „ = 771.35 - — (8 6 .7 ) 2 = 19.661 S „ = 819.34 - — (8 8 .8 ) 2 = 30.796 10 Siy = 792.92 - — (8 6 .7 )(8 8 .8 ) = 23.024 r= . 23.024 ____ = 0.936 V ( 19.661) (30.796) Esto es indicativo de una asociación positiva entre el tiem po que le tom a a una secretaria ejecutar la tarea dada en la m añana y al final de la tarde, y esto es evi­ d e n te e n e l d ia g ra m a d e d isp e rsió n de la figura 14.5. P u e s to q u e lOOr2 = 100(0.936)2 = 87.6, podem os decir que casi 8 8 p o r ciento de la variación de las y se explica m ediante la relación lineal con x. ▲ y ✓ •/ (minutos) 12 11 1 0 1- •/ 9 / 8 7 7 / / I6 5 4 3 2 1 -I 1----- 1----- 1----- 1----- 1----- 1----- 1----- 1----- 1----- 1----- 1----- 1------ x (minutos) 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Mañana F ig u ra 1 4 .5 D ia g ra m a d e dispersión de los datos del e je m p lo 14.7. Puesto que la distribución m uestral de R para m uestras aleatorias de poblaciones norm ales bivariadas es más bien com plicada, es práctica com ún basar los intervalos de confianza para p y las pruebas concernientes a p en la estadística:

Sección 14.5: Análisis d e correlación norm al 477 1,1 + R - • In - r . Así. ai — 3 z= Vñ - 3 Vn - 3 2 se puede considerar como un valor de una variable aleatoria que tiene aproxim adam en­ te la distribución norm al estándar. Al usar esta aproxim ación, podem os probar la hi­ p ó tesis n u la p = p0 c o n tra u n a a lte rn a tiv a a p ro p ia d a, c o m o se ilustra en el ejem p lo 14.8, o calcular los intervalos de confianza para p m ediante el m étodo sugerido en el ejerci- ció 14.51. EJEMPLO 14.8 C o n resp ecto al e jem p lo 14.7, p ru eb e la hipótesis nula p = 0 co n tra la hipótesis a lte r­ nativa p & 0 en el nivel 0.01 de significancia. Solución 1. H0: P = 0 H {\\ p * 0 a = 0.01 2. R ech ace la h ipótesis n u la si z á —2.575 o ; ^ 2.575, d o n d e z = —V n ^ 2 3. Al sustituir n = 10 y r = 0.936, obtenem os 4. Puesto q u e z = 4.5 excede a 2.575. debem os rechazar la hipótesis nula; co n ­ cluimos que hay una relación lineal entre el tiem po que tarda una secreta­ ria en llenar el form ulario en la m añana y al final de la tarde. A

478 Capítulo 14: Regresión y correlación EJERCICIOS 14.48 V erifique que la fórm ula p a ra t del teo rem a 14.4 se puede escribir com o 1= 1 1 _ e v v ^ p ) V i - r2 14.49 U se la fórm ula piara r del ejercicio 14.48 p ara derivar los límites con (1 — a ) 100% de confianza siguientes para p: V T -7 14.50 Use la fórm ula p ara t del ejercicio 14.48 p a ra d em o strar que si las suposiciones que sustentan el análisis de regresión norm al se satisfacen y p = 0, entonces R 2 tiene la distribución beta con la m e d ia -. n —1 1 4 J 1 A l reso lv e r la d esig u ald ad d o b le —za/2 za , 2 (con z dada p o r la fórm ula en la página 477) para p, derive una fórm ula para un intervalo con (1 — a ) 100% de confianza para p. 14^2 E n una m uestra aleatoria de n pares de valores X y Y, (x,, y¡) ocurre fu veces para i — 1, 2 , . . . , r y j = 1 , 2 , . . . , c. Sea que / . den o te el núm ero d e pares d o n ­ de X asum e el valor x¡ y el n ú m ero de p a re s d o n d e Y asum e el v alo r y¡, es­ criba una fórm ula para el coeficiente de correlación. APLICACIONES 14^3 Se dice que una prueba de rendim iento es confiable si un estudiante que tom e la prueba varias veces obtendrá consistentem ente puntuaciones altas (o bajas). U na form a de verificar la confiabilidad de una prueba es dividirla en dos par­ tes. por lo general los problem as con num eración par y los problem as con n u ­ m eración im par, y observar la correlación entre las puntuaciones que los estudiantes obtienen en am bas m itades de la prueba. Así. los datos siguientes representan las calificaciones, x y y , que 20 estudiantes obtuvieron para los pro­ blem as con num eración par y los problem as con num eración im par de una nue­ va prueba objetiva diseñada para probar el rendim iento de alum nos del últim o año de prim aria en ciencias en general: yX yX 27 29 33 42 36 44 39 31 44 49 38 38 32 27 24 22 27 35 33 34 32 37 41 33 37 38 38 29 33 35 44 40 34 32 30 27 39 43 27 38

Sección 14.5: Análisis de correlación norm al 479 C alcule r p ara estos datos y pruebe su significancia, esto es, la hipótesis nula p = 0 c o n tra la hipótesis alternativa p ^ 0 en el nivel 0.05 de significancia. 14.54 C o n re sp e c to al ejercicio 14.53, use la fó rm u la o b te n id a e n el ejercicio 14.51 p a ­ ra construir un intervalo con 95 por ciento de confianza para p. 14.55 Los datos siguientes corresponden a x , la cantidad de fertilizante (en libras) q u e un agricultor aplica a su suelo, y y, es su rendim iento de trigo (en “bushcls\" p o r acre): X >' yX yX 1 1 2 33 88 24 37 27 92 28 44 17 23 9 72 38 132 36 77 32 6 6 17 23 14 142 38 1 1 2 35 57 25 37 13 8 8 31 111 40 127 23 42 8 69 29 88 31 126 37 19 12 48 37 72 32 103 27 61 25 52 2 0 141 40 71 14 28 17 77 26 113 26 Suponga que los datos se pueden considerar com o una m uestra aleatoria de una población bivariada norm al, calcule r y pruebe su significancia en el nivel 0.01 de significancia. Tam bién, dibuje un diagram a de dispersión de estos datos aso­ ciados en parejas y juzgue si la suposición parece razonable. 14.56 C o n re sp e c to al ejercicio 14.55, use la fó rm u la o b te n id a en el ejercicio 14.51 p a ­ ra construir un intervalo de confianza del 99% para p. 14.57 Use la fórm ula del ejercicio 14.48 p ara calcular un intervalo de confianza del 95% p ara /3 p ara los núm eros de horas d e estudio y las puntuaciones de la p ru eb a en la página 455, y com pare este intervalo con el o b ten id o en el ejem plo 14.6. 14.58 A m en u d o se p u e d e sim plificar el cálculo de r al su m a r la m ism a c o n sta n te a cada x, sum ar la mism a constante a cada y, o m ultiplicar cada x y/o y p or las m ism as co n stan tes positivas. V uelva a calcular r para los d ato s del ejem plo 14.7, m ultip liq u e p rim ero cad a x y cada y p o r 10 y d esp u és reste 70 d e cad a x y 60 de cada y. 14.59 L a tab la e n la p ág in a 480 m u e stra c ó m o se d istrib u y en las p u n tu ac io n es e n his­ toria y eco n o m ía d e 25 estudiantes. U se el m éto d o del ejercicio 14.52 p ara de­ term inar el valor de r, reem place los encabezados de los renglones con las m arcas d e clase correspondientes (puntos m edios) 23, 28, 33, 38, 43 y 48 y ios encabezados de las colum nas con las m arcas de clase correspondientes 23, 28, 33, 38 y 43. Use este valor de r p ara p ro b ar en el nivel 0.05 de significancia si hay una relación entre las puntuaciones en las dos m aterias. 14.60 R e h a g a el ejercicio 14.59, codifique las m arcas d e clase d e las p u n tu a c io n e s de histo ria —2 , —1 , 0 , 1 y 2 y las m arcas de clase d e las p u n tu ac io n es d e econom ía

480 Capítulo 14: Regresión y correlación Puntuaciones en historia 43 21-25 26-30 31-35 36-40 41-45 055 21-25 1 1 1 2 6 -30 1 5 31-35 31 oc2 36-40 252 41-45 14 13 4 6 -5 0 —2, —1 .0 , 1. 2 y 3. (Se sigue, p o r el ejercicio 14.58, q u e e sta clase d e codifica­ ción no afectará el valor de r.) 14.61 Si las categ o rías de renglón así com o las categorías de colum na de una tabla r X c están ordenadas, podem os reem plazar los encabezados de los renglones y tam bién los encabezados de las colum nas con enteros consecutivos y después volver a calcular r con la fórm ula o btenida en el ejercicio 14.52. U se este m é­ to d o p a ra reh acer el ejem plo 13.11, reem place Bajo, P rom edio y A lto en cada caso p o r —1 , 0 y 1 . 14.62 C on respecto a la segunda tabla r X c en la página 438, use el m étodo sugeri­ d o en e l ejercicio 14.61 p ara p ro b a r en el nivel 0.05 d e significancia si hay una relación entre el IQ y el desem peño en el trabajo. R eem place los encabezados d e los ren g lo n e s así co m o los e n c ab e z a d o s d e las co lu m n as con —1 , 0 y 1 . 14.63 (a) U se un program a apropiado de com putadora p ara o b ten er el coeficiente d e correlació n m u estra l p a ra los d a to s d e l ejercicio 14.46. (b) P ru eb e si r es significativam ente diferen te de 0, use el nivel 0.05. 14.64 (a) U se un program a apropiado de com putadora para obtener el coeficiente (b) d e correlació n m u estra l p a ra los d a to s d e l ejercicio 14.47. P ru eb e si este coeficiente es significante, use el nivel 0.10. 14.6 REGRESIÓN LINEAL MÚLTIPLE A unque hay m uchos problem as donde una variable se puede predecir con bastante exactitud en térm inos de otras, es lógico que los pronósticos se deben m ejorar si uno considera inform ación pertinente adicional. Por ejem plo, debem os poder hacer m ejo­ res predicciones del desem peño de profesores recién contratados si consideram os no sólo su educación, sino tam bién los años de experiencia y su personalidad. T am bién, d e­ bem os poder hacer m ejores pronósticos del éxito de un nuevo libro de texto si consi­ deram os no sólo la calidad del trabajo, sino tam bién la dem anda potencial y la com petencia. A unque se pueden usar m uchas fórm ulas diferentes para expresar las relaciones de regresión en tre m ás de dos variables (véase, p o r ejem plo, el ejem plo 14.3), las más am pliam ente usadas son las ecuaciones lineales de la forma:

484 Capítulo 14: Regresión y correlación 14.7 REGRESIÓN LIN E A L M Ú L TIP L E (N O T A C IÓ N M A T R IC IA L )t El m odelo que estam os usando en la regresión lineal m últiple se presta de m anera úni­ ca a un tratam iento unificado en notación m atricial. Esta notación hace posible enun­ ciar resultados generales en form a com pacta y utilizar m uchos resultados de la teoría m atricial con gran ventaja. Com o es costum bre, denotarem os las m atrices con letras mayúsculas en tipo negritas. Podríam os introducir el enfoque m atricial al expresar la sum a de los cuadrados q (que m inim izam os en la sección an terio r al diferenciar parcialm ente con respecto a las (3) e n n o tació n m atricial y a rra n c a r de ahí, p e ro d ejam o s e sto al le c to r e n el ejercicio 14.65: em pecem os aq u í con las ecuaciones n o rm ales en la página 482. Para expresar las ecuaciones norm ales en notación m atricial, definam os las tres m atrices siguientes: La prim era X es una m atriz de n X (k + 1) que consiste esencialm ente de los valo­ res dados de las x . donde se añade una colum na 1 para dar cabida a los térm inos cons­ tantes. Y es una m atriz de n X 1 (o vector colum na) que consiste en los valores o b serv ad o s d e Y , y B e s una m atriz ( k 4- 1) X 1 (o v e c to r co lu m n a) q u e consiste en las estim aciones de m ínimos cuadrados de los coeficientes de regresión. Al usar estas m atrices, podem os ahora escribir la siguiente solución sim bólica de las ecuaciones n o rm ales en la página 482. teo r em a 14.7 L as estim acio n es de m ínim os c u a d ra d o s p a ra los co eficien tes de regresión m últiple están dadas por B = (X 'X r'X 'Y d o n d e X ' es la tran sp u esta d e X y (X ’X )-1 es la inversa de X 'X . t Para esta sección se supone que el lector está familiarizado con el material normalmente cu­ bierto en un prim er curso de álgebra matricial. Puesto que la notación matricial no se usa en ninguna otra parte de este libro, esta sección se puede om itir sin pérdida de continuidad.

Sección 14.7: Regresión lineal múltiple (notación matricial) 485 D e m o stra c ió n . P rim ero d e te rm in a m o s X 'X , X ’X B . y X 'Y , y o b ten e m o s fn 2 * , 2*2 ■2** 2 * . 2*1 2*1*2 \" • 2 *i** X X = 2*2 2*2*1 2*1 • • 2*2** y 2 ** 2 ***! 2***2 • ■ 24 / (k n + k 2 *, + k 2*2 + • • + k 2 ** k 2 *. + k 2 *? + k 2 *, *2 + • • + k ' 2 *,** 2 *2*1 + 2*1 + • • + k 2 * 2** X 'X B = k 2 * 2 + k J o 2 ** + k 2 ***i + k 2 * * * 2 + • • + k - 2 * 1 / 2y \\ 2*,y X Y = 2 *2y \\ 2**y/ Al identificar los elem entos de X 'X B com o las expresiones en el lado de­ recho de las ecuaciones norm ales en la página 482 y las de X 'Y com o las expre­ siones en el lado izquierdo, podem os escribir X 'X B = X ’Y Al m ultiplicar en el lado izquierdo por (X 'X )-1, obtenem os (X 'X )- 1X 'X B = (X 'X )- , X 'Y y finalm ente B = ( X 'X T ’X 'Y p u e sto q u e ( X 'X ) - I X 'X e s igual a la m atriz de id e n tid a d I ( k + 1) X ( k + 1) y por definición IB = B. En este caso hem os supuesto que X 'X no tiene singula­ ridad de m anera que existe su inversa. ▼ 14.11 C o n resp e c to al e je m p lo 14.9, use el te o re m a 14.7 p a ra d e te rm in a r las estim acio n es de mínimos cuadrados de los coeficientes de regresión múltiple. Solución Al sustituir = 25, 2 * 2 = 16. 2 * i = 87. 2 * i *2 = 55, 2 * 1 = 36 y « = 8 de la página 482 en la expresión para X 'X de arriba, obtenem os

486 Capítulo 14: Regresión y correlación Entonces, la inversa de esta m atriz se puede obtener m ediante cualquiera de di­ versas técnicas; al usar la q ue está basada en los cofactores, encontram os que donde 84 es el valor de |X 'X |, el determ inante de X 'X . A l su stitu ir 2 y = 637,000, 2 x , y = 2,031,100 y ^ x 2y = 1,297,700 d e la p á ­ gina 482 en la expresión para X 'Y en la página 485, obtenem os entonces y finalm ente 65,191.7 4,133.3 758.3 donde las p están redondeadas a un decimal. A dvierta que los resultados obteni­ dos aquí son idénticos a los m ostrados en la im presión de com putadora de la fi­ g u ra 14.6. ▲ A continuación, p ara generalizar el trab ajo de la sección 14.4, hacem os suposicio­ nes que son muy sim ilares a las de la página 464: suponem os que para * = 1, 2 ,... y n, las Y¡ son variables a le a to rias in d ep e n d ien te s q u e tie n e n distrib u cio n es n o rm ales con las m ed ias pQ+ p xxn + P 2 x ¡2 + ••• + pkx ik y la desviación e s tá n d a r com ün a. C o n base en n puntos de datos podem os entonces hacer toda clase de inferencias sobre los parám etros de nuestro m o­ delo, las p y a , y juzgar los m éritos d e las estim aciones y las predicciones basadas en la ecuación estim ada de regresión múltiple. E ncontrar las estim aciones de máxima verosim ilitud de las 0 y tr es directo, co­ m o en las páginas 464 y 465, y se dejará al lector en el ejercicio 14.65. L os resultados son com o sigue: las estim aciones de m áxim a verosim ilitud de las p son iguales a las es­ tim aciones correspondientes de m ínimos cuadrados, así que están dadas por los ele­ m en to s d e la m a triz colum na ( k + 1) X 1. B = (X 'X r'X 'Y

Sección 14.7: Regresión lineal m últiple (notación matricial) 487 La estim ación de m áxim a verosim ilitud de (j está dada por ir = ¿ [ y . - “ ( ¿ o + P \\* n + í*2x n + •*■ + Pk*ik)]2 “ ¿“ i d o n d e las f) son las estim aciones de m áxim a verosim ilitud d e las /3 y, c o m o se p e d irá al lector que verifique en el ejercicio 14.67, tam bién se p uede escribir com o / Y T - B'X” \" -V n-------- en notación m atricial. EJEMPLO 14.12 U se los re su lta d o s d el ejem p lo 14.11 p a ra d e te rm in a r el v alo r de ó p a ra los d a to s del ejem plo 14.9. Solución n C alcu lem o s p rim e ro Y 'Y , lo cual es sim p lem en te 2 -v?« as^ o b ten e m o s i= i Y 'Y = 78.8002 + 74.3002 + — + 82.9002 = 50,907,080,000 E ntonces, al copiar B y X 'Y de la página 486. obtenem os H ’X 'Y = — -(5 ,4 7 6 ,1 0 0 347.200 / 637,000 63,700) 2,031,100 \\ 1,297,700, = 50,906,394,166 y se sigue que / 50.907.080;000 - 50.906394,166 ' “ V— 8 = 292.8 ▲ E s interesante observar que la estim ación que hem os obtenido aquí no es igual a la q u e se m u e stra en la im p resió n de c o m p u ta d o ra de la figura 14.6. L a estim ación que a h í se m u estra , S = 370.4, es tal q u e S2 es u n e stim a d o r insesgado d e o 2, an á lo g o al e rro r estándar de la estim ación que definim os en la página 469. D ifiere de tí en que di­ vidim os p o r n — k - 1 en vez de n , y si hubiésem os hecho esto en n u estro ejem plo, habríamos obtenido / 50.907,080,000 - 50,906.394,166 V 8 -2 -1 = 370.4

490 Capítulo 14: Regresión y correlación 14.71 Si *<,1. *02 • ••• **o* son valores d ad o s d e * ,, * 2 ** y X 0 es el v ecto r colum na X0 = r’ \\ •*•01 *02 V*0* / se puede m ostrar que j _ Xp MVUqi. «<q. . »<>| Í«[X ¿(X 'X ) Xo] V n —k — 1 es un valor de una variable aleatoria que tiene la distribución / con n — k — 1 grados de libertad. (a) M uestre que para k = 1 esta estadística es equivalente a la del ejercicio 14.31. (b) D erive una fórm ula para un intervalo (1 — a ) 100% de confianza para p n*oi.Jtfj..-'. 14.72 C o n * o i, * o 2t •••» *o* y X 0 c o m o se d e fin iero n e n el ejercicio 14.71 y y0 es una v a ria b le a le a to ria q u e tie n e u n a d istrib u c ió n n o rm a l c o n la m e d ia (30 + 0 1 * 0 1 + + 0 **0* y la v arian za a 2, se p u e d e d e m o s tra r q u e t = y0 - B 'X p rl + X U X 'X ^ X o ] n - k —1 es un valor de una variable aleatoria que tiene la distribución / con n — k — 1 grados de libertad. (a) D em uestre que para k = 1esta estadística es equivalente a la del ejercicio 1433. (b) D erive u n a fórm ula p ara lím ites de predicción de (1 - a ) 100% p ara una observación futura de APLICACIONES 14.73 É stos son datos m uéstrales proporcionados por una com pañía de m udanzas so­ bre los pesos de seis em barques, las distancias que se trasladaron, y el daño en que se incurrió: Peso Distancia Daño ( 1.000 libras) ( 1,000 millas) (dólares) *i X2 y 4.0 1.5 160 3.0 2 .2 112 1.6 1.0 69 1.2 2 .0 90 3.4 0 .8 123 4.8 1.6 186

492 Capítulo 14: Regresión y correlación Dureza Contenido de cobre Temperatura de templado {Rockwell 30-T) {por ciento) {grados F) x2 y 0.02 1,000 78.9 0.02 55.2 0 .1 0 UOO 80.9 0 .1 0 57.4 1.000 85.3 0.18 60.7 0.18 UOO 1,000 1,200 A juste un plano con el m étodo de los m ínimos cuadrados y úselo para estim ar la dureza prom edio de esta clase de acero cuando el contenido de cobre es 0.14 p o r c ie n to y la tem p e ra tu ra de tem p lad o es 1,100°F. 14.77 C uando las x 2 y/o las x k están uniform em ente espaciadas, el cálculo de A las /3 se p u e d e sim plificar al usar la codificación su g e rid a e n el ejercicio 14.15. V uelva a reso lv er el ejercicio 14.76, codifique los valores d e x , c o m o —1, 0, y 1 y los v a lo re s d e x 2 c o m o —1 y 1. (O b serv e q u e p a ra las jc, y x 2, co d ificad as, llá­ m elas z i y Z2* ten em o s n o só lo = 0 y S z 2 = 0 , sin o tam b ié n S z , z 2 = 0 .) 14.78 Los siguientes son datos sobre el p orcentaje de efectividad de un analgésico y las cantidades de tres diferentes m edicam entos (en miligramos) presentes en ca­ da cápsula: Medicamento A Medicamento B Medicamento C Porcentaje X2 de eficacia 15 *3 15 20 y 15 20 10 15 20 47 30 30 10 54 30 30 20 58 30 10 30 20 20 66 45 20 10 45 20 59 45 30 10 67 45 30 20 71 10 83 20 20 72 20 82 85 30 94 30 Suponga que la regresión es lineal, estim e los coeficientes de regresión después de codificar apropiadam ente cada una de las x , y exprese la ecuación de regre­ sión estim ada en térm inos de las variables originales. 14.79 L os m o d elo s de reg re sió n q u e in tro d u jim o s en las secciones 14.2 y 14.6 son li­ n eales en las x . p e ro , lo que e s m ás im p o rta n te, tam b ié n son lineales e n las /3.

Sección 14.7: Regresión lineal múltiple (notación matricial) 493 C iertam ente, se pueden usar en algunos problem as donde la relación entre las x y la >• no e s lineal. Por ejem plo, cu ando la regresión es parabólica y de la form a = Al + P i x + P zX 2 sim p lem en te usam os la ecuación d e regresión p y u ~ P» + P \\ x \\ + P i x 2 con x \\ = x y x 2 = x 2. U se este m é to d o p a ra a ju sta r u n a p a rá b o la a los d a to s sig u ien tes sobre el tiem po de secado de un barniz y la cantidad de cierto producto quím i­ co que se le ha añadido: Cantidad de aditivo Tiempo de secado (gramos) (horas) X y 1 8.5 2 8.0 3 6.0 4 5 5.0 6 6.0 7 5.5 6.5 8 7.0 T am bién, prediga el tiem po de secado cuando se añaden 6.5 gram os del pro d u c­ to químico. 14.80 L os sig u ien tes d a to s c o rre sp o n d e n a la d e m a n d a d e un p ro d u c to (en m iles de unidades) y el precio (en centavos) que se cobró en cinco diferentes áreas de m er­ cado: Precio Demanda y X 20 22 16 41 10 120 11 89 14 56 A ju ste u n a p a rá b o la a esto s d a to s p o r el m é to d o su g erid o en el ejercicio 14.79. 14411 P ara ju zg a r si vale la p e n a a ju sta r una p a rá b o la en el ejercicio 14.80 y n o sólo u n a línea rec ta, p ru eb e la h ip ó tesis n u la f} 2 = 0 c o n tra la h ip ó tesis a lte rn a tiv a fi2 ^ O cn el nivel 0.05 de significancia. 14.82 U se los resultados obtenidos p ara los datos del ejem plo 14.9 a fin de construir un intervalo de confianza del 90% para el coeficiente d e regresión P2 (véase el ejercicio 14.70). 144Í3 C o n re sp e c to al ejercicio 14.73, p ru eb e la h ip ó tesis n u la j8 2 = 10.0 c o n tra la hi­ p ó tesis a lte rn a tiv a f} 2 * 10.0 e n el nivel 0.05 de significancia.

Capítulo 14: Regresión y correlación 14.84 C on re s p e c to al ejercicio 14.73, co n stru y a un in te rv a lo d e co n fian za d e l 95% p a ra el c o eficien te d e reg resió n j8 ] . 14.85 C on re sp e c to al ejercicio 14.74, p ru e b e la h ip ó tesis n u la /3, = 0.12 c o n tra la h i­ p ó tesis a lte rn a tiv a /3, < 0.12 e n el nivel 0.05 d e significancia. 14.86 C on re s p e c to al ejercicio 14.74, co n stru y a un in te rv alo de co n fia n za d e l 98% p a ra el co eficien te de reg resió n /32. 14.87 U se los resu lta d o s o b ten id o s p a ra los d a to s del ejem p lo 14.9 y el re su lta d o del inciso (b ) d el ejercicio 14.71 p a ra co n stru ir u n in terv alo de co n fian za d el 95% para la m edia del precio de venta de una casa de tres recám aras con dos baños en el desarrollo habitacional dado. 14.88 U se los resu ltad o s o b ten id o s p a ra los d a to s del ejem p lo 14.9 y el re s u lta d o del inciso (b ) del ejercicio 14.72 p ara construir lím ites de predicción del 99% p ara el precio de venta de una casa de tres recám aras con dos baños en el desarro­ llo habitacional dado. 14.89 C on re sp e c to al ejercicio 14.73, use el re su lta d o d el inciso (b ) del ejercicio 14.71 para construir un intervalo de confianza del 98% para la m edia del daño de em ­ b arq u es de 2,400 libras que se trasladan 1,200 millas. 14.90 C on re sp e c to al ejercicio 14.73, use e l re su lta d o del inciso (b ) del ejercicio 14.72 para construir límites de pronóstico del 95% para el daño en que se incurrirá en un em b arq u e de 2,400 libras que se traslada 1,200 millas. 14.91 C on re s p e c to al ejercicio 14.74, use e l re su lta d o d el inciso (b ) d el ejercicio 14.71 para construir un intervalo de confianza del 99% para el prom edio de la utili­ d ad n eta sem anal de restau ran tes con 2 1 0 lugares en un a localidad donde la cu en ta d el tráfico diario p rom edia 14,000 autos. 14.92 C on re s p e c to al ejercicio 14.74, use e l re su lta d o d e l inciso (b ) d el ejercicio 14.72 p ara construir lím ites de predicción del 98% para el prom edio de la utilidad n e­ ta sem anal de restaurantes con 2 1 0 lugares en una localidad donde la cuenta del tráfico diario prom edia 14,000 autos. 14.93 U se u n p ro g ra m a a p ro p ia d o de c o m p u ta d o ra p a ra re h a c e r el ejercicio 14.78 sin codificar los valores x. 14.94 (a ) U se un program a apropiado de com putadora para ajustar un plano a los datos siguientes relativos al uso m ensual de agua de una planta de produc­ ción (galones) a su producción m ensual (toneladas), la m edia de la tem p e­ ratura am biente m ensual (°F), y el núm ero mensual de días de operación de la planta durante un periodo de 12 meses.

Capítulo 14: Referencias 495 Uso de agua Produción Media de la temperatura Días de operación y *\\ *2 19 2,228 2,609 98.5 67.4 20 3.088 108.2 70.3 21 2378 109.6 82.1 21 1,980 69.2 1,717 101.0 64.5 19 2,723 63.7 2,031 83.3 58.0 21 1,902 70.0 58.1 1,721 144.7 36.6 19 2354 84.4 49.6 2.522 97.4 44.3 20 131.8 44.1 82.1 17 64.5 23 18 19 (b) E stim e el uso de agua de la planta durante un m es cuando su producción es 90.0 toneladas, la m edia de la tem peratura am biente es 65°F, y opera por 2 0 días. REFERENCIAS E n el libro de S. S. Wilks, al que se hizo referencia al final del capítulo 7, se puede encon­ trar una dem ostración del teorem a 14.3 y otros detalles m atem áticos que se om itieron en el texto, y en el libro de Kendall y Stuart, al que se hizo referencia al final del capítulo 3, se 1 1+ R encuentra información sobre la distribución de - • ln - . U na derivación de las estimado- 2 1 t\\ n e s d e m á x i m a v e r o s i m i l i t u d d e íT] , cr2 y p s e d a e n la t e r c e r a e d i d ó n ( p e r o n o e n la c u a r t a ) d e H o e l ,P., ¡ntroduction to Mathematical Stalistics, 3a. ed. Nueva York: John Wiley & Sons, Inc., 1962. T ratam ientos m ás detallados de la regresión m últiple se pueden encontrar en m uchos libros más avanzados, por ejem plo, en M o r r i s o n ,D. F., A pplied Linear Statistical M eíhods. U pper Saddle River, N.J.: Prentice Hall, 1983, Weisbero, S ., A p p lie d L inear R egression, 2 a . c d . N u e v a Y o rk : J o h n W ile y & S o n s , In c ., 1985, W o n n a COTT, T. H ., and W o n n a c o t t ,R. J., Regression: A Second Course in Stalistics. Nueva York: John W iley & Sons, Inc., 1981.

CAPÍTULO 15 Análisis de ia varianza 15.1 INTRODUCCIÓ N 15.2 ANÁLISIS DE LA VARIANZA EN UN SENTIDO 15.3 DISEÑO DE EXPERIMENTOS 15.4 ANÁLISIS DE LA VARIANZA EN DOS SENTIDOS SIN INTERACCIÓN 15.5 ANÁLISIS DE LA VARIANZA EN DOS SENTIDOS CO N INTERACCIÓN 15.6 COMPARACIONES MÚLTIPLES 15.7 ALGUNAS CONSIDERACIONES ADICIONALES 15.1 INTRODUCCIÓN E n este cap ítu lo gen eralizarem o s el trab ajo d e la sección 13.3 y co n sid erarem o s el p ro ­ blem a de decidir si las diferencias observadas e n tre m ás de d os m edias m uéstrales se pu ed e atrib u ir al azar o si hay diferencias reales en tre las m edias de las poblaciones m uestreadas. P o r ejem plo, quizá deseam os decidir con base en datos m uéstrales si real­ m ente hay una diferencia en la eficacia de tres m étodos de enseñar una lengua ex tran ­ jera. tal vez querem os com parar los rendim ientos prom edio por acre de seis variedades de trigo, o deseam os ver si realm ente hay diferencia en el millaje prom edio obtenido con cuatro clases de gasolina. Puesto que las diferencias observadas siem pre se pueden deber a causas distintas a las postuladas; p o r ejem plo, las diferencias en el desem peño de los estudiantes a quienes se les enseña una lengua extranjera m ediante tres m étodos diferentes se pueden deber a dife­ rencias en inteligencia, y las diferencias en el millaje prom edio obtenido con cuatro clases de gasolina se puede deber a las diferencias en las condiciones del camino; tam bién exam i­ narem os algunos puntos del diseño de experimentos de m anera que, con seguridad razo­ nable, los resultados estadísticam ente significativos se puedan atribuir a causas específicas. 15.2 ANÁLISIS DE LA V A R IA N Z A EN UN SENTIDO P ara d ar un ejem plo de una situación típica donde haríam os un análisis de la varianza en un sentido, suponga que querem os com parar la acción lim piadora de tres detergen­ te s con base e n las sig u ien tes lectu ras d e b lan cu ra en 15 m u estras d e tela b lanca, que 4%

Sección 15.2: Análisis d e la varianza en un sentido 497 prim ero se m ancharon con tinta china y después se lavaron en una m áquina tipo agita­ dor con los detergentes respectivos Detergente A : 77, 81, 71, 76. 80 Detergente B : 72. 58, 74, 6 6 , 79 Detergente C : 76, 85, 82, 80, 77 Las m edias de estas tres m uestras fueron 77, 6 8 y 80, y querem os saber si las diferen­ cias entre ellas son significativas o si se pueden atribuir al azar. En general, en un problem a como éste, tenem os m uestras aleatorias independien­ tes de tam año n de k poblaciones. El jé sim o valor de la /ésim a población se denota cono:¡¡, e sto es. P o b la c ió n 1: jc,,, .r,2 , . . . , *i„ P o b la c ió n 2: * 21. *22 >•• • • * 2* P o b la c ió n k : x kl, x k2»• ••»**« Y supondrem os q u e las variables aleatorias correspondientes X¡¡, que son todas inde­ p e n d ie n tes, tien en distrib u cio n es n o rm a les con las resp ectiv as m edias yx, y la varianza c o m ú n a 1. AI e n u n c ia r e stas su p o sicio n es de u n a m a n e ra alg o d ife re n te , p o d ría m o s decir que el m odelo para las observaciones está dado por x ü = M, + e t¡ para i = 1 ,2 k y j = 1 , 2 , . . . , n , d o n d e e jyso n los valores d e n k v ariab les a le a to rias in d ependientes q ue tienen distribuciones norm ales con m edias cero y la varianza com ún cr2. P ara p e rm itir la g en eralización de e ste m o d elo a clases d e situaciones m ás com plicadas (véanse las páginas 506 y 507), suelen escribirse en la forma *iy — P + + e i¡ p a ra i = 1, 2 , . . . , k y j = 1, 2, . . . , n . E n este caso /x se conoce com o la gran medía, y k las a (, llam adas los efectos del tratamiento, son tales que ^ a , = 0. A dvierta que he- 1=1 m os e scrito m e ra m e n te la m ed ia d e la /ésim a población co m o yx, = yx + a , e im puesto k la condición ^ a , = 0 de m an era q u e la m ed ia de las yx, sea igual a la g ran m ed ia /x. /-1 La práctica de referirse a las diferentes poblaciones com o diferentes tratamientos se d e­ be al hecho que m uchas técnicas del análisis de la varianza se desarrollaron originalm en­ te en relación con experim entos agrícolas donde, por ejem plo, diferentes fertilizantes se consideraban com o diferentes tratam ientos aplicados a la tierra. Así, nos referirem os a los tres detergentes de este ejem plo com o tres tratam ientos diferentes, y en otros proble­ m as podem os referirnos a cuatro nacionalidades com o cuatro tratam ientos diferentes, cinco clases de cam pañas de publicidad com o cinco tratam ientos diferentes, y así sucesi­ vam ente. “Niveles” es otro térm ino que se usa a m enudo en vez de “tratam ientos”. La hipótesis nula que querem os probar es que las medias de las poblaciones son to d as iguales, e s to es, q u e yx] = yx2 = ••• = yx* o , e q u iv a le n te m e n te , que H 0: cii = 0 y 1, 2 k

Capítulo 15: Análisis de la varianza C orrespondientem ente, la hipótesis alternativa es que las m edias de las poblaciones no son todas iguales; esto es: H x\\ a, ¿ 0 para al m enos un valor de i La prueba m ism a se basa en un análisis de la variabilidad total de los datos com bina­ dos (n k — 1 m ultiplicado por su varianza), lo cual está dado por 2 2 (x « ~ * - )2 donde 2 2 x <j i=i y= i i=l y=i Si la hipótesis n u la es v erd ad era, to d a esta variabilidad se d ebe al azar, p ero si n o es verdadera, entonces p arte de la sum a de los cuadrados anteriores se debe a las diferen­ cias entre las m edias de las poblaciones. Para aislar, o separar, estas dos contribuciones a la variabilidad total de los datos, nos referim os al siguiente teorem a. T E O R E M A 15.1 2 2 (*# - - \" • ¿ ( x , - X..)2 + 2 ¿ (*• - x , f i - l ¡«1 / - I i - 1 /=! donde x r es la m edia de las observaciones de la tésim a población y x.. es la m e­ dia de todas las n k observaciones. Demostración 2 ¿ ( * , - í . . ) != i i [(= ,. - Jf..) + (*„ - i , . ) ] 2 i-1 / - I 1 -1 /•-1 = 2 2 [(*<• “ J \" ) 2 + 2 (*i- - *••)(*<, - X ,.) 1=1 y=i + (x# - I , . ) 2] = 2 2 (** ~ * \" ) 2 + 2 2 2 ( x f - x . . ) ( x ti - x ,.) 1=1 y=i 1=1 y=i + 2 2 (*f - x,)2 i=i y=i = n . ¿ ( x , - í . . ) 2 + 2 2 ( x tl - x,)2 1= 1 1=1 / = ! n x ¡ ) = 0 para cada valor de i. ▼ p u e sto q u e 2 ( x >/ ~ y=i Es costum bre referirse a la expresión en el lado izquierdo de la identidad del teo ­ rem a 15.1 com o la sum a d e cu ad rad o s to tal, al p rim er térm in o d e la ex p resió n en el la­ d o derecho com o la sum a de cuadrados de los tratam ientos, y al segundo térm ino com o

Sección 15.2: Análisis d e la varianza en un sentido 503 15.6 U se m u ltip licad o res de L agrange p a ra d e m o s tra r q u e las estim acio n es de m íni­ m os cu ad rad o s de los p arám etro s del m odelo en la página 497 son /i = x.. y á, = x,. - x... APLICACIONES 15.7 P ara c o m p a ra r la eficacia de tre s tip o s d ife ren te s de rec u b rim ie n to s fo sfo res­ centes para las carátulas de los instrum entos de aviones, se recubren cada una de ocho carátulas con los tres tipos. Entonces se iluminan las carátulas con una luz ultravioleta, y los siguientes son la cantidad de m inutos que cada una brilló des­ pués de ap ag ar la fuente de luz: Tipo 1: 52.9, 62.1, 57.4. 50.0, 59.3. 61.2, 60.8, 53.1 T ipo 2: 58.4, 55.0. 59.8. 62.5. 64.7, 59.9, 54.7, 58.4 T ip o 3: 71.3, 6 6 .6 . 63.4. 64.7, 75.8, 65.6, 72.9, 67.3 P ruebe la hipótesis nula que no hay diferencia en la eficacia de los tres recubri­ m ientos en el nivel 0.01 de significancia. 1541 É ste e s el n ú m e ro d e e rro re s q u e en cinco se m a n a s sucesivas c o m e tie ro n c u a ­ tro técnicos que trabajan en un laboratorio médico: Técnico I: 13, 16, 12, 14, 15 Técnico II: 1 4 .1 6 ,1 1 ,1 9 ,1 5 Técnico III: 1 3 .1 8 ,1 6 ,1 4 .1 8 Técnico IV: 18. 10,14, 15,12 Pruebe en el nivel 0.05 de significancia si las diferencias e n tre las c u atro m ues­ tras se pueden atribuir al azar. 15.9 T res grupos de seis conejillos de indias se inyectaron, cada uno, con respectivam en­ te 0.5 m iligramos, 1.0 m iligram o y 1.5 m iligramos de un nuevo tranquilizante, y a continuación se m uestra el núm ero de minutos que tardaron en quedarse dormidos: 0.5 m g : 2 1 ,2 3 ,1 9 ,2 4 ,2 5 ,2 3 1.0 m g : 1 9 .2 1 ,2 0 .1 8 ,2 2 .2 0 1.5 m g : 1 5 .1 0 .1 3 ,1 4 ,1 1 ,1 5 P ruebe en el nivel 0.05 de significancia si se puede rechazar la hipótesis nula de que las diferencias en dosificación no tienen efecto. Tam bién, estim e los p ará­ m etros /i. a , , a 2 y aj del m odelo que se usó en el análisis. 15.10 L o sig u ien te es el n ú m ero de p a la b ras p o r m in u to q u e una se cre ta ria m ec a n o ­ grafió en varias ocasiones en cuatro m áquinas de escribir diferentes: M áquina de escribir C : 71, 75, 69, 77, 61, 72, 71, 78 M áquina de escribir D : 6 8 . 71, 74, 6 6 . 69, 67, 70, 62 M áquina de escribir E : 75, 70, 81, 73, 78, 72 M áquina de escribir F : 62, 59, 71, 6 8 , 63. 65, 72, 60, 64 U se las fó rm u las de cálculo del ejercicio 15.4 p a ra calcular las sum as d e los c u a ­ drad o s req u erid as p ara p ro b ar en el nivel 0.05 de significancia si las diferencias entre las m edias de las cuatro m uestras se pueden atribuir al azar.

504 C apítulo 15: Análisis d e la varianza 15.11 U n servicio de p ru eb a s p a ra el consum idor, d esea p ro b a r la exactitud de los te r­ m ostatos de tres diferentes clases de planchas eléctricas, las puso a 480°F y obtu­ vo las siguientes lecturas de la tem peratura verdadera p or m edio de un term o par: Plancha X : 474, 4% , 467, 471 Plancha Y: 492, 498 Plancha Z : 4 6 0 ,4 9 5 ,4 9 0 Use las fórm ulas d e cálculo del ejercicio 15.4 p ara calcular las sum as de los cua­ drad o s req u erid as p ara p ro b ar en el nivel 0.05 de significancia si las diferencias entre las tres m uestras se pueden atribuir al azar. 15.12 E n la se cc ió n 13.7 se ñ a la m o s q u e e n el an álisis d e ji c u a d ra d a d e u n a tab la r X c no tom am os en consideración un posible orden de los renglones y/o las colum nas. C uando los renglones y las colum nas están am bos en orden, indica­ m os una alte rn a tiv a al análisis de ji c u a d ra d a en los ejercicios 14.61 y 14.62. C uando sólo las colum nas o sólo los renglones están en orden, consideram os las categorías que no están en orden com o tratam ientos, y reem plazam os las que están en orden p o r enteros consecutivos. Por ejem plo, en la tabla de 3 X 3 en la página 438 consideram os a las tres ciudades com o tres tratam ientos dife­ rentes, y reem plazam os los encabezados de las colum nas con 1 , - 1 y 0 , lo que refleja un orden de favorecer B (no favorecer A ) a ser indiferente a favorecer A . A sí, la m u estra d e tam a ñ o n , = 400 de Los Á ngeles consiste d e 174 unos. 93 m enos u n o s y 133 ceros; la m u estra d e tam a ñ o n 2 = 500 de San D ieg o consiste de 196 unos, 124 m enos unos y 180 ceros; y así sucesivam ente. Al ver la tabla de r X c de esta m anera, podem os entonces realizar un análisis de la varianza en un sentido. Useeste m étodo para analizar la tabla de 3 X 3 de lapágina 438, pruebe la hipótesis nula de que los efectos del tratam iento son todos igual a ce­ ro en el nivel 0.05 de significancia, y com pare el resultado con el obtenido en el ejercicio 13.80. 15.13 U se el m é to d o del ejercicio 15.12 p a ra a n alizar la tab la d e 3 X 3 del ejercicio 13.78 y co m pare el resultado con el resultado obten id o en ese ejercicio. 15.3 D ISEÑ O DE EXP ER IM EN TO S E n el ejem p lo 15.1 p u d iera h a b e r p arecid o razo n ab le concluir q u e los tre s d e te rg en te s no son igualm ente eficaces; sin em bargo, un m om ento d e reflexión m ostrará que esta conclusión no es tan “razonable” después de todo. R ealm ente no sabem os si las m ues­ tras lim piadas con el detergente B podrían haber estado m ás sucias que las otras, los tiem pos de lavado podrían haber sido más largos para el detergente C, podría haber ha­ bido diferencias e n la du reza o la tem p e ra tu ra del agua, y aun si los instrum entos usa­ dos para hacer las lecturas de blancura podrían haberse desajustado después de hacerse las lecturas para los detergentes A y C. Es totalm ente posible, p o r supuesto, que las diferencias entre las tres m edias de las m uestras se debieran principalm ente a las diferencias en la eficacia de los detergentes, pero hemos enum erado precisamente varios factores que podrían considerarse responsa­ bles. Es im portante recordar que una prueba de significancia puede m ostrar que las di-

S e cció n 15.3: D ise ñ o d e e x p e rim e n to s 505 ferencias entre las m edias de las m uestras son dem asiado grandes para atribuirse al azar, pero esas pruebas no pueden decir p o r qué ocurrieron las diferencias. En general, si querem os m ostrar que un factor (entre varios más) se puede consi­ derar la causa de un fenóm eno observado, debem os, de alguna m anera, aseguram os de que ninguno de los dem ás factores puede en forma razonable considerarse com o respon­ sable. Hay diversas m aneras en que esto se puede hacer; por ejem plo, podem os llevar a cabo un experimento rigurosam ente controlado donde todas las variables se m antienen fijas excepto e n la q u e estam os interesados. P ara h a c er esto en el ejem plo q u e tra ta de los tres detergentes, podríam os ensuciar las m uestras con exactam ente la misma cantidad de tinta china, usar siem pre el m ism o tiem po de lavado y agua de exactam ente la misma dureza y tem p eratu ra, e inspeccionar (y si es necesario, ajustar) los instrum entos de me­ dición después de cada uso. Bajo tales condiciones rígidamente controladas, las diferen­ cias significativas en tre las m edias de las m uestras no se pueden deber a m uestras que se ensuciaron en form a diferente o a diferencias en tiem pos de lavado, tem peratura del agua, dureza del agua, o instrum entos de medición. En el lado positivo, las diferencias en­ tre las m edias m uestran que los detergentes no son todos igualm ente eficaces si se usan en esta fo rm a estrecham ente restringida. P or supuesto, no podem os decir si existirían las m ism as diferencias si los tiem pos de lavado fueran m ás largos o m ás cortos, si el agua tu­ viera diferente tem peratura o dureza, y así sucesivamente. E n la m ayoría d e los casos, los experim entos “sobrecontrolados\" com o el que aca­ bam os de describir no proporcionan verd ad eram en te la clase de inform ación que querem os. Así que buscamos alternativas, y en el otro extrem o podem os realizar expe­ rim entos donde ninguno de los factores ajenos está controlado, pero en el que nos p ro ­ tegem os contra sus efectos m ediante la aleatorización. E sto es, diseñam os o planeam os los experim entos d e m anera que las variaciones causadas por los factores ajenos se pue­ dan com binar todas bajo el encabezado general de “azar”. Por ejem plo, podem os con­ seguir esto al asignar aleatoriam ente, en nuestro ejem plo, cinco de las m uestras sucias a cada detergente y especificar aleatoriam ente el orden en que se lavarán y m edirán. C uando todas las variaciones causadas por factores ajenos no controlados pueden in­ cluirse así bajo el encabezado de variación fortuita, nos referim os al diseño del experi­ m ento com o un diseño completamente al azar. Sin em bargo, debe resultar evidente que la aleatorización protege contra los efec­ tos de factores ajenos sólo en una m anera probabilística. Por ejemplo, en nuestro ejem ­ plo es posible, aunque muy poco probable, que el detergente A sea aleatoriam ente asignado a las cinco m uestras que resultan ser las m enos sucias o que el agua resulta ser la m ás fría cuando lavam os las cinco m uestras del detergente B. Es en parte p o r esta ra­ zón que a m enudo tratam os de controlar algunos de los factores y dejar al azar otros, y así usamos diseños que están en algún punto entre los dos extrem os que hem os descrito. Para introducir otro concepto im portante en el diseño de experim entos, conside­ rem os los datos sobre la cantidad de tiem po (en m inutos) que tom ó a cierta persona conducir hasta su trabajo, de lunes a viernes, por cuatro rutas diferentes: R uta 1: 2 2 ,2 6 ,2 5 ,2 5 ,3 1 Ruta 2: 25. 27, 28, 26, 29 Ruta 3: 26. 29, 33. 30, 33 Ruta 4: 26, 28. 27, 30. 30

506 Capítulo 15: Análisis d e la varianza Las m edias de estas cuatro m uestras son 25.8, 27.0. 30.2 y 28.2. y puesto que las diferen­ cias son bastante grandes, parecería razonable concluir que hay algunas diferencias ver­ d ad eras en los prom edios v erd ad ero s del tiem po que tard a la perso n a en conducir al trabajo por cuatro rutas diferentes. E sto no se sigue, sin em bargo, de un análisis de la va­ rianza e n un sen tid o . O b te n e m o s f = 2.80; p u e sto q u e e sto n o excede a jf¡.os,3.i6 = 3.24, no se puede rechazar la hipótesis nula. Por supuesto, la hipótesis nula puede ser verdadera, pero observe que no sólo hay diferencias considerables entre las cuatro m edias, sino tam bién diferencias grandes en­ tre los valores d e n tro de las m uestras. E n la prim era m uestra varían de 22 a 31. en la segunda m uestra de 25 a 29. en la tercera m uestra de 26 a 33 y en la cuarta m uestra de 26 a 30. Y no sólo eso, sino que en cada m uestra el prim er valor es el m ás pequeño y el últim o valor el m ás grande. E sto últim o sugiere que la variación d entro de las m ues­ tras bien puede deberse a las diferencias en las condiciones de m anejo en los diferen­ tes días d e la sem ana. Si éste es el caso, las variaciones causadas por las condiciones de m anejo se incluyeron en la sum a de cuadrados del erro r del análisis de la varianza en un sen tid o , se “ in fló ’* el d e n o m in a d o r d e la estad ística / y é ste p u e d e se r la razó n p o r qué los resultados no fueron significativos. Para evitar esta clase de situación, podríam os m antener fijos los factores ajenos, pero esto rara vez nos dará la inform ación q ue querem os. E n nuestro ejem plo, p odría­ mos limitar el estudio a las condiciones de m anejo del lunes, pero entonces no tendríam os la seguridad de que los resultados se aplicarían tam bién a las condiciones de m anejo de los m artes o de cualquier otro día de la sem ana. O tra posibilidad es variar el factor aje­ no d eliberadam ente en un intervalo tan am plio com o sea necesario de m anera q ue la variación que causa se pueda m edir, y, por tanto, elim inar de la sum a de cuadrados del error. Esto significa que debem os planear el experim ento de m anera que podam os rea­ lizar un análisis de la varianza en dos sentidos, en el que la variación total de los datos se divide en tres com ponentes atribuidos, respectivam ente, a los tratam ientos (en nues­ tro ejem plo, las rutas), el factor ajeno (en nuestro caso, las condiciones de m anejo en los diferentes días de la sem ana), y el erro r experim ental, o azar. L o que hem os sugerido aquí se llam a conformación de bloques, y los diferentes días de la sem ana se conocen com o bloques. E n general, los bloques son los niveles en que m antenem os fijo un factor ajeno de m anera qu e podam os m edir su contribución a la va­ riación total de los datos. Si cada tratam iento aparece el m ism o núm ero de veces en ca­ da bloque (en n u estro ejem plo, cada ru ta se usa una vez de cada día de la sem ana), decim os que el diseño del experim ento es un diseño de bloque completo. A dem ás, si los trata­ m ientos se distribuyen aleatoriam ente dentro de cada bloque (en nuestro ejem plo, distri­ buiríam os aleatoriam ente las cuatro rutas entre los cuatro lunes, los cuatro m artes, y así sucesivam ente), decim os q u e el diseño del ex p erim en to es un diseño en bloques al azar. 15.4 A N Á LISIS DE LA V A R IA N Z A EN D O S SEN TID O S SIN IN TER A C C IÓ N Hay esencialm ente dos form as diferentes de analizar los experim entos de dos variables, y depende de si las dos variables son independientes o si in teraccio n an . Para ilustrar lo que querem os decir aquí por “interaccionan\", suponga que una fabricante de neumáticos está experim entando con diferentes neum áticos y encuentra que una clase es especial­ m ente buena en carreteras de terracería, m ientras que otra clase es especialm ente buena

Sección 15.4: Análisis de la varianza en dos sentidos sin interacción 507 p ara uso e n pav im en to d uro. Si éste es el caso, decim os q u e hay una in te ra c c ió n e n tre las condiciones de la carretera y el diseño del neumático. Prim ero, sólo estudiarem os el caso de no interacción y después a b o rd a re m o s el caso de interacción en la sección 15.5. Para presentar la teoría del análisis de la varianza en dos sentidos, usarem os la ter­ minología introducida en las secciones precedentes y nos referirem os a los dos variables co­ mo tratam ientos y bloques; en forma alternativa, también nos podem os referir a ellos como el factor A y el factor B o com o renglones y colum nas. Así. si x t¡ para i = 1, 2 , . . . , k y j = 1 . 2 n son los valores de variables aleatorias independientes que tienen distribuciones norm ales con las respectivas m edias /z,; y la varianza com ún ct1, considerarem os el arreglo Tratamiento 1 Bloque 1 Bloque 2 Bloque n Tratamiento 2 •*u *12 * ln Tratamiento k x 2\\ * 2 2 x 2n **i **2 ... y escribim os el m odelo para un análisis de la varianza en dos sentidos (sin interacción) como x t¡= fi + a, + 13, + e,i p a ra i = 1, 2 . . . . . A: y j = 1, 2 , . . . . n .E n e ste caso /i esla gran m edia, los efecto s d el tra- kn ta m ie n to a, son tales q u e 2 a <= *°® c fccíos d e b lo q u e /3, son tales q u e ^ P¡ = 0. ¿=i /*=i y las e,, son v a lo re s de variab les a le a to ria s in d e p e n d ie n te s q u e tie n e n d istrib u cio n es n o rm ales con m ed ia c e ro y la varianza c o m ú n <r2. O b serv e que M,, = M + «, + P, y, com o se p ed irá al lector que lo verifique en el ejercicio 15.15, <2-i /i- i* nk Las dos hipótesis nulas que querem os probar son que los efectos del tratam iento son todos igual a cero y que los efectos de los bloques son todos igual a cero; esto es //0: a, = 0 para i = 1 ,2 k y H'0: p¡ = 0 p a ra j = 1 ,2 n La alternativa a H 0 es que los efectos del tratam iento no son todos iguales a cero, y la alter­ nativa a es que los efectos de los bloques no son todos iguales a cero. Simbólicamente, / / , : a, íé 0 para al m enos un valor de /

Sección 15.4: Análisis de la varianza en dos sentidos sin interacción 509 SSB _ {n ~ l)< r _ MSB SSE MSE (n - l ) ( k - 1)o* Esta clase d e análisis se llam a un análisis de la varianza en dos sentidos, y los d e ta ­ lles necesarios suelen presentarse en el siguiente tipo de tabla de análisis de la varianza: Fuente de Grados de Sum a de Cuadrado / variación libertad cuadrados medio Tratamientos _ M S(Tr) k- 1 SS(Tr) M S(Tr) h ' MSE Bloques Error n —1 SSB MSB _ MSB Total (n - 1)(* - 1) SSE MSE MSE nk — 1 SST P ara sim plificar los cálculos, SST y SS(Tr) suelen determ inarse por m edio de las fórm ulas d el te o re m a 15.2, y SSB se p u e d e d e te rm in a r p o r m edio de la fórm ula siguien­ te . la cual se p e d irá al lec to r q u e la deriv e en el ejercicio 15.17. TEOREMA 15.4 SSRB = 1 n\" T2i - 1 Ti —- .• Yy -— k kn d o n d e T.¡ es e l to ta l d e los valores o b ten id o s en el yésim o b lo q u e y T.. e s el total general de las n k observaciones. Entonces, el valor de SSE se puede obtener al restar SS(Tr) y SSB de SST. EJEMPLO 15.2 C on respecto a la ilustración en la página 505, donde teníam os Ruta 1 Lunes Martes Miércoles Jueves Viernes Ruta 2 26 25 25 31* Ruta 3 22 27 28 26 29 Ruta 4 29 33 30 33 25 28 27 30 30 26 26

510 C apítulo 15: Análisis d e la varianza pruebe en el nivel 0.05 de significancia si las diferencias en tre las m edias obtenidas por las diferentes ru tas (tratam ientos) son significativas y tam bién si las diferencias en tre las m edias obtenidas para los diferentes días de la sem ana (bloques) son significativas. Solución 1. H0: cr, = 0 p a ra i = 1, 2, 3. 4 H'0: (5j = 0 p a ra /' = 1, 2, 3, 4, 5 7/,: ai ^ 0 para al m enos un valor de i H 'i:0 , ^ 0 p a ra al m en o s un v alo r d e j. a = 0.05 para am bas pruebas. 2. R ech ace la h ipótesis n u la p ara los tra ta m ie n to s si X> S 3.49 y rech ace la hipótesis n u la p a ra los b lo q u es si f B §? 3.26, d o n d e y fB se o b tie n e n p o r m edio de un análisis de la varianza en dos sentidos, y 3.49 y 3.26 son. res­ p e c tiv am e n te , los valores de X.05.312 y X.05,4.12 • 3. Las su m as y sum as d e los cu a d ra d o s re q u e rid a s son Tx. = 129, T2. = 135, 7j. = 151, r 4. = 141, r ., = 99, t .2 = 110, r .3 = 113, r .4 = 111, r .5 = 123, T.. = 556 y 2 £ * 2 = 15,610, y la sustitución de estos valores ju n to con k = 4 y n = 5 en las fórm ulas del teo rem a 15.2 y 15.4 nos da SST = 15.610 - — (5 5 6 )2 = 153.2 S S ( T r ) = ^ ( 1 2 9 2 + 1352 + 1512 + 1412) - (556)2 J ¿o = 52.8 SSB = | ( 9 9 2 + 1102 + 1132 + 1 1 12 + 1232) - ¿ ( 5 5 6 ) 2 4 20 = 73.2 y por tanto SSE = 153.2 - 52.8 - 73.2 = 27.2 Los cálculos restantes se m uestran en la siguiente tabla de análisis de la va­ rianza:

Sección 15.4: Análisis d e la varianza en dos sentidos sin interacción 511 Fuente de Grados de Suma de Cuadrado f variación libertad cuadrados medio Tratamientos 3 52.8 5f = ,7.6 Bloques 4 73.2 T T \" 183 Error 12 27.2 Total 19 153.2 4. P uesto que / Ir = 7.75 excede a 3.49 y fH = 8.06 excede a 3.26, se d eben re­ chazar am bas hipótesis nulas. En otras palabras, las diferencias entre las me­ dias obtenidas para las cu atro rutas son significativas y tam bién lo son las diferencias entre las m edias obtenidas para los diferentes días de la sem a­ na. Sin em bargo, advierta que no podem os concluir que la ruta 1 es nece­ sariam ente la m ás rápida y que en viernes las condiciones de tráfico son siem pre las peores. T odo lo que hem os m ostrado por m edio del análisis es q ue las diferencias existen, y si q u erem o s ir un paso m ás allá y precisar la naturaleza de las diferencias, tendrem os que usar una prueba de compara­ ciones múltiple tal co m o la d e la sección 15.6. ▲ EJERCICIOS 15.14 H ag a uso d e la id en tid ad x ¡¡ ~ x .. = ( í , . - * ..) + ( * ., - x . . ) + (x,, - x , . - x . t + x ..) p ara d e m o s tra r el te o re m a 15.3. 15.15 C on re sp e c to a la n o tació n d e la p ágina 508, m u estre que ¿í«i /i- i* —= 15.16 P a ra el análisis d e la v arian za e n dos sentidos con k tra ta m ie n to s y n bloques, m uestre que \\ . ± ( x , - x ..)2 *• S tf L- ! - l _____________ /-i = <r2 + n —1 15.17 D e m u e stre el te o re m a 15.4. 15.18 U n cuadrado latino es u n arreg lo c u a d ra d o d o n d e cad a letra (o cie rta clase de sím bolo) aparece exactam ente una vez en cada renglón y una vez en cada co­ lumna. Por ejem plo.

Capítulo 15: Análisis d e la varianza A BCD B CDA CDA B DA B C es un cuadrado latino 4 X 4 Si consideram os los m renglones de un cuadrado la­ tino com o los niveles de una variable, las m colum nas com o los niveles de una se­ gunda variable, y A , B, C, ..., com o m “tratam ientos\", esto es, com o los niveles de una tercera variable, es posible probar las hipótesis concernientes a todas estas tres variables con base en tan pocas observaciones com o m 2 (siempre y cuando no haya interacciones). Sea que x^*) al denotar la observación en el iésimo renglón y la jé sim a colum na de un cuadrado latino (de m anera que k , que denota el tra ­ tam iento, se determ ina al especificar i y j), escribimos la ecuación m odelo como *«*) = M + + P, + T* + e„ p a ra i = 1, 2 j = 1, 2 , y k = 2. d o n d e /x es la g ran m edia, m los efectos de los renglones a, son tales que a , = 0 - l° s efectos de las colum - í-i m ñ as /3, so n tales q u e ^ /3; = 0, los efectos de los tra ta m ie n to s r* son tales q u e /«t m ^ t* = 0 , y las e,¡ son los valores d e variables aleato rias in d ep en d ien tes q u e tie- *=i nen d istrib u c io n e s n o rm a les con m ed ia c e ro y la varian za c o m ú n a 2. L a h ip ó ­ tesis nula que querem os probar (contra alternativas apropiadas) es que los efec­ tos de los renglones son todos cero, que los efectos de las colum nas son todos cero, y que los efectos de los tratam ientos son todos cero. (a) M uestre que ¿ S (*,**) “ x..)2 = m • ¿ (x,. - x..)2 + m • ¿ {x.j - x..)2 1=1 y=i i= i /= i + m • *2 - i ( \" f \" ) 2 + /I- i /I- i \" J v “ *(*) + 2 Í - ) 2 d o n d e x <t) es la m ed ia d e to d a s las o b se rv a c io n e s p a ra el P ésim o tra ta ­ m ie n to y las o tra s m edias son com o se define en el teo re m a 15.3. La ex­ p resió n en el lado izquierdo de la identidad an terio r es la sum a de cuadrados total SST,m ientras que las del lado derecho son, respectiva­ m ente, la sum a de cuadrados de los renglones SSR, la sum a de cuadrados de las colum nas SSC, la sum a de cuadrados de los tratam ientos SS(Tr), y la sum a de los cuadrados del e rro r SSE. (b) C onstruya una tabla de análisis de la varianza para esta clase de experi­ m ento, determ ine los grados de libertad p ara SSE al restar los de SSR, SSC y SS(Tr) de m 2 — 1, los grados de libertad de SST.

Sección 15.4: Análisis de la varianza en dos sentidos sin interacción 513 APLICACIONES 15.19 Se lleva a cabo un experim ento para juzgar los efectos de cuatro diferentes com bustibles y tres tipos diferentes de lanzador sobre el alcance de cierto co­ h ete. P ruebe, con base en los siguientes alcances en m illas, si hay un efecto sig­ nificativo a causa de la diferencia en combustibles y si hay un efecto significativo a causa de las diferencias en lanzadores: Combustible 1 Combustible 2 Combustible 3 Combustible 4 Lanzador X 45.9 57.6 52.2 41.7 Lanzador Y 46.0 51.0 50.1 38.8 Lanzador Z 45.7 56.9 55.3 48.1 U se el nivel 0.01 d e significancia. 15.20 Los siguientes son los contenidos de colesterol en m iligram os por paquete que obtuvieron cuatro laboratorios para paquetes de 6 onzas de tres alim entos die­ téticos muy similares: Laboratorio 1 Alim ento Alim ento Alim ento Laboratorio 2 dietético dietético dietético Laboratorio 3 A B C Laboratorio 4 3.4 2.6 2.8 3.0 2.7 3.1 3.3 3.0 3.4 3.5 3.1 3.7 Realice un análisis de la varianza en dos sentidos y pruebe las hipótesis nulas concernientes a los alim entos dietéticos y los laboratorios en el nivel 0.05 de significancia. 15.21 U n técnico d e laboratorio m ide la resistencia a la ruptura de cada una de cin­ co clases de hilo de lino utilizando cuatro diferentes instrum entos de m edición, ¡ i, / 2 , 1 3 e / 4, y obtiene los resultados siguientes, en onzas: l\\ h h L H ilo 1 20.9 20.4 19.9 21.9 H ilo 2 25.0 26.2 27.0 24.8 H ilo 3 25.5 23.1 21.5 24.4 H ilo 4 24.8 21.2 23.5 25.7 H ilo 5 19.6 21.2 22.1 22.1 R ealice un análisis de la varianza en dos sentidos, usando el nivel 0.05 de signi­ ficancia. 1 5 .2 2 Los d ato s m u éstrales en el siguiente cu ad rad o latino (véase el ejercicio 15.18) son las puntuaciones obtenidas por ocho estudiantes universitarios de diversos orígenes étnicos y diversos intereses profesionales en una prueba de historia de Estados Unidos:

516 C a p ítu lo 15: Análisis d e la varianza d o n d e x i.. es la m edia d e las ob serv acio n es del i’é sim o v alo r del p rim e r tra ta m ie n ­ to , x.¡. es la m ed ia de ely ésim o valor d el seg u n d o t r a t a m i e n t o , e s la m ed ia d e la résim a réplica, x ti. es la m ed ia del /ésim o y yésimo v alo res d e los do s tra ta m ie n ­ tos (prom ediados sobre las réplicas) y x... es la gran m edia de todas las m m o b ­ servaciones. Demostración. Para p robar el teorem a, prim ero escribim os la identidad Xyr ~ x ... = (l¿ .. - Je...) + ( x .f. - x ...) + (Je.., - x ...) + (x,y. - X , . . - X . t. + X . . . ) + ( x ijk - X¡J. - X . . , + X . . . ) Cuando elevamos al cuadrado cada lado de esta identidad y sumamos sobre i,j y r, se puede m ostrar que todos los términos con productos cruzados suman cero. Los deta­ lles de la dem ostración de este teorem a se dejan al lector en el ejercicio 15.25. ▼ Análoga a la clasificación en dos sentidos sin interacción, la expresión en el lado iz­ quierdo de la identidad del teorem a 15.5 es la sum a de cuadrados total, SST, y los dos pri­ m eros térm inos en la derecha son la suma de cuadrados de los tratam ientos, que ahora denotarem os con SSA y SSB. El tercer térm ino en el lado derecho es la sum a de cuadra­ dos para las réplicas, SSR, el cuarto térm ino es la sum a de cuadrados para las interaccio­ nes, SSL y el térm ino final es la nueva sum a de cuadrados de los errores, SSE. Así, SST = SSA + SSB + SSR + SSI + SSE y se p u e d e m o stra r q u e si f/j,'1, . . . , H q 1 son v erd ad , las can tid ad es SSA M SA ( k - l)a2 M SE SSE (m — l)(n¿ — l)cr2 SSB MSB MSE (n - 1W SSE ( m — 1) ( n k — l)tr2 SSR MSR MSE (m — l)o-2 SSE (m — l)(n/c — l)er2 SSI M SI (n - 1 )(* - i y M SE SSE (m — 1 )(n& — l j a 2 to d as tien en d istrib u c io n e s E c o n , resp e c tiv a m e n te, k — 1, n — 1, m — 1 y ( k — l ) (/i — 1) grados de libertad en el num erador y (m — l)(nA: — 1) grados de libertad en


Like this book? You can publish your book online for free in a few minutes!
Create your own flipbook