Important Announcement
PubHTML5 Scheduled Server Maintenance on (GMT) Sunday, June 26th, 2:00 am - 8:00 am.
PubHTML5 site will be inoperative during the times indicated!

Home Explore Mendenhall W. Beaver R., Beaver B., (2010), Introducción a la probabilidad y estadística, Décima tercera edición Cengage Learning Editores, S.A. de C.V.

Mendenhall W. Beaver R., Beaver B., (2010), Introducción a la probabilidad y estadística, Décima tercera edición Cengage Learning Editores, S.A. de C.V.

Published by veroronquillo1, 2021-04-11 21:09:40

Description: Presenta una sólida base al estudiante sobre la teoría de la Estadística y al mismo tiempo dar orientación de la relevancia e importancia de la teoría para resolver problemas prácticos del mundo real

Search

Read the Text Version

EJERCICIOS SUPLEMENTARIOS ❍ 497 10-19 20-39 40-59 60-69 Analice el experimento usando el método apropiado. Identifique los tratamientos o factores de interés para 29 24 37 28 el experimentador e investigue cualesquier efectos 33 27 25 29 significativos. ¿Cuáles son las implicaciones prácticas de 26 33 22 34 este experimento? Escriba un párrafo que explique los 27 31 33 36 resultados de su análisis. 39 21 28 21 35 28 26 20 11.62 Factorial de 4 ؋ 2 Supongamos que usted ha 33 24 30 25 de realizar un experimento factorial de dos factores, el 29 34 34 24 factor A en cuatro niveles y el factor B en dos niveles, 36 21 27 33 con r réplicas por tratamiento. 22 32 33 32 a. ¿Cuántos tratamientos intervienen en el experimento? Total 309 275 295 282 b. ¿Cuántas observaciones están involucradas? Use un programa apropiado de computadora para contestar estas preguntas: c. Haga una lista de las fuentes de variación y sus grados de libertad respectivos. a. ¿Los datos dan suficiente evidencia para indicar una diferencia en el aumento medio en frecuencia cardiaca 11.63 Factorial de 2 ؋ 3 El análisis de una tabla de entre los cuatro grupos de edad? Pruebe usando a ϭ .05. varianza para un experimento factorial de 2 ϫ 3, factor A en dos niveles y el factor B en tres niveles, con cinco b. Encuentre un intervalo de confianza de 90% para la observaciones por tratamiento, se muestra en la tabla. diferencia en el aumento medio de frecuencia cardiaca entre los grupos de 10-19 y 60-69. Fuente df SS MS F 1.14 c. Encuentre un intervalo de confianza de 90% para el A 2.58 aumento medio en frecuencia cardíaca para el grupo B de edad de 20-39. AB .49 Error d. ¿Aproximadamente cuántas personas necesitaría en 8.41 cada grupo, si deseara estimar una media de grupo Total correcta a no más de dos pulsaciones por minuto con probabilidad igual a .95? MIS DATOS 11.61 Aprendiendo a vender Una a. ¿Los datos dan suficiente evidencia para indicar una EX1161 compañía deseaba estudiar los efectos de cuatro interacción entre los factores A y B? Pruebe usando a ϭ .05. ¿Cuáles son las implicaciones prácticas programas de capacitación en habilidad para vender, de su respuesta? en su personal de ventas. Treinta y dos personas fueron divididas al azar en cuatro grupos de igual tamaño y b. Dé el valor p aproximado para la prueba del inciso a). cada grupo fue sometido a uno de los diferentes programas de capacitación en ventas. Debido a que hubo c. ¿Los datos dan suficiente evidencia para indicar que el algunas deserciones durante los programas de capacitación factor A afecta la respuesta? Pruebe usando a ϭ .05. debido a enfermedad, vacaciones, etc., el número de estudiantes que completaron los programas varió de un d. ¿Los datos dan suficiente evidencia para indicar que el grupo a otro. Al término de éstos, cada vendedor fue factor B afecta la respuesta? Pruebe usando a ϭ .05. asignado al azar a un área de ventas de un grupo de áreas de ventas que fueron consideradas como que tenían 11.64 Consulte el ejercicio 11.63. Las medias de todas potenciales equivalentes de ventas. Las ventas hechas por las observaciones, a los niveles A1 y A2 del factor A cada uno de los cuatro grupos de vendedores durante la son xෆ1 ϭ 3.7 y xෆ2 ϭ 1.4, respectivamente. Encuentre un primera semana, después de completar el programa de intervalo de confianza para la diferencia en respuesta capacitación, aparecen en la tabla siguiente: media para los niveles de factor A1 y A2. Programa de capacitación MIS DATOS 11.65 La mosca blanca en California La EX1165 mosca blanca, que produce la caída de hojas 1 2 34 de arbustos y árboles y una reducción en producción de 78 99 74 81 cosechas negociables, ha emergido como plaga en el sur de California. En un estudio para determinar factores 84 86 87 63 que afectan el ciclo vital de la mosca blanca, se realizó un experimento en el que moscas blancas fueron puestas 86 90 80 71 en dos tipos diferentes de plantas a tres temperaturas diferentes. La observación de interés fue el número total 92 93 83 65 de huevecillos depositados por hembras enjauladas bajo 69 94 78 86 73 85 79 97 73 91 70 Total 482 735 402 588 www.FreeLibros.me

498 ❍ CAPÍTULO 11 EL ANÁLISIS DE VARIANZA una de las seis posibles combinaciones de tratamiento. Planta Desechos contaminantes (lb/gal de desechos) Cada combinación de tratamiento se corrió usando cinco jaulas. A 1.65 1.72 1.50 1.37 1.60 B 1.70 1.85 1.46 2.05 1.80 Planta Temperatura C 1.40 1.75 1.38 1.65 1.55 Algodón D 2.10 1.95 1.65 1.88 2.00 70°F 77°F 82°F Pepino a. ¿Los datos dan suficiente evidencia para indicar una 37 34 46 diferencia en las cantidades medias de aguas negras 21 54 32 descargadas por las cuatro plantas? 36 40 41 43 42 36 b. Si la descarga media máxima de aguas negras es 31 16 38 1.5 lb/gal, ¿los datos dan suficiente evidencia para indicar que el límite está excedido en la planta A? 50 59 43 53 53 62 c. Estime la diferencia en la descarga media de aguas 25 31 71 negras entre las plantas A y D, usando un intervalo de 37 69 49 confianza de 95%. 48 51 59 MIS DATOS 11.67 Artículos básicos en Estados Salida impresa MINITAB para el ejercicio 11.65 EX1167 Unidos El ejercicio 10.40 examinó un ANOVA en dos vías: huevecillos contra planta, temperatura anuncio de Albertsons, una cadena de supermercados del oeste de Estados Unidos. El anunciante dice que Source DF SS MS F P Albertsons de manera consistente ha tenido precios más bajos que otros cuatro supermercados de surtido Plant 1 1512.30 1512.30 12.29 0.002 completo. Como parte de un estudio realizado por una “compañía independiente para verificar precios Temperature 2 487.47 243.73 1.98 0.160 de artículos básicos”, el promedio de total semanal basado en los precios de aproximadamente 95 artículos Interaction 2 111.20 55.60 0.45 0.642 se da para cinco cadenas diferentes de supermercados, registrado durante 4 semanas consecutivas.6 Error 24 2952.40 123.02 Total 29 5063.37 S = 11.09 R-Sq = 41.69% R-Sq(adj) = 29.54% a. ¿Qué tipo de diseño experimental se ha empleado? Albertsons Ralphs Vons Alpha Beta Lucky b. ¿Los datos dan suficiente evidencia para indicar que Semana 1 $254.26 $256.03 $267.92 $260.71 $258.84 el efecto de la temperatura en el número de huevos Semana 2 240.62 255.65 251.55 251.80 242.14 depositados es diferente, dependiendo del tipo de Semana 3 231.90 255.12 245.89 246.77 246.80 planta? Use la salida impresa MINITAB para probar la Semana 4 234.13 261.18 254.12 249.45 248.99 hipótesis apropiada. a. ¿Qué tipo de diseño se ha usado en este experimento? c. Grafique las medias de tratamiento para algodón como función de la temperatura. Grafique las medias b. Realice un análisis de varianza de los datos. de tratamiento para pepino como función de la temperatura. Comente sobre la similitud o diferencia c. ¿Hay suficiente evidencia para indicar que existe en estas dos gráficas. diferencia en el promedio total semanal para los cinco supermercados? Use a ϭ .05. d. Encuentre el número medio de huevos depositados en algodón y pepino con base en 15 observaciones cada d. Use el método de Tukey para comparaciones uno. Calcule un intervalo de confianza de 95% para la apareadas para determinar cuáles de las medias diferencia en las medias poblacionales que sirven de son significativamente diferentes una de otra. base. Use a ϭ .05. MIS DATOS 11.66 Contaminación proveniente de MIS DATOS 11.68 Producción de trigo Las EX1166 plantas químicas Cuatro plantas químicas, EX1168 producciones de trigo (en búshels por acre) que producen el mismo producto y son propiedad de se compararon para cinco variedades diferentes, A, B, la misma compañía, descargan aguas negras en C, D y E, en seis lugares diferentes. Cada variedad fue arroyos de la cercanía de sus lugares. Para comprobar asignada al azar a un lote en cada lugar. Los resultados el grado de contaminación creada por las aguas negras del experimento se muestran en la tabla siguiente, junto y para determinar si esto varía de una planta a otra, la con una salida impresa MINITAB del análisis de varianza. compañía recolectó muestras aleatorias de desechos Analice el experimento usando el método apropiado. líquidos, cinco especímenes por cada una de las cuatro Identifique los tratamientos de factores de interés para plantas. Los datos se muestran en la tabla: el experimentador e investigue cualquier efecto que exista. Use las gráficas de diagnóstico sobre la validez del www.FreeLibros.me

EJERCICIOS SUPLEMENTARIOS ❍ 499 análisis de varianza de las suposiciones. ¿Cuáles son las acondicionamiento cardio-respiratorio en implicaciones prácticas de este experimento? Redacte un jóvenes de 12 a 19 años de edad.7 Alcanzar estándares párrafo que explique los resultados de su análisis. de acondicionamiento es un requisito previo para ingresar a ocupaciones como aplicación de la ley, Lugar bomberos y fuerzas militares, así como otros trabajos que comprenden un trabajo físicamente demandante. La Variedad 1 23 4 56 admisión máxima estimada de oxígeno (VO2máx) se utilizó para medir el nivel cardio-respiratorio de una persona. A 35.3 31.0 32.7 36.8 37.2 33.1 El foco de nuestro estudio investiga la relación entre B 30.7 32.2 31.4 31.7 35.0 32.7 niveles de actividad física (más que otros, igual que otros C 38.2 33.4 33.6 37.1 37.3 38.2 o menos que otros) y género en VO2máx. Los datos que D 34.9 36.1 35.2 38.3 40.2 36.0 siguen están basados en este estudio. E 32.4 28.9 29.2 30.7 33.9 32.1 Salida impresa MINITAB para el ejercicio 11.68 Actividad física ANOVA de dos vías: producción contra variedades, lugar Source DF SS MS F P Más Igual Menos Varieties 4 142.670 35.6675 18.61 0.000 Locations 5 68.142 13.6283 0.001 Hombres 50.1 45.7 40.9 Error 7.11 47.2 44.2 41.3 Total 20 38.303 1.9165 49.7 46.8 39.2 29 249.142 50.4 44.9 40.9 S = 1.384 R-Sq = 84.62% R-Sq(adj) = 77.69% Varieties A Individual 95% CIs For Mean Based on B C Pooled StDev D E Mean +---------+---------+---------+--------- Mujeres 41.2 37.2 36.5 34.3500 (-----*-----) 39.8 39.4 35.0 32.2833 (----*-----) 36.3000 (-----*----) 41.5 38.6 37.2 36.7833 (-----*-----) 31.2000 (-----*-----) 38.2 37.8 35.4 +---------+---------+---------+--------- 30.0 32.0 34.0 36.0 a. ¿Es éste un experimento factorial o un diseño de bloque aleatorizado? Explique. Gráficas de diagnóstico MINITAB para el ejercicio 11.68 b. ¿Hay interacción significativa entre niveles Normal Probability Plot of the Residuals de actividad física y género? ¿Hay diferencias (response is Yield) significativas entre hombres y mujeres? ¿Y entre niveles de actividad física? Percent 99 c. Si la interacción es significativa, use el procedimiento 95 Ϫ2 Ϫ1 0 1 2 3 de Tukey por pares para investigar diferencias entre 90 las seis medias de celda. Comente sobre los resultados hallados usando este procedimiento. Use a ϭ .05. 80 70 MIS DATOS 11.70 En un estudio de salarios iniciales de 60 EX1170 profesores auxiliares,8 cinco profesores au- 50 40 xiliares hombres y cinco profesoras auxiliares mujeres 30 de cada uno de tres tipos de instituciones que otorgan 20 títulos de doctorado, fueron encuestados y se registraron 10 sus salarios iniciales bajo la condición de anonimato. Los 5 resultados de la encuesta en unidades de 1000 dólares se dan en la tabla siguiente. 1 Ϫ3 Residual Residual 2 Residuals versus the Fitted Values Género Universidades Privadas/ Relacionados 1 (response is Yield) públicas Independientes con iglesias 0 Ϫ1 32 34 36 38 40 Hombres $57.3 $85.8 $78.9 Ϫ2 Fitted Value Mujeres 57.9 75.2 69.3 56.5 66.9 69.7 30 76.5 73.0 58.2 62.0 73.0 61.2 MIS DATOS 11.69 Acondicionamiento físico Los EX1169 investigadores Russell R. Pate y colegas 47.4 62.1 60.4 56.7 69.1 62.1 analizaron los resultados del National Health and 69.0 66.5 59.8 Nutrition Examination Survey para evaluar niveles de 63.2 61.8 71.9 65.3 76.7 61.6 Fuente: Basado en “Average Salary for Men and Women Faculty by Category, Affiliation, and Academic Rank, 2005-2006”. www.FreeLibros.me

500 ❍ CAPÍTULO 11 EL ANÁLISIS DE VARIANZA a. ¿Qué tipo de diseño se utiliza para recolectar estos San datos? Chicago Dallas Philadelphia Francisco b. Use un análisis de varianza para probar si hay AT&T Wireless 63 66 61 64 diferencias significativas en género, en tipo Cingular Wireless 67 67 64 60 de institución y para probar si hay interacción Sprint 60 68 60 61 significativa de género ϫ tipo de institución. Verizon Wireless 71 75 73 73 c. Encuentre una estimación de intervalo de confianza a. ¿Qué tipo de diseño experimental se utilizó en este de 95% para la diferencia en salarios iniciales para artículo? Si el diseño empleado es un diseño de bloque profesores auxiliares hombres y profesoras auxiliares aleatorizado, ¿cuáles son los bloques y cuáles son los mujeres. Interprete este intervalo en términos de una tratamientos? diferencia de género en salarios iniciales. b. Efectúe un análisis de varianza para los datos. d. Use el procedimiento de Tukey para investigar diferencias en salarios de profesores auxiliares para c. ¿Hay diferencias significativas en el promedio los tres tipos de instituciones. Use a ϭ .01. de calificaciones de satisfacción para los cuatro proveedores de servicios inalámbricos considerados e. Haga un resumen de los resultados de su análisis. aquí? MIS DATOS 11.71 Cerámica en el Reino Unido Un d. ¿Hay diferencias significativas en el promedio de EX1171 artículo en Archaeometry contenía un análisis calificaciones de satisfacción para las cuatro ciudades? de 26 muestras de cerámica romano-británica, halladas en 11.73 Teléfonos celulares, continúa Consulte el hornos de cuatro lugares diferentes en el Reino Unido.9 ejercicio 11.72. Las gráficas de diagnóstico para este Como un sitio dio sólo dos muestras, considere las muestras experimento se ilustran a continuación. ¿Le parece que halladas en los otros tres sitios. Las muestras fueron alguno de los análisis de varianza de las suposiciones ha analizadas para determinar su composición química y a sido violado? Explique. continuación se indica el porcentaje de óxido de hierro. Llanederyn Island Thorns Ashley Rails Normal Probability Plot of the Residuals (response is Score) 7.00 5.78 1.28 1.12 7.08 5.49 2.39 1.14 99 7.09 6.92 1.50 .92 6.37 6.13 1.88 2.74 Percent 95 7.06 6.64 1.51 1.64 6.26 6.69 90 4.26 6.44 80 70 60 50 40 30 20 10 5 1 Ϫ4 Ϫ3 Ϫ2 Ϫ1 a. ¿Qué tipo de diseño experimental es éste? 0 1 2 3 4 b. Use un análisis de varianza para determinar si hay una Residual diferencia en el promedio de porcentaje de óxido de hierro en los tres sitios. Use a ϭ .01. Residual Residuals versus the Fitted Values (response is Score) c. Si usted tiene acceso a un programa de cómputo, genere las gráficas de diagnóstico para este 3 experimento. ¿Le parece que alguno de los análisis de suposiciones de varianza han sido violados? Explique. 2 MIS DATOS 11.72 Teléfonos celulares ¿Qué tan 1 EX1172 satisfecho está usted con su actual proveedor 0 de servicio de teléfono móvil? Encuestas efectuadas por Consumer Reports indican que hay un alto nivel de Ϫ1 insatisfacción entre consumidores, lo cual resulta en altos Ϫ2 porcentajes de rotación de clientes.10 La tabla siguiente Ϫ3 muestra las calificaciones totales de satisfacción, Ϫ4 basadas en una calificación máxima de 100, para cuatro proveedores de servicios inalámbricos en cuatro ciudades 60 62 64 66 68 70 72 74 76 78 diferentes. Fitted Value MIS DATOS 11.74 Salarios de profesores II Cada EX1174 año, la American Association of University Professors informa sobre salarios de profesores académicos en universidades y colegios en Estados www.FreeLibros.me

CASO PRÁCTICO ❍ 501 Unidos.8 Los datos que siguen (en miles de dólares), a. Identifique el diseño empleado en este estudio. adaptados de este informe, están basados en muestras de n ϭ 10 en cada uno de tres rangos de profesores, para b. Use el análisis de varianza apropiado para estos datos. profesores hombres y mujeres. c. ¿Los datos indican que el salario en los diferentes Rango rangos varía por género? Género Profesor Profesor Profesor de d. Si no hay interacción, determine si hay diferencias auxiliar adjunto tiempo completo en salarios por rango y si hay diferencias por género. Discuta sus resultados. Hombre $63.9 $64.4 $70.0 $74.4 $109.4 $110.5 63.9 62.2 77.7 77.2 111.3 104.4 e. Grafique el promedio de salarios usando 64.8 64.2 77.1 76.3 112.5 106.3 una gráfica de interacción. Si el principal 68.3 64.9 76.0 78.8 111.6 106.9 efecto de rangos es significativo, use el método de 67.5 67.5 70.1 73.1 118.3 109.9 Tukey de comparaciones por pares para determinar si hay diferencias significativas entre los rangos. Mujer 56.6 59.0 65.4 66.3 110.3 100.9 Use a ϭ .01. 57.6 58.6 71.9 74.6 97.0 102.8 53.5 54.9 65.9 73.0 91.5 102.0 64.4 62.9 67.9 69.4 103.5 96.7 62.6 59.8 73.6 71.0 95.6 97.8 Fuente: Con base en “Average Salary for Men and Women Faculty by Category, Affiliation, and Academic Rank, 2005-2006”. CASO “Un buen desorden” PRÁCTICO ¿Se arriesga usted a una infracción por estacionarse donde no debe por olvidar cuánto MIS DATOS Boletos tiempo le queda en el parquímetro? ¿Las multas relacionadas con varias infracciones varían dependiendo de la ciudad en la que recibe usted la infracción? Para ver este pro- blema, las multas impuestas por rebasar tiempo, estacionarse en zona roja y estacionarse junto a un hidrante de bomberos se registraron para 13 ciudades del sur de California.11 Ciudad Rebasar tiempo Zona roja Hidrante de bomberos Long Beach $17 $30 $30 Bakersfield 17 33 33 Orange 22 30 32 San Bernardino 20 30 78 Riverside 21 30 30 San Luis Obispo 8 20 75 Beverly Hills 23 38 30 Palm Springs 22 28 46 Laguna Beach 22 22 32 Del Mar 25 40 55 Los Angeles 20 55 30 San Diego 35 60 60 Newport Beach 32 42 30 Fuente: De “A Fine Mess”, por R. McGarvey, Avenues, julio/agosto de 1994. Reimpreso con permiso del autor. 1. Identifique el diseño empleado para la recolección de datos en este estudio práctico. 2. Analice los datos usando el análisis apropiado. ¿Qué se puede decir de la variación entre las ciudades en este estudio? ¿Y de las multas para los tres tipos de violaciones? ¿El procedimiento de Tukey se puede usar para delinear más aún algunas diferencias significativas que puedan hallarse? ¿Las estimaciones de intervalo de confianza serían útiles en su análisis? 3. Haga un resumen de los resultados de su análisis de estos datos. www.FreeLibros.me

12 Regresión lineal y correlación © Roza/Dreamstime OBJETIVOS GENERALES ¿Su auto está “Hecho en EE.UU.”? En este capítulo, consideramos la situación en la que el valor medio de una variable aleatoria y está relacionada La frase “Hecho en EE.UU.” se ha convertido en con otra variable x. Al medir tanto y como x para cada grito de batalla en los últimos años porque los unidad experimental, con lo cual se generan datos bivaria- trabajadores estadounidenses tratan de proteger dos, se puede usar la información dada por x para estimar sus trabajos contra la competencia extranjera. En el valor promedio de y y para predecir valores de y para el caso práctico del final de este capítulo explo- valores de x asignados previamente. ramos las cambiantes actitudes de consumidores estadounidenses hacia autos hechos fuera de Es- ÍNDICE DEL CAPÍTULO tados Unidos, usando un sencillo análisis de re- gresión lineal. ● Análisis de varianza para regresión lineal (12.4) ● Análisis de correlación (12.8) ● Herramientas de diagnóstico para verificar las suposiciones de regresión (12.6) ● Estimación y predicción con uso de la recta ajustada (12.7) ● El método de mínimos cuadrados (12.3) ● Un modelo probabilístico lineal sencillo (12.2) ● Prueba de la utilidad del modelo de regresión lineal: inferencias acerca de b, la prueba F de ANOVA, y r2 (12.5) MI ENTRENADOR PERSONAL ¿Cómo estar seguro de que mis cálculos son correctos? 502 www.FreeLibros.me

12.2 MODELO PROBABILÍSTICO LINEAL SIMPLE ❍ 503 INTRODUCCIÓN 12.1 Los estudiantes de último año de preparatoria, los de primer año de universidad, sus padres, así como la administración de una universidad están preocupados por el ren- dimiento académico de un estudiante después de haberse inscrito en la universidad. ¿Se puede estimar o predecir el promedio de calificaciones de un estudiante (GPA) al terminar su primer año, antes de inscribirse en la universidad? A primera vista, éste podría ser un problema difícil aunque es de esperarse que los estudiantes altamente motivados, que se hayan graduado con calificaciones altas de una preparatoria, alcancen un alto promedio GPA cuando terminen el primer año. Por otra parte, los estudiantes que carezcan de motivación o que hayan obtenido un éxito sólo parcial en preparatoria no es probable que la hagan bien. Se esperaría que el rendimiento académico de un estudiante sea una función de diversas variables: • Rango en su grupo de preparatoria • Nivel general de preparatoria • Alto promedio GPA • Calificaciones del SAT Este problema es de naturaleza más bien general. Usted estará interesado en una variable aleatoria y (promedio GPA) relacionada con diversas variables independien- tes. El objetivo es crear una ecuación de predicción que exprese y como función de estas variables independientes. A continuación, si se pueden medir las variables inde- pendientes, se pueden sustituir estos valores en la ecuación de predicción y obtener la predicción para y, es decir, el promedio GPA del estudiante en nuestro ejemplo. Pero, ¿cuáles variables deben usarse para hacer la predicción? ¿Qué tan fuerte es su relación con y? ¿Cómo se construye una buena ecuación de predicción para y como función de las variables seleccionadas para la predicción? Contestaremos estas preguntas en los siguientes dos capítulos. En este capítulo, restringimos nuestra atención al sencillo problema de predecir y como función lineal de una sola variable x de pronóstico. Este problema originalmente se abordó en el capítulo 3 en la exposición de datos bivariados. Recuerde que utilizamos la ecuación de una recta para describir la relación entre x y y y describimos la fuerza de la relación usando el coeficiente de correlación r. Nos apoyaremos en algunos de estos resultados cuando repasemos el tema de regresión y correlación lineales. MODELO PROBABILÍSTICO LINEAL SIMPLE 12.2 Considere el problema de tratar de predecir el valor de una respuesta y basada en el valor de una variable independiente x. La recta de mejor ajuste del capítulo 3, y ϭ a ϩ bx estuvo basada en una muestra de n observaciones bivariadas tomadas de una población más grande de medidas. La recta que describe la relación entre y y x en la población es semejante a la recta de mejor ajuste de la muestra, pero no es igual. ¿Cómo se puede cons- truir un modelo de población para describir la relación entre una variable aleatoria y y una variable x independiente relacionada? Se empieza por suponer que la variable de interés, y, está linealmente relacionada a una variable independiente x. Para describir la relación lineal, se puede usar el modelo determinista y ϭ a ϩ bx www.FreeLibros.me

504 ❍ CAPÍTULO 12 REGRESIÓN LINEAL Y CORRELACIÓN donde a es la intersección con el eje y, es decir, el valor de y cuando x ϭ 0, y b es la pendiente de la recta, definida como el cambio en y para un cambio unitario en x, como se muestra en la figura 12.1. Este modelo describe una relación determinista entre la variable de interés y, a veces llamada variable de respuesta, y la variable independiente x, denominada variable de pronóstico. Esto es, la ecuación lineal determina un valor exacto de y cuando se da el valor de x. ¿Este modelo es realista para una situación expe- rimental? Considere el siguiente ejemplo. FIGURA 12.1 ● y Intersección con el eje y y pendiente de una recta MI CONSEJO Pendiente = A pendiente ϭ cambio en y Cruce con eje y = @ para un cambio unitario en x. cruce con eje y ϭ valor de y cuando x ϭ 0. 0 12x La tabla 12.1 muestra las calificaciones del examen de matemáticas de n ϭ 10 estu- diantes de primer año de universidad, junto con sus calificaciones finales en cálculo. Una gráfica bivariada de estos puntos y calificaciones se da en la figura 12.2. Se puede usar el applet Building a Scatter-plot (Construcción de una gráfica de dispersión) como recordatorio de cómo se traza esta gráfica. Observe que los puntos no están exactamente sobre una recta sino que más bien parecen ser desviaciones alrededor de una recta fun- damental. Una forma sencilla de modificar el modelo determinista es agregar un com- ponente aleatorio de error para explicar las desviaciones de los puntos alrededor de la recta. Una respuesta particular y se describe usando el modelo probabilístico y ϭ a ϩ bx ϩ e Calificaciones de examen de matemáticas y puntos finales en cálculo TABLA 12.1 para estudiantes de primer año de universidad ● Calificación de Puntos examen de finales en Estudiante matemáticas cálculo 1 39 65 2 43 78 3 21 52 4 64 82 5 57 92 6 47 89 7 28 73 8 75 98 9 34 56 10 52 75 www.FreeLibros.me

FIGURA 12.2 ● 12.2 MODELO PROBABILÍSTICO LINEAL SIMPLE ❍ 505 Gráfica de dispersión de 100 datos de la tabla 12.1 90 80 Calificación 70 60 50 20 30 40 50 60 70 80 Puntos La primera parte de la ecuación, a ϩ bx, llamada recta de medias, describe el valor promedio de y para un valor determinado de x. El componente de error e permite que cada respuesta individual y se desvíe de la recta de medias en una pequeña cantidad. Para usar este modelo probabilístico para hacer inferencias, es necesario ser más específico acerca de esta “pequeña cantidad”, e. SUPOSICIONES ACERCA DEL ERROR ALEATORIO e Suponga que los valores de e satisfacen estas condiciones: • Son independientes en el sentido probabilístico • Tienen una media de 0 y una varianza común igual a s2 • Tienen una distribución normal de probabilidad Estas suposiciones acerca del error aleatorio e se muestran en la figura 12.3 para tres valores fijos de x, por ejemplo x1, x2 y x3. Observe la similitud entre estas suposiciones y las suposiciones necesarias para las pruebas en los capítulos 10 y 11. Repasaremos estas suposiciones más adelante en este capítulo y daremos algunas herramientas de diagnós- tico para que usted las use al verificar la validez de ellas. FIGURA 12.3 ●y Modelo probabilístico lineal x1 x2 x3 x www.FreeLibros.me

506 ❍ CAPÍTULO 12 REGRESIÓN LINEAL Y CORRELACIÓN Recuerde que este modelo está creado para una población de mediciones que por lo general es desconocida, pero puede usar información muestral para estimar los valores de a y b, que son los coeficientes de la recta de medias, E(y) ϭ a ϩ bx. Estas estimacio- nes se usan para formar la recta de mejor ajuste para un conjunto de datos determinado, llamado recta de mínimos cuadrados o recta de regresión. En la siguiente sección repasamos la forma de calcular el punto de cruce y la pendiente de esta recta. 12.3 EL MÉTODO DE MÍNIMOS CUADRADOS MI CONSEJO El procedimiento estadístico para hallar la recta de mejor ajuste para un conjunto de datos pendiente ϭ coeficiente de x. bivariados hace, matemáticamente, lo que en forma visual se realiza cuando se mueve cruce con eje y ϭ término una regla hasta que se hayan reducido al mínimo las distancias verticales o desviaciones, constante. de la regla a un conjunto de puntos. La fórmula de la recta de mejor ajuste es yˆ ϭ a ϩ bx donde a y b son las estimaciones de los parámetros a y b de punto de cruce y pendiente, respectivamente. La recta ajustada para los datos de la tabla 12.1 se muestra en el applet Method of Least Squares (Método de mínimos cuadrados), figura 12.4. Las rectas ver- ticales rojas (azul claro en la figura 12.4) trazadas de la recta de predicción a cada punto (xi, yi) representan las desviaciones de los puntos desde la recta. FIGURA 12.4 ● Applet Method of Least Squares Para reducir al mínimo las distancias desde los puntos a la recta ajustada, se puede usar el principio de mínimos cuadrados. PRINCIPIO DE MÍNIMOS CUADRADOS La recta que reduce al mínimo la suma de cuadrados de las desviaciones de los valo- res observados de y desde los pronosticados es la recta de mejor ajuste. La suma del cuadrado de las desviaciones por lo general se denomina suma de cuadrados de error (SSE) y se define como SSE ϭ S( yi Ϫ yˆi)2 ϭ S( yi Ϫ a Ϫ bxi)2 www.FreeLibros.me

12.3 EL MÉTODO DE MÍNIMOS CUADRADOS ❍ 507 Observe la recta de regresión y los puntos de la figura 12.4. SSE es la suma del cuadrado de las distancias representada por el área de los cuadros amarillos (azul claro en la figura 12.4). Hallar los valores de a y b, las estimaciones de a y b, usa cálculo diferencial, que está fuera del propósito de este libro. En lugar de derivar sus valores, simplemente pre- sentaremos fórmulas para calcular los valores de a y b, llamados estimadores de míni- mos cuadrados de a y b. Usaremos una notación que está basada en las sumas de cuadrados para las variables del problema de regresión, que es semejante en forma a las sumas de cuadrados empleadas en el capítulo 11. Estas fórmulas se ven diferentes de las fórmulas presentadas en el capítulo 3, pero en realidad son idénticas desde el punto de vista del álgebra. Usted debe usar el método de entrada de datos para su calculadora científica para introducir los datos muestrales. • Si su calculadora tiene sólo una función estadística de una variable, todavía puede ahorrar tiempo al hallar las sumas necesarias y sumas de cuadrados. • Si su calculadora tiene una función estadística de dos variables o si tiene una calculadora graficadora, la calculadora en forma automática guarda todas las sumas y sumas de cuadradas, así como los valores de a, b y el coeficiente de correlación r. • Asegúrese de consultar el manual de su calculadora para hallar la forma más fácil de obtener los estimadores de mínimos cuadrados. ESTIMADORES DE MÍNIMOS CUADRADOS DE a Y b b ϭ _S_x_y y a ϭ yෆ Ϫ bxෆ Sxx donde las cantidades Sxy y Sxx están definidas como Sxy ϭ S( xi Ϫ ෆx)( yi Ϫ ෆy) ϭ Sxiyi Ϫ _(S__x_i)_(S__yi_) n y Sxx ϭ S(xi Ϫ ෆx)2 ϭ Sx 2 Ϫ _(S__x_i)_2 i n Observe que la suma de cuadrados de los valores x se encuentra usando la fórmula de cómputo dada en la sección 2.3 y la suma de los productos cruz es el numerador de la covarianza definida en la sección 3.4. E J E M P L O 12.1 Encuentre la recta de predicción de mínimos cuadrados para los datos de la calificación en cálculo de la tabla 12.1. Solución Use los datos de la tabla 12.2 y el método de introducción de datos en su calculadora científica para hallar las siguientes sumas de cuadrados: Sxx ϭ S x 2 Ϫ _(S__x_i)_2 ϭ 23 634 Ϫ _(4__6_0_)_2 ϭ 2474 i n 10 Sxy ϭ Sxiyi Ϫ _(S__x_i)_(S__yi_) ϭ 36 854 Ϫ _(4_6_0_)_(_7_6_0_) ϭ 1894 n 10 ෆy ϭ _S_y_i ϭ _7_6_0_ ϭ 76 xෆ ϭ _S_y_i ϭ _4_6_0_ ϭ 46 n 10 n 10 www.FreeLibros.me

508 ❍ CAPÍTULO 12 REGRESIÓN LINEAL Y CORRELACIÓN TABLA 12.1 ● Cálculos para los datos de la tabla 12.1 yi xi x 2 xi yi y 2 i i 65 39 1521 2535 4225 78 43 1849 3354 6084 52 21 441 1092 2704 82 64 4096 5248 6724 92 57 3249 5244 8464 89 47 2209 4183 7921 73 28 784 2044 5329 98 75 5625 7350 9604 56 34 1156 1904 3136 75 52 2704 3900 5625 Suma 760 460 23 634 36 854 59 816 Entonces MI CONSEJO b ϭ _S_x_y ϭ _1_8_9_4_ ϭ .76556 y a ϭ yෆ Ϫ bෆx ϭ 76 Ϫ (.76556)(46) ϭ 40.78424 Sxx 2474 Se puede predecir y para un valor determinado de x La recta de regresión de mínimos cuadrados es entonces al sustituir x en la ecuación para hallar yˆ. yˆ ϭ a ϩ bx ϭ 40.78424 ϩ .76556x La gráfica de esta recta se ve en la figura 12.4. Ahora se puede usar para predecir y para un valor determinado de x, ya sea consultando la figura 12.4 o sustituyendo el valor apropiado de x en la ecuación. Por ejemplo, si un alumno de primer año obtuvo x ϭ 50 en el examen, la calificación pronosticada de cálculo del estudiante es (usando precisión completa de decimales) yˆ ϭ a ϩ b(50) ϭ 40.78424 ϩ (.76556)(50) ϭ 79.06 MI ENTRENADOR PERSONAL ¿Cómo estar seguro que mis cálculos son correctos? • Tenga cuidado con los errores de redondeo. Lleve al menos seis cifras significati- vas y haga redondeo sólo al informar el resultado final. • Use una calculadora científica o graficadora para hacer todo el trabajo. Casi todas las calculadoras calcularán los valores de a y b si se le introducen correctamente los datos. • Use un programa de computadora si tiene acceso a ella. • Siempre grafique los datos y la recta. Si la recta no se ajusta a los puntos, ¡es probable que el usuario tenga un error! MI APPLET Se puede usar el applet Method of Least Squares (Método de mínimos cuadrados) para hallar los valores de a y b que determinan la recta de mejor ajuste, yˆ ϭ a ϩ bx. La recta horizontal que se ve en la recta y ϭ ෆy. Use el mouse de su PC para arrastrar la recta y vea que cambia el tamaño de los cuadros amarillos. El problema es hacer el SSE, el área total de los cuadros amarillos (azul claro en la figura 12.4) tan pequeña como sea posible. El valor de SSE es la parte roja de la barra a la izquierda del applet (azul oscuro en la figura 12.4) marcada SSE ϭ . Cuando usted piense que ha reducido el SSE al mínimo, haga clic en el botón y ¡vea qué bien lo hizo! www.FreeLibros.me

12.4 UN ANÁLISIS DE VARIANZA PARA REGRESIÓN LINEAL ❍ 509 UN ANÁLISIS DE VARIANZA PARA REGRESIÓN LINEAL 12.4 En el capítulo 11 utilizamos el análisis de procedimientos de varianza para dividir la variación total del experimento en partes atribuidas a diversos factores de interés para el experimentador. En un análisis de regresión, la respuesta y está relacionada con la varia- ble independiente x. En consecuencia, la variación total de la variable de respuesta y, dada por SS Total ϭ Syy ϭ S(yi Ϫ ෆy )2 ϭ Sy 2 Ϫ _(S__y_i)_2 i n está dividida en dos partes: • La SSR (suma de cuadrados para regresión) mide la cantidad de variación expli- cada al usar la recta de regresión con una variable independiente x • La SSE (suma de cuadrados de error) mide la variación “residual” en los datos que no está explicada por la variable independiente x de modo que SS Total ϭ SSR ϩ SSE Para un valor particular de la respuesta yi, se puede visualizar este desglose en la varia- ción usando las distancias verticales ilustradas en la figura 12.5. Se puede ver que la SSR es la suma del cuadrado de desviaciones de las diferencias entre la respuesta estimada usando x ( ෆy) y la respuesta estimada usando x (la recta de regresión, yˆ); la SSE es la suma del cuadrado de diferencias entre la recta de regresión (yˆ) y el punto y. FIGURA 12.5 ● y 100 Desviaciones desde la recta ajustada {90 SSE CaliGfircaadcieón }80 SSR 70 ^y = 40.7842 + 0.76556x 60 50 x 20 30 40 50 60 70 80 SPcuonrteos No es demasiado difícil demostrar algebraicamente que SSR ϭ S( yˆi Ϫ ෆyi)2 ϭ S(a ϩ bxi Ϫ ෆy)2 ϭ S( ෆy Ϫ bෆx ϩ bxi Ϫ ෆy )2 ϭ b2S(xi Ϫ ෆx)2 ΂ ΃ϭ _(S_x_y)_ 2 ϭ _(S_x_y_)2_ Sxx Sxx Sxx Como SS Total ϭ SSR ϩ SSE, se puede completar la partición al calcular SSE ϭ SS Total Ϫ SSR ϭ Syy Ϫ _(S_x_y_)2_ Sxx www.FreeLibros.me

510 ❍ CAPÍTULO 12 REGRESIÓN LINEAL Y CORRELACIÓN Recuerde del capítulo 11 que cada una de las diversas fuentes de variación, cuando se dividen entre los grados de libertad apropiados, da una estimación de la variación del experimento. Estas estimaciones se denominan mínimos cuadrados, MS ϭ SS/df, y se ven en una tabla ANOVA. Al examinar los grados de libertad asociados con cada una de estas sumas de cuadra- dos, observe que el total de grados de libertad para n mediciones es (n Ϫ 1). Como la estimación de la recta de regresión, yˆ ϭ a ϩ bxi ϭ yෆ Ϫ bxෆ ϩ bxi, abarca la estimación de un parámetro adicional b, hay un grado de libertad asociado con la SSR, dejando (n Ϫ 2) grados de libertad con la SSE. Al igual que con todas las tablas ANOVA que hemos estudiado, el error medio cua- drático MSE ϭ s 2 ϭ _S_S__E_ nϪ2 es un estimador insesgado de la varianza fundamental s2. El análisis de la tabla de varianza se ve en la tabla 12.3. TABLA 12.3 Análisis de varianza para regresión lineal ● Fuente df SS MS Regresión 1 _(S_x_y)_2 MSR Error nϪ2 Sxx MSE Total nϪ1 Syy Ϫ _(S_x_y)_2 Sxx Syy Para los datos de la tabla 12.1, se puede calcular SS Total ϭ Syy ϭ Sy 2 Ϫ _(S__y_i)_2 ϭ 59 816 Ϫ _(7__6_0_)_2 ϭ 2056 i n 10 SSR ϭ _(S__xy_)_2 ϭ _(1__8_9_4_)_2 ϭ 1449.9741 Sxx 2474 de modo que SSE ϭ SS Total Ϫ SSR ϭ 2056 Ϫ 1449.9741 ϭ 606.0259 y MSE ϭ _S_S__E_ ϭ _6_0_6_.0_2_5_9_ ϭ 75.7532 nϪ2 8 El análisis de la tabla de varianza, parte de la salida de regresión lineal generada por el MINITAB, es la sección inferior sombreada de la salida de computadora de la figura 12.6. Las primeras dos rectas dan la ecuación de la recta de mínimos cuadrados, yˆ ϭ 40.8 ϩ .766x. Las estimaciones de mínimos cuadrados a y b están dadas con mayor precisión en la columna marcada “Coef”. Se pueden hallar instrucciones para generar esta salida impresa en la sección “Mi MINITAB ” al final de este capítulo. www.FreeLibros.me

12.4 UN ANÁLISIS DE VARIANZA PARA REGRESIÓN LINEAL ❍ 511 FIGURA 12.6 ● Regression Analysis: y versus x Salida impresa MINITAB The regression equation is para los datos de la tabla y = 40.8 + 0.766 x 12.1 Predictor Coef SE Coef T P Constant 40.784 8.507 4.79 0.001 x 0.7656 4.38 0.002 0.1750 S = 8.70363 R-Sq = 70.5% R-Sq(adj) = 66.8% Analysis of Variance Source DF SS MS F P 1450.0 1450.0 19.14 0.002 Regression 1 606.0 75.8 Residual Error 8 2056.0 Total 9 MI CONSEJO La salida impresa MINITAB también da alguna información acerca de la variación en el experimento. Cada una de las estimaciones de mínimos cuadrados, a y b, tiene un Busque a y b en la columna error estándar asociado, marcado “SE Coef” en la figura 12.6. Haci_a_l_a__mitad d__e_la__s_a_lida llamada “Coef”. impresa se encuentra la mejor estimación insesgada de s —S ϭ ͙MSE ϭ ͙75.7532 ϭ 8.70363—, que mide el error residual, la variación no explicada o “sobrante” del expe- rimento. No sorprenderá saber que las estadísticas t y F y sus valores p hallados en la salida impresa se usan para probar hipótesis estadísticas. En la siguiente sección expli- camos estas entradas. 12.4 EJERCICIOS observaciones. Encuentre las sumas de cuadrados y productos cruz, Sxx, Sxy y Syy. TÉCNICAS BÁSICAS b. Encuentre la recta de mínimos cuadrados para los datos. 12.1 Grafique la recta correspondiente a la ecuación c. Grafique los cinco puntos y grafique la recta del y ϭ 2x ϩ 1 al graficar los puntos correspondientes a inciso b). ¿La recta parece ser un buen ajuste para los x ϭ 0, 1 y 2. Dé el punto de cruce con el eje y y la puntos? pendiente para la recta. d. Construya la tabla ANOVA para la regresión lineal. e. Seis puntos tienen estas coordenadas: 12.2 Grafique la recta correspondiente a la ecuación y ϭ Ϫ2x ϩ 1 al graficar los puntos correspondientes 12.7 Encuentre la recta de mínimos cuadrados para los a x ϭ 0, 1 y 2. Dé el punto de cruce con el eje y y la datos. pendiente para la recta. ¿Cómo se relaciona esta recta con la recta y ϭ 2x ϩ 1 del ejercicio 12.1? x1 2 3 4 5 6 12.3 Dé la ecuación y la gráfica para una recta con y 5.6 4.6 4.5 3.7 3.2 2.7 intersección con el eje y igual a 3 y pendiente igual a Ϫ1. a. Encuentre la recta de mínimos cuadrados para los 12.4 Dé la ecuación y gráfica para una recta con datos. intersección con el eje y igual a Ϫ3 y pendiente igual a 1. b. Grafique los seis puntos y grafique la recta. ¿La recta 12.5 ¿Cuál es la diferencia entre modelos matemáticos parece ser un buen ajuste para los puntos? deterministas y probabilistas? c. Use la recta de mínimos cuadrados para predecir el 12.6 Se le dan cinco puntos con estas coordenadas: valor de y cuando x ϭ 3.5. x Ϫ2 Ϫ1 0 1 2 d. Llene los espacios faltantes en el análisis MINITAB de la tabla de varianza. y 1 13 5 5 a. Use el método de entrada de datos en su calculadora científica o graficadora para introducir las n ϭ 5 www.FreeLibros.me

512 ❍ CAPÍTULO 12 REGRESIÓN LINEAL Y CORRELACIÓN Tabla ANOVA MINITAB para el ejercicio 12.7 c. Grafique los puntos y la recta ajustada. ¿Le parece razonable la suposición de una relación lineal? Analysis of Variance d. Use la recta de regresión para predecir la máxima Source DF SS MS corriente generada cuando una solución, que contenga Regression * *** 5.4321 100 ppmm de níquel, se agregue al regulador. Residual Error * 0.1429 Total * 5.5750 *** e. Construya la tabla ANOVA para la regresión lineal. APLICACIONES 12.10 Privación de sueño Se realizó un estudio MIS DATOS para determinar los efectos de la privación 12.8 Profesor Asimov El profesor Isaac Asimov fue EX1210 de sueño en la capacidad de personas para uno de los escritores más prolíficos de todos los tiempos. resolver problemas cuando no duermen. Un total de 10 Antes de su muerte, escribió casi 500 libros durante personas participaron en el estudio, dos en cada uno una carrera de 40 años. De hecho, cuando su carrera de cinco niveles de privación de sueño: 8, 12, 16, 20 y avanzaba, fue incluso más productivo en términos del 24 horas. Después del periodo de privación de sueño, número de libros escritos en un periodo determinado.1 a cada persona se le aplicó un conjunto de problemas Los datos siguientes dan el tiempo, en meses, necesario adicionales sencillos, registrándose el número de errores. para escribir sus libros en incrementos de 100: Se obtuvieron estos resultados: Número de libros, x 100 200 300 400 490 Número de errores, y 8, 6 6, 10 8, 14 Tiempo en meses, y 237 350 419 465 507 Número de errores sin sueño, x 8 12 16 Número de errores, y 14, 12 16, 12 a. Suponga que el número de libros x y el tiempo en Número de errores sin sueño, x 20 24 meses y están relacionados linealmente. Encuentre la recta de mínimos cuadrados que relacione y con x. a. ¿Cuántos pares de observaciones hay en el experimento? b. Grafique el tiempo como función del número de libros escritos usando una gráfica de dispersión y grafique la b. ¿Cuál es el número total de grados de libertad? recta de mínimos cuadrados en el mismo papel. ¿Le c. Complete la salida impresa MINITAB. parece que la recta da un buen ajuste a los puntos? Salida impresa MINITAB para el ejercicio 12.10 c. Construya una tabla ANOVA para la regresión lineal. MIS DATOS 12.9 Un experimento químico Con Análisis de regresión: y versus x EX1209 el uso de un procedimiento químico llamado The regression equation is polarografía diferencial de pulsos, un químico midió la y = 3.00 + 0.475 x máxima corriente generada (en microamperes) cuando una solución que contenía una cantidad determinada de Predictor Coef SE Coef T P níquel (en partes por mil millones, ppmm) se agregó a un Constant 3.000 2.127 1.41 0.196 regulador:2 x 3.79 0.005 *** 0.1253 S = 2.24165 R-Sq = 64.2% R-Sq(adj) = 59.8% x ϭ Ni (ppmm) y ϭ Corriente máxima (mA) Analysis of Variance 19.1 .095 Source DF SS MS F P 38.2 .174 72.200 72.200 14.37 0.005 57.3 .256 Regression ** 76.2 .348 *** 5.025 95 .429 Residual Error ** *** 114 .500 131 .580 Total ** 150 .651 d. ¿Cuál es la ecuación de predicción de mínimos 170 .722 cuadrados? a. Use el método de entrada de datos en su calculadora e. Use la ecuación de predicción para predecir el número para calcular las sumas de cuadrados preliminares y de errores para una persona que no ha dormido productos cruz, Sxx, Syy y Sxy. durante 10 horas. b. Calcule la recta de regresión de mínimos cuadrados. 12.11 Exámenes de rendimiento El Índice de MIS DATOS Rendimiento Académico (API) es una medida EX1211 de rendimiento escolar que se basa en los resultados del examen Stanford 9. Las calificaciones www.FreeLibros.me

12.4 UN ANÁLISIS DE VARIANZA PARA REGRESIÓN LINEAL ❍ 513 van de 200 a 1000, con 800 considerado como objetivo las 15 personas que tomaron ambas pruebas se dan en la de largo alcance para escuelas. La tabla siguiente tabla siguiente. muestra el API para ocho escuelas elementales en el condado de Riverside, California, junto con el porcentaje Solicitante Prueba 1 (x ) Prueba 2(y ) de estudiantes de esa escuela que son considerados Estudiantes del Idioma Inglés (ELL).3 1 75 38 2 89 56 Escuela 1 2 34 5 67 8 3 60 35 4 71 45 API 588 659 710 657 669 641 557 743 5 92 59 ELL 58 22 14 30 11 26 39 6 6 105 70 7 55 31 a. ¿Cuál de las dos variables es la variable independiente 8 87 52 y cuál es la dependiente? Explique su selección. 9 73 48 10 77 41 b. Use una gráfica de dispersión para graficar los datos. 11 84 51 ¿La suposición de una relación lineal entre x y y es 12 91 58 razonable? 13 75 45 14 82 49 c. Suponiendo que x y y estén relacionadas linealmente, 15 76 47 calcule la recta de regresión de mínimos cuadrados. a. Construya una gráfica de dispersión para los datos. d. Grafique la recta sobre la gráfica de dispersión del ¿Le parece razonable la suposición de linealidad? inciso b). ¿La recta ajusta por los puntos? b. Encuentre la recta de mínimos cuadrados para los 12.12 ¿Qué tan largo es? ¿Qué tan bueno es datos. MIS DATOS usted para hacer estimaciones? Para probar la EX1212 capacidad de una persona para estimar tamaños, c. Use la recta de regresión para predecir la puntuación se le mostraron 10 diferentes objetos y se le pidió estimar en la segunda prueba para un solicitante que obtuvo su longitud o diámetro. A continuación se midió el objeto 85 puntos en la prueba 1. y los resultados se registraron en la tabla siguiente. 12.14 Entrevistas de prueba, continúa Consulte Objeto Estimado (pulgadas) Real (pulgadas) el ejercicio 12.13. Construya la tabla ANOVA para la regresión lineal que relacione y, la puntuación en la Lápiz 7.00 6.00 prueba 2, con x, la puntuación en la prueba 1. Plato de comida 9.50 10.25 Libro 1 7.50 6.75 12.15 Distancia entre brazos extendidos y Teléfono celular 4.00 4.25 MIS DATOS estatura Leonardo da Vinci (1452-1519) Fotografía 14.50 15.75 EX1215 dibujó la figura de un hombre, indicando que Juguete 3.75 5.00 la distancia entre los brazos extendidos de una persona Cinturón 42.00 41.50 (midiendo por la espalda con los brazos extendidos Pinza para ropa 2.75 3.75 para formar una “T”) es casi igual a la estatura de Libro 2 10.00 9.25 una persona. Para probar lo dicho por él, medimos ocho Calculadora 3.50 4.75 personas con los siguientes resultados: a. Encuentre la recta de regresión de mínimos cuadrados Persona 12 34 para predecir la medida real como función de la medición estimada. Distancia entre los brazos 68 62.25 65 69.5 extendidos (pulgadas) 70 b. Grafique los puntos y la recta ajustada. ¿Le parece Estatura (pulgadas) 69 62 65 razonable la suposición de una relación lineal? 12.13 Entrevistas de prueba De dos técnicas Persona 56 78 MIS DATOS existentes para evaluación de personal, la EX1213 primera requiere una entrevista de prueba de Distancia entre los brazos 68 69 62 60.25 dos horas mientras que la segunda se puede completar en extendidos (pulgadas) 67 67 63 62 menos de una hora. Las puntuaciones para cada una de Estatura (pulgadas) www.FreeLibros.me

514 ❍ CAPÍTULO 12 REGRESIÓN LINEAL Y CORRELACIÓN estatura de esa persona, ¿cuál debe ser la pendiente de la recta de regresión? c. Calcule la recta de regresión para predecir la estatura con base en la distancia entre los brazos extendidos de una persona. ¿El valor de la pendiente b confirma las conclusiones de usted del inciso b)? d. Si una persona tiene una distancia de 62 pulgadas entre los brazos extendidos, ¿cuál sería el pronóstico de usted respecto a la estatura de la persona? MIS DATOS 12.16 Fresas Los datos siguientes se EX1216 obtuvieron en un experimento que relacionaba la variable dependiente y (textura de fresas), con x (temperatura codificada de almacenamiento). a. Trace una gráfica de dispersión para distancia entre x Ϫ2 Ϫ2 0 2 2 los brazos extendidos y estatura. Use la misma escala en los ejes horizontal y vertical. Describa la relación y 4.0 3.5 2.0 0.5 0.0 entre las dos variables. a. Encuentre la recta de mínimos cuadrados para los b. Si da Vinci estaba en lo correcto y la distancia entre datos. los brazos extendidos de una persona es casi igual a la b Grafique los puntos y grafique la recta de mínimos cuadrados como prueba de sus cálculos. c. Construya la tabla ANOVA. PRUEBA DE LA UTILIDAD DEL MODELO DE REGRESIÓN LINEAL 12.5 Al considerar la regresión lineal, uno se puede hacer dos preguntas: • ¿La variable dependiente x es útil para predecir la variable de respuesta y? • Si es así, ¿qué tan bien funciona? Esta sección examina varias pruebas estadísticas y medidas que le ayudarán a tener algu- nas respuestas. Una vez que haya determinado que el modelo está funcionando, puede entonces usarlo para predecir la respuesta y para un valor determinado de x. Inferencias respecto a b, la pendiente de la recta de medias ¿La recta de regresión de mínimos cuadrados es útil? Es decir, ¿la ecuación de regre- sión que utiliza información dada por x es sustancialmente mejor que la pronosticadora simple ෆy que no se apoya en x? Si la variable independiente x no es útil en el modelo de población y ϭ a ϩ bx ϩ e, entonces el valor de y no cambia para valores diferentes de x. La única forma en que esto ocurre para todos los valores de x es cuando la pendiente b de la recta de medias es igual a 0. Esto indicaría que la relación entre y y x no es lineal, de modo que la pregunta inicial acerca de la utilidad de la variable independiente x se puede expresar también como: ¿Hay una relación entre x y y? Se puede contestar esta pregunta usando ya sea una prueba de hipótesis o un intervalo de confianza para b. Estos procedimientos están basados en la distribución muestral de b, el estimador muestral de la pendiente b. Se puede demostrar que, si las suposiciones www.FreeLibros.me

12.5 PRUEBA DE LA UTILIDAD DEL MODELO DE REGRESIÓN LINEAL ❍ 515 acerca del error aleatorio e son válidas, entonces el estimador b tiene una distribución normal en muestreo repetido con media E(b) ϭ b y error estándar dado por ___ ΊSE ϭ _s__2 Sxx donde s2 es la varianza del error aleatorio e. Como el valor de s2 se estima con s2 ϭ MSE, se pueden basar inferencias en la estadística dada por t ϭ __b____Ϫ____b______ ͙MSE/Sxx que tiene una distribución t con df ϭ (n Ϫ 2), los grados de libertad asociados con MSE. PRUEBA DE HIPÓTESIS RESPECTO A LA PENDIENTE DE UNA RECTA 1. Hipótesis nula: H0 : b ϭ b0 2. Hipótesis alternativa: Prueba de una cola Prueba de dos colas Ha : b Ͼ b0 Ha : b b0 (o b Ͻ b0) 3. Estadística de prueba: t ϭ __b__Ϫ_____b___o____ ͙MSE/Sxx Cuando se satisfacen las suposiciones dadas en la sección 12.2, la estadística de prueba tendrá una distribución t de Student con (n Ϫ 2) grados de libertad. 4. Región de rechazo: rechazar H0 cuando Prueba de una cola Prueba de dos colas t Ͼ ta t Ͼ ta/2 o t Ͻ Ϫta/2 (o t Ͻ Ϫta cuando la hipótesis alternativa sea Ha : b Ͻ b0) o cuando valor p Ͻ a α α/2 α/2 tα/2 0 tα – tα/2 0 Los valores de ta y ta/2 se pueden hallar usando la tabla 4 del apéndice I o el applet t Probabilities. Use los valores de t correspondientes a (n Ϫ 2) grados de libertad. www.FreeLibros.me

516 ❍ CAPÍTULO 12 REGRESIÓN LINEAL Y CORRELACIÓN E J E M P L O 12.2 Determine si hay una relación lineal significativa entre las calificaciones en cálculo y las puntuaciones de examen de la tabla 12.1. Pruebe al nivel de significancia de 5%. Solución Las hipótesis a probar son H0 : b ϭ 0 contra Ha : b 0 y el valor observado de la estadística de prueba se calcula como t ϭ ____b____Ϫ____0_____ ϭ ____._7__6___5__6___Ϫ____0_______ ϭ 4.38 ͙MSE/Sxx ͙75.7532/2474 con (n Ϫ 2) ϭ 8 grados de libertad. Con a ϭ .05, se puede rechazar H0 cuando t Ͼ 2.306 o t Ͻ Ϫ2.306. Como el valor observado de la estadística de prueba cae en la región de rechazo, H0 es rechazada y se puede concluir que hay una relación lineal significativa entre las calificaciones en cálculo y la puntuación de examen para la población de estu- diantes de primer año de universidad. FIGURA 12.7 MI APPLET Applet t-Test for the Se puede usar el applet t-Test for the Slope que se ve en la figura 12.7 para hallar Slope valores p o regio_n_e_s_d__e_rechazo para esta prueba. Primero se debe calcular el error estándar SE ϭ͙MSE/Sxx, teclear su valor en la caja marcada “Std Error”, y presionar “Enter”. ● • Si se introduce el valor de b en la fórmula en la parte superior del applet y se presiona “Enter”, el applet calculará la estadística de prueba y su valor p de una o de dos colas. • Si se introduce el nivel de significancia a en la caja marcada “prob:” y se selec- ciona la opción “Area to the Right” o “Two Tails” de la lista descendente, el applet calculará el valor positivo de t necesario para rechazar H0. (También se puede usar el applet Student’s t Probabilities para hallar los valores críticos.) ¿Cuál es el valor p para la prueba efectuada en el ejemplo 12.2? ¿Este valor p con- firma nuestras conclusiones? Otra forma de hacer inferencias acerca del valor de b es construir un intervalo de confianza para b y examinar el rango de posibles valores para b. www.FreeLibros.me

12.5 PRUEBA DE LA UTILIDAD DEL MODELO DE REGRESIÓN LINEAL ❍ 517 UN INTERVALO DE CONFIANZA (1 ؊ a)100% PARA b b Ϯ ta/2(SE) donde ta/2 está basada en (n Ϫ 2) grados de libertad y ___ _____ Ί ΊSE ϭ _s_2_ ϭ _M__S_E_ Sxx Sxx E J E M P L O 12.3 Encuentre una estimación de intervalo de confianza de 95% de la pendiente b para los datos de las calificaciones en cálculo de la tabla 12.1. Solución Sustituyendo valores previamente calculados en _____ Ίb Ϯ t.025 _M__S_E_ Sxx tendremos _______ Ί.766 Ϯ 2.306 _7_5_.7_5_3_2_ 2474 .766 Ϯ .404 El intervalo de confianza de 95% resultante es .362 a 1.170. Como el intervalo no con- tiene 0, se puede concluir que el verdadero valor de b no es 0 y se puede rechazar la hipótesis nula H0 : b ϭ 0 a favor de Ha : b 0, conclusión que está de acuerdo con los hallazgos del ejemplo 12.2. Además, la estimación del intervalo de confianza indica que hay un aumento desde sólo .4 hasta 1.2 puntos en una puntuación de examen de cálculo por cada aumento de 1 punto en la puntuación del examen de aprovechamiento. Si usted utiliza un programa de cómputo para hacer un análisis de regresión, encon- trará la estadística t y su valor p en la salida impresa. Observe la salida impresa MINITAB del análisis de regresión que se reproduce en la figura 12.8. En la segunda parte de la salida impresa, encontrará las estimaciones de mínimos cuadrados a (“Constante”) y b (“x”) en la columna marcada “Coef”, sus errores estándar (“SE Coef”), el valor calcu- lado de la estadística t (“T”) empleada para probar la hipótesis de que el parámetro es igual a 0 y su valor p (“P”). La prueba t para regresión significativa, H0 : b ϭ 0, tiene un valor p de P ϭ .002 y la hipótesis nula es rechazada, como en el ejemplo 12.2. ¿Esto concuerda con el valor p hallado usando el applet t-Test for Slope de la figura 12.7? En cualquier caso, hay una relación lineal significativa entre x y y. FIGURA 12.8 ● Análisis de regresión: y versus x Salida impresa MINITAB The regression equation is para los datos de y = 40.8 + 0.766 x calificaciones en cálculo MI CONSEJO Predictor Coef SE Coef T P Constant 40.784 8.507 4.79 0.001 Busque el error estándar de x 0.7656 4.38 0.002 b en la columna marcada 0.1750 “SE Coef”. S = 8.70363 R-Sq = 70.5% R-Sq(adj) = 66.8% Analysis of Variance Source DF SS MS F P 1450.0 1450.0 19.14 0.002 Regression 1 606.0 75.8 Residual Error 8 2056.0 Total 9 www.FreeLibros.me

518 ❍ CAPÍTULO 12 REGRESIÓN LINEAL Y CORRELACIÓN MI CONSEJO El análisis de varianza de la prueba F Las pruebas F de ANOVA La parte del análisis de varianza de la salida impresa de la figura 12.8 muestra una esta- siempre son de una cola (cola dística F dada por superior). F ϭ _M__S_R_ ϭ 19.14 MSE con grado de libertad 1 en el numerador y (n Ϫ 2) ϭ 8 grados de libertad en el deno- minador. Esto es una estadística equivalente de prueba que también se puede usar para probar la hipótesis H0 : b ϭ 0. Observe que, dentro del error de redondeo, el valor de F es igual a t2 con valor p idéntico. En este caso, si se usa una precisión de cinco lugares decimales antes de redondeo, se encuentra que t 2 ϭ (.76556/.17498)2 ϭ (4.37513)2 ϭ 19.14175 Ϸ 19.14 ϭ F como se da en la salida impresa. Esto no es por casualidad y re- sulta del hecho de que el cuadrado de una estadística t con df grados de libertad tiene la misma distribución que una estadística F con grados de libertad 1 en el numerador y df en el denominador. La prueba F es una prueba más general de la utilidad del modelo y se puede usar cuando el modelo tenga más de una variable independiente. Medir la fuerza de la relación: el coeficiente de determinación ¿Qué tan bien se ajusta el modelo de regresión? Para contestar esta pregunta, se puede usar una medida relacionada con el coeficiente de correlación r, introducido en el capí- tulo 3. Recuerde que r ϭ _s_xy_ ϭ ____s__x_y____ para Ϫ1 Յ r Յ 1 sxsy ͙sxxsyy MI CONSEJO donde sxy, sx y sy se definieron en el capítulo 3 y las diversas sumas de cuadrados se defi- nieron en la sección 12.4. En las salidas impresas de computadora, r2 a menudo La suma de cuadrados para regresión, SSR, en el análisis de varianza, mide la parte es dado como un porcentaje de la variación total SS Total ϭ Syy, que puede ser explicada por la regresión de y en x. más que como una La parte restante, SSE, es la variación “no explicada” atribuida al error aleatorio. Una proporción. forma de medir la fuerza de la relación entre la variable de respuesta y y la variable de predicción x es calcular el coeficiente de determinación, la proporción de la varia- ción total que es explicada por la regresión de y en x. Para los datos de calificaciones en cálculo, esta proporción es igual a __S_S_R___ ϭ _1_4_5_0_ ϭ .705 o 70.5% SS Total 2056 Puesto que SS ϭ Syy y SSR ϭ _(S_S_xxy_x)_2, se puede escribir _(S__xy_)_2 ____S__x__y ____ 2 SxxSyy ΂ ΃__S_S_R___ ϭ ϭ ϭ r2 SS Total ͙SxxSyy Por tanto, el coeficiente de determinación, que fue calculado como SSR/SS Total, es simplemente el cuadrado del coeficiente de correlación r. Es la entrada marcada “R-Sq” en la figura 12.8. Recuerde que la tabla del análisis de varianza aísla la variación debida a regresión (SSR) de la variación total del experimento. Al hacer esto se reduce la cantidad de varia- ción aleatoria del experimento, ahora medida por SSE en lugar de SS Total. En este contexto, el coeficiente de determinación, r2, se puede definir como sigue: www.FreeLibros.me

12.5 PRUEBA DE LA UTILIDAD DEL MODELO DE REGRESIÓN LINEAL ❍ 519 MI CONSEJO Definición El coeficiente de determinación r2 se puede interpretar como el por- centaje de reducción en la variación total en el experimento obtenido al usar la recta de r2 se denomina “R-Sq” en la regresión yˆ ϭ a ϩ bx, en lugar de ignorar x y usar la media muestral ෆy para predecir la salida impresa MINITAB. variable de respuesta y. Para los datos de calificaciones en cálculo, una reducción de r2 ϭ .705 o sea 70.5% es sustancial. El modelo de regresión está funcionando muy bien. Interpretación de los resultados de una regresión significativa Una vez que usted haya efectuado la prueba t o la prueba F para determinar la significan- cia de la regresión lineal, con todo cuidado debe interpretar sus resultados. La pendiente b de la recta de medias se estima con base en datos de sólo una región de observación en particular. Incluso si no rechaza la hipótesis nula de que la pendiente de la recta es igual a 0, no necesariamente significa que y y x no estén relacionadas. Puede ser que haya cometido un error tipo II, declarando falsamente que la pendiente es 0 y que x y y no están relacionadas. Ajuste del modelo erróneo Puede ocurrir que y y x estén perfectamente relacionadas en una forma no lineal, como se ve en la figura 12.9. A continuación veamos tres posibilidades: FIGURA 12.9 ●y Relación curvilínea Línea 1 Línea 2 ab c df x • Si se tomaron observaciones sólo dentro del intervalo b Ͻ x Ͻ c, la relación apa- recería lineal con pendiente positiva. • Si se tomaron observaciones sólo dentro del intervalo d Ͻ x Ͻ f, la relación apa- recería lineal con pendiente negativa. • Si se tomaron observaciones sobre el intervalo c Ͻ x Ͻ d, la recta estaría ajus- tada con una pendiente cercana a 0, lo cual indica que no hay relación lineal entre y y x. Para el ejemplo que se ilustra en la figura 12.9, ninguna recta describe con precisión la verdadera relación entre x y y, que es en realidad una relación no curvilínea. En este caso, hemos escogido un modelo erróneo para describir la relación. A veces este tipo de error se puede detectar usando gráficas residuales, que es el tema de la sección 12.7. MI CONSEJO Extrapolación Es peligroso tratar de Un problema serio es aplicar los resultados de un análisis de regresión lineal a valores predecir valores de y fuera de x que no estén incluidos dentro del rango de los datos ajustados. Esto se llama extra- del rango de los datos polación y puede llevar a errores graves en la predicción, como se ve para la línea 1 de ajustados. la figura 12.9. www.FreeLibros.me

520 ❍ CAPÍTULO 12 REGRESIÓN LINEAL Y CORRELACIÓN Los resultados de una predicción serían buenos en el intervalo b Ͻ x Ͻ c pero sobrees- timarían gravemente los valores de y para x Ͼ c. Causalidad Cuando haya una regresión significativa de y y x, es tentador concluir que x causa a y. No obstante, es posible que una o más variables desconocidas que ni siquiera se hayan medido y que no estén incluidas en el análisis puedan estar causando la relación obser- vada. En general, el estadístico informa los resultados de un análisis pero deja las con- clusiones respecto a la causalidad a científicos e investigadores que son expertos en estos campos de actividad. Estos expertos están mejor preparados para tomar esas deci- siones. 12.5 EJERCICIOS TÉCNICAS BÁSICAS información de la salida impresa MINITAB para contestar esta pregunta al nivel de significancia 12.17 Consulte el ejercicio 12.6. Los datos se de 1%. reproducen a continuación. b. Calcule el coeficiente de determinación r2. ¿Qué información da este valor acerca de la utilidad del x Ϫ2 Ϫ1 0 1 2 modelo lineal? y 1 13 5 5 APLICACIONES a. ¿Los datos presentan suficiente evidencia para indicar que y y x están relacionadas linealmente? Pruebe la MIS DATOS 12.20 Contaminación del aire Se diseñó hipótesis de que b ϭ 0 al nivel de significancia de 5%. EX1220 un experimento para comparar varios tipos b. Use la tabla ANOVA del ejercicio 12.6 para calcular diferentes de monitores de la contaminación del aire.4 Un F ϭ MSR/MSE. Verifique que el cuadrado de la monitor se inició y a continuación se expuso a diferentes estadística t empleada en la parte a) es igual a F. concentraciones de ozono, que iban de 15 a 230 partes por millón (ppm) durante periodos de 8 a 72 horas. Los c. Compare el valor crítico de dos colas para la prueba t filtros del monitor se analizaron en seguida y se midió del inciso a) con el valor crítico para F con a ϭ .05. la cantidad (en microgramos) de nitrato de sodio (NO3) ¿Cuál es la relación entre los valores críticos? registrada por el monitor. Los resultados para un tipo de monitor se dan en la tabla siguiente. 12.18 Consulte el ejercicio 12.17. Encuentre un intervalo de confianza para la pendiente de la recta. ¿Qué Ozono, x (ppm/h) .8 1.3 1.7 2.2 2.7 2.9 significa la frase “95% de confianza”? NO3, y (mg) 2.44 5.21 6.07 8.98 10.82 12.16 12.19 Consulte el ejercicio 12.7. Los datos, junto con el a. Encuentre la recta de regresión de mínimos análisis MINITAB de la tabla de varianza se reproducen a cuadrados que relacione la respuesta del monitor continuación. a la concentración de ozono. x1 2 3 4 5 6 b. ¿Los datos dan suficiente evidencia para indicar que hay una relación lineal entre la concentración de y 5.6 4.6 4.5 3.7 3.2 2.7 ozono y la cantidad de nitrato de sodio detectada? Tabla MINITAB ANOVA para el ejercicio 12.19 c. Calcule r2. ¿Qué nos dice este valor acerca de la Análisis de regresión: y versus x efectividad del análisis de regresión lineal? Analysis of Variance Source DF SS MS F P 5.4321 5.4321 152.10 0.000 Regression 1 0.1429 0.0357 MIS DATOS 12.21 El costo de volar ¿Cómo está 5.5750 EX1221 relacionado el costo de un viaje en avión Residual Error 4 con la duración del viaje? La tabla siguiente muestra Total 5 el promedio de la tarifa en primera clase, pagada por a. ¿Los datos dan suficiente evidencia para indicar que y y x están relacionados linealmente? Use la www.FreeLibros.me

12.5 PRUEBA DE LA UTILIDAD DEL MODELO DE REGRESIÓN LINEAL ❍ 521 clientes de American Airlines en cada una de las 18 rutas c. Grafique los datos o consulte la gráfica del ejercicio aéreas de mayor movimiento en Estados Unidos.5 12.8, inciso b). ¿Los resultados de los incisos a) y b) indican que el modelo da un buen ajuste para los Distancia Costo datos? ¿Hay algunas suposiciones que pueden haber Ruta (millas) sido violadas al ajustar el modelo lineal? $125 Dallas–Austin 178 123 12.23 Consulte el experimento de privación de sueño Houston–Dallas 232 148 descrito en el ejercicio 12.10 y el conjunto de datos Chicago–Detroit 238 136 EX1210. Los datos y la salida impresa MINITAB se Chicago–San Luis 262 129 reproducen a continuación. Chicago–Cleveland 301 162 Chicago–Atlanta 593 224 Número de errores, y 8, 6 6, 10 8, 14 Nueva York–Miami 1092 264 Número de horas sin sueño, x 8 12 16 Nueva York–San Juan 1608 287 Nueva York–Chicago 714 256 Número de errores, y 14, 12 16, 12 Chicago–Denver 901 365 Número de horas sin sueño, x 20 24 Dallas–Salt Lake 1005 459 Nueva York–Dallas 1374 424 Salida impresa MINITAB para el ejercicio 12.23 Chicago–Seattle 1736 361 Análisis de regresión: y versus x Los Ángeles–Chicago 1757 309 Los Ángeles–Atlanta 1946 444 The regression equation is Nueva York–Los Ángeles 2463 323 y = 3.00 + 0.475 x Los Ángeles–Honolulu 2556 513 Nueva York–San Francisco 2574 a. Si usted desea estimar el costo de un vuelo, basado Predictor Coef SE Coef T P en la distancia recorrida, ¿cuál variable es la variable Constant 3.000 2.127 1.41 0.196 de respuesta y cuál es la variable independiente de x 0.4750 3.79 0.005 predicción? 0.1253 b. Suponga que hay una relación lineal entre costo y S = 2.24165 R-Sq = 64.2% R-Sq(adj) = 59.8% distancia. Calcule la recta de regresión de mínimos cuadrados que describa el costo como una función Analysis of Variance lineal de la distancia. Source DF SS MS F P c. Grafique los puntos y la recta de regresión. ¿Le parece que la recta ajusta los datos? Regression 1 72.200 72.200 14.37 0.005 d. Use las pruebas estadísticas y medidas apropiadas Residual Error 8 40.200 5.025 para explicar la utilidad del modelo de regresión para predecir el costo. Total 9 112.400 12.22 Profesor Asimov, continúa Consulte los a. ¿Los datos presentan suficiente evidencia para indicar datos del ejercicio 12.8, que relacionan x, el número que el número de errores está linealmente relaciona- de libros escritos por el profesor Isaac Asimov, con do con el número de horas sin sueño? Identifique y, el número de meses que le tomó escribir sus libros las dos estadísticas de prueba en la salida impresa que (en incrementos de 100). Los datos se reproducen a puedan usarse para contestar esta pregunta. continuación. b. ¿Esperaría usted que la relación entre y y x sea lineal Número de libros, x 100 200 300 400 490 si x varió en un rango más amplio (por ejemplo, x ϭ 4 Tiempo en meses, y 237 350 419 465 507 a x ϭ 48)? a. ¿Los datos apoyan la hipótesis de que b ϭ 0? Use c. ¿Cómo describe la fuerza de la relación entre y y x? el método del valor p, enlazando el valor p usando la tabla 4 del apéndice I o hallando el valor p exacto d. ¿Cuál es la mejor estimación de la variación usando el applet t-Test for the Slope. Explique sus poblacional común s2? conclusiones en términos prácticos. e. Encuentre un intervalo de confianza de 95% para la b. Use la tabla ANOVA del ejercicio 12.8, inciso c), pendiente de la recta. para calcular el coeficiente de determinación r2. ¿Qué reducción de porcentaje en la variación total 12.24 Fresas II Los datos siguientes (ejercicio se alcanza usando el modelo de regresión lineal? 12.16 y conjunto de datos EX1216) se obtuvieron en un experimento que relacionaba la variable dependiente, y (textura de fresas), con x (temperatura de almacenamiento codificada). Use la información del ejercicio 12.16 para contestar las preguntas siguientes: x Ϫ2 Ϫ2 0 2 2 y 4.0 3.5 2.0 0.5 0.0 a. ¿Cuál es la mejor estimación de s2, la varianza del error aleatorio 6? www.FreeLibros.me

522 ❍ CAPÍTULO 12 REGRESIÓN LINEAL Y CORRELACIÓN b. ¿Los datos indican que la textura y la temperatura de b. ¿Cuál es la ecuación de la recta de regresión empleada almacenamiento están relacionadas linealmente? Use para predecir la calificación del examen final como a ϭ .05. función de la calificación antes del examen? c. Calcule el coeficiente de determinación, r2. c. ¿Los datos presentan suficiente evidencia para indicar que la calificación del examen final está linealmente d. ¿De qué valor es el modelo lineal para aumentar la relacionada con la calificación después del examen? precisión de predicción cuando se compara con Use a ϭ .01. la variable de predicción ෆy? d. Encuentre un intervalo de confianza de 99% para la MIS DATOS 12.25 Laptops y aprendizaje En el ejercicio pendiente de la recta de regresión. EX1225 1.61 describimos un experimento informal 12.26 Laptops y aprendizaje, continúa Consulte el realizado en la Secundaria Académica McNair en Jersey ejercicio 12.25. City, Nueva Jersey. Se estudiaron dos grupos de primer año de álgebra, uno de los cuales utilizaba computadoras a. Use la salida impresa MINITAB para hallar el valor del laptop en la escuela y en casa, en tanto que el otro grupo coeficiente de determinación, r2. Demuestre que r2 ϭ no las utilizaba. En cada grupo, a los estudiantes se les dio SSR/SS Total. una encuesta al principio y al final del semestre, que medía su nivel tecnológico. Se registraron las calificaciones para b. ¿Qué reducción de porcentaje en la variación total se la encuesta del final de semestre (x) y el examen final (y) obtiene al usar el modelo de regresión lineal? para el grupo con laptop.6 Los datos y la salida impresa MINITAB se muestran aquí. 12.27 Distancia entre brazos extendidos y estatura II En el ejercicio 12.15 (conjunto de datos Después Examen Después Examen EX1215), medimos la distancia entre brazos extendidos y estatura de ocho personas con los siguientes resultados: Estudiante de examen final Estudiante de examen final 1 100 98 11 88 84 Persona 1 23 4 2 96 97 12 92 93 Distancia entre brazos 68 62.25 65 69.5 extendidos (pulgadas) 69 62 65 70 3 88 88 13 68 57 Estatura (pulgadas) 4 100 100 14 84 84 5 100 100 15 84 81 6 96 78 16 88 83 7 80 68 17 72 84 Persona 5 6 78 8 68 47 18 88 93 Distancia entre brazos 9 92 90 19 72 57 extendidos (pulgadas) 68 69 62 60.25 10 96 94 20 88 83 Estatura (pulgadas) 67 67 63 62 Análisis de regresión: y versus x a. ¿Los datos dan suficiente evidencia para indicar que hay una relación lineal entre distancia y estatura? The regression equation is Pruebe al nivel de significancia de 5%. y = -26.8 + 1.26 x b. Construya un intervalo de confianza de 95% para la Predictor Coef SE Coef T P pendiente de la recta de medias, b. Constant -26.82 14.76 -1.82 0.086 x 1.2617 0.000 c. Si Leonardo da Vinci tenía razón y la distancia entre 0.1685 7.49 los brazos extendidos de una persona es casi igual a la estatura de esa persona, la pendiente de la recta de S = 7.61912 R-Sq = 75.7% R-Sq(adj) = 74.3% regresión es aproximadamente igual a 1. ¿El intervalo de confianza construido en el inciso b) confirma esta Analysis of Variance suposición? Explique. Source DF SS MS F P 3254.0 3254.0 56.05 0.000 Regression 1 1044.9 4299.0 58.1 Residual Error 18 Total 19 a. Construya una gráfica de dispersión para los datos. ¿Le parece razonable la suposición de linealidad? HERRAMIENTAS DE DIAGNÓSTICO PARA VERIFICAR SUPOSICIONES DE LA REGRESIÓN 12.6 Aun cuando ya hemos determinado, con el uso de la prueba t para la pendiente (o la prueba F ANOVA) y el valor de r2, que x es útil para predecir el valor de y, los resulta- dos de un análisis de regresión son válidos sólo cuando los datos satisfacen las suposi- ciones de regresión necesarias. www.FreeLibros.me

12.6 HERRAMIENTAS DE DIAGNÓSTICO PARA VERIFICAR SUPOSICIONES DE LA REGRESIÓN ❍ 523 SUPOSICIONES DE REGRESIÓN • La relación entre y y x debe ser lineal, dada por el modelo y ϭ a ϩ bx ϩ e • Los valores del término de error aleatorio e: 1) son independientes, 2) tienen una media de 0 y una varianza común s2, independiente de x, y 3) están normalmente distribuidos. Como estas suposiciones son bastante similares a las presentadas en el capítulo 11 para un análisis de varianza, no debe sorprender hallar que las herramientas de diagnóstico para verificar estas suposiciones son las mismas que las que empleamos en ese capítulo. Estas herramientas incluyen el análisis del error residual, la variación no explicada en cada observación una vez que la variación explicada por el modelo de regresión se haya eliminado. Términos de error dependientes Es frecuente que los términos de error sean dependientes cuando las observaciones se recolectan a intervalos de tiempo regulares. Cuando éste es el caso, las observaciones forman una serie de tiempo cuyos términos de error están correlacionados. Esto, a su vez, causa un sesgo en las estimaciones de parámetros de modelo. Los datos de la serie de tiempo deben ser analizados usando métodos de serie de tiempo. Una explicación del análisis de una serie de tiempo se encuentra en el texto Statistics for Management and Economics, 7ª edición, de Mendenhall, Beaver y Beaver. Gráficas residuales Las otras suposiciones de regresión se pueden verificar con el uso de gráficas residua- les, que son bastante complicadas de hacer manualmente pero fáciles si se grafican en computadora. En regresión lineal simple, se puede usar la gráfica de residuales contra ajuste para verificar una varianza constante así como asegurarse que el modelo lineal en verdad sea adecuado. Esta gráfica debe estar libre de modelos y aparecer como dispersión aleatoria de puntos alrededor de 0 en el eje vertical, con aproximadamente la misma dispersión vertical para todos los valores de yˆ. Una propiedad de los residuales es que suman 0 y, por tanto, tienen una media muestral de 0. La gráfica de los residuales versus ajuste para el ejemplo de las calificaciones en cálculo se ve en la figura 12.10. No hay modelos aparentes en esta gráfica residual, lo cual indica que las suposiciones del modelo parecen estar satisfechas para estos datos. FIGURA 12.10 ● Gráfica de los residuales Residuales contra valor ajustado contra yˆ para el ejemplo (la respuesta es y) 12.1 15 Residual 10 5 0 70 80 90 100 Ϫ5 Valor ajustado Ϫ10 60 www.FreeLibros.me

524 ❍ CAPÍTULO 12 REGRESIÓN LINEAL Y CORRELACIÓN MI CONSEJO Recuerde del capítulo 11 que la gráfica normal de probabilidad es una gráfica que traza los residuales contra el valor esperado del residual si hubiera venido de una distri- Residuales versus ajustes ‹ bución normal. Cuando los residuales estén distribuidos normalmente o que en forma dispersión aleatoria. aproximada estén así distribuidos, la gráfica debe aparecer como una recta con pendiente Gráfica normal ‹ línea recta, hacia arriba. La gráfica normal de probabilidad para los residuales del ejemplo 12.1 está pendiente ascendente. en la figura 12.11. Con la excepción de los puntos graficados cuarto y quinto, los puntos restantes parecen estar casi sobre la recta. Esta gráfica no es rara y no indica anormalidad fundamental. Las violaciones más serias de la suposición de normalidad por lo gene- ral aparecen en las colas de la distribución porque aquí es donde la distribución normal difiere de la mayor parte de otros tipos de distribuciones con media y medida de disper- sión similares. En consecuencia, la curvatura en cualquiera de los extremos o en ambos de la gráfica normal de probabilidad indica no normalidad. FIGURA 12.11 ● Gráfica normal de Gráfica normal de probabilidad de los residuales probabilidad de residuales (la respuesta es y) para el ejemplo 12.1 99 Porcentaje 95 90 Ϫ10 0 10 20 Residual 80 70 60 50 40 30 20 10 5 1 Ϫ20 12.6 EJERCICIOS continuación. ¿Le parece que alguna de las suposiciones de regresión ha sido violada? Explique. TÉCNICAS BÁSICAS Salida impresa MINITAB para el ejercicio 12.31 12.28 ¿Cuál gráfica de diagnóstico se puede usar para determinar si los datos satisfacen la suposición de Porcentaje Gráfica normal de probabilidad de los residuales normalidad? ¿Cómo se vería la gráfica para residuales (la respuesta es y) normales? 0.4 99 12.29 ¿Cuál gráfica de diagnóstico se puede usar para determinar si se ha usado el modelo incorrecto? ¿Cómo 95 se vería la gráfica si se ha usado el modelo incorrecto? 90 12.30 ¿Cuál gráfica de diagnóstico se puede usar 80 para determinar si se ha violado la suposición de igual 70 varianza? ¿Cómo se vería la gráfica cuando las varianzas 60 son iguales para todos los valores de x? 50 40 12.31 Consulte los datos del ejercicio 12.7. La gráfica 30 normal de probabilidad y las gráficas de residuales contra 20 valores ajustados generadas por MINITAB se muestran a 10 5 1 Ϫ0.4 Ϫ0.3 Ϫ0.2 Ϫ0.1 0.0 01. 02. 0.3 Residual www.FreeLibros.me

12.6 HERRAMIENTAS DE DIAGNÓSTICO PARA VERIFICAR SUPOSICIONES DE LA REGRESIÓN ❍ 525 Residuales contra valor ajustado que tardó en escribirlos. A continuación, una gráfica de (la respuesta es y) los datos. Residual 0.2 3.0 3.5 4.0 4.5 5.0 y(Tiempo en meses) 500 0.1 Valor ajustado 450 0.0 5.5 400 Ϫ0.1 350 Ϫ0.2 300 Ϫ0.3 250 200 2.5 100 APLICACIONES 200 300 400 500 12.32 Contaminación del aire Consulte el ejercicio 12.20, en el que se registró la respuesta al ozono de a. ¿Se puede ver un modelo que no sea una relación un monitor de contaminación del aire, para varias lineal en la gráfica original? concentraciones diferentes de ozono. Use gráficas re- siduales MINITAB para comentar sobre la validez de las b. El valor de r2 para estos datos es .959. ¿Qué dice esto suposiciones de regresión. acerca del ajuste de la recta de regresión? Salida impresa MINITAB para el ejercicio 12.32 c. Vea las siguientes gráficas de diagnóstico para estos datos. ¿Se ve algún patrón en los residuales? ¿Sugiere Residuales contra el valor ajustado esto que la relación entre el número de meses y el (la respuesta es NO3) número de libros escritos es algo que no sea lineal? Residual 0.50 20 Residuales contra los valores ajustados 10 (la respuesta es y) 0.25 Residual 0 Ϫ10 300 350 400 450 500 0.00 Ϫ20 Valor ajustado Ϫ30 Ϫ0.25 250 Ϫ0.50 2 4 6 8 10 12 Valor ajustado Gráfica normal de probabilidad de los residuales 550 (la respuesta es NO3) 99 Gráfica normal de probabilidad de los residuales (la respuesta es y) 95 Porcentaje 90 99 80 Ϫ0.5 0.0 0.5 1.0 Porcentaje 95 70 Residual 90 60 50 80 40 70 30 60 20 50 40 10 30 5 20 1 10 Ϫ1.0 5 12.33 Profesor Asimov, otra vez Consulte el 1 Ϫ25 0 25 50 ejercicio 12.8, en el que el número x de libros escritos por Ϫ50 Isaac Asimov está relacionado con el número de meses y Residual www.FreeLibros.me

526 ❍ CAPÍTULO 12 REGRESIÓN LINEAL Y CORRELACIÓN 12.34 Laptops y aprendizaje, otra vez Consulte MIS DATOS 12.35 Televisores de alta definición En el los datos dados en el ejercicio 12.25. La salida impresa EX1235 ejercicio 3.19, Consumer Reports dio los precios MINITAB se reproduce aquí. para los 10 mejores televisores de pantalla de cristal Análisis de regresión: y versus x líquido y alta definición (HDTVs), en la categoría de 30 a 40 pulgadas: ¿el precio de uno de éstos depende del The regression equation is tamaño de la pantalla? La tabla siguiente muestra y = -26.8 + 1.26 x los 10 costos otra vez, junto con el tamaño de la pantalla en pulgadas.7 Predictor Coef SE Coef T P Constant -26.82 14.76 -1.82 0.086 Marca Precio Tamaño x 1.2617 0.000 0.1685 7.49 S = 7.61912 R-Sq = 75.7% R-Sq(adj) = 74.3% JVC LT-40FH96 $2900 40 Sony Bravia KDL-V32XBR1 1800 32 Analysis of Variance Sony Bravia KDL-V40XBR1 2600 40 Toshiba 37HLX95 3000 37 Source DF SS MS F P Sharp Aquos LC-32DA5U 1300 32 3254.0 3254.0 56.05 0.000 Sony Bravia KLV-S32A10 1500 32 Regression 1 1044.9 Panasonic Viera TC-32LX50 1350 32 4299.0 58.1 JVC LT-37X776 2000 37 Residual Error 18 LG 37LP1D 2200 37 Samsung LN-R328W 1200 32 Total 19 a. ¿Qué suposiciones deben hacerse acerca de la ¿El precio de un HDTV depende del tamaño de la distribución del error aleatorio, 6? pantalla? Imagine que suponemos que la relación entre x y y es lineal, y efectuamos una regresión lineal, que b. ¿Cuál es la mejor estimación de s2, la varianza del resulta en un valor de r2 ϭ .787. error aleatorio, 6? a. ¿Qué dice el valor de r2 acerca de la fuerza de la c. Use las gráficas de diagnóstico para estos datos para relación entre precio y tamaño de pantalla? comentar sobre la validez de las suposiciones de regresión. b. La gráfica residual para estos datos, generada por MINITAB, se muestra a continuación. ¿Esta gráfica Gráfica normal de probabilidad de los residuales revela algún resultado atípico en el conjunto de datos? (la respuesta es y) Si es así, ¿cuál punto es el resultado atípico? Porcentaje 99 95 Residuales versus valores ajustados 90 (la respuesta es Precio) 80 800 70 60 Ϫ10 0 10 20 600 50 40 30 20 10 5 1 Ϫ20 Residual 400 Residual 200 Residuales versus los valores ajustados 0 (la respuesta es y) 20 Ϫ200 10 Ϫ400 Residual 0 1500 1750 2000 2250 2500 2750 3000 Ϫ10 Ϫ20 Valor ajustado 60 70 80 90 100 c. Grafique los valores de x y y usando una gráfica de Valor ajustado dispersión. ¿Esta gráfica confirma las sospechas del inciso b)? ¿Cuál HDTV representa el resultado atípico? ¿Es ésta una medición defectuosa que debe eliminarse del conjunto de datos? Explique. www.FreeLibros.me