Important Announcement
PubHTML5 Scheduled Server Maintenance on (GMT) Sunday, June 26th, 2:00 am - 8:00 am.
PubHTML5 site will be inoperative during the times indicated!

Home Explore Triola

Triola

Published by veroronquillo1, 2021-10-23 05:45:29

Description: Triola

Search

Read the Text Version

12-1 ANOVA de un factor 579 Vuelo 1 –32 –25 –26 –6 5 –15 –17 –36 Vuelo 19 –5 –32 –13 –9 –19 49 –30 –23 Vuelo 21 –23 28 103 –19 –5 –46 13 –3 SPSS 1. ANOVA a. ¿Qué característica de los datos anteriores indica que debemos usar el análisis de varianza de un factor? b. Si el objetivo es probar la afirmación de que los tres vuelos tienen el mismo tiempo medio de demora en la llegada, ¿por qué el método se denomina análisis de varianza? 2. ¿Por qué no probar de dos en dos? Consulte los datos muestrales dados en el ejercicio 1. Si queremos probar la igualdad de las tres medias, ¿por qué no utilizamos tres pruebas de hipótesis sepa- radas para m1 5 m2, m1 5 m3 y m2 5 m3? 3. Dato estadístico de prueba ¿Cuál es el valor del dato estadístico de prueba? ¿Qué distribución se usa con el dato estadístico de prueba? 4. Valor P Si usamos un nivel de significancia de 0.05 en el análisis de varianza con los datos muestra- les dados en el ejercicio l, ¿cuál es el valor P? ¿Qué deberíamos concluir? Si un pasajero aborrece las llegadas demoradas de los vuelos, ¿se puede ayudar a ese pasajero seleccionando uno de los vuelos? En los ejercicios 5 a 16, use el análisis de varianza para la prueba indicada. 5. Plomo y puntuaciones de IQ verbal El ejemplo 1 usó puntuaciones de IQ del desempeño medidas para tres niveles diferentes de plomo en la sangre. Si usamos las mismas tres categorías de niveles de plomo en la sangre con puntuaciones medidas del IQ verbal, obtenemos la pantalla adjunta de Minitab. (Los datos se listan en el conjunto de datos 7 “IQ y plomo” del apéndice B). Utilizando un nivel de significancia de 0.05, evalúe la afirmación de que las tres categorías de nivel de plomo en la sangre tienen la misma puntua- ción media de IQ verbal. ¿La exposición al plomo parece tener un efecto en las puntuaciones de IQ verbal? Minitab 6. Plomo y puntuaciones de IQ completo El ejemplo 1 utilizó puntuaciones medidas de IQ del desempeño para tres niveles diferentes de plomo en la sangre. Si utilizamos las mismas tres categorías de niveles de plomo en la sangre con las puntuaciones del IQ completo, obtenemos la pantalla adjunta de Excel. (Los datos se listan en el conjunto de datos 7 “IQ y plomo” del apéndice B). Utilizando un nivel de significancia de 0.05, evalúe la afirmación de que las tres categorías de niveles de plomo en la sangre tienen la misma puntuación media del IQ total. ¿Parece que la exposición al plomo tiene un efecto en las puntuaciones del IQ completo? Excel 7. Tiempos de servicio de comida rápida en la cena El conjunto de datos 25 “Comida rápida” en el apéndice B lista los tiempos de servicio (en segundos) para cenas en McDonald’s, Burger King y Wendy’s. El uso de esos tiempos con una calculadora TI-83>84 Plus produce la siguiente pantalla.

580 CAPÍTULO 12 Análisis de varianza Utilizando un nivel de significancia de 0.05, pruebe la afirmación de que las tres muestras provienen de poblaciones con la misma media. ¿Qué se puede concluir? TI-83/84 Plus 8. Peso al nacer El conjunto de datos de 4 “Nacimientos” en el apéndice B lista el peso al nacer de bebés en el Albany Medical Center, Bellevue Hospital en la ciudad de Nueva York, Olean General Hospital y Strong Memorial Hospital en Rochester, Nueva York. Después de dividir los pesos al nacer según el hospital, obtenemos la pantalla de StatCrunch que se muestra a continuación. Use un nivel de significancia de 0.05 para probar la afirmación de que los diferentes hospitales tienen distintos prome- dios de peso al nacer. ¿Los pesos al nacer parecen ser diferentes en las áreas urbanas y rurales? StatCrunch 9. Frecuencias de pulso y edad femeninas Usando los pulsos de mujeres en el conjunto de datos 1 “Datos corporales” en el apéndice B, después de que se particionan en los tres grupos de edad de 18 a 25, 26 a 40 y 41 a 80, obtenemos la siguiente pantalla de Statdisk. Utilizando un nivel de significancia de 0.05, pruebe la afirmación de que las mujeres de los tres grupos de edad tienen la misma frecuencia media de pulso. ¿Qué concluye usted? Statdisk 10. Frecuencias de pulso y edad masculinas Usando los pulsos de hombres del conjunto de datos 1 “Datos corporales” en el apéndice B, después de que se particionen en los tres grupos de edad de 18 a 25, 26 a 40 y 41 a 80, obtenemos la siguiente pantalla de SPSS. Utilizando un nivel de significancia de 0.05, pruebe la afirmación de que los hombres de los tres grupos de edad tienen la misma frecuencia media de pulso. ¿Qué concluye usted? SPSS 11. Tiempos en el triatlón Jeff Parent es un profesor de estadística que participa en triatlones. A con- tinuación se listan los tiempos (en minutos y segundos) que registró mientras montaba la bicicleta en cinco etapas por cada milla de un circuito de 3 millas. Use un nivel de significancia de 0.05 para probar la afirmación de que se necesita el mismo tiempo para recorrer cada una de las millas. ¿Alguna de las millas parece tener una colina? Milla 1 3:15 3:24 3:23 3:22 3:21 Milla 2 3:19 3:22 3:21 3:17 3:19 Milla 3 3:34 3:31 3:29 3:31 3:29

12-1 ANOVA de un factor 581 12. Arsénico en el arroz A continuación se listan las cantidades de arsénico en muestras de arroz integral de tres estados. Las cantidades están en microgramos de arsénico y todas las muestras tienen el mismo tamaño de porción. Los datos son de la Administración de Alimentos y Medicamentos. Use un nivel de significancia de 0.05 para probar la afirmación de que las tres muestras provienen de poblacio- nes con la misma media. ¿Las cantidades de arsénico parecen ser diferentes en los diferentes estados? Dado que las cantidades de arsénico en las muestras de Texas tienen la media más alta, ¿podemos con- cluir que el arroz integral de Texas representa el mayor problema de salud? Arkansas 4.8 4.9 5.0 5.4 5.4 5.4 5.6 5.6 5.6 5.9 6.0 6.1 California 1.5 3.7 4.0 4.5 4.9 5.1 5.3 5.4 5.4 5.5 5.6 5.6 Texas 5.6 5.8 6.6 6.9 6.9 6.9 7.1 7.3 7.5 7.6 7.7 7.7 13. Demoras en la salida de vuelos A continuación se listan los tiempos de demora en la salida (minutos) para los vuelos de American Airlines de Nueva York a Los Ángeles. Los valores negativos corresponden a los vuelos que salieron temprano. Use un nivel de significancia de 0.05 para probar la afirmación de que los diferentes vuelos tienen el mismo tiempo medio de demora en su salida. ¿Qué característica notable de los datos se puede identificar al examinar visualmente los datos? Vuelo 1 –2 –1 –2 2 –2 0 –2 –3 Vuelo 19 19 –4 –5 –1 – 4 73 0 1 Vuelo 21 18 60 142 – 1 – 11 – 1 47 13 14. Citas rápidas A continuación se listan las calificaciones de atributos de los hombres dadas por las mujeres que participaron en eventos de citas rápidas (del conjunto de datos 18 “Citas rápidas” en el apéndice B). Use un nivel de significancia de 0.05 para probar la afirmación de que las mujeres en los diferentes grupos de edad otorgan calificaciones de atributos con la misma media. ¿La edad parece ser un factor en las calificaciones de atributos que dan las mujeres? Edad 20-22 38 42 30.0 39 47 43 33 31 32 28 Edad 23-26 39 31 36.0 35 41 45 36 23 36 20 Edad 27-29 36 42 35.5 27 37 34 22 47 36 32 En los ejercicios 15 y 16, use el conjunto de datos del apéndice B. 15. Galletas con chispas de chocolate Consulte el Conjunto de datos 28 “Galletas con chispas de chocolate” en el apéndice B y utilice los recuentos de chispas de chocolate de los tres tipos diferentes de galletas Chips Ahoy. Use un nivel de significancia de 0.05 para probar la afirmación de que los tres tipos diferentes de galletas Chips Ahoy tienen la misma cantidad media de chispas de chocolate. ¿Las galletas Chips Ahoy bajas en grasa parecen tener menos chispas de chocolate? 16. Fumadores pasivos Consulte el conjunto de datos 12 “Fumadores pasivos y activos” en el apén- dice B y utilice los niveles de cotinina sérica medidos (en mg>ml) de los tres grupos de sujetos (fuma- dores, no fumadores expuestos al humo de tabaco y no fumadores no expuestos al humo de tabaco). Cuando el cuerpo absorbe nicotina, se produce cotinina. Use un nivel de significancia de 0.05 para pro- bar la afirmación de que las tres muestras provienen de poblaciones con la misma media. ¿Qué sugieren los resultados sobre los efectos del humo en los fumadores pasivos? 12-1 Más allá de lo básico 17. Prueba de Tukey En la página 577 se proporciona una pantalla de los resultados de la prueba de Bonferroni de la tabla l2-1 (que es parte del problema del capítulo). En la parte superior de la página siguiente se muestra la pantalla de los resultados de la prueba de Tukey generada por SPSS utilizando los mismos datos. Compare los resultados de las pruebas de Tukey con los de la prueba de Bonferroni. continúa

582 CAPÍTULO 12 Análisis de varianza SPSS 18. Prueba de Bonferroni A continuación se muestran los pesos (en kg) de álamos obtenidos de árboles plantados en una región rica y húmeda. Los árboles recibieron diferentes tratamientos iden- tificados en la siguiente tabla. Los datos provienen de un estudio realizado por investigadores de la Universidad Estatal de Pensilvania y fueron proporcionados por Minitab, Inc. También se muestran los resultados parciales del uso de la prueba de Bonferroni con los datos muestrales. Sin tratamiento Fertilizante Riego Fertilizante y riego 1.21 0.94 0.07 0.85 0.57 0.87 0.66 1.78 0.56 0.46 0.10 1.47 0.13 0.58 0.82 2.25 1.30 1.03 0.94 1.64 a. Use un nivel de significancia de 0.05 para probar la afirmación de que los diferentes tratamientos resultan en el mismo peso promedio. b. ¿Qué nos dicen los resultados de SPSS para la prueba de Bonferroni? c. Utilice el procedimiento de prueba de Bonferroni con un nivel de significancia de 0.05 para evaluar una diferencia significativa entre el peso medio del grupo de tratamiento de riego y el grupo tratado con fertilizante y riego. Identifique el dato estadístico de prueba y el valor P o los valores críticos. ¿Qué indican los resultados? Resultados de la prueba de Bonferroni con SPSS 12-2 ANOVA de dos factores Concepto clave La sección 12-1 consideró datos particionados utilizando un factor, pero esta sección describe el método del análisis de varianza de dos factores, que se utiliza con datos divididos en categorías de acuerdo con dos factores. El método de esta sección requiere que primero probemos una interacción entre los dos factores; luego probamos un efecto del factor de fila y probamos un efecto a partir del factor de columna. La tabla 12-3 es un ejem- plo de frecuencias de pulso (latidos por minuto) categorizadas con dos factores: TABLA 12-3 Frecuencias de pulso con dos factores: intervalo de edad y género Mujeres Hombres 18-29 104 82 80 78 80 84 82 66 70 78 72 64 72 64 64 70 72 64 54 52 30-49 50-80 66 74 96 86 98 88 82 72 80 80 80 90 58 74 96 72 58 66 80 92 94 72 82 86 72 90 64 72 72 100 54 102 52 52 62 82 82 60 52 74

12-2 ANOVA de dos factores 583 1. Rango de edad (años): Un factor es el intervalo de edad (18-29, 30-49, 50-80). 2. Género: el segundo factor es el género (mujer, hombre). Las subcategorías en la tabla 12-3 se llaman celdas, por lo que esta tabla tiene seis celdas que contienen diez valores cada una. Al analizar los datos muestrales en la tabla 12-3, ya hemos presentado el análisis de va- rianza de un factor, por lo que podría parecer razonable proceder simplemente con ANOVA de un factor para el rango de edad y otro ANOVA para el factor de género, pero ese método desperdicia información e ignora por completo una característica muy importante: el posible efecto de una interacción entre los dos factores. DEFINICIÓN Existe una interacción entre dos factores si el efecto de uno de ellos cambia para dife- rentes categorías del otro factor. Como ejemplo de una interacción entre dos factores, considere parear los alimentos. La mantequilla de maní y la jalea interactúan bien, pero el ketchup y el helado interactúan de una manera que da como resultado un mal sabor, por lo que rara vez vemos a alguien co- miendo helado cubierto con ketchup. En general, considere que un efecto de interacción es un efecto debido a la combinación de los dos factores. Exploración de datos con medias y una gráfica de interacción Exploremos los datos en la tabla 12-3 calculando la media para cada celda y construyendo una gráfica. Las medias de las celdas individuales se muestran en la tabla 12-4. Esas medias varían desde un mínimo de 64.8 hasta un máximo de 82.2, por lo que varían considerable- mente. La figura l2-3 es una gráfica de interacción, que muestra las gráficas de esas medias. Podemos interpretar una gráfica de interacción de la siguiente manera: ■ Efecto de interacción: Se sugiere un efecto de interacción cuando los segmentos de línea están lejos de ser paralelos. ■ Sin efecto de interacción: Si los segmentos de línea son aproximadamente paralelos, como en la figura 12-3, parece que las diferentes categorías de una variable tienen el mismo efecto sobre las diferentes categorías de la otra variable, entonces no parece haber un efecto de interacción. TABLA 12-4 Medias de celdas Frecuencia de pulso Mujeres de la tabla 12-3 18-29 Mujeres Hombres 30-49 80.4 64.8 50-80 82.2 76.6 80.4 67.2 Hombres Rango de edad FIGURA 12-3 Gráfica de interacción del rango de edad y el género: Medias de la tabla 12-4 En lugar de basarnos únicamente en juicios subjetivos realizados al examinar las medias de la tabla l2-4 y la gráfica de interacción en la figura l2-3, realizaremos un procedimiento más objetivo, el análisis de varianza de dos factores. A continuación se presentan los requi- sitos y el procedimiento básico para el análisis de varianza (ANOVA) de dos factores. El procedimiento también se resume en la figura 12-4, que se presenta después del recuadro de elementos clave en la página siguiente.

584 CAPÍTULO 12 Análisis de varianza ELEMENTOS CLAVE Análisis de varianza de dos factores Objetivo Con los datos muestrales categorizados por dos factores (una variable de fila y una variable de columna), utilizar el análisis de varianza de dos factores para realizar las siguientes tres pruebas: 1. Probar un efecto de una interacción entre el factor de fila y el factor de columna. 2. Probar un efecto del factor de fila. 3. Probar un efecto del factor de columna. Requisitos 4. Independencia Las muestras son independientes entre sí. (Este procedimiento no se aplica a muestras que care- 1. Normalidad Para cada celda, los valores muestrales cen de independencia). provienen de una población con una distribución que es aproximadamente normal. (Este procedimiento es ro- 5. Bifactorial Los valores muestrales se clasifican de dos busto contra desviaciones razonables de las distribucio- maneras. (Esta es la base del nombre del método: análisis nes normales). de varianza de dos factores). 2. Variación Las poblaciones tienen la misma varianza 6. Diseño equilibrado Todas las celdas tienen el mismo s2 (o desviación estándar s). (Este procedimiento es número de valores muestrales. (Esto se denomina diseño robusto contra desviaciones razonables del requisito de equilibrado. Esta sección no incluye métodos para un varianzas iguales). diseño que no sea equilibrado). 3. Muestreo Las muestras son muestras aleatorias simples de datos cuantitativos. Procedimiento para ANOVA de dos factores (consulte la figura 12-4) Paso 1: Efecto de interacción: En el análisis de varianza de dos factores, comience probando la hipótesis nula de que no hay interacción entre los dos factores. Use la tecnología para encontrar el valor P correspondiente al siguiente dato estadístico de prueba: MS(interacción) F5 MS(error) Conclusión: • No rechazar: Si el valor P es grande (por ejemplo ma- • Rechazar: Si el valor P correspondiente al dato estadís- yor que 0.05), no se puede rechazar la hipótesis nula de que no hay interacción entre los dos factores. Concluya que tico de prueba anterior es pequeño (por ejemplo menor o no hay efecto de interacción. igual a 0.05), rechace la hipótesis nula de no interacción. Concluya que hay un efecto de interacción. Paso 2: Efectos de fila>columna: Si concluimos que hay un efecto de interacción, entonces debemos detenernos ahora; no deberíamos continuar con las dos pruebas adicionales. (Si hay una interacción entre factores, no deberíamos considerar los efectos de ninguno de los factores sin tener en cuenta los del otro). Si concluimos que no hay efecto de interacción, entonces debemos proceder con las siguientes dos pruebas de hipótesis. Factor de fila Para el factor de fila, pruebe la hipótesis nula H0: no hay efectos del factor de fila (es decir, los valores de fila son de poblacio- nes con la misma media). Encuentre el valor P correspondiente al dato estadístico de prueba F 5 MS(fila)>MS(error). Conclusión: • No rechazar: Si el valor P es grande (por ejemplo mayor • Rechazar: Si el valor P correspondiente al dato estadís- que 0.05), no se puede rechazar la hipótesis nula de que no hay efecto del factor de fila. Concluya que no hay tico de prueba es pequeño (por ejemplo menor o igual efecto del factor de fila. a 0.05), rechace la hipótesis nula de no efecto del factor de fila. Concluya que hay un efecto del factor de fila.

12-2 ANOVA de dos factores 585 Factor de columna Para el factor de columna, pruebe la hipótesis nula H0: No hay efectos del factor de columna (es decir, los valores de columna provienen de poblaciones con la misma media). Encuentre el valor P correspondiente al dato estadístico de prueba F 5 MS(columna)>MS(error). Conclusión: • No rechazar: Si el valor P es grande (por ejemplo, • Rechazar: Si el valor P correspondiente al dato estadís- mayor que 0.05), no se puede rechazar la hipótesis nula de no efecto del factor de columna. Concluya que no hay tico de prueba es pequeño (por ejemplo, menor o igual efecto del factor de columna. a 0.05), rechace la hipótesis nula de no efecto del factor de columna. Concluya que hay un efecto del factor de columna. Inicio Prueba para una interacción entre los dos factores. Use el valor P para el dato estadístico de prueba F 5 MS(interacción) MS (error) Si el valor P es pequeño (menos de 0.05), concluya que hay un efecto de interacción. ¿Hay un efecto Sí Detener. No considere debido a la interacción entre los efectos de ninguno (Rechazar H0 de los factores sin tener los dos factores? de no efecto de en cuenta los efectos interacción). del otro. No (No se puede rechazar H0 de no efecto de interacción). Prueba de efecto del factor de fila utilizando el valor P para el dato estadístico de prueba F 5 MS(factor de fila) MS (error) Si el valor P es pequeño (menos de 0.05), concluya que hay un efecto del factor de fila. Prueba de efecto del factor de columna utilizando el valor P para el dato estadístico de prueba F 5 MS(factor de columna) MS (error) Si el valor P es pequeño (menos de 0.05), concluya que hay un efecto del factor de columna. FIGURA 12-4 Procedimiento para el análisis de varianza de dos factores

586 CAPÍTULO 12 Análisis de varianza EJEMPLO 1 Frecuencias de pulso Dadas las frecuencias de pulso de la tabla 12-3 en la página 582 (del conjunto de datos 1 “Datos corporales” en el apéndice B), utilice el análisis de varianza de dos factores para probar un efecto de interacción, un efecto del factor de fila para el rango de edad, y un efecto del factor de columna para el género. Use un nivel de significancia de 0.05. SOLUCIÓN VERIFICACIÓN DE REQUISITOS (1) Para cada celda, los valores muestrales parecen provenir de una población con una distribución que es aproximadamente normal, como lo indican las gráficas cuantilares normales. (2) Las varianzas de las celdas (100.3, 51.7, 103.5, 183.2, 138.5, 293.5) difieren considerablemente, pero la prueba es robusta frente a desviaciones de las varianzas iguales. (3) Las muestras son muestras aleatorias simples de sujetos. (4) Las muestras son independientes entre sí; los sujetos no están pareados de ninguna manera. (5) Los valores muestrales se categorizan de dos maneras (rango de edad y sexo). (6) Todas las celdas tienen el mismo número (diez) de valores muestrales. Los re- quisitos se satisfacen. Los cálculos son bastante complicados, por lo tanto se utiliza tecnología. A continua- ción se muestra la pantalla del análisis de varianza de dos factores en StatCrunch, para los datos de la tabla 12-3. Statcrunch Paso 1: Efecto de interacción: Comenzamos probando la hipótesis nula de que no hay interacción entre los dos factores. Al utilizar para los datos de la tabla 12-3, obtenemos los resultados que se muestran en la pantalla de StatCrunch anterior y podemos ver que el dato estadístico de prueba para la interacción es F 5 0.9391. Este dato estadístico de prueba se puede calcular de la siguiente manera: MS(interacción) 136.26667 F 5 5 5 0.9391 MS(error) 145.11111 Interpretación: El valor P correspondiente se muestra en la pantalla StatCrunch como 0.3973, por lo que no se puede rechazar la hipótesis nula de no interacción entre los dos factores. No parece que las frecuencias del pulso se vean afectadas por una interacción entre el grupo de edad (18-29, 30-49, 50-80) y el género. No parece haber un efecto de interacción. Paso 2: Efectos de fila>columna: Dado que no parece haber un efecto de interacción, procedemos a probar los efectos de los factores de fila y de columna. Las dos pruebas de hipótesis usan las siguientes hipótesis nulas: H0: No hay efectos del factor de fila (es decir, los valores de fila son de poblaciones con las mismas medias). H0: No hay efectos del factor de columna (es decir, los valores de columna provienen de poblaciones con las mismas medias). Factor de fila: Para el factor de fila (rango de edad), nos referimos a la pantalla de resul- tados de StatCrunch anterior para ver que el dato estadístico de prueba para el factor de fila es F 5 1.8156 (redondeado). Este dato estadístico de prueba se puede calcular de la siguiente manera:

12-2 ANOVA de dos factores 587 MS(rango de edad) 263.46667 F 5 5 5 1.8156 MS(error) 145.11111 Conclusión: El valor P correspondiente se muestra en la pantalla de StatCrunch como 0.1725. Debido a que ese valor P es mayor que el nivel de significancia de 0.05, no pode- mos rechazar la hipótesis nula de que no hay efectos del rango de edad. Es decir, las fre- cuencias del pulso no parecen verse afectadas por el rango de edad. Factor de columna: Para el factor de columna (género), nos referimos a la pantalla de resultados StatCrunch anterior para ver que el dato estadístico de prueba para el factor de columna es F 5 13.5914 (redondeado). Este dato estadístico de prueba se puede calcular de la siguiente manera: MS(género) 1972.2667 F 5 5 5 13.5914 MS(error) 145.11111 Conclusión: El valor P correspondiente se muestra en la pantalla de StatCrunch como 0.0005. Debido a que ese valor P es menor que el nivel de significancia de 0.05, rechaza- mos la hipótesis nula de que no hay efectos del género. Las tasas de pulso parecen estar afectadas por el género. I N T E R P R E TA C I Ó N Con base en los datos muestrales de la tabla 12-3, concluimos que las frecuencias de pulso parecen estar afectadas por el género, pero no por el intervalo de edad y no por una inte- racción entre el grupo de edad y el género. SU TURNO Resuelva el ejercicio 5 “Frecuencias de pulso”. PRECAUCIÓN El análisis de varianza de dos factores no es un análisis de varianza de un factor hecho dos veces. Al realizar un análisis de varianza de este tipo, asegúrese de probar una interacción entre ambos factores. CENTRO DE TECNOLOGÍA Análisis de varianza de dos factores Acceda a los complementos de software, videos y conjuntos de datos en www.pearsonenespañol.com/triola Statdisk Minitab StatCrunch 1. Haga clic en Analysis en el 1. Ingrese todos los valores muestrales en la 1. Ingrese todos los valores mues- menú superior. columna C1. trales en una columna llamada “Respuestas”. 2. Seleccione Two-Way Analy- 2. Ingrese los números (o nombres) de fila co- sis of Variance en el menú rrespondientes en la columna C2. 2. Ingrese los números (o nombres) desplegable. de fila correspondientes en una 3. Ingrese los números (o nombres) de columna segunda columna llamada 3. Ingrese el número de catego- correspondientes en la columna C3. “Factor de fila”. rías para las variables de fila y las variables de columna. 4. Haga clic en Stat en el menú superior. 3. Ingrese los números de columna 5. Seleccione ANOVA en el menú desplegable correspondientes (o nombres) 4. Ingrese el número de valores en una tercera columna llamada en cada celda y haga clic en y seleccione General Linear Model-Fit “Factor de columna”. Continue. General Linear Model. 6. Para respuestas, seleccione C1 y elija C2 y 4. Haga clic en Stat en el menú 5. En la tabla, ingrese o pegue C3 como factores. superior. los datos en la columna de 7. Haga clic en el botón Model. valor. 8. En factores y covariables, seleccione C2 y 5. Seleccione ANOVA en el menú C3 y haga clic en el botón Add. desplegable, luego seleccione 6. Haga clic en Evaluate. 9. Haga clic en OK dos veces. Vea el análisis Two Way desde el submenú. de varianza en los resultados. 6. Seleccione las columnas que se SUGERENCIA: Use etiquetas descriptivas en lugar de utilizarán para las respuestas, C1, C2 y C3 para evitar confusiones. factor de fila y factor de columna. 7. Haga clic en Compute! continúa

588 CAPÍTULO 12 Análisis de varianza CENTRO DE TECNOLOGÍA continuación Análisis de varianza de dos factores Acceda a los complementos de software, videos y conjuntos de datos en www.pearsonenespañol.com/triola Calculadora TI-83/84 Plus Requiere el programa A1ANOVA (disponible en www.pearsonenespañol.com>triola). 1. El programa A1ANOVA requiere que primero creemos una Matriz [D] que contenga los datos muestrales: Ingrese los datos manualmente: Presione 2ND luego x–1 para ir al menú MATRIX, seleccione EDIT desde el menú superior, seleccione [D] y presione .ENTER Ingrese el número de filas y columnas necesarias, presione ENTER y proceda a ingresar los valores muestrales. Uso de una lista existente: Las listas se pueden combinar y almacenar en una matriz. Presione 2ND luego x–1 para ir al menú MATRIX, seleccione MATH en el menú superior y seleccione el elemento List : matr. Ingrese los nombres de la lista, seguidos por el nombre de la matriz [D], todos separados por comas. Importante: El nombre de la matriz se debe ingresar presionando 2ND luego x–1 , seleccionando [D], y presionando ENTER . El siguiente es un resumen de los comandos utiliza- dos para crear una matriz a partir de tres listas (L1, L2, L3): List : matr(L1, L2, L3,[D]). 2. Presione PRGRM, luego seleccione A1ANOVA y presione ENTER dos veces. 3. Seleccione RAN BLOCK DESIGN y presione ENTER dos veces. Seleccione Continue y presione .ENTER 4. El programa trabajará con los datos en la Matriz [D] y mostrará los resultados. Los resultados no caben en una sola pantalla, entonces presione ENTER para ver los resultados restantes. TIP: En los resultados, F(A) es el dato estadístico de prueba F para el factor de fila, F(B) es el dato estadístico de prueba F para el factor de co- lumna y F(AB) es el dato estadístico de prueba F para el efecto de interacción. Excel Complemento XLSTAT Requiere que todos los datos se apilen en una sola columna con los nombres de categoría correspondientes para cada valor de datos en dos columnas separadas y adyacentes. Los nombres de las filas deben estar en una de esas columnas y los nombres de las columnas deben estar en la otra columna. 1. Haga clic en la pestaña XLSTAT en la cinta de opciones y luego haga clic en Modeling Data. 2. Seleccione ANOVA del menú desplegable. 3. Ingrese el rango de celdas que contienen los valores muestrales en el cuadro de las variables dependientes Y (Y>Dependent variables). 4. Seleccione el cuadro Qualitative e ingrese el rango de celdas que contiene los nombres de fila y columna en el cuadro de las variables independientes x, (X>Explanatory variables), como B1:C30. 5. Si se incluye una etiqueta de variable en el rango de datos, marque la casilla Variable labels. 6. Haga clic en la pestaña Options y confirme que la casilla Interactions>Level esté marcada y configurada en 2. 7. Haga clic en la pestaña Output y marque la casilla etiquetada Type I>II>III SS. 8. Haga clic en OK. Haga clic en All en la ventana Factors and interactions y haga clic en OK para ver los resultados. Busque los resultados clave bajo el título de “Type I Sum of Squares Analysis”. Los valores P se etiquetan como Pr > F. Complemento de Excel de análisis de datos Más de una entrada por celda Para las tablas bidireccionales con más de una entrada por celda, las entradas de la misma celda se deben enumerar en una columna, no en una fila. Ingrese las etiquetas correspondientes al conjunto de datos en la columna A y la fila 1, como se mues- tra en el siguiente ejemplo: A B CD 1 Bajo Medio Alto 2 Hombre 85 78 93 3 Hombre 90 107 97 A A A AA 1. Haga clic en la pestaña Data en la cinta de opciones y luego seleccione Data Analysis en el menú superior 2. Seleccione Anova: Two-Factor With Replication en Analysis Tools y haga clic en OK. 3. Ingrese el rango de datos deseado en Input Range. 4. En Rows per sample, ingrese el número de valores en cada celda. 5. Haga clic en OK.

12-2 ANOVA de dos factores 589 12-2 Habilidades y conceptos básicos Conocimiento estadístico y pensamiento crítico 1. ANOVA de dos factores A continuación se reproducen las frecuencias de pulso en la tabla 12-3 del ejemplo 1, con los datos impresos (en negro) utilizados para las frecuencias de pulso de mujeres de 30 a 49 años. ¿Qué característica de los datos sugiere que el método de análisis apropiado es el análisis de varianza de dos factores? Es decir, ¿qué es “bidireccional” sobre los datos ingresados en esta tabla? 18-29 Mujeres Hombres 30-49 104 82 80 78 80 84 82 66 70 78 72 64 72 64 64 70 72 64 54 52 50-80 46 54 76 66 78 68 62 52 60 60 80 90 58 74 96 72 58 66 80 92 94 72 82 86 72 90 64 72 72 100 54 102 52 52 62 82 82 60 52 74 2. ANOVA de dos factores Si tenemos el objetivo de utilizar los datos descritos en el ejercicio 1 para (1) determinar si el grupo de edad tiene un efecto en las frecuencias de pulso y (2) determinar si el género tiene un efecto en las frecuencias de pulso, ¿Deberíamos usar el análisis de varianza de un factor para las dos pruebas individuales? ¿Por qué sí o por qué no? 3. Interacción a. ¿Qué es una interacción entre dos factores? b. En general, cuando se utiliza el análisis de varianza de dos factores, si encontramos que hay un efecto de interacción, ¿cómo afecta eso el procedimiento? c. A continuación se muestra una gráfica de interacción construida a partir de los datos del ejercicio l. ¿Qué sugiere la gráfica? Frecuencia de pulso Mujeres Hombres Rango de edad 4. Diseño equilibrado ¿La tabla dada en el ejercicio 1 constituye un diseño equilibrado? ¿Por qué sí o por qué no? 5. Frecuencias de pulso Si usamos los datos dados en el ejercicio 1 con un análisis de varianza de dos factores, obtenemos la pantalla adjunta. ¿Qué se puede concluir? Statdisk

590 CAPÍTULO 12 Análisis de varianza 6. Pesos Los pesos (kg) en la siguiente tabla provienen del conjunto de datos 1 “Datos corporales” en el apéndice B. También se muestran los resultados del análisis de varianza de dos factores. Use los resultados mostrados y un nivel de significancia de 0.05. ¿Qué se puede concluir? Mujeres Hombres 18-29 63.4 57.8 52.6 46.9 61.7 61.5 71.6 64.9 144.9 96.4 80.7 84.4 77.2 50.4 97.0 76.1 63.9 79.0 99.4 64.1 30-49 110.5 84.6 133.3 90.2 125.7 105.3 96.2 56.4 107.4 99.5 64.8 94.7 115.5 75.3 92.8 57.7 74.2 112.8 72.6 91.4 50-80 103.2 48.3 87.8 101.3 67.8 45.2 84.8 127.5 89.9 75.3 110.2 72.3 79.8 60.1 68.5 43.3 77.2 86.5 71.3 73.1 StatCrunch 7. Estaturas Las estaturas (cm) en la siguiente tabla provienen del conjunto de datos 1 “Datos corpo- rales” del apéndice B. También se muestran los resultados del análisis de varianza de dos factores. Use los resultados mostrados y un nivel de significancia de 0.05. ¿Qué se puede concluir? 18-29 Mujeres Hombres 30-49 50-80 161.2 170.2 162.9 155.5 168.0 172.8 178.7 183.1 175.9 161.8 153.3 152.0 154.9 157.4 159.5 177.5 170.5 180.1 178.6 178.5 169.1 170.6 171.1 159.6 169.8 170.1 165.4 178.5 168.5 180.3 169.5 156.5 164.0 164.8 155.6 178.2 174.4 174.6 162.8 174.4 146.7 160.9 163.3 176.1 163.1 181.9 166.6 171.7 170.0 169.1 151.6 164.7 153.3 160.3 134.5 182.9 176.3 166.7 166.3 160.5 XLSTAT 8. Experimento con panqueques A continuación se listan las calificaciones de panqueques otor- gadas por expertos (con base en datos de Minitab). Los diferentes panqueques se hicieron con o sin un suplemento y con diferentes cantidades de suero de leche. Se muestran los resultados del análisis de varianza de dos factores. Use los resultados mostrados y un nivel de significancia de 0.05. ¿Qué concluye usted? Suero 0% 10% 20% 30% 4.4 4.5 4.3 4.6 4.7 5.1 Sin suplemento 3.3 3.2 3.1 4.6 4.5 4.8 4.5 4.8 4.8 5.4 5.6 5.3 Suplemento 3.8 3.7 3.6 5.0 5.3 4.8 Minitab

CAPÍTULO 12 Examen rápido del capítulo 591 9. Tiempos en el Maratón A continuación se listan los tiempos registrados en la carrera de maratón de la ciudad de Nueva York (en segundos) para corredores elegidos al azar que completaron el maratón. ¿Los tiempos en la carrera se ven afectados por una interacción entre el género y el rango de edad? ¿Los tiempos de ejecución están afectados por el género? ¿Los tiempos de ejecución se ven afectados por el rango de edad? Use un nivel de significancia de 0.05. Tiempos (en segundos) para corredores de la maratón de la ciudad de Nueva York 21-29 Edad 40 y más 30-39 Hombres 13,615 14,677 14,528 Mujeres 18,784 16,090 17,034 14,256 14,086 14,935 10,905 16,461 14,996 12,077 20,808 22,146 16,401 15,357 17,260 14,216 16,771 25,399 15,402 15,036 18,647 15,326 16,297 15,077 12,047 17,636 25,898 10. Tabaquismo, género y temperatura corporal La siguiente tabla lista las temperaturas corpora- les obtenidas de sujetos seleccionados al azar (según el conjunto de datos 3 “Temperaturas corporales” en el apéndice B). Con un nivel de significancia de 0.05, pruebe una interacción entre el género y el tabaquismo, pruebe un efecto del género y un efecto del tabaquismo. ¿Qué concluye usted? Hombres Fuma No fuma Mujeres 98.8 97.6 98.0 98.5 98.4 97.8 98.0 97.0 98.0 98.5 98.3 98.7 97.7 98.0 98.2 99.1 12-2 Más allá de lo básico 11. Transformaciones de datos El ejemplo 1 ilustró el uso del ANOVA de dos factores para analizar los datos muestrales en la tabla 12-3 en la página 582. ¿Cómo se ven afectados los resultados en cada uno de los siguientes casos? a. Se suma la misma constante a cada valor muestral. b. Cada valor muestral se multiplica por la misma constante distinta de cero. c. El formato de la tabla se transpone para que los factores de fila y de columna se intercambien. d. Se cambia el primer valor muestral en la primera celda, de modo que se convierte en un valor atípico. Examen rápido del capítulo 1. Pesos de bebidas de cola El conjunto de datos 26 “Pesos y volúmenes de bebidas de cola” en el apéndice B lista los pesos (lb) del contenido de latas de cuatro muestras diferentes de bebidas de cola: (1) Coca-Cola regular, (2) Coca-Cola Light, (3) Pepsi regular y (4) Pepsi Light. Los resultados del análisis de varianza se muestran al inicio de la página siguiente. ¿Cuál es la hipótesis nula para esta prueba de análisis de varianza? En función de los resultados que se muestran, ¿qué se debería concluir acerca de H0? ¿Qué concluye usted sobre la igualdad de los pesos medios de las cuatro muestras? continúa

592 CAPÍTULO 12 Análisis de varianza Minitab 2. Pesos de bebidas de cola Para las cuatro muestras descritas en el ejercicio 1, la muestra de Co- ca-Cola regular tiene un peso medio de 0.81682 lb, la muestra de Coca-Cola Ligth tiene un peso medio de 0.78479 lb, la muestra de Pepsi regular tiene un peso promedio de 0.82410 lb, y la muestra de Pepsi Ligth tiene un peso promedio de 0.78386 lb. Si usamos el análisis de varianza y llegamos a una conclu- sión para rechazar la igualdad de las cuatro medias muestrales, ¿podemos concluir que cualquiera de las muestras específicas tiene medias que son significativamente diferentes de las demás? 3. Pesos de bebidas de cola Para el análisis de la prueba de varianza descrito en el ejercicio 1, ¿esa prueba es de cola izquierda, de cola derecha o de dos colas? 4. Pesos de bebidas de cola Identifique el valor del dato estadístico de prueba en la pantalla inclui- da con el ejercicio 1. En general, ¿los estadísticos de prueba más grandes dan como resultado valores P más grandes, valores P más pequeños o valores P que no están relacionados con el valor del dato estadístico de prueba? 5. Peso de bebidas de Cola Los resultados mostrados en el ejercicio 1 son del análisis de varianza de un factor. ¿A qué se debe que esta prueba se caracterice como un análisis de varianza de un factor en lugar de un análisis de varianza de do factores? 6. ANOVA de un factor En general, ¿para qué sirve el análisis de varianza de un factor? 7. Uno contra dos ¿Cuál es la diferencia fundamental entre el análisis de varianza de un factor y el análisis de varianza de dos factores? 8. Estimación de longitud A continuación se presenta una pantalla de Minitab resultante del análisis de varianza de dos factores, con datos muestrales que constan de 18 diferentes estimaciones visuales de estudiantes sobre la longitud de un aula. Los valores se clasifican de acuerdo con el género y las espe- cialidades (matemáticas, negocios, artes liberales). ¿Qué se puede concluir sobre una interacción entre el género y la especialidad? Minitab 9. Estimación de longitud Usando los mismos resultados que se muestran en el ejercicio 8, ¿parece que las estimaciones de longitud se ven afectadas por el género del sujeto? 10. Estimación de longitud Usando los mismos resultados que se muestran en el ejercicio 8, ¿parece que las estimaciones de longitud se ven afectadas por la especialidad del sujeto? Ejercicios de repaso 1. Citas rápidas El conjunto de datos 18 “Citas rápidas” en el apéndice B lista las calificaciones de atributos de las mujeres dadas por los hombres que participaron en eventos de citas rápidas, y algunos de esos valores se incluyen en la tabla al inicio de la página siguiente. El análisis de varianza se usa con los valores de esa tabla, y los resultados de StatCrunch se muestran en la siguiente página después de los datos. Use un nivel de significancia de 0.05 para probar la afirmación de que los varones en los diferentes grupos de edad otorgan calificaciones de atributos con la misma media. ¿La edad parece ser un factor en las calificaciones de atributos dadas por los hombres?

CAPÍTULO 12 Ejercicios de repaso 593 Edad 20-22 32 34 37 40.5 33 28 31 50 39 41 Edad 23-26 40 21 14 32 26 34 31 34 34 34 Edad 27-29 31 39 27 34 43 31 30 38 37 34 StatCrunch 2. Legibilidad del autor El autor seleccionó páginas al azar de El oso y el dragón de Tom Clancy, Harry Potter y la piedra del hechicero de J. K. Rowling y La guerra y la paz de León Tolstoi. Las puntuaciones de facilidad de lectura para esas páginas se listan a continuación. ¿Los autores parecen tener el mismo nivel de legibilidad? Clancy 58.2 73.4 73.1 64.4 72.7 89.2 43.9 76.3 76.4 78.9 69.4 72.9 Rowling 85.3 84.3 79.5 82.5 80.2 84.6 79.2 70.9 78.6 86.2 74.0 83.7 Tolstoi 69.4 64.2 71.4 71.6 68.5 51.9 72.2 74.4 52.8 58.4 65.4 73.6 3. Pruebas de colisiones de automóviles El conjunto de datos 19 “Pruebas de colisión de au- tomóviles” en el apéndice B lista los resultados de pruebas de colisión realizadas con automóviles. El conjunto de datos incluye las cargas de la prueba de colisión (libras) en el fémur izquierdo y el fémur derecho. Cuando esas cargas se dividen en tres categorías por el tamaño del automóvil: pequeño, mediano y grande, el análisis de dos factores de los resultados de XLSTAT se muestra a continuación. (El factor de fila del fémur tiene los dos valores de fémur izquierdo y fémur derecho, y el factor de columna del tamaño tiene los tres valores de pequeño, mediano y grande). Use un nivel de significancia de 0.05 para aplicar el método del análisis de varianza de dos factores ¿Qué concluye usted? XLSTAT 4. Citas rápidas A continuación se listan las calificaciones de atributos de los hombres otorgadas por las mujeres que participaron en eventos de citas rápidas (del conjunto de datos 18 “Citas rápidas” en el apéndice B). Use un nivel de significancia de 0.05 para aplicar el método del análisis de varianza de dos factores. ¿Qué concluye usted? Mujeres 20-23 20-23 Hombres 27-30 24-26 42 24 40 32 30 24-26 22 30 32 43 28 27-30 34 31 25 36 30 34 32 27 43 35 35 31 40 31 32 37 47 33 32 21 37 40 21 34 23 36 41 36 33 48 36 25 42 28 42

594 CAPÍTULO 12 Análisis de varianza Ejercicios de repaso acumulado En los ejercicios 1 a 5, consulte la siguiente lista de tiempos de demora en la salida (minutos) de los vuelos de American Airlines del aeropuerto JFK en Nueva York al aeropuerto LAX en Los Ángeles. Suponga que los datos son muestras seleccionadas al azar de poblaciones más grandes. Vuelo 3 22 – 11 7 0 – 5 3 –8 8 01 Vuelo 19 19 –4 –5 –1 – 4 73 47 13 Vuelo 21 18 60 142 – 1 – 11 – 1 1. Exploración de los datos Incluya las unidades apropiadas en todas las respuestas. a. Encuentre la media para cada uno de los tres vuelos. b. Encuentre la desviación estándar para cada uno de los tres vuelos. c. Encuentre la varianza para cada uno de los tres vuelos. d. ¿Hay algún valor atípico obvio? e. ¿Cuál es el nivel de medición de los datos (nominal, ordinal, de intervalo, de razón)? 2. Comparación de dos medias Tratando los datos como muestras de poblaciones más grandes, pruebe la afirmación de que existe una diferencia entre el tiempo medio de demora en la salida para el vuelo 3 y el vuelo 21. 3. Gráfica cuantilar normal La gráfica cuantilar normal adjunta se obtuvo de los tiempos de demora en la salida del vuelo 19. ¿Qué nos dice esta gráfica? Gráfica cuantilar normal (n=8) Puntuación z Valores x 4. Intervalo de confianza Use los tiempos de demora en la salida del vuelo 3 y construya una estima- ción del intervalo de confianza del 95% para la media poblacional. Escriba una breve declaración que interprete el intervalo de confianza. 5. ANOVA La pantalla de XLSTAT que se presenta a continuación resulta de usar el análisis de varian- za de un factor con las tres muestras. a. ¿Cuál es la hipótesis nula? b. Asumiendo un nivel de significancia de 0.05, ¿qué conclusión indican los resultados mostrados? XLSTAT

CAPÍTULO 12 Proyecto de tecnología 595 6. Monedas de ¢25 Suponga que los pesos de las monedas de ¢25 acuñadas después de 1964 se dis- tribuyen normalmente con una media de 5.670 g y una desviación estándar de 0.062 g (con base en las especificaciones de Mint de EE.UU.). a. Encuentre la probabilidad de que una moneda de ¢25 seleccionada al azar pese entre 5.600 g y 5.700 g. b. Si se seleccionan al azar 25 monedas de ¢25, encuentre la probabilidad de que su peso promedio sea mayor a 5.675 g. c. Encuentre la probabilidad de que cuando se seleccionan ocho monedas de ¢25 aleatoriamente, todas pesen menos de 5.670 g. d. Si una máquina expendedora está diseñada para aceptar monedas de ¢25 con pesos por encima del percentil 10, P10, encuentre el peso que separa las monedas aceptables de aquellas que no son aceptables. 7. Encuesta de prioridad del trabajo USA Today informó sobre una encuesta de Adecco Staffing aplicada a 1000 adultos seleccionados al azar. Entre los encuestados, 20% eligieron los beneficios de salud como lo más importante de su trabajo. a. ¿Cuál es la cantidad de encuestados que eligieron los beneficios de salud como lo más importante de su trabajo? b. Elabore una estimación del intervalo de confianza del 95% para la proporción de todos los adultos que eligen los beneficios de salud como lo más importante de su trabajo. c. Con base en el resultado del inicio (b), ¿podemos concluir con seguridad que la verdadera proporción es diferente de 1>4? ¿Por qué? 8. Lotería Win 4 A continuación se muestra un histograma de dígitos seleccionados en la lotería Win 4 de California. Cada sorteo incluye la selección al azar (con reemplazo) de cuatro dígitos entre 0 y 9 inclusive. a. ¿Qué es fundamentalmente erróneo en la gráfica? b. ¿La pantalla bosqueja una distribución normal? ¿por qué sí o por qué no? ¿Cuál debería ser la forma del histograma? c. Identifique las frecuencias y luego pruebe la afirmación de que los dígitos se seleccionan de una población en la que todos los dígitos son igualmente probables. ¿Hay algún problema con la lotería? Frecuencia Dígitos escogidos en la lotería Win 4 de California Proyecto de tecnología ¿El peso cambia con la edad? Consulte el conjunto de datos 1 “Datos corporales” en el apéndice B y utilice los pesos de los hombres divididos en tres rangos de edad diferentes de 18 a 25, 26 a 40 y 41 a 80. Pruebe la afirmación de que los hombres en esos tres grupos de edad tienen el mismo peso medio. Clasificación Un desafío en este proyecto es identificar los pesos de los hombres en los tres grupos de edad. Primero, use la función de clasificación de su tecnología para ordenar todas las columnas usando el género como base para la clasificación. A continuación, puede eliminar todas las filas que representan mujeres. Luego, clasifique todas las columnas usando la edad como la base para ordenar. Entonces será mucho más fácil identificar los pesos en los diferentes grupos de edad.

596 CAPÍTULO 12 Análisis de varianza DE LOS DATOS A LA DECISIÓN calificaciones de atractivo en el conjunto de datos, con el fin de determinar si existe una brecha de género relacionada con los Pensamiento crítico: La brecha de edad/género grupos de edad. ¿Las mujeres mayores parecen sentirse más atraídas por hombres más jóvenes? ¿Los hombres mayores El conjunto de datos 18 “Citas rápidas” en el apéndice B parecen sentirse más atraídos por las mujeres más jóvenes? incluye datos de un estudio de citas rápidas, y el ejercicio de ¿O no hay diferencia? repaso 4 “Citas rápidas” incluye algunos de esos datos en una tabla bidireccional con diferentes grupos de edad para hombres y mujeres. Use los métodos de este capítulo para analizar las Actividades en equipo 1. Actividad fuera de clase Los puntajes de Flesch Reading Ease y los puntajes de Flesch-Kincaid Grade Level miden la legibilidad de un texto. Algunos programas, como Microsoft Word, incluyen ca- racterísticas que le permiten obtener puntajes de legibilidad de manera automática. Divídanse en grupos de tres o cuatro estudiantes. Utilizando al menos tres muestras de escritura diferentes, como el New York Times, el USA Today y el Onion, obtenga lo puntajes de legibilidad para diez muestras de texto de cada fuente. Use los métodos de este capítulo para determinar si hay alguna diferencia. 2. Actividad en clase Divida la clase en tres grupos. Un grupo debe registrar la frecuencia del pulso de cada miembro mientras él o ella permanece sentado. El segundo grupo debe registrar la frecuencia del pulso de cada miembro mientras él o ella está de pie. El tercer grupo debe registrar la frecuencia del pulso de cada miembro inmediatamente después de que él o ella se pare y se siente 10 veces. Analice los resultados. ¿Qué indican éstos? 3. Actividad en clase Pida a cada alumno de la clase que calcule la longitud del aula. Especifique que la longitud es la distancia entre el pizarrón y la pared opuesta. En la misma hoja de papel, cada alumno también debe escribir su género (masculino>femenino) y especialidad. Luego divídalos en grupos de tres o cuatro, y use los datos de toda la clase para responder las siguientes preguntas: • ¿Hay una diferencia significativa entre la estimación media de los hombres y la estimación media de las mujeres? • ¿Hay suficiente evidencia para rechazar la igualdad de las estimaciones medias para las diferentes especialidades? Describa cómo se categorizaron las especialidades. • ¿Una interacción entre el género y la especialidad tiene un efecto en la longitud estimada? • ¿El género parece tener un efecto en la longitud estimada? • ¿La especialidad parece tener un efecto en la longitud estimada? 4. Actividad fuera de clase Biographyonline.net incluye información sobre las vidas de artistas, políticos, científicos, actores y otros personajes notables. Diseñe y realice un estudio observacional que comience con la elección de muestras de grupos selectos, seguida de una comparación de la vida de las personas de los diferentes grupos. ¿Algún grupo en particular parece tener una esperanza de vida diferente a la de los demás grupos? ¿Puede usted explicar tales diferencias? 5. Actividad fuera de clase Divídanse en grupos de tres o cuatro estudiantes. Cada grupo debe encuestar a otros estudiantes en la misma universidad pidiéndoles que identifiquen su especialidad y género. Puede incluir otros factores, como empleo (ninguno, tiempo parcial, tiempo completo) y edad (menor de 21, 21-30, más de 30). Para cada sujeto encuestado, determine la cantidad de seguidores de Twitter o amigos de Facebook. • ¿El género parece tener un efecto en la cantidad de seguidores>amigos? • ¿La especialidad tiene un efecto en la cantidad de seguidores>amigos? • ¿Una interacción entre el género y la especialidad tiene un efecto en la cantidad de seguidores>amigos?

13-1 Conceptos básicos de las pruebas no paramétricas 13-2 Prueba del signo 13-3 Prueba de rangos con signo de Wilcoxon para datos pareados 13-4 Prueba de la suma de rangos de Wilcoxon para dos muestras independientes 13-5 Prueba de Kruskal- Wallis para tres o más muestras 13-6 Correlación de rangos 13-7 Prueba de rachas para aleatoriedad 13 4PRUEBAS NO PARAMÉTRICAS PROBABILITY PROBLEMA ¿Los mejores televisores cuestan más? DEL CAPÍTULO La tabla 13-1, en la página siguiente, incluye rangos y costos ¿parece que los mejores televisores cuestan más? ¿Se obtiene (en cientos de dólares) de televisores LCD (con pantalla de cristal lo que se paga? líquido) de al menos 60 pulgadas (según datos de Consumer Reports). Los rangos se basan en “puntuaciones generales” Sería inteligente comenzar el análisis con una exploración determinados por Consumer Reports, los menores números de básica de los datos. Como queremos abordar el problema de la rango corresponden a los “mejores” televisores con puntuacio- correlación, trazamos el diagrama de dispersión que se muestra nes generales más altas. Entre los televisores incluidos en la en la página siguiente. Resulta claro que no existe un patrón en tabla 13-1, el mejor televisor tiene un rango de 1 y cuesta $2300. línea recta distintivo, por lo que no parece haber una correlación ¿Hay una correlación entre los rangos y el costo? Si es así, lineal. Podríamos ir más allá de este juicio subjetivo y proceder a calcular un coeficiente de correlación lineal r, pero consideremos la continúa 597

598 CAPÍTULO 13 Pruebas no paramétricas naturaleza de los datos. Específicamente, los rangos simplemente podemos emplear el método de correlación de rangos descrito en identifican un orden y en realidad no miden ni cuentan nada. En la sección 13-6. Así podremos proporcionar resultados objetivos lugar de usar el método de correlación lineal de la sección 10-1, que son mejores que un juicio subjetivo. TABLA 13-1 Rangos y costos de televisores LCD Rango de calidad 1 2 3 4 5 6 7 8 9 10 Costo (cientos de dólares) 23 50 23 20 32 25 14 16 40 22 OBJETIVOS DEL CAPÍTULO >>> Los objetivos del capítulo son: 13-1 Conceptos básicos de las pruebas no paramétricas • Desarrollar la capacidad de describir la diferencia entre las pruebas paramétricas y las pruebas no paramétricas. • Identificar las ventajas y desventajas de las pruebas no paramétricas. • Saber que las pruebas no paramétricas suelen ser menos eficientes que las pruebas pa- ramétricas correspondientes. • Desarrollar la capacidad de convertir datos en rangos. 13-2 Prueba del signo • Desarrollar la capacidad de realizar una prueba del signo para afirmaciones que involu- cren pares de datos muestrales, que impliquen datos nominales o que traten de la me- diana de una población. 13-3 Prueba de rangos con signo de Wilcoxon para datos pareados • Desarrollar la capacidad de aplicar la prueba de rangos con signo de Wilcoxon para da- tos muestrales que constan de pares relacionados. 13-4 Prueba de la suma de rangos de Wilcoxon para dos muestras independientes • Desarrollar la capacidad de aplicar la prueba de la suma de rangos de Wilcoxon para da- tos muestrales de dos poblaciones independientes. 13-5 Prueba de Kruskal-Wallis para tres o más muestras • Desarrollar la capacidad de aplicar la prueba de Kruskal-Wallis para datos muestrales de tres o más poblaciones independientes.

13-1 Conceptos básicos de las pruebas no paramétricas 599 13-6 Correlación de rangos • Desarrollar la capacidad de calcular el valor del coeficiente de correlación del rango rs, y utilizarlo para determinar si existe una correlación entre dos variables. 13-7 Prueba de rachas para aleatoriedad • Desarrollar la capacidad de usar la prueba de rachas para aleatoriedad, para determinar si los datos muestrales ocurren en una secuencia aleatoria. 13-1 Conceptos básicos de las pruebas no paramétricas Este capítulo presenta métodos de pruebas no paramétricas, que no tienen los requisitos más estrictos de las correspondientes pruebas paramétricas, las cuales se basan en muestras de poblaciones con parámetros específicos como m o s. DEFINICIONES Las pruebas paramétricas tienen requisitos sobre la distribución de las poblaciones invo- lucradas; las pruebas no paramétricas (o sin distribución) no requieren que las mues- tras provengan de poblaciones con distribuciones normales o cualquier otra distribución en particular. Terminología engañosa El término prueba sin distribución indica correctamente que una prueba no requiere una distribución particular. El término pruebas no paramétricas es enga- ñoso en el sentido de que sugiere que las pruebas no se basan en un parámetro, pero hay algunas pruebas no paramétricas que se basan en un parámetro como la mediana. Debido al uso gene- ralizado del término prueba no paramétrica, usamos esa terminología, pero la definimos como una prueba que no requiere una distribución particular. (El autor prefiere el término prueba sin distribución, pero no estaba de primero en la fila cuando se repartieron las definiciones). Ventajas y desventajas Ventajas de las pruebas no paramétricas 1. Debido a que las pruebas no paramétricas tienen requisitos menos rígidos que las pruebas paramétricas, se pueden aplicar a una variedad más amplia de situaciones. 2. Las pruebas no paramétricas se pueden aplicar a más tipos de datos que las pruebas paramétricas. Por ejemplo, las pruebas no paramétricas se pueden usar con datos que constan de rangos, y pueden emplearse con datos categóricos, como los géneros de los encuestados. Desventajas de las pruebas no paramétricas 1. Las pruebas no paramétricas tienden a desperdiciar información porque los datos numéricos exactos a menudo se reducen a una forma cualitativa. Por ejemplo, con la prueba no paramétrica del signo (sección 13-2), las pérdidas de peso de las personas que hacen dieta se registran simplemente como signos negativos, y las magnitudes rea- les de las pérdidas de peso se omiten. 2. Las pruebas no paramétricas no son tan eficientes como las pruebas paramétricas, por lo que una prueba no paramétrica generalmente necesita pruebas más sólidas (como una muestra más grande o mayores diferencias) para rechazar una hipótesis nula.

600 CAPÍTULO 13 Pruebas no paramétricas Eficiencia de las pruebas no paramétricas Cuando se satisfacen los requisitos de las distribuciones de población, las pruebas no paramétricas son generalmente menos eficien- tes que sus correspondientes pruebas paramétricas. Por ejemplo, la sección 13-6 presenta el concepto de correlación de rangos, que tiene una calificación de eficiencia de 0.91 cuando se compara con la correlación lineal en la sección 10-1. Esto significa que, con todo lo demás igual, el método no paramétrico de correlación de rangos en la sección 13-6 requiere 100 observaciones muestrales para lograr los mismos resultados que 91 observaciones muestrales analizadas a través de la correlación lineal paramétrica en la sección 10-1, asumiendo que se satisfacen los requisitos más estrictos para utilizar la prueba paramétrica. En la tabla 13-2 se listan las pruebas no paramétricas junto con la prueba paramétrica correspondiente y la calificación de eficiencia. Dicha tabla muestra que varias pruebas no paramétricas tienen índices de eficiencia superiores a 0.90, por lo que la menor eficiencia podría no ser un factor importante al elegir entre pruebas paramétricas y no paramétricas. Sin embargo, dado que las pruebas paramétricas tienen calificaciones de eficiencia más altas que sus homólogas no paramétricas, generalmente es mejor usar las pruebas paramétricas cuando se satisfacen los supuestos requeridos. TABLA 13-2 Eficiencia: Comparación de pruebas paramétricas y no paramétricas Aplicación Prueba paramétrica Prueba no paramétrica Calificación de eficiencia de prueba no paramétrica con poblaciones normales Pares relacionados de prueba t Prueba del signo o prue- 0.63 datos muestrales ba de rangos con signo 0.95 de Wilcoxon Dos muestras indepen- prueba t Prueba de la suma de 0.95 dientes rangos de Wilcoxon Tres o más muestras Análisis de varianza Prueba de Kruskal-Wallis 0.95 independientes (prueba F) Correlación Correlación lineal Prueba de correlación de 0.91 rangos Aleatoriedad Sin prueba paramétrica Prueba de rachas Sin base para comparación Rangos Las secciones 13-2 a 13-5 usan métodos basados en rangos, definidos de la siguiente manera. DEFINICIÓN Los datos se ordenan cuando se organizan según algún criterio, como del más pe- queño al más grande o del mejor al peor. Un rango es un número asignado a un ele- mento muestral individual de acuerdo con su lugar en la lista ordenada. Al primer elemento se le asigna un rango de 1, al segundo elemento se le asigna un rango de 2 y así sucesivamente. Manejo de rangos empatados Si se produce un empate en los rangos, un procedimiento muy común es encontrar la media de los rangos involucrados en el empate y luego asignar este rango medio a cada uno de los elementos empatados, como en el siguiente ejemplo.

13-2 Prueba del signo 601 EJEMPLO 1 Manejo de rangos empatados Los números 4, 5, 5, 5, 10, 11, 12 y 12 tienen rangos de 1, 3, 3, 3, 5, 6, 7.5 y 7.5, respecti- vamente. La siguiente tabla ilustra el procedimiento para manejar los empates. Datos ordenados Rango preliminar Rango 4 1 1 5 $1%1&2 3 5$1%1& 3 La media es 3 3 5 4 3 10 5 5 11 6 6 1122f 7 f La media es 7.5 7.5 8 7.5 13-2 Prueba del signo Concepto clave En esta sección se presenta la prueba del signo, que implica la conversión de los valores de datos a signos positivos y negativos, para después realizar pruebas con la finalidad de determinar si cualquiera de los signos se produce significativamente más a me- nudo que el otro signo. DEFINICIÓN La prueba del signo es una prueba no paramétrica (sin distribución) que utiliza signos positivos y negativos para evaluar diferentes afirmaciones, entre las que se incluyen las siguientes: 1. Afirmaciones que involucran pares de datos muestrales 2. Afirmaciones que implican datos nominales con dos categorías 3. Afirmaciones sobre la mediana de una sola población Concepto básico de la prueba del signo La idea esencial que subyace a la prueba del signo es analizar las frecuencias de los signos positivos y negativos para determinar si son significativamente diferentes. Por ejemplo, considere los resultados de los ensayos clínicos del método XSORT para la selección de género. Entre las 726 parejas que usaron el método XSORT para tratar de tener una niña, 668 parejas tuvieron una niña. ¿Son sig- nificativas 668 niñas en 726 nacimientos? El sentido común debería sugerir que 668 niñas en 726 nacimientos son significativas, pero ¿qué pasa con 365 niñas en 726 nacimientos? ¿o 400 niñas en 726 nacimientos? La prueba del signo nos permite determinar cuándo tales resultados son significativos. La figura 13-1 resume el procedimiento para la prueba del signo. Por consistencia y simplicidad, usaremos un dato estadístico de prueba basado en la can- tidad de veces que ocurre el signo menos frecuente.

602 CAPÍTULO 13 Pruebas no paramétricas Inicio Asigne signos positivos y negativos, y omita cualquier cero. Considere que n es igual a la cantidad total de signos Considere que el dato estadístico de prueba x es igual a la cantidad del signo menos frecuente. Sí ¿Los datos muestrales contradicen H1? No ¿Es n ◊ 25? No Convierta el dato estadístico de prueba x en el dato estadístico Sí de prueba Encuentre el valor crítico (x 1 0.5) 2 (n/2) en la tabla A-7. z5 Ïn/2 ¿El dato Encuentre el(los) valor(es) crítico(s) estadístico de z en la tabla A-2 de la forma prueba es menor o igual habitual. que el(los) valor(es) Sí crítico(s)? No No rechace la hipótesis Rechace la nula. hipótesis nula. FIGURA 13-1 Procedimiento de la prueba del signo

13-2 Prueba del signo 603 ELEMENTOS CLAVE Prueba del signo Objetivo Usar signos positivos y negativos para evaluar una afirmación que se encuentre en una de las siguientes tres categorías: 1. Pares relacionados 3. Mediana de una población individual • Reste el segundo valor de cada par del primero, regis- • Reste la mediana de cada valor muestral, registre el tre el signo de la diferencia y omita cualquier 0. signo de la diferencia y omita cualquier 0. 2. Datos nominales con dos categorías • Represente cada miembro de una categoría con un signo positivo y cada miembro de la otra categoría con uno negativo. Notación x 5 la cantidad de veces que ocurre el signo menos frecuente n 5 el número total de signos positivos y negativos combinados Requisitos Los datos muestrales son una muestra aleatoria simple. Nota: No es necesario que los datos muestrales provengan de una población con una distribución particular, por ejemplo una distribución normal. Dato estadístico de prueba Si n # 25: El dato estadístico de prueba es x 5 la cantidad de veces que ocurre el signo menos frecuente. Si n > 25: El dato estadístico de prueba es 1x + 0.52 - anb 2 z = 2n 2 Valores P A menudo, los valores P se obtienen mediante el uso de la tecnología, o se pueden encontrar usando el dato estadístico de prueba z. Valores críticos 1. Si n # 25, los valores críticos x se encuentran en la 2. Si n > 25, los valores críticos z se encuentran en la tabla A-7. tabla A-2. Sugerencia: Como x o z se basan en el signo menos frecuente, todas las pruebas unilaterales se tratan como si fueran pruebas de cola izquierda. PRECAUCIÓN Al utilizar la prueba del signo en una prueba de una cola, evite sacar la conclusión incorrecta cuando un signo se produzca significativamente más a menudo o con menos frecuencia que el otro signo, y los datos muestrales contradigan la hipótesis alternativa. Una muestra de 7% del nacimiento de niños nunca se puede usar para apoyar la afirmación de que el nacimiento de un varón ocurre más del 50% de las veces, como en el ejemplo 1.

604 CAPÍTULO 13 Pruebas no paramétricas EJEMPLO 1 Datos que contradicen la hipótesis alternativa Entre las 945 parejas que utilizaron el método de selección de género XSORT, 66 tuvieron niños, por lo que la proporción muestral de niños es 66>945 o 0.0698 (según datos del Gene- tics & IVF Institute). Considere la afirmación de que el método XSORT para la selección de género aumenta la probabilidad de bebés varones, de modo que la probabilidad de tener un niño sea p > 0.5. Esta afirmación de p > 0.5 se convierte en la hipótesis alternativa. Usando el sentido común, vemos que con una proporción muestral de niños de 0.0698, nunca podemos apoyar una afirmación de que p > 0.5. (Necesitaríamos una proporción muestral de niños mayor de 0.5 por una cantidad significativa). Aquí, la proporción mues- tral de 66>945, o 0.0698, contradice la hipótesis alternativa porque no es mayor que 0.5. I N T E R P R E TA C I Ó N Una hipótesis alternativa nunca puede ser respaldada con datos que la contradicen. La prueba del signo mostrará que 66 niños en 945 nacimientos son significativos, pero es significativo en la dirección incorrecta. Nunca podemos apoyar una afirmación de que p > 0.5 con una proporción muestral de 66>945, o 0.0698, que es menor que 0.5. SU TURNO Ejercicio 3 “Contradicción de H1”. Afirmaciones sobre pares relacionados Al utilizar la prueba del signo con datos que son pares relacionados, convertimos los datos brutos en signos positivos y negativos de la siguiente manera: 1. Reste cada valor de la segunda variable del valor correspondiente de la primera variable. 2. Registre sólo el signo de la diferencia encontrada en el paso 1. Excluya los empates borrando cualquier par relacionado en el que ambos valores sean iguales. El concepto principal que subyace a este uso de la prueba del signo es el siguiente: Si los dos conjuntos de datos tienen medianas iguales, la cantidad de signos posi- tivos debería ser aproximadamente igual a la cantidad de signos negativos. EJEMPLO 2 ¿Hay una diferencia de género en las edades de las mejores actrices y los mejores actores? La tabla 13-3 (del conjunto de datos 14 “Edades de ganadores del Oscar” en el apéndice B) lista las edades de los ganadores del premio Oscar a la mejor actriz y al mejor actor. Las edades se relacionan por el año en que se otorgaron los premios. Use la prueba del signo con los datos muestrales de la tabla 13-3 para probar la afirmación de que no hay diferencia entre las edades de las mejores actrices y los mejores actores. TABLA 13-3 Edades de las mejores actrices y mejores actores Mejor actriz 28 63 29 41 30 41 28 26 29 29 Mejor actor 62 52 41 39 49 41 44 51 54 50 Signo de diferencia 2 1 2 1 2 0 2 2 2 2 SOLUCIÓN VERIFICACIÓN DE REQUISITOS El único requisito de la prueba del signo es que los da- tos muestrales son una muestra aleatoria simple, y ese requisito se cumple. Si no hay diferencia entre las edades de las mejores actrices y los mejores actores, la cantidad de signos positivos y negativos debe ser aproximadamente igual. En la tabla 13-3 tenemos 2 signos positivos, 7 signos negativos y 1 diferencia de 0. Desechamos la diferen- cia de 0 y procedemos con los 2 signos positivos y 7 negativos. La prueba del signo nos dice si los números de signos positivos y negativos son aproximadamente iguales.

13-2 Prueba del signo 605 La hipótesis nula es la afirmación de que no hay diferencia entre las edades de las me- jores actrices y los mejores actores, y la hipótesis alternativa es la afirmación de que existe una diferencia. H0: No hay diferencia. (La mediana de las diferencias es igual a 0). H1: Hay una diferencia. (La mediana de las diferencias no es igual a 0). Siguiendo el procedimiento de la prueba del signo resumido en la figura 13-1, n 5 9 (el número total de signos positivos y negativos) y x 5 2 (el número de signos del tipo menos frecuente, o el menor de 2 y 7). Los datos muestrales no contradicen H1, porque hay una diferencia entre los 2 signos positivos y los 7 signos negativos. Los datos muestrales muestran una diferencia, y debe- mos continuar con la prueba para determinar si esa diferencia es significativa. La figura 13-1 muestra que con n 5 9, debemos proceder a encontrar el valor crítico de la tabla A-7. Nos referimos a la tabla A-7, donde el valor crítico de 1 se encuentra para n 5 9 y a 5 0.05 en dos colas. Como n # 25, el dato estadístico de prueba es x 5 2 (y no convertimos x en un pun- taje z). Con un dato estadístico de prueba de x 5 2 y un valor crítico x de 1, no podemos rechazar la hipótesis nula de que no hay diferencia. (Consulte la nota 2 incluida con la tabla A-7: “Rechace la hipótesis nula si el número de signos del tipo menos frecuente (x) es menor o igual que el valor de la tabla”. Como x 5 2 no es menor o igual que el valor crítico de 1, no podemos rechazar la hipótesis nula). No hay evidencia suficiente para justi- ficar el rechazo de la afirmación de que la mediana de las diferencias es igual a 0. I N T E R P R E TA C I Ó N Concluimos que no hay evidencia suficiente para rechazar la afirmación de que no hay di- ferencias entre las edades de las mejores actrices y los mejores actores. SU TURNO Resuelva el ejercicio 5 “Citas rápidas: atributos”. Afirmaciones que implican datos nominales con dos categorías En el capítulo 1, definimos los datos nominales como aquellos que constan sólo de nombres, etiquetas o categorías. La naturaleza de los datos nominales limita los cálculos que pueden rea- lizarse, pero es posible identificar la proporción de los datos muestrales que pertenecen a una categoría particular, y podemos probar las afirmaciones sobre la proporción de población corres- pondiente p. El siguiente ejemplo usa datos nominales que consisten en géneros (niñas>niños). La prueba del signo se usa representando a las niñas con signos positivos (1) y a los niños con signos negativos (2). (Honestamente, esos signos se eligieron de manera arbitraria). EJEMPLO 3 Selección de género El Genetics & IVF Institute realizó un ensayo clínico de sus métodos para la selección del género de los bebés. Antes de que los ensayos clínicos concluyeran, 879 de 945 bebés naci- dos de padres que usaban el método XSORT para la selección del género fueron niñas. Use la prueba del signo y un nivel de significancia de 0.05 para probar la afirmación de que este método de selección del género es eficaz para aumentar la probabilidad de tener una niña. SOLUCIÓN VERIFICACIÓN DE REQUISITOS El único requisito es que la muestra sea una muestra aleatoria simple. Según el diseño de este experimento, podemos suponer que los datos muestrales son una muestra aleatoria simple. Sea p la proporción de niñas en la población. La afirmación de que las niñas son más probables con el método XSORT se puede expresar como p > 0.5, por lo que las hipótesis nula y alternativa son las siguientes: continúa

606 CAPÍTULO 13 Pruebas no paramétricas H0: p 5 0.5 (la proporción de niñas es igual a 0.5) H1: p > 0.5 (las niñas son más probables) Si se representan a las niñas con signos positivos (1) y los niños por signos negativos (2), tenemos 879 signos positivos y 66 signos negativos. Utilizando el procedimiento de la prueba del signo resumido en la figura 13-1, el dato estadístico de prueba x es el menor valor entre 879 y 66, por lo que x 5 66 niños. En lugar de tratar de determinar si 879 niñas es un valor suficientemente grande como para ser significativamente alto, procedemos con el objetivo equivalente de tratar de determinar si 66 niños son suficientemente pocos como para ser sig- nificativamente bajos, por lo que tratamos la prueba como una prueba de la cola izquierda. Los datos muestrales no contradicen la hipótesis alternativa porque la proporción muestral de niñas es 879>945 o 0.930. que es mayor que 0.5, como en la hipótesis alternativa anterior. Continuando con el procedimiento de la figura 13-1, observamos que el valor de n 5 945 es mayor que 25, por lo que el dato estadístico de prueba x 5 66 se convierte (usando una corrección para la continuidad) en el dato estadístico de prueba z de la siguiente manera: 1x + 0.52 - a n b 2 z = 2n 2 166 + 0.52 - a 945 b 2 = = - 26.41 2945 2 Valor P Podríamos usar el dato estadístico de prueba z 5 226.41 para encontrar el valor P de cola izquierda de 0.0000 (Tabla: 0.0001). Ese bajo valor de P nos hace rechazar la hipótesis nula. Valor crítico Con a 5 0.05 en una prueba de cola izquierda, el valor crítico es z 5 21.645. La figura 13-2 muestra que el dato estadístico de prueba z 5 226.41 está en la región crí- tica limitada por z 5 21.645, por lo que rechazamos la hipótesis nula de que la proporción de niñas es igual a 0.5. Hay suficiente evidencia muestral para respaldar la afirmación de que las niñas son más probables con el método XSORT. Rechazar No rechazar p 5 0.5 p 5 0.5 z 5 21.645 z50 Datos muestrales: z 5 –26.41 FIGURA 13-2 Prueba de efectividad del método de selección de género XSORT I N T E R P R E TA C I Ó N El método XSORT de selección de género parece estar asociado con un aumento en la probabilidad de una niña, por lo que este método parece ser efectivo (pero esta prueba de hipótesis no prueba que el método XSORT sea la causa de dicho aumento). SU TURNO Resuelva el ejercicio 9 “Encuesta de células madre”.

13-2 Prueba del signo 607 Afirmaciones sobre la mediana de una sola población El siguiente ejemplo ilustra el procedimiento para usar la prueba del signo al probar una afir- mación sobre la mediana de una sola población. Vea cómo los signos negativos y positivos se basan en el valor declarado de la mediana. EJEMPLO 4 Temperaturas corporales El conjunto de datos 3 “Temperaturas corporales” en el apéndice B incluye las temperatu- ras corporales medidas en adultos. Use las 106 temperaturas indicadas para las 12 AM del día 2 con la prueba del signo para probar la afirmación de que la mediana es menor a 98.6 °F. De los 106 sujetos, 68 tuvieron temperaturas por debajo de 98.6 °F, 23 por encima de 98.6 °F, y 15 iguales a 98.6 °F. SOLUCIÓN VERIFICACIÓN DE REQUISITOS El único requisito es que la muestra sea una muestra aleatoria simple. Según el diseño de este experimento, suponemos que los datos muestrales pertenecen a una muestra aleatoria simple. La afirmación de que la mediana es menor a 98.6 °F es la hipótesis alternativa, mien- tras que la hipótesis nula es la afirmación de que la mediana es igual a 98.6 °F. H0: La mediana es igual a 98.6 °F. (Mediana 5 98.6 °F) H1: La mediana es menor que 98.6 °F. (Mediana < 98.6 °F) De acuerdo con el procedimiento descrito en la figura 13-1, utilizamos un signo negativo para representar cada temperatura por debajo de 98.6 °F, y un signo positivo para cada temperatura superior a 98.6 °F. Descartamos los 15 valores de datos de 98.6, ya que dan como resultado diferencias iguales a cero. Tenemos 68 signos negativos y 23 signos positi- vos, por lo que n 5 91 y x 5 23 (el número de signos menos frecuentes). Los datos mues- trales no contradicen la hipótesis alternativa, porque la mayoría de las 91 temperaturas están por debajo de 98.6 °F. El valor de n es mayor que 25, por lo que convertimos el dato estadístico de prueba x en el dato estadístico de prueba z: 1 x + 0.52 - a n b z= 2 2n 2 123 + 0.52 - a 91 b = 2 = - 4.61 291 2 Valor P En esta prueba de cola izquierda, el dato estadístico de prueba z 5 24.61 arroja un valor P de 0.0000 (Tabla: 0.0001). Debido a que ese valor P es tan pequeño, rechaza- mos la hipótesis nula. Valor crítico En esta prueba de cola izquierda con a 5 0.05, use la tabla A-2 para obtener el valor crítico z de 21.645. En la figura 13-3 de la página siguiente vemos que el dato estadístico de prueba z 5 24.61 está dentro de la región crítica, por lo tanto, se rechaza la hipótesis nula. continúa

608 CAPÍTULO 13 Pruebas no paramétricas No rechazar Mediana 5 98.6° Rechazar Mediana 5 98.6° z 5 21.645 z50 Datos muestrales: z 5 24.61 FIGURA 13-3 Prueba de la afirmación de que la mediana es inferior a 98.6 °F I N T E R P R E TA C I Ó N Existe suficiente evidencia muestral para respaldar la afirmación de que la temperatura corporal media de los adultos sanos es menor a 98.6 °F. No es igual a 98.6 °F, como co- múnmente se cree. SU TURNO Resuelva el ejercicio 13 “Magnitudes de terremotos”. En el ejemplo 4, la prueba del signo de la afirmación de que la mediana está por debajo de 98.6 °F da como resultado un dato estadístico de prueba de z 5 24.61 y un valor P de 0.00000202. Sin embargo, una prueba paramétrica de la afirmación de que m < 98.6 °F da como resultado un dato estadístico de prueba t 5 26.611 con un valor P de 0.000000000813. Debido a que el valor P de la prueba del signo no es tan bajo como el valor P de la prueba paramétrica, vemos que la prueba del signo no es tan sensible como la prueba paramétrica. Ambas pruebas conducen al rechazo de la hipótesis nula, pero la prueba del signo no consi- dera que los datos muestrales sean tan extremos, en parte porque la prueba del signo usa sólo información sobre la dirección de los datos, sin tomar en cuenta las magnitudes de los valo- res de los datos. La siguiente sección presenta la prueba Wilcoxon de los rangos con signo, que en gran medida supera esta dificultad. Justificación del dato estadístico de prueba utilizado cuando n > 25 Cuando se encuentran valores críticos para la prueba del signo, utilizamos la tabla A-7 sólo para n hasta 25. Cuando n > 25, el dato estadístico de prueba z se basa en una aproximación normal a la distribución de probabilidad binomial con p 5 q 5 1>2. En la sección 6-6 vimos que la aproximación normal a la distribución binomial es aceptable cuando tanto np $ 5 como nq $ 5. En la sección 5-2 vimos que m 5 np y s 5 npq para distribuciones de probabilidad binomiales. Debido a que esta prueba del signo asume que p 5 q 5 1>2, cumplimos los re- quisitos previos np $ 5 y nq $ 5 siempre que n $ 10. Además, suponiendo que p 5 q 5 1>2, obtenemos m 5 np 5 n>2 y s 5 npq 5 n/4 5 n>2, por lo que la puntuación z estándar x-m z= s se convierte en x - a n b 2 z = 2n 2 Reemplazamos x por x 1 0.5 como una corrección para la continuidad. Es decir, los valo- res de x son discretos, pero como utilizamos una distribución de probabilidad continua, un

13-2 Prueba del signo 609 valor discreto como 10 está representado por el intervalo de 9.5 a 10.5. Como x representa el signo menos frecuente, actuamos de manera conservadora al referirnos sólo a x 1 0.5; obtenemos el dato estadístico de prueba z que se muestra a continuación y en el recuadro de elementos clave. 1x + 0.52 - anb 2 z = 2n 2 CENTRO DE TECNOLOGÍA Prueba del signo Acceda a los complementos tecnológicos, videos y conjuntos de datos en www.pearsonenespañol.com/triola Statdisk Minitab StatCrunch 1. Haga clic en Analysis en el Minitab requiere una sola columna de valores. StatCrunch puede probar la menú superior. afirmación de que una sola lista Pares relacionados: Ingrese una columna que de valores proviene de una po- 2. Seleccione Sign Test en el contenga las diferencias. blación con una mediana igual a menú desplegable. algún valor especificado. Datos nominales en dos categorías: Ingrese un 3. Número conocido de signos: 1 para cada valor de una categoría y 21 para 1. Haga clic en Stat en el menú Seleccione el número dado cada valor de la otra categoría. Ingrese 0 para superior. de signos, elija el formato el valor declarado de la mediana. para la afirmación, ingrese 2. Seleccione Nonparametrics el nivel de significancia y los Valores individuales que se probarán con en el menú desplegable y números de signos positivos la mediana declarada: Ingrese los valores Sign Test en el submenú. y negativos. muestrales en una sola columna. 3. Seleccione la columna que Pares de valores: Seleccione 1. Haga clic en Stat en el menú superior. contiene los datos a analizar. Given Pairs of Values, elija el formato para la afirmación, 2. Seleccione Nonparametrics en el menú des- 4. Seleccione Hypothesis test ingrese el nivel de signifi- plegable y elija 1-Sample Sign en el submenú. for median y para H0 ingrese cancia y seleccione las dos el valor de la mediana decla- columnas de datos a incluir. 3. En Variables, seleccione la columna que con- rada. Para HA seleccione el tiene los datos a analizar. formato deseado. 4. Haga clic en Evaluate. 4. Seleccione Test Median e ingrese el valor me- 5. Haga clic en Compute! diano declarado. 5. Elija el formato de la hipótesis alternativa. 6. Haga clic en OK. Calculadora TI-83/84 Plus La calculadora TI-83>84 Plus no tiene una función dedicada a la prueba del signo, pero la función binomcdf de la calculadora se puede usar para encontrar el valor P para una prueba del signo. 1. Presione 2ND y luego las teclas VARS para acceder al menú DISTR (distribuciones). 2. Seleccione binomcdf y haga clic en .ENTER 3. Ingrese los valores para los ensayos n, p y x para completar el comando binomcdf(n,p,x). Para los ensayos, ingrese la cantidad total de signos positivos y negativos. Para p ingrese 0.5. Para x introduzca el número de signos del tipo menos fre- cuente. 4. Presione ENTER . El resultado es la probabilidad de obtener x o menos ensayos. Duplique este valor para las pruebas de dos colas. SUGERENCIA: El resultado final es el valor P, por lo tanto, rechace la hipótesis nula si el valor P es menor o igual que el nivel de significancia. De lo contrario, no se puede rechazar la hipótesis nula.

610 CAPÍTULO 13 Pruebas no paramétricas CENTRO DE TECNOLOGÍA continuación Prueba del signo Acceda a los complementos tecnológicos, videos y conjuntos de datos en www.pearsonenespañol.com/triola Excel Complemento XLSTAT 1. Haga clic en la pestaña XLSTAT en la lista de opciones y luego haga clic en Nonparametric tests. 2. Seleccione Comparison of two samples del menú desplegable. 3. Ingrese el rango de datos para cada muestra en los recuadros de las muestras 1 y 2. Marque la casilla Columns labels si el rango de datos incluye etiquetas. 4. Seleccione Paired samples en el formato de datos. 5. Marque solamente la opción sign test. 6. Haga clic en la pestaña Options. 7. En Hipótesis Alternativa seleccione Sample 12 Sample 2 Þ D. Confirme que la diferencia hipotética (D) es 0. 8. Ingrese un nivel de significancia y marque la casilla de Exact p-value. 9. Haga clic en OK. Excel Excel no tiene una función dedicada a la prueba del signo, pero puede usarse para encontrar el valor P para una prueba del signo. 1. Haga clic en el botón Insert Function fx, seleccione la categoría Statistical, elija la función BINOM.DIST y haga clic en OK. 2. Para Number_s ingrese la cantidad de veces que aparece el signo menos frecuente. Para Trials ingrese la cantidad total de signos positivos y negativos. Para probability-s, ingrese 0.5. Para Cumulative, ingrese 1 para “Verdadero”. 3. Haga clic en OK. Se mostrará el valor P de una sola cola. Duplique este valor para pruebas de dos colas. SUGERENCIA: El resultado final es el valor P, por lo tanto, rechace la hipótesis nula si el valor P es menor o igual que el nivel de significancia. De lo contrario, no se puede rechazar la hipótesis nula. 13-2 Habilidades y conceptos básicos Conocimiento estadístico y pensamiento crítico 1. Prueba del signo para Novatos 15 La siguiente tabla lista algunos de los pesos (en kg) del con- junto de datos 6 “Novatos 15” del apéndice B. Esos pesos se midieron de estudiantes universitarios en septiembre y más tarde en abril de su primer año. Supongamos que planeamos usar la prueba del signo para probar la afirmación de que no hay diferencia entre los pesos de septiembre y los pesos de abril. ¿Qué requisitos deben cumplirse para esta prueba? ¿Existe algún requisito de que las poblaciones deban tener una distribución normal o cualquier otra distribución específica? ¿En qué sentido es esta prueba de signo una “prueba libre sin distribución”? Peso de septiembre (kg) 67 53 64 74 67 70 55 74 62 57 Peso de abril (kg) 66 52 68 77 67 71 60 82 65 58 2. Identificación de signos Para la prueba del signo descrita en el ejercicio 1, identifique el número de signos positivos, el número de signos negativos, el número de empates, el tamaño de muestra n que se usa para la prueba del signo y el valor del dato estadístico de prueba. 3. Contradicción de H1 Un paso importante en la realización de la prueba de signos es determinar si los datos muestrales contradicen la hipótesis alternativa H1. Para la prueba del signo descrita en el ejer- cicio 1, identifique la hipótesis nula y la hipótesis alternativa, y explique por qué los datos muestrales contradicen o no contradicen la hipótesis alternativa. 4. Eficiencia de la prueba del signo Consulte la tabla 13-2 en la página 600 e identifique la eficien- cia de la prueba del signo. ¿Qué nos dice ese valor sobre la prueba del signo?

13-2 Prueba del signo 611 Pares relacionados. En los ejercicios 5 a 8, use la prueba del signo para los datos que consisten en pares relacionados. 5. Citas rápidas: Atributos A continuación se listan calificaciones de “atributos” dadas por parejas que participaron en una sesión de citas rápidas. Cada calificación de atributo es la suma de las califi- caciones de cinco atributos (sinceridad, inteligencia, diversión, ambición, intereses compartidos). Las calificaciones listadas son del conjunto de datos 18 “Citas rápidas” en el apéndice B. Use un nivel de significancia de 0.05 para probar la afirmación de que existe una diferencia entre las calificaciones de atributos femeninos y las calificaciones de atributos masculinos. Calificación de hombre dada por mujer 29 38 36 37 30 34 35 23 43 Calificación de mujer dada por hombre 36 34 34 33 31 17 31 30 42 6. Citas rápidas: Atractivo A continuación se listan calificaciones de “atractivo” (1 5 nada atractivo, 10 5 extremadamente atractivo) dadas por parejas que participaron en una sesión de citas rápidas. Los valores listados pertenecen al conjunto de datos 18 “Citas rápidas”. Use un nivel de significancia de 0.05 para probar la afirmación de que existe una diferencia entre las calificaciones de atractivo femenino y las calificaciones de atractivo masculino. Calificación de hombre dada por mujer 4 8 7 7 6 8 6 4 2 5 9.5 7 Calificación de mujer dada por hombre 6879575468 6 5 7. Citas rápidas: Atributos Repita el ejercicio 5 usando todas las calificaciones de atributos en el conjunto de datos 18 “Citas rápidas” del apéndice B. 8. Citas rápidas: Atractivo Repita el ejercicio 6 utilizando todas las calificaciones de atractivo en el conjunto de datos 18 “Citas rápidas” del apéndice B. Datos nominales. En los ejercicios 9 a 12, use la prueba del signo para la afirmación que involu- cra datos nominales. 9. Encuesta de células madre Newsweek realizó una encuesta en la que se les preguntó a los encuesta- dos si “están a favor o en contra de utilizar dinero de los impuestos federales para financiar la investigación médica utilizando células madre obtenidas de embriones humanos”. De los encuestados, 481 estuvieron a favor, 401 se opusieron y 120 no estaban seguros. Use un nivel de significancia de 0.01 para probar la afirmación de que no hay diferencia entre las proporciones de quienes están a favor y en contra. 10. Negligencia médica En un estudio de 1228 demandas por negligencia médica seleccionadas al azar, se descubrió que 856 de ellas fueron canceladas o descartadas (según los datos de Physicians Insurers Association of America). Use un nivel de significancia de 0.01 para probar la afirmación de que existe una diferencia entre la tasa de demandas por negligencia médica que van a juicio y la tasa de dichas demandas que se cancelan o descartan. 11. Nacimientos Una muestra aleatoria de 860 nacimientos en el estado de Nueva York incluyó 426 niños y 434 niñas. Use un nivel de significancia de 0.05 para evaluar la afirmación de que al nacer los bebés, los niños y las niñas son igualmente probables. 12. Regla del tiempo extra en el fútbol americano Antes de que la regla del tiempo extra en la Liga Nacional de Fútbol americano se cambiara en 2011, entre 460 juegos con tiempo extra, 252 fueron ganados por el equipo que ganó el lanzamiento de la moneda al comienzo del tiempo extra. Usando un nivel de significancia de 0.05, pruebe la afirmación de que el lanzamiento de la moneda es justo en el sentido de que ninguno de los equipos tiene una ventaja al ganarlo. ¿El lanzamiento de la moneda parece ser justo? Conjuntos de datos del apéndice B. En los ejercicios 13 a 16, consulte el conjunto de datos indicado en el apéndice B y use la prueba del signo para la afirmación sobre la mediana de una población. 13. Magnitudes de terremotos Consulte en el conjunto de datos 21 “Terremotos” del apéndice B las magnitudes de terremotos. Use un nivel de significancia de 0.01 para probar la afirmación de que la mediana es igual a 2.00. 14. Profundidades de terremotos Consulte en el conjunto de datos 21 “Terremotos” del apéndice B las profundidades de terremotos (km). Use un nivel de significancia de 0.01 para probar la afirmación de que la mediana es igual a 5.0 km.

612 CAPÍTULO 13 Pruebas no paramétricas 15. Prueba del peso mediano de monedas de ¢25 Consulte en el conjunto de datos 29 “Pesos de monedas” del apéndice B los pesos (g) de monedas de ¢25 seleccionadas al azar, que se acuñaron después de 1964. Se supone que las monedas de esta denominación tienen un peso mediano de 5.670 g. Use un nivel de significancia de 0.01 para probar la afirmación de que la mediana es igual a 5.670 g. ¿Las monedas de ¢25 parecen estar acuñadas de acuerdo con las especificaciones? 16. Old Faithful Consulte en el conjunto de datos 23 “Old Faithful” del apéndice B los intervalos de tiempo antes de las erupciones del géiser Old Faithful. Use un nivel de significancia de 0.05 para probar la afirmación de que esos tiempos pertenecen a una población con una mediana de 90 minutos. 13-2 Más allá de lo básico 17. Procedimientos para manejar empates En el procedimiento de la prueba del signo descrito en esta sección, excluimos los empates (representados por 0 en lugar de un signo de 1 o 2). Un segundo método es tratar la mitad de los 0 como signos positivos y la mitad como signos negativos. (Si el nú- mero de ceros es impar, excluya uno para que se puedan dividir por igual). Con un tercer método, en las pruebas de dos colas, la mitad de los ceros es positiva y la mitad negativa; en las pruebas de una cola, todos los ceros son positivos o negativos, lo que sea que apoye la hipótesis nula. Repita el ejemplo 4 “Temperaturas corporales” usando el segundo y el tercer métodos para manejar los empates. ¿Los diferen- tes métodos conducen a estadísticos de prueba, valores P y conclusiones muy distintos? 18. Determinación de valores críticos En la tabla A-7 se listan los valores críticos para opciones limitadas de a. Use la tabla A-1 para agregar una nueva columna en la tabla A-7 (de n 5 1 a n 5 8) que represente un nivel de significancia de 0.03 en una cola o 0.06 en dos colas. Para cualquier n particular, use p 5 0.5, porque la prueba del signo requiere la suposición de que P(signo positivo) 5 P(signo negativo) 5 0.5. La probabilidad de x o menos signos similares es la suma de las probabilidades para valores que incluyen x. Prueba de rangos con signo de Wilcoxon para datos 13-3 pareados Concepto clave En esta sección se presenta la prueba de rangos con signo de Wilcoxon, que inicia con la conversión de los datos muestrales en rangos. Esta prueba se puede usar para las dos aplicaciones que se describen en la siguiente definición. DEFINICIÓN La prueba de rangos con signo de Wilcoxon es una prueba no paramétrica que utiliza rangos para las siguientes aplicaciones: 1. Probar una afirmación de que una población de datos pareados tiene la propiedad de que los pares relacionados tienen diferencias con una mediana igual a cero 2. Probar una afirmación de que una sola población de valores individuales tiene una me- diana igual a algún valor declarado Cuando se prueba un valor declarado de una mediana para una población de valores indivi- duales, creamos datos pareados relacionando cada valor muestral con la mediana declarada, por lo que se usa el mismo procedimiento para las dos aplicaciones anteriores. Afirmaciones que involucran datos pareados La prueba del signo (sección 13-2) se puede usar con datos pareados, pero esta prueba sólo usa los signos de las diferencias. Al usar rangos en vez de signos, la prueba de rangos con signo de Wilcoxon tiene en cuenta las magnitudes de las diferencias, por lo que incluye y utiliza más información que la prueba del signo y, por lo tanto, tiende a arrojar conclusiones que reflejan de mejor manera la verdadera naturaleza de los datos.

13-3 Prueba de rangos con signo de Wilcoxon para datos pareados 613 ELEMENTOS CLAVE Prueba de rangos con signo de Wilcoxon Objetivo: Utilizar la prueba de rangos con signo de Wilcoxon para la siguiente prueba: • Datos pareados: Probar la afirmación de que una po- • Una población de valores individuales: Probar la afir- blación de datos pareados posee la propiedad de que los mación de que una población tiene una mediana igual a pares relacionados tienen diferencias con una mediana algún valor declarado. (Al emparejar cada valor muestral igual a cero. con la mediana declarada, trabajamos de nuevo con datos pareados). Notación T 5 la menor de las siguientes dos sumas: 1. La suma de los rangos positivos de las diferencias d dis- 2. El valor absoluto de la suma de los rangos negativos de tintas de cero. las diferencias d distintas de cero. (Los detalles para evaluar T se dan en el procedimiento que se describe después de este recuadro de elementos clave). Requisitos del primer valor en cada par, para una muestra de valores individuales, obtenga diferencias restando el valor de la 1. Los datos son una muestra aleatoria simple. mediana declarada de cada valor muestral). 2. La población de diferencias tiene una distribución que es Nota: No es obligatorio que los datos tengan una distribu- aproximadamente simétrica, lo que significa que la mitad ción normal izquierda de su histograma es más o menos una imagen especular de su mitad derecha. (Para una muestra de datos pareados, obtenga diferencias restando el segundo valor Dato estadístico de prueba Si n # 30, el dato estadístico de prueba es T. Si n > 30, el dato estadístico de prueba es z = n 1n + 12 T- 4 n 1n + 12 12n + 12 B 24 Valores P Con frecuencia los valores P son proporcionados por la tecnología, o se pueden encontrar usando el dato estadístico de prueba y la tabla A-2. Valores críticos 1. Si n # 30, el valor T crítico se encuentra en la tabla A-8. 2. Si n > 30, los valores z críticos se encuentran en la tabla A-2. El siguiente procedimiento requiere que usted ordene los datos y luego asigne rangos. Cuando se trabaja con conjuntos de datos más grandes, la ordenación y la clasificación se vuelven tediosas, pero se puede utilizar la tecnología para automatizar ese proceso. Los diagramas de tallo y hojas también pueden ser muy útiles en la clasificación de datos. Procedimiento de rangos con signo de Wilcoxon Para ver cómo se aplican los siguien- tes pasos, consulte la muestra de datos pareados que se listan en las dos primeras filas de la tabla 13-4 en la página siguiente. Suponga que queremos probar la hipótesis nula de que los datos pareados pertenecen a una población de pares relacionados con diferencias que tienen una mediana igual a cero.

614 CAPÍTULO 13 Pruebas no paramétricas TABLA 13-4 Edades de las mejores actrices y los mejores actores Mejor actriz 28 63 29 41 30 41 28 26 29 29 51 54 50 Mejor actor 62 52 41 39 49 41 44 225 225 221 7.5 7.5 6 d (diferencia) 234 111 212 12 219 0 216 27.5 27.5 26 Rango de [d] 9 2 3 1 53 4 Rango con signo 29 12 23 11 25 3 24 Procedimiento de los rangos con signo de Wilcoxon Paso 1: Para cada par de datos, encuentre la diferencia d restando el segundo valor del pri- mer valor. Deseche cualquier pareja que tenga una diferencia de 0. EJEMPLO: La tercera fila de la tabla 13-4 lista las diferencias encontradas res- tando las edades de los mejores actores de las edades de las mejores actrices, y la diferencia de 0 se ignorará en los siguientes pasos. Paso 2: No tome en cuenta los signos de las diferencias, luego ordene las diferencias de menor a mayor y reemplace las diferencias por el valor de rango correspondiente (como se describe en la sección 13-1). Cuando las diferencias tengan el mismo valor numérico, asígneles la media de los rangos involucrados en el empate. EJEMPLO: La cuarta fila de la tabla 13-4 muestra los rangos de los valores de |d|. Si se descarta la diferencia de 0, el valor más pequeño de |d| es 2, por lo que se le asigna el rango de 1. El siguiente valor más pequeño de |d| es 11, por lo que se le asigna un rango de 2, y así sucesivamente. (Empate: Hay dos valores |d| de 25, por lo que encontramos la media de los rangos de 7 y 8, que es 7.5. A cada uno de esos valores |d| se le asigna un rango de 7.5). Paso 3: Adjunte a cada rango el signo de la diferencia de la que proviene. Es decir, inserte los signos que se descartaron en el paso 2. EJEMPLO: La fila inferior de la tabla 13-4 lista los mismos rangos encontrados en la cuarta fila, pero se insertan los signos de las diferencias que se muestran en la tercera fila. Paso 4: Encuentre la suma de los rangos que son positivos. También encuentre el valor absoluto de la suma de los rangos negativos. EJEMPLO: La fila inferior de la tabla 13-4 lista los rangos con signo. La suma de los rangos positivos es 2 1 1 5 3. La suma de los rangos negativos es (29) 1 (23) 1 (25) 1 (24) 1 (27.5) 1 (27.5) 1 (26) 5 242 y el valor absoluto de esta suma es 42. Las dos sumas de rangos son 3 y 42. Paso 5: Sea T la menor de las dos sumas encontradas en el paso 4. Se puede usar cual- quiera de las dos, pero para un procedimiento simplificado seleccionamos arbitra- riamente la menor de las dos sumas. EJEMPLO: Los datos de la tabla 13-4 dan como resultado las sumas de rangos de 3 y 42, por lo que la menor de esas dos sumas es 3. Paso 6: Sea n la cantidad de pares de datos para los cuales la diferencia d no es 0. EJEMPLO: Los datos en la tabla 13-4 tienen 9 diferencias que no son 0, entonces n 5 9. Paso 7: Determine el dato estadístico de prueba y los valores críticos según el tamaño de muestra, como se muestra en el recuadro de elementos clave anterior. EJEMPLO: Para los datos de la tabla 13-4, el dato estadístico de prueba es T 5 3. El tamaño de la muestra es n 5 9, por lo que el valor crítico se encuentra en la tabla A-8. Usando un nivel de significancia de 0.05 con una prueba de dos colas, el valor crítico obtenido en la tabla A-8 es 6.

13-3 Prueba de rangos con signo de Wilcoxon para datos pareados 615 Paso 8: Como conclusión, rechace la hipótesis nula si los datos muestrales conducen a un dato estadístico de prueba que se encuentra en la región crítica; es decir, el dato estadístico de prueba es menor o igual que el valor o los valores críticos. De lo contrario, no se puede rechazar la hipótesis nula. EJEMPLO: Si el dato estadístico de prueba es T (en lugar de z), rechace la hipóte- sis nula si T es menor o igual que el valor crítico. No puede rechazar la hipótesis nula si T es mayor que el valor crítico. Para la muestra de datos pareados en las dos primeras filas de la tabla 13-4, T 5 3 y el valor crítico es 6, rechazamos la hi- pótesis nula de que los datos pareados son de una población de pares relacionados con diferencias que tienen una mediana igual a cero EJEMPLO 1 Edades de las mejores actrices y los mejores actores Las primeras dos filas de la tabla 13-4 incluyen las edades de las mejores actrices y de los mejores actores (del conjunto de datos 14 “Edades de ganadores del Oscar” en el apéndice B). Los datos se relacionan de acuerdo con el año en que se ganaron los premios. Use los datos muestrales en las primeras dos filas de la tabla 13-4 para probar la afirmación de que no hay diferencia entre las edades de las mejores actrices y los mejores actores. Utilice la prueba de rangos con signo de Wilcoxon con un nivel de significancia de 0.05. SOLUCIÓN VERIFICACIÓN DE REQUISITOS (1) Los datos son una muestra aleatoria simple. (2) En la pantalla adjunta se muestra el histograma de las diferencias en la tercera fila de la tabla 13-4. El lado izquierdo de la gráfica debe ser aproximadamente una imagen especular del lado derecho, que no parece ser el caso. Pero con sólo 10 diferencias, la discrepancia entre los lados izquierdo y derecho no es demasiado extrema, por lo que consideraremos que este requisito se cumple. Frecuencia Diferencia La hipótesis nula es la afirmación de que no hay diferencia entre las edades de las mejores actrices y los mejores actores, y la hipótesis alternativa es la afirmación de que existe una diferencia. H0: No hay diferencia. (La mediana de las diferencias es igual a 0). H1: Hay una diferencia. (La mediana de las diferencias no es igual a 0). Dato estadístico de prueba Debido a que estamos utilizando la prueba de rangos con signo de Wilcoxon, el dato estadístico de prueba se calcula utilizando el procedimiento de ocho pasos presentado anteriormente en esta sección. Tales pasos incluyen ejemplos que ilustran el cálculo del dato estadístico de prueba con los datos muestrales de la tabla 13-4, y el resultado es el dato estadístico de prueba de T 5 3. Valor crítico El tamaño de muestra es n 5 9, por lo que el valor crítico se encuentra en la tabla A-8. Utilizando un nivel de significancia de 0.05 con una prueba de dos colas, se encuentra que el valor crítico en la tabla A-8 es 6. continúa

616 CAPÍTULO 13 Pruebas no paramétricas Conclusión La tabla A-8 incluye una nota que establece que debemos rechazar la hipó- tesis nula si el dato estadístico de prueba T es menor o igual que el valor crítico. Como el dato estadístico de prueba de T 5 3 es menor o igual que el valor crítico de 6, rechazamos la hipótesis nula. I N T E R P R E TA C I Ó N Concluimos que parece haber una diferencia entre las edades de las mejores actrices y los mejores actores. SU TURNO Resuelva el ejercicio 5 “Citas rápidas: atributos”. Afirmaciones sobre la mediana de una sola población La prueba de rangos con signo de Wilcoxon también se puede usar para evaluar una afirma- ción de que una sola población tiene algún valor declarado de la mediana. Los procedimien- tos anteriores se pueden usar con un simple ajuste: Al probar una afirmación sobre la mediana de una sola población, cree datos pareados relacionando cada valor muestral con el valor declarado de la mediana. Se puede utilizar el procedimiento descrito anteriormente. Statdisk EJEMPLO 2 Temperaturas corporales El conjunto de datos 3 “Temperaturas corporales” en el apéndice B incluye temperaturas corporales medidas en adultos. Use las 106 temperaturas indicadas para las 12 AM del día 2 con la prueba de rangos con signo de Wilcoxon, para probar la afirmación de que la me- diana es menor a 98.6 °F. Use un nivel de significancia de 0.05. SOLUCIÓN VERIFICACIÓN DE REQUISITOS (1) El diseño del experimento que condujo a los datos en el conjunto de datos 3 justifica el tratamiento de la muestra como una muestra aleatoria simple. (2) Se cumple el requisito de una distribución de las diferencias aproximadamente simétrica, porque un histograma de esas diferencias es aproximadamente simétrico. Al emparejar cada valor muestral individual con la mediana de 98.6 °F, estamos traba- jando con datos pareados. En el margen se muestra la pantalla de Statdisk que muestra el dato estadístico de prueba T 5 661, que se convierte en el dato estadístico de prueba z 5 25.67. (La pantalla es de una prueba de dos colas; para esta prueba de cola izquierda, el valor crítico es 21.645). El dato estadístico de prueba de z 5 25.67 arroja un valor P de 0.000, por lo que rechazamos la hipótesis nula de que la población de diferencias entre las temperaturas corporales y la mediana declarada de 98.6 °F es cero. Hay pruebas suficien- tes para respaldar la afirmación de que la temperatura corporal media es inferior a 98.6 °F. Esta es la misma conclusión obtenida a partir de la prueba del signo en el ejemplo 4 de la sección 13-2. SU TURNO Resuelva el ejercicio 9 “Magnitudes de terremoto”. Justificación: En el ejemplo 1, los rangos sin signo de 1 a 9 tienen un total de 45, por lo que si no hay diferencias significativas, cada uno de los dos totales de los rangos con signo debe ser de alrededor de 45 ÷ 2 o 22.5. Es decir, los rangos negativos y los rangos positivos deberían dividirse como 22.5-22.5 o algo cercano, por ejemplo 24-21. La tabla A-8, de valo- res críticos, muestra que para el nivel de significancia de 0.05 con 9 pares de datos, el valor crítico es 6; por lo que una división de 6-39 representa una desviación significativa de la hipótesis nula, y cualquier división que esté más alejada también representará una desviación significativa de la hipótesis nula. Por el contrario, las divisiones como 7-38 no representan desviaciones significativas de una división 22.5-22.5, y no justificarían el rechazo de la hi-

13-3 Prueba de rangos con signo de Wilcoxon para datos pareados 617 pótesis nula. La prueba de rangos con signo de Wilcoxon se basa en el total de menor rango, por lo que en lugar de analizar los dos números que constituyen la división, consideramos sólo el número más bajo. La suma de todos los rangos 1 1 2 1 3 1 . . . 1 n es igual a n(n 1 1)>2. Si esta suma de rangos debe dividirse equitativamente entre dos categorías (positiva y negativa), cada uno de los dos totales debe estar cerca de n(n 1 1)>4, que es la mitad de n(n 1 1)>2. El reco- nocimiento de este principio nos ayuda a comprender el dato estadístico de prueba utilizado cuando n > 30. CENTRO DE TECNOLOGÍA Prueba de rangos con signo de Wilcoxon Acceda a los complementos tecnológicos, videos y conjuntos de datos en www.pearsonenespañol.com/triola Statdisk Minitab StatCrunch 1. Haga clic en Analysis en el 1. Cree una columna que integre las di- 1. Haga clic en Stat en el menú menú superior. ferencias entre los pares combinados. superior. Para hacer esto, ingrese los datos 2. Seleccione Wilcoxon Tests en pareados en las columnas C1 y C2, se- 2. Seleccione Nonparametrics el menú desplegable y Wilco- leccione Edit-Command Line Editor e en el menú desplegable y Wil- xon (Matched Pairs) en el sub- ingrese el comando Let C3 5 C1 2 C2. coxon Signed Ranks del sub- menú. menú. 2. Haga clic en Stat en el menú superior. 3. Ingrese un nivel de significancia 3. Elija Paired y seleccione las co- y seleccione las dos columnas 3. Seleccione Nonparametrics en el menú lumnas que contienen los datos de datos a incluir. desplegable y seleccione 1-Sample Wil- pareados que se analizarán. coxon en el submenú. 4. Haga clic en Evaluate. 4. Seleccione Hypothesis test 4. En Variables, seleccione la columna que for median y para H0 ingrese contiene las diferencias entre los pares 0 en el valor de la mediana de- relacionados (C3). clarada. Para HA seleccione el formato deseado. 5. Seleccione Test Median e ingrese el va- lor de la mediana 0. 5. Haz clic en Compute! 6. Elija el formato de la hipótesis alterna- tiva. 7. Haga clic en OK. Calculadora TI-83/84 Plus Excel Requiere los programas SRTEST y ZZRANK (disponibles en Complemento XLSTAT (requerido) www.pearsonenespañol.com>triola) 1. Haga clic en la pestaña XLSTAT en la cinta de op- 1. Cree una lista de diferencias entre los valores de los pares re- ciones y luego haga clic en Nonparametric tests. lacionados. Para hacer esto, ingrese los datos pareados en las listas L1 y L2 y almacene las diferencias en L3 ingresando L1 2. Seleccione Comparison of two samples del — L2 STO› L3. menú desplegable. 2. Presione PRGM , seleccione SRTEST y presione ENTER dos ve- 3. Ingrese el rango de datos para cada muestra en ces. los recuadros de las muestras 1 y 2. Marque la ca- silla de Column labels si el rango de datos incluye 3. Para DATA 5 ingrese el nombre de la lista que contiene las dife- etiquetas. rencias (L3) y presione .ENTER 4. Seleccione Paired samples bajo el formato de datos. 4. Se mostrará el tamaño de muestra (N), la suma de los rangos positivos (T1) y la suma de los rangos negativos (T2). Presione 5. Marque solamente la opción de Wilcoxon sig- ENTER para ver la media y la desviación estándar. Presione ned-rank test. ENTER nuevamente para ver la puntuación z. 6. Haga clic en la pestaña Options. 5. Si n # 30, obtenga el valor T crítico de la tabla A-8. Si n > 30, obtenga los valores z críticos de la tabla A-2. 7. En Hipótesis alternativa, seleccione el formato deseado. Confirme que la diferencia hipotética (D) SUGERENCIA: El nombre de lista L1 (y L2 ... L6) se puede ingresar es 0. rápidamente presionando 2ND 1 . 8. Ingrese un nivel de significancia y marque la casi- lla de Exact p-value. 9. Haga clic en OK.

618 CAPÍTULO 13 Pruebas no paramétricas 13-3 Habilidades y conceptos básicos Conocimiento estadístico y pensamiento crítico 1. Prueba de rangos con signo de Wilcoxon para temperaturas corporales La siguiente tabla muestra la temperatura corporal de siete sujetos a las 8 AM y a las 12 AM (del conjunto de datos 3 “Temperaturas corporales” en el apéndice B). Los datos son pareados porque cada par de temperaturas se mide de la misma persona. Use la prueba de rangos con signo de Wilcoxon para probar la afirmación de que no hay diferencia entre las temperaturas corporales de las 8 AM y las 12 AM. a. ¿Qué requisitos deben cumplirse para esta prueba? b. ¿Existe algún requisito de que las muestras deben ser de poblaciones que tienen una distribución normal o cualquier otra distribución específica? c. ¿En qué sentido es esta prueba del signo una “prueba sin distribución”? Temperatura (°F) a las 8 AM 98.0 97.6 97.2 98.0 97.0 98.0 98.2 Temperatura (°F) a las 12 AM 97.0 98.8 97.6 98.0 97.7 98.8 97.6 2. Temperaturas corporales Para los datos pareados que se listan en el ejercicio 1, identifique los siguientes componentes utilizados en la prueba de rangos con signo de Wilcoxon: a. Diferencias d b. Los rangos correspondientes a los valores distintos de cero de |d| c. Los rangos con signos d. La suma de los rangos positivos y la suma de los valores absolutos de los rangos negativos e. El valor del dato estadístico de prueba T f. El valor crítico de T (suponiendo un nivel de significancia de 0.05 en una prueba de ninguna diferen- cia entre las temperaturas corporales a las 8 AM y las 12 AM) 3. Prueba del signo contra Prueba de los rangos con signo de Wilcoxon Con base en los datos del ejercicio 1, podemos realizar pruebas para determinar la diferencia entre las temperaturas corporales a las 8 AM y a las 12 AM mediante la prueba del signo o la prueba de los rangos con signo de Wilcoxon. ¿En qué sentido la prueba de rangos con signo de Wilcoxon incorpora y usa más información que la prueba del signo? 4. Eficiencia de la prueba de rangos con signo de Wilcoxon Consulte la tabla 13-2 en la página 600 e identifique la eficiencia de la prueba de rangos con signo de Wilcoxon. ¿Qué nos dice ese valor sobre la prueba? Uso de la prueba de rangos con signo de Wilcoxon. En los ejercicios 5 a 8, consulte los datos muestrales para los ejercicios dados en la sección 13-2 de la página 611. Use la prueba de rangos con signo de Wilcoxon para probar la afirmación de que los pares relacionados tienen diferencias que provienen de una población con una mediana igual a cero. Use un nivel de significancia de 0.05. 5. Ejercicio 5 “Citas rápidas: atributos” 6. Ejercicio 6 “Citas rápidas: atractivo” 7. Ejercicio 7 “Citas rápidas: atributos” 8. Ejercicio 8 “Citas rápidas: atractivo” En los ejercicios 9 a 12, consulte los datos muestrales de los ejercicios dados en la sección 13-2 de la página 611. Use la prueba de rangos con signo de Wilcoxon para probar la afirmación sobre la mediana de una población. 9. Ejercicio 13 “Magnitudes de terremotos” 10. Ejercicio 14 “Profundidades de terremotos” 11. Ejercicio 15 “Prueba del peso de monedas de ¢25” 12. Ejercicio 16 “Old Faithful”

13-4 Prueba de la suma de rangos de Wilcoxon para dos muestras independientes 619 13-3 Más allá de lo básico 13. Suma de rangos El ejercicio 12 usa el conjunto de datos 23 “Old Faithful” del apéndice B y el tamaño de muestra es 250. a. Si tenemos muestras de datos pareados con 250 diferencias distintas de cero, ¿cuáles son los valores más pequeños y más grandes posibles de T? b. Si tenemos muestras de datos pareados con 250 diferencias distintas de cero, ¿cuál es el valor es- perado de T si la población consiste en datos pareados con diferencias que tienen una mediana de 0? c. Si tenemos datos muestrales pareados con 250 diferencias distintas de cero y la suma de los rangos positivos es 1234, encuentre el valor absoluto de la suma de los rangos negativos. d. Si tenemos datos muestrales pareados con n diferencias distintas de cero y una de las dos sumas de rangos es k, busque una expresión para la otra suma de rangos. Prueba de la suma de rangos de Wilcoxon para dos 13-4 muestras independientes Concepto clave En esta sección se describe la prueba de la suma de rangos de Wilcoxon, que usa rangos de valores de dos muestras independientes para probar la hipótesis nula de que las muestras provienen de poblaciones que tienen medianas iguales. La prueba de suma de rangos de Wilcoxon es equivalente a la prueba U de Mann-Whitney (vea el ejercicio 13), que se incluye en algunos libros de texto y tecnologías (como Minitab, StatCrunch y XLSTAT). Esta es la idea básica que subyace a la prueba de la suma de rangos de Wilcoxon: si se extraen dos muestras de poblaciones idénticas y los valores individuales se clasifican como una sola colección combinada de valores, los rangos alto y bajo deberían coincidir entre las dos muestras. Si los rangos bajos se encuentran predominantemente en una muestra y los ran- gos altos se encuentran predominantemente en la otra muestra, tenemos una indicación de que las dos poblaciones tienen medianas diferentes. A diferencia de las pruebas t paramétricas para dos muestras independientes de la sección 9-2, la prueba de la suma de rangos de Wilcoxon no requiere poblaciones distribuidas normal- mente y puede usarse con datos en el nivel ordinal de medición, como datos que constan de rangos. En la tabla 13-2 observamos que la prueba de la suma de rangos de Wilcoxon tiene una calificación de eficiencia de 0.95 cuando se compara con la prueba paramétrica. Como esta prueba tiene una calificación de eficiencia tan alta e implica cálculos más fáciles, a menudo se prefiere a la prueba t paramétrica, incluso cuando se cumple el requisito de normalidad. PRECAUCIÓN No confunda la prueba de la suma de rangos de Wilcoxon para dos muestras independientes con la prueba de rangos con signo de Wilcoxon para datos pa- reados. Use el mnemónico “Impuesto Sobre la Renta” para que ISR le recuerde “Indepen- diente: Suma de Rangos”. DEFINICIÓN La prueba de la suma de rangos de Wilcoxon es una prueba no paramétrica que utiliza rangos de los datos muestrales de dos poblaciones independientes para probar esta hi- pótesis nula: H0: Dos muestras independientes provienen de poblaciones con medianas iguales. (La hipótesis alternativa H1 puede ser cualquiera de las siguientes tres posibilidades: las dos poblaciones tienen diferentes medianas, o la primera población tiene una mediana mayor que la mediana de la segunda población, o la primera población tiene una me- diana menor que la mediana de la segunda población).

620 CAPÍTULO 13 Pruebas no paramétricas ELEMENTOS CLAVE Prueba de la suma de rangos de Wilcoxon Objetivo Usar la prueba de la suma de rangos de Wilcoxon con muestras de dos poblaciones independientes para las siguientes hipóte- sis nula y alternativa: H0: Las dos muestras provienen de poblaciones con medianas iguales. H1: La mediana de la primera población es diferente (o mayor que, o menor que) la mediana de la segunda población. Notación mR 5 media de los valores R muestrales que se espera cuando las dos poblaciones tienen medianas iguales n1 5 tamaño de la muestra 1 n2 5 tamaño de la muestra 2 sR 5 desviación estándar de los valores R muestrales que se R1 5 suma de los rangos para la muestra 1 espera cuando dos poblaciones tienen medianas iguales R2 5 suma de los rangos para la muestra 2 R 5 igual que R1 (suma de los rangos para la muestra 1) Requisitos Standard Probability and Statistics Tables and Formulae, publicado por CRC Press). 1. Hay dos muestras aleatorias simples independientes. 2. Cada una de las dos muestras tiene más de 10 valores. Nota: No existe un requisito de que las dos poblaciones ten- gan una distribución normal o cualquier otra distribución en (Para muestras con 10 o menos valores, existen tablas particular. especiales disponibles en libros de referencia, como CRC Dato estadístico de prueba z = R - mR sR donde mR = n11n1 + n2 + 12 y sR = n1n21n1 + n2 + 12 2 B 12 n1 5 tamaño de la muestra a partir de la cual se encuentra la suma de rangos R n2 5 tamaño de la otra muestra R 5 suma de los rangos de la muestra con tamaño n1 Valores P Los valores P se pueden encontrar utilizando la tecnología o mediante el dato estadístico de prueba z y la tabla A-2. Valores críticos Los valores críticos se pueden encontrar en la tabla A-2 (porque el dato estadístico de prueba se basa en la distribución normal). Procedimiento para encontrar el valor del dato estadístico de prueba Para ver cómo se aplican los siguientes pasos, consulte los datos muestrales listados en la tabla 13-5. Los datos provienen del conjunto de datos 17 “Evaluaciones de cursos” en el apéndice B. Paso 1: Combine temporalmente las dos muestras en una muestra grande, luego reemplace cada valor muestral con su rango. (El valor más bajo obtiene un rango de 1, el siguiente valor más bajo obtiene un rango de 2, y así sucesivamente. Si los valores

13-4 Prueba de la suma de rangos de Wilcoxon para dos muestras independientes 621 empatan, asígneles la media de los rangos implicados en el empate. Consulte la TABLA 13-5 sección 13-1 para obtener una descripción de los rangos y el procedimiento para Evaluaciones de cursos por manejar los empates). los estudiantes EJEMPLO: En la tabla 13-5, se muestran los rangos de las 27 evaluaciones de Profesora Profesor cursos por parte de los estudiantes entre paréntesis. El rango de 1 se asigna al va- lor muestral más bajo de 2.9, el rango de 2 se asigna al siguiente valor más bajo 4.3 (20.5) 4.5 (25.5) de 3.1, y el rango de 3 se asigna al siguiente valor más bajo de 3.3. El siguiente valor más bajo es 3.4, que ocurre cuatro veces, por lo que encontramos la media 4.3 (20.5) 3.7 (8) de los rangos de 4, 5, 6, 7, que es 5.5, y asignamos el rango de 5.5 a cada uno de esos cuatro valores empatados. 4.4 (23.5) 4.2 (17.5) 4.0 (13.5) 3.9 (11) 3.4 (5.5) 3.1 (2) 4.7 (27) 4.0 (13.5) Paso 2: Encuentre la suma de los rangos para cualquiera de las dos muestras. 2.9 (1) 3.8 (9.5) 4.0 (13.5) 3.4 (5.5) EJEMPLO: En la tabla 13-5, la suma de los rangos de la primera muestra es 4.3 (20.5) 4.5 (25.5) 159.5. (Es decir, R1 5 20.5 1 20.5 1 23.5 1 ... 1 3 5 159.5). 3.4 (5.5) 3.8 (9.5) Calcule el valor del dato estadístico de prueba z como se muestra en el recuadro Paso 3: 3.4 (5.5) 4.3 (20.5) de elementos clave anterior, donde cualquiera de las muestras se puede usar como 3.3 (3) 4.4 (23.5) “muestra 1”. (Si ambos tamaños de muestra son mayores que 10, entonces la dis- tribución muestral de R es aproximadamente normal con media mR y desviación 4.1 (16) estándar sR, y el dato estadístico de prueba es como se muestra en el recuadro de elementos clave anterior). 4.2 (17.5) 4.0 (13.5) EJEMPLO: Los cálculos de mR, sR y z se muestran en el ejemplo 1 que sigue a n1 = 12 n2 = 15 continuación. R1 = 159.5 R2 = 218.5 EJEMPLO 1 Calificaciones de evaluación de cursos para profesores y profesoras La tabla 13-5 lista las evaluaciones de los cursos impartidos por profesoras y profesores (del conjunto de datos 17 “Evaluaciones de cursos” en el apéndice B). Use un nivel de sig- nificancia de 0.05 para evaluar la afirmación de que los profesores de ambos sexos tienen la misma calificación mediana en la evaluación de sus cursos. SOLUCIÓN VERIFICACIÓN DE REQUISITOS (1) Los datos muestrales son dos muestras aleatorias simples e independientes. (2) Los tamaños de muestra son 12 y 15; por lo tanto, ambos ta- maños de muestra son mayores que 10. Se cumplen los requisitos. Las hipótesis nula y alternativa son las siguientes: H0: La mediana de las calificaciones en la evaluación de cursos impartidos por profesoras es igual a la mediana de las calificaciones en la evaluación de cursos impartidos por profesores. H1: La calificación mediana en la evaluación de cursos impartidos por profesoras es diferente de la calificación mediana en la evaluación de cursos impartidos por profesores. Clasifique la lista combinada de las 27 clasificaciones de cursos, comenzando con un rango de 1 (asignado al valor más bajo de 2.9). Los rangos correspondientes a los valores muestrales individuales se muestran entre paréntesis en la tabla 13-5. R expresa la suma de los rangos para la muestra elegida como muestra 1. Si elegimos las evaluaciones de los cursos de profesoras como muestra 1, obtenemos R 5 20.5 1 20.5 1 23.5 1 ... 1 3 5 159.5 Debido a que hay calificaciones en la evaluación de cursos para 12 profesoras, tenemos n1 5 12. Además, n2 5 15 porque hay calificaciones en la evaluación de cursos para 15 pro-

622 CAPÍTULO 13 Pruebas no paramétricas fesores. Ahora es posible encontrar los valores de mR, sR y el dato estadístico de prueba z de la siguiente manera. mR = n11n1 + n2 + 12 = 12112 + 15 + 12 = 168 2 2 sR = n1n21n1 + n2 + 12 = 1122 1152 112 + 15 + 12 = 20.4939 B 12 B 12 z = R - mR = 159.5 - 168 = - 0.41 sR 20.4939 La prueba tiene dos colas porque un gran valor positivo de z indicaría que se encuentran desproporcionadamente más rangos superiores en la Muestra 1, y un gran valor negativo de z indicaría que se encuentran desproporcionadamente más rangos inferiores en la mues- tra 1. En cualquier caso, tendríamos una fuerte evidencia en contra de la afirmación de que las dos muestras provienen de poblaciones con medianas iguales. La importancia del dato estadístico de prueba z se puede tratar como en capítulos an- teriores. Estamos probando (con a 5 0.05) la hipótesis de que las dos poblaciones tienen medianas iguales, por lo que tenemos una prueba de dos colas. Valor P Si se usa la puntuación z no redondeada, el valor P es 0.678, por lo que no pode- mos rechazar la hipótesis nula de que las poblaciones de profesoras y profesoras tienen la misma calificación mediana en la evaluación de sus cursos. Valores críticos Si usamos los valores críticos de z 5 61.96, vemos que el dato estadís- tico de prueba z 5 20.41 no cae dentro de la región crítica, por lo que no podemos re- chazar la hipótesis nula de que las poblaciones de profesoras y profesoras tienen la misma calificación mediana en la evaluación de sus cursos. I N T E R P R E TA C I Ó N No hay evidencia suficiente para justificar el rechazo de la afirmación de que las profeso- ras y los profesores tienen la misma calificación mediana en la evaluación de sus cursos. De acuerdo con los datos muestrales disponibles, parece que las profesoras y los profeso- res imparten cursos que son calificados de manera similar. SU TURNO Resuelva el ejercicio 5 “Profesores evaluados por sus alumnos”. En el ejemplo 1, si intercambiamos los dos conjuntos de valores muestrales y considera- mos que la evaluación del curso de los profesores es la primera muestra, entonces R 5 218.5, mR 5 210, sR 5 20.4939 y z 5 0.41, por lo que la conclusión es exactamente la misma. Statdisk EJEMPLO 2 Calificaciones en la evaluación de cursos para profesores y profesoras En el ejemplo 1 se usan 27 evaluaciones de cursos por parte de estudiantes, provenientes del conjunto de datos 17 “Evaluaciones de cursos” en el apéndice B. Repetir el ejemplo 1 usando las calificaciones en la evaluación de cursos para los 93 profesores del conjunto de datos 17 no sería muy divertido. Los tamaños de muestra más grandes fomentan el uso de la tecnología. Si utilizamos Statdisk para repetir el ejemplo 1 usando las calificaciones en las evaluaciones de cursos para los 93 profesores del conjunto de datos 17, obtenemos la pan- talla adjunta. Podemos ver que el dato estadístico de prueba es z 5 22.02 (redondeado). El dato estadístico de prueba no redondeado de z 5 22.0215 puede usarse para encontrar que el valor P en esta prueba de dos colas es 0.043. Además, el dato estadístico de prueba cae en la región crítica limitada por los valores críticos de 21.96 y 1.96. Rechazamos la hipótesis nula de las medianas iguales. Con base en la muestra más amplia de 93 docentes, parece que las profesoras y los profesores tienen calificaciones medianas diferentes en la evaluación de sus cursos. SU TURNO Resuelva el ejercicio 9 “Profesores evaluados por sus alumnos”.

13-4 Prueba de la suma de rangos de Wilcoxon para dos muestras independientes 623 CENTRO DE TECNOLOGÍA Prueba de la suma de rangos de Wilcoxon Acceda a los complementos tecnológicos, videos y conjuntos de datos en www.pearsonenespañol.com/triola Statdisk Minitab StatCrunch 1. Haga clic en Analysis en el 1. Ingrese los dos conjuntos de datos muestrales 1. Haga clic en Stat en el menú menú superior en las columnas C1 y C2. superior. 2. Seleccione de Wilcoxon Tests 2. Haga clic en Stat en el menú superior. 2. Seleccione Nonparametrics en el menú desplegable y en el menú desplegable y Wilcoxon (Independent 3. Seleccione Nonparametrics en el menú des- Mann-Whitney en el submenú. Samples) en el submenú. plegable y elija Mann-Whitney en el submenú. 3. Seleccione las columnas que 3. Ingrese un nivel de signifi- 4. Para la primera muestra, seleccione se utilizarán para las dos cancia y seleccione las dos C1 y para la segunda muestra, muestras. columnas de datos a incluir. seleccione C2. 4. Seleccione Hypothesis test 4. Haga clic en Evaluate. 5. Ingrese el nivel de confianza (95.0 corres- for m1-m2 y para H0 ingrese ponde a un nivel de significancia de a 5 0.05). el valor de la diferencia decla- rada. Para HA seleccione el 6. En la alternativa, elija el formato de la hipótesis formato deseado. alternativa (no igual corresponde a una prueba de hipótesis de dos colas). 5. Haga clic en Compute! 7. Haga clic en OK. Calculadora TI-83/84 Plus Excel Requiere los programas RSTEST y ZZRANK (disponibles Complemento XLSTAT (requerido) en www.pearsonenespañol.com/triola) 1. Haga clic en la pestaña XLSTAT en la cinta de opciones y 1. Ingrese los dos conjuntos de datos muestrales en la luego haga clic en Nonparametric tests. lista L1 y L2. 2. Seleccione Comparison of two samples del menú desple- 2. Presione PRGM , seleccione RSTEST y presione ENTER gable. dos veces. 3. Ingrese el rango de datos para cada muestra en los cua- 3. Para GROUP A 5 ingrese L1 y presione ENTER . Para dros de Muestra 1 y 2. Marque la casilla de GROUP B 5 ingrese L2 y presione .ENTER Column labels si el rango de datos incluye etiquetas. 4. Seleccione One column per sample en el formato de datos. 4. La suma de rangos R, la media, la desviación estándar y 5. Marque solamente la opción de Mann-Whitney test. el dato estadístico de prueba z se calcularán en función 6. Haga clic en la pestaña Options. de la muestra con el menor número de valores. Presione 7. En la hipótesis alternativa seleccione Sample 1 2 Sample ENTER nuevamente para obtener el dato estadístico de 2 Þ D. Confirme que la diferencia hipotética (D) es 0. prueba z. Encuentre el valor crítico consultando la tabla 8. Ingrese un nivel de significancia y marque la casilla del A-2 o usando la función normalcdf como se describe en Exact p-value. el Centro de tecnología de la sección 6-1. 9. Haga clic en OK. SUGERENCIA: El nombre de lista L1 (y L2 ... L6) se puede ingre- SUGERENCIA: Dado que XLSTAT utiliza un procedimiento diferente sar rápidamente presionando 2ND 1 al descrito en esta sección, los resultados pueden ser algo diferentes, especialmente para muestras pequeñas. 13-4 Habilidades y conceptos básicos Conocimiento estadístico y pensamiento crítico 1. Profesores evaluados por sus alumnos El ejemplo 1 en esta sección utilizó ejemplos de eva- luaciones de cursos, y la siguiente tabla lista evaluaciones de estudiantes a sus profesoras y profesores (del conjunto de datos 17 “Evaluaciones de cursos” en el apéndice B). ¿Se cumplen los requisitos para usar la prueba de la suma de rangos de Wilcoxon? ¿Por qué sí o por qué no? Profesora 3.9 3.4 3.7 4.1 3.7 3.5 4.4 3.4 4.8 4.1 2.3 4.2 3.6 4.4 Profesor 3.8 3.4 4.9 4.1 3.2 4.2 3.9 4.9 4.7 4.4 4.3 4.1

624 CAPÍTULO 13 Pruebas no paramétricas 2. Suma de rangos Después de clasificar la lista combinada de evaluaciones a profesores que se dieron en el ejercicio 1, encuentre la suma de los rangos para las profesoras. 3. ¿Qué estamos probando? Consulte los datos muestrales del ejercicio 1. Suponiendo que usamos la prueba de la suma de rangos de Wilcoxon con esos datos, identifique la hipótesis nula y todas las posibles hipótesis alternativas. 4. Eficiencia Consulte la tabla 13-2 en la página 600 e identifique la eficiencia de la prueba de la suma de rangos de Wilcoxon. ¿Qué nos dice ese valor sobre la prueba? Prueba de la suma de rangos de Wilcoxon. En los ejercicios 5 a 8, use la prueba de la suma de rangos de Wilcoxon. 5. Profesores evaluados por sus alumnos Use los datos muestrales dados en el ejercicio 1 y prue- be la afirmación de que las calificaciones en la evaluación de las profesoras tienen la misma mediana que las calificaciones en la evaluación de los profesores. Use un nivel de significancia de 0.05. 6. Radiación en dientes de leche A continuación se listan las cantidades de estroncio-90 (en milibeque- lios, o mBq, por gramo de calcio) en una muestra aleatoria simple de dientes de leche obtenida de residentes de Pensilvania y residentes de Nueva York nacidos después de 1979 (según datos de “An Unexpected Rise in Strontium-90 in U.S. Deciduous Teeth in the 1990s”, de Mangano et al., Science of the Total Environ- ment). Use un nivel de significancia de 0.05 para evaluar la afirmación de que la cantidad mediana de estroncio 90 en los residentes de Pensilvania es la misma que la mediana de los residentes de Nueva York. Pensilvania 155 142 149 130 151 163 151 142 156 133 138 161 Nueva York 133 140 142 131 134 129 128 140 140 140 137 143 7. Ensayos clínicos con Lipitor Los siguientes datos muestrales son cambios en los niveles de colesterol LDL en ensayos clínicos con Lipitor (atorvastatina). Se afirmó que Lipitor tenía un efecto sobre el colesterol LDL. (Los datos se basan en los resultados proporcionados en un memorando de Parke-Davis por David G. Orloff, MD, el líder del equipo médico que realizó los ensayos clínicos con Lipitor. Pfizer se negó a proporcionar los valores de los datos originales al autor). Los valores negativos representan disminuciones en colesterol LDL. Use un nivel de significancia de 0.05 para probar la afir- mación de que, para aquellas personas tratadas con 20 mg de Lipitor y las tratadas con 80 mg de Lipitor, los cambios en el colesterol LDL tienen la misma mediana. ¿Qué sugieren los resultados? Grupo tratado con 20 mg de Lipitor: 228 232 229 239 231 235 225 236 235 226 229 234 230 Grupo tratado con 80 mg de Lipitor: 242 241 238 242 241 241 240 244 232 237 241 237 234 231 8. Bloqueo en exámenes En un estudio realizado con estudiantes que se bloquearon durante exáme- nes, se estudió la disposición de las preguntas del examen por su efecto sobre la ansiedad. Los siguien- tes puntajes son medidas de una “prueba de ansiedad debilitante” (según datos de “Item Arrangement, Cognitive Entry Characteristics, Sex and Test Anxiety as Predictors of Achievement in Examination Performance”, de Klimko, Journal of Experimental Education, vol. 52, núm. 4). ¿Hay suficiente evi- dencia para respaldar la afirmación de que las dos muestras provienen de poblaciones con diferentes medianas? ¿Hay suficiente evidencia para respaldar la afirmación de que la disposición de las preguntas de examen tiene un efecto en la puntuación? Use un nivel de significancia de 0.01. Preguntas ordenadas de fácil a difícil Preguntas ordenadas de difícil a fácil 24.64 39.29 16.32 32.83 28.02 33.31 20.60 21.13 26.69 28.90 33.62 34.02 26.63 30.26 26.43 24.23 7.10 32.86 21.06 28.89 28.71 31.73 30.02 21.96 35.91 26.68 29.49 35.32 25.49 38.81 27.85 30.29 30.72 27.24 32.34 29.34 33.53 27.62 42.91 30.20 32.54 Conjuntos de datos del apéndice B. En los ejercicios 9 a 12, consulte el conjunto de datos indicado en el apéndice B y use la prueba de la suma de rangos de Wilcoxon. 9. Profesores evaluados por sus alumnos Repita el ejercicio 5 “Profesores evaluados por sus alumnos” utilizando todas las evaluaciones de los alumnos a sus profesores listadas en el conjunto de datos 17 “Evaluaciones de cursos” en el apéndice B.

13-4 Prueba de la suma de rangos de Wilcoxon para dos muestras independientes 625 10. ¿Los hombres hablan tanto como las mujeres? Consulte el conjunto de datos 24 “Las pala- bras cuentan” en el apéndice B y use los conteos de palabras medidos en hombres de la tercera columna y los conteos de palabras medidas en mujeres de la cuarta columna. Use un nivel de significancia de 0.01 para probar la afirmación de que, contrario a un mito popular, la mediana de las cantidades de pa- labras que pronuncian los hombres en un día es la misma que la mediana de las cantidades de palabras que pronuncian las mujeres diariamente. 11. IQ y exposición al plomo El conjunto de datos 7 “IQ y plomo” en el apéndice B lista las pun- tuaciones de IQ completas para una muestra aleatoria de sujetos con niveles de plomo “medio” en su sangre y otra muestra aleatoria de sujetos con niveles de plomo “altos” en su sangre. Use un nivel de significancia de 0.05 para probar la afirmación de que los sujetos con niveles de plomo medios tienen una mediana más alta de sus puntuaciones de IQ completas que los sujetos con niveles altos de plomo. ¿Parece que el nivel de plomo afecta las puntuaciones de IQ completas? 12. IQ y exposición al plomo El conjunto de datos 7 “IQ y plomo” en el apéndice B lista las pun- tuaciones de IQ del desempeño para una muestra aleatoria de sujetos con bajos niveles de plomo en la sangre y otra muestra aleatoria de sujetos con altos niveles de plomo en la sangre. Use un nivel de significancia de 0.05 para probar la afirmación de que los sujetos con bajos niveles de plomo tienen una mediana más alta de sus puntuaciones de IQ del desempeño que aquellos con niveles altos de plomo. ¿La exposición al plomo parece tener un efecto adverso? 13-4 Más allá de lo básico 13. Uso de la prueba U de Mann-Whitney La prueba U de Mann-Whitney es equivalente a la prueba de la suma de rangos de Wilcoxon para muestras independientes, en el sentido de que ambas se aplican a las mismas situaciones y siempre conducen a las mismas conclusiones. En la prueba U de Mann-Whitney calculamos U - n1n2 z= 2 n1n21n1 + n2 + 12 B 12 donde U = n1n2 + n11n1 + 12 - R 2 y R es la suma de los rangos para la muestra 1. Use las calificaciones en la evaluación de cursos reali- zada por estudiantes de la tabla 13-5, página 621, para encontrar el dato estadístico de prueba para la prueba U de Mann-Whitney. Compare este valor con el dato estadístico de prueba encontrado mediante la prueba de la suma de rangos de Wilcoxon. 14. Determinación de valores críticos Supongamos que tenemos dos tratamientos (A y B) que pro- ducen resultados cuantitativos, y sólo tenemos dos observaciones para el tratamiento A y dos observa- ciones para el tratamiento B. No podemos usar la prueba de los rangos con signo de Wilcoxon expuesta en la presente sección, porque ninguno de los tamaños de muestra es mayor que 10. Rango Suma de rangos 12 3 para el tratamiento A AA B 4 B3 a. Complete la tabla adjunta listando las cinco filas correspondientes a los otros cinco resultados posi- bles e ingrese las sumas de rangos correspondientes para el tratamiento A. b. Liste los valores posibles de R y sus probabilidades correspondientes. (Suponga que las filas de la tabla del inciso (a) son igualmente probables). c. ¿Es posible, con un nivel de significancia de 0.10, rechazar la hipótesis nula de que no hay diferencia entre los tratamientos A y B? Explique.

626 CAPÍTULO 13 Pruebas no paramétricas 13-5 Prueba de Kruskal-Wallis para tres o más muestras Concepto clave En esta sección se describe la prueba de Kruskal-Wallis, que usa rangos de datos de tres o más muestras aleatorias simples e independientes para probar la hipótesis nula de que las muestras provienen de poblaciones con la misma mediana. En la sección 12-1 se describió el análisis de varianza (ANOVA) de un factor como un método para probar la hipótesis nula de que tres o más poblaciones tienen la misma media, pero el ANOVA requiere que todas las poblaciones involucradas tengan distribuciones nor- males. La prueba de Kruskal-Wallis para medianas iguales no tiene tal requisito, por lo que es una prueba sin distribución o no paramétrica. DEFINICIÓN La prueba de Kruskal-Wallis (también llamada prueba H) es una prueba no paramétrica que utiliza rangos de muestras aleatorias simples combinadas de tres o más poblaciones independientes para probar la hipótesis nula de que las poblaciones tienen la misma me- diana. (La hipótesis alternativa es la afirmación de que las poblaciones tienen medianas que no son todas iguales). Al aplicar la prueba de Kruskal-Wallis calculamos el dato estadístico de prueba H, el cual tiene una distribución que se puede aproximar por la distribución ji cuadrada siempre que cada muestra tenga al menos cinco observaciones. (Para realizar un repaso rápido de las ca- racterísticas clave de la distribución ji cuadrada, consulte la sección 7-3). El dato estadístico de prueba H mide la varianza de las sumas de rangos R1, R2, . . . , Rk de las diferentes muestras. Si los rangos se distribuyen de manera uniforme entre los grupos muestrales, entonces H debería ser un número relativamente pequeño. Si las muestras son muy diferentes, los rangos serán excesivamente bajos en algunos grupos y altos en otros, con el efecto neto de que H será grande. En consecuencia, sólo los valores grandes de H condu- cen al rechazo de la hipótesis nula de que las muestras provienen de poblaciones idénticas. Por lo tanto, la prueba de Kruskal-Wallis es una prueba de cola derecha. ELEMENTOS CLAVE Prueba de Kruskal-Wallis Objetivo Utilizar la prueba de Kruskal-Wallis con muestras aleatorias simples de tres o más poblaciones independientes para las si- guientes hipótesis nula y alternativa: H0: Las muestras provienen de poblaciones con la misma mediana. H1: Las muestras provienen de poblaciones con medianas que no son todas iguales. Notación Para la muestra 2, la suma de rangos es R2 y el número de observaciones es n2, y se usa una notación similar para las N 5 número total de observaciones en todas las muestras muestras restantes. combinadas k 5 número de muestras diferentes R1 5 suma de rangos para la muestra 1 n1 5 número de observaciones en la muestra 1

13-5 Prueba de Kruskal-Wallis para tres o más muestras 627 Requisitos CRC Standard Probability and Statistics Tables and Formulae publicadas por CRC Press). 1. Tenemos al menos tres muestras aleatorias simples e independientes. Nota: No existe un requisito de que las poblaciones tengan una distribución normal o cualquier otra distribución 2. Cada muestra tiene al menos cinco observaciones. particular. (Si las muestras tienen menos de cinco observaciones, consulte las tablas especiales de valores críticos, como Dato estadístico de prueba H = 12 12 a R12 + R22 + g + Rk2 b - 31N + 12 N 1N + n1 n2 nk Valores P Con frecuencia, los valores P se obtienen mediante el uso de la tecnología. Al usar el dato estadístico de prueba H y el número de grados de libertad (k 2 1), se puede emplear la tabla A-4 con el fin de encontrar un rango de valores para el valor P. Valores críticos 2. gl 5 k 2 1 (donde gl es el número de grados de libertad y k es la cantidad de muestras diferentes). 1. La prueba es de cola derecha y se pueden encontrar valo- res críticos a partir de la tecnología o de la distribución ji cuadrada en la tabla A-4. Procedimiento para encontrar el valor del dato estadístico de prueba H Para ver cómo se aplican los siguientes pasos, consulte los datos muestrales de la tabla 13-6 en la página siguiente. La tabla 13-6 incluye sólo algunos de los datos del Conjunto de datos 7 “IQ y plomo” en el apéndice B. Este conjunto de datos abreviado resulta más adecuado para ilustrar el método de la prueba de Kruskal-Wallis. Paso 1: Combine temporalmente todas las muestras en una muestra grande y asigne un rango a cada valor muestral. (Clasifique los valores de menor a mayor, y en caso de empates, asigne a cada observación la media de los rangos invo- lucrados). EJEMPLO: en la tabla 13-6, los números entre paréntesis son los rangos del conjunto combinado de datos. El rango de 1 se asigna al valor más bajo de 64, el rango de 2 se asigna al siguiente valor más bajo de 78, y así sucesivamente. En caso de empate, a cada uno de los valores empatados se le asigna la media de los rangos involucrados en el empate. Paso 2: Para cada muestra, encuentre la suma de los rangos y determine el tamaño de muestra. EJEMPLO: En la tabla 13-6, la suma de los rangos para la primera muestra es 86, la suma de los rangos para la segunda muestra es 50.5, y la suma de los rangos para la tercera muestra es 53.5. Paso 3: Calcule H usando los resultados del paso 2 y el dato estadístico de prueba y no- tación dados en el recuadro de elementos clave anterior. EJEMPLO: El dato estadístico de prueba se calculó en el ejemplo 1.

628 CAPÍTULO 13 Pruebas no paramétricas TABLA 13-6 Puntuaciones de IQ del desempeño (rangos entre paréntesis) Nivel bajo de plomo en la sangre Nivel medio de plomo en la sangre Nivel alto de plomo en la sangre 85 (6.5) 78 (2) 93 (10) 90 (8.5) 97 (12.5) 100 (15.5) 107 (18.5) 107 (18.5) 97 (12.5) 85 (6.5) 80 (4) 79 (3) 100 (15.5) 90 (8.5) 97 (12.5) 97 (12.5) 83 (5) 101 (17) 64 (1) n1 = 8 n2 = 6 n3 = 5 R1 = 86 R2 = 50.5 R3 = 53.5 EJEMPLO 1 Efecto del plomo en la puntuación del IQ En la tabla 13-6 se listan las puntuaciones de IQ del desempeño (no verbales) de muestras de sujetos con niveles de plomo en la sangre bajo, medio y alto (del conjunto de datos 7 “IQ y plomo” del apéndice B). Use un nivel de significancia de 0.05 para probar la afirma- ción de que las tres muestras de puntuaciones de IQ del desempeño provienen de poblacio- nes con medianas que son todas iguales. SOLUCIÓN VERIFICACIÓN DE REQUISITOS (1) Cada una de las tres muestras es una muestra inde- pendiente aleatoria simple. (2) Cada tamaño de muestra es de al menos 5. Se cumplen los requisitos. Las hipótesis nula y alternativa son: H0: La población de sujetos con baja exposición al plomo, la población con exposición media al plomo y la población con alta exposición al plomo tienen puntuaciones de IQ del desempeño con la misma mediana. H1: Las tres poblaciones de puntuaciones de IQ del desempeño tienen tres medianas que no son todas iguales. Dato estadístico de prueba Primero combine todos los datos muestrales y clasifíquelos, luego encuentre la suma de los rangos para cada categoría. En la tabla 13-6, los rangos se muestran entre paréntesis junto a los valores muestrales originales. Enseguida, encuentre el tamaño de muestra (n) y la suma de rangos (R) para cada muestra. Esos valores se presen- tan en la parte inferior de la tabla 13-6. Debido a que el número total de observaciones es 19, tenemos n 5 19. Ahora podemos evaluar el dato estadístico de prueba de la siguiente manera: H = 12 12 a R21 + R22 + g+ R2k b - 31N + 12 N1N + n1 n2 nk = 12 12 a 862 + 50.52 + 53.52 b - 3119 + 12 19119 + 8 6 5 = 0.694 Debido a que cada muestra tiene al menos cinco observaciones, la distribución de H es aproximadamente una distribución ji cuadrada con k 2 1 grados de libertad. El número de muestras es k 5 3, entonces tenemos 3 2 1 5 2 grados de libertad. Valor P Con H 5 0.694 y gl 5 2, la tabla A-4 muestra que el valor P es mayor que 0.10. Mediante el uso de tecnología, obtenemos el valor P 5 0.707. Debido a que el valor P es


Like this book? You can publish your book online for free in a few minutes!
Create your own flipbook