Apuntes de Estadística para Ingenierosin est expresiónD χ2α;N orresponde on quel vlor tl que Fχ2 χ2α;N = αD donde χ2 sigue un distriuiónχ cuadrado con N grados de libertad.NotaF
n intervlo de on(nz pr l desviión típi puede otenerse trivilmente omo l riz udrd del intervlo de on(nz pr l vrinzF Ejemplo. in el ejemplo donde onsidermos IHHH vlores simuldos de un N (0, 1) tenímos que x¯ = −0.0133 y s999 = 0.9813F or tntoD teniendo en uent que N (Xi − x¯)2 = 999 × s2999, i=1 el intervlo de on(nz pr l vrinz l WS 7 que proporion el teorem es 961.9867 961.9867 1.0885 × 103 , 913.3010 = (0.8838, 1.0533) . ysérvese que σ = 1 pertenee l intervlo de on(nz l WS 7Fuede que lguno de vosotros esté pensndo uál puede ser el interés de ls estimiones puntules yD soretodoD medinte intervlos de on(nz de l vrinzF rolemente todos tenemos muy lro qué es unmediD inluso un proporiónD pero quizá se nos espe l importni práti del onepto de vrinzFin este sentidoD hy que deir que en el ámito de l sngenierí l vrinz se utiliz muhísimo en lo quese onoe omo control de calidadF vos jponeses sonD en estoD los pioneros y quizá los mejores expertosF eellos se les triuye un prinipio ásio del ontrol de lidd en ulquier proeso ásio de produiónX lareducción de la varianza es la clave del éxito en la producciónFensemos en ulquier proeso de friión genérioF in él se trtrá de otener un produto sujeto unsespei(iones onretsF in emrgoD el error inherente ulquier proeso experimentl provoráX IF
n umento o un disminuión estruturles del produto on respeto un vlor ojetivoF isto podrí detetrse omo un sesgo en l medi de lo produido on respeto l vlor ojetivoF PF
ns diferenis más o menos importntes en los produtos resultntesD que podrín ser evluds medinte l vrinzFhe ess dos posiles prolemátisD l más omplejD sin dud es l segundF rolemente no es un grveprolem calibrar l máquin que produe pr que l medi se sitúe en el vlor ojetivoD pero será sin dudmás omplejo modi(rl pr que produz de form más homogéneD reduiendo sí l vrinzF7.3.4. Otros intervalos de conanzae pueden estleer intervlos de on(nz pr l difereni entre ls medis de dos vriles letorisDpr l difereni entre proporiones o pr el oiente de vrinzsD entre otros prámetros de interésFesimismoD se pueden otener intervlos de on(nz unilaterales pr ulquier de los prámetros que hemosmeniondoD es deirD intervlos otdos sólo un ldoD frente los intervlos bilaterales que hemos vistoquíFProf. Dr. Antonio José Sáez Castillo 147
Dpto de Estadística e I.O. Universidad de Jaénxo ostnteD no vmos detllrlos quíD unque su interpretión es nálog l de los intervlos de on(nzque hemos vistoF gulquier pquete de softwre estdístio puede filitr estos intervlos sin di(ultdF7.4. Resolución del ejemplo de los niveles de plomoeordemos que l prinipio del urso plnteámos un prolem que pree en un rtíulo pulido enJournal of Environmental Engineering en PHHPD tituldo vehte from vnd hisposed esidentil gonsEtrution steD en el que se present un estudio de l ontminión en sureros que ontienen desehos deonstruión y desperdiios de demoliionesF heímos llí que De un sitio de prueba se tomaron 42 muestrasde lixiado, de las cuales 26 contienen niveles detectables de plomo. Una ingeniera desea obtener a partir deesos datos una estimación de la probabilidad de que una muestra de un basurero contenga niveles detectablesde plomo. No obstante, es consciente de que esa estimación estará basada en esa muestra, que es de sólo 42datos, luego querrá también obtener una estimación del error que está cometiendo al hacer la estimación.Finalmente, se plantea si con la estimación y el error de ésta, podrá obtener un rango donde la verdade-ra probabilidad se encuentre con un alto nivel de conanza. ehor estmos en ondiiones de resolver esteprolemFin primer lugrD tenemos que otener un estimión de l proporión de muestrs @o proiliddA queontienen niveles detetles de plomoF remos visto que un estimdor insesgdo de mínim vrinzD quedemás oinide on el estimdor de máxim verosimilitudD de l proporión es l proporión muestrlF innuestro soD por tntoD podemos estimr l proporión en pˆ = 26 = 0.6190.F edemásD podemos estimr el 42error estándr de est estimión en s.e.(pˆ) = 0.6190(1−0.6190) = 0.0749 yD en ulquier soD deir que este 42error estndr será inferior √1 = 0.0771F in resumenD tenemos un estimión del TIFWH 7 on un error 2 42estndr inferior un UFUI 7For últimoD en funión de est estimión y de su error estndrD puede (rmr on un WS 7 de on(nzque el intervlo 0.6190 ∓ 1.96 × 0.0749 = (0.4722, 0.7658)ontendrá l verdder proporión de muestrs on niveles detetles de plomoF ist últim (rmiónpone de mni(esto que dr un intervlo de on(nz on un nivel de signi(ión eptlemente jo @S 7Aondue un intervlo muy mplioD lo que equivle deir que ún hy stnte inertidumre on respeto l proporión que estmos estimndoF or elloD deerímos reomendrle l ingenier que umente eltmño de l muestrF148 Prof. Dr. Antonio José Sáez Castillo
Capítulo 8Contrastes de hipótesis paramétricas v grn trgedi de l ieniX l destruión de un ell hipótesis por un ntiestétio onjunto de dtosF homs rF ruxleyF v istdísti puede pror todoD inluso l verddF xF woynihnResumen. in este pítulo explimos qué se entiende por ontrste de hipótesis estdísti y prendemos relizr ontrstes de este tipo prtir de dtosD referidos lgún prámetro polionl desonoidoFPalabras clave: ontrste de hipótesisD error tipo sD error tipo ssD estdístio de ontrsteD pEvlorD nivel designi(iónD nivel de on(nzF8.1. Introduccióngomo puntámos en l introduión del pítulo nteriorD ls llmds pruebas o contrastes de hipó-tesis se utilizn pr inferir deisiones que se re(eren un prámetro polionl sándose en muestrs del vrileF mos omenzr explir el funionmiento de un ontrste de hipótesis on un ejemploF Ejemplo. vos ientí(os reomiendn que pr prever el lentmiento glolD l onentrión de gses de efeto inverndero no dee exeder ls QSH prtes por millónF
n orgnizión de proteión del medio miente quiere determinr si el nivel medioD µD de gses de efeto inverndero en un región umple on ls puts requeridsD que estleen un límite máximo de QSH prtes por millónF r ello tomrá un muestr de mediiones diris de ire pr deidir si se super el límiteD es deirD si µ > 350 o noF or tntoD l orgnizión dese enontrr poyo pr l hipótesis µ > 350D llmd hipótesis alternativaD oteniendo prues en l muestr que indiquen que l hipótesis ontrriD µ = 350 @o µ ≤ 350AD llmd hipótesis nulaD es flsF hiho de otr formD l orgnizión v someter juiio l hipótesis nul µ ≤ 350F rtirá de su inocenciaD suponiendo que es iertD es deirD suponiendo queD en prinipioD no se supern los límites de IRW
Dpto de Estadística e I.O. Universidad de Jaénpreseni de gses de efeto invernderoD y sólo l rehzrá en fvor de H1 si hy prues evidentes enlos dtos de l muestr pr elloFv deisión de rehzr o no l hipótesis nul en fvor de l lterntiv deerá srse en l informiónque d l muestrD trvés de lgun medid soid ellD que se denomin estadístico de contrasteFor ejemploD si se tomn QH leturs de ire y l medi muestrl es muho myor que QSHD lo lógio serárehzr l hipótesis nul en fvor de µ > 350D pero si l medi muestrl es sólo ligermente myor queQSH o menor que QSHD no hrá prues su(ientes pr rehzr µ ≤ 350 en fvor de µ > 350Fv uestión lve es en qué momento se deide rehzr l hipótesis nul en fvor de l lterntivF innuestro ejemploD en qué momento podemos deir que l medi muestrl es su(ientemente myor queQSHF il onjunto de estos vlores del estdístio de ontrsteD que permiten rehzr µ = 350 en fvor deµ > 350 se onoe omo región de rechazoFe l luz de este ejemploD vmos trtr de de(nir de form generl los oneptos que mos de introduirF
n contraste de hipótesis es un prue que se s en los dtos de un muestr de un vrile letorimedinte l uál podemos rehzr un hipótesis sore un prámetro de l poliónD llmd hipótesisnula (H0)D en fvor de un hipótesis ontrriD llmd hipótesis alternativa (H1)Fv prue se s en un trnsformión de los dtos de l muestrD lo que se denomin estadístico decontrasteFe rehzrá l hipótesis nul en fvor de l lterntiv undo el vlor del estdístio de ontrste se sitúeen un determind regiónD llmd región de rechazoFv hipótesis H0 se suele expresr omo un igulddaD del tipo H0 : θ = θ0D donde θ es un prámetro de unpolión y θ0 es un vlor hipotétio pr ese prámetroF or su prteD H1 puede tener tener dos formsXH1 : θ > θ0, en uyo so se hl de contraste unilateral a la derecha o de una cola a la derecha o deun extremo a la derecha, o H1 : θ < θ0, en uyo so se hl de contraste unilateral a la izquierdao de una cola a la izquierda o de un extremo a la izquierda.H1 : θ = θ0, en uyo so se hl de contraste bilateral o de dos colas o de dos extremos. aDe todas formas, también es frecuente expresar H0 como negación exacta de H1, en cuyo caso sí puede ser una desigualdadno estricta. Matemáticamente no hay diferencias en estas dos posibilidades.
no de los spetos más importntes y que se suele prestr myor onfusión se re(ere qué hipótesisonsiderr omo H0 y uál omo H1F
n regl práti pr herlo orretmente puede ser l siguienteX IF i estmos intentndo pror un hipótesisD ést dee onsiderrse omo l hipótesis lterntivF PF or el ontrrioD si desemos desreditr un hipótesisD deemos inluir ést omo hipótesis nulF Ejemplo. r un determind edi(ión se exige que los tuos de gu tengn un resisteni medi l rupturD µD por enim de QH kg por entímetroF150 Prof. Dr. Antonio José Sáez Castillo
Apuntes de Estadística para Ingenieros gomo primer situiónD supongmos que un proveedor quiere filitr un nuevo tipo de tuo pr ser utilizdo en est edi(iónF vo que deerá her es poner trjr sus ingenierosD que deen relizr un prue pr deidir si esos tuos umplen on ls espei(iones requeridsF in ese soD deen proponer un ontrste que inluy omo hipótesis nul H0 : µ ≤ 30 frente l lterntiv H1 : µ > 30F i l relizr el ontrste de hipótesis se rehz H0 en fvor de H1D el tuo podrá ser utilizdoD pero si no se puede rehzr H0 en fvor de H1D no se tienen su(ientes grntís sore l lidd del tuo y no será utilizdoF gomo segund situiónD un proveedor llev suministrndo su tipo de tuo desde he ñosD sin que se hyn detetdoD en prinipioD prolems on ellosF in emrgoD un ingeniero que trj pr el goierno ontrolndo l lidd en ls edi(iones viene teniendo sospehs de que ese tipo de tuo no umple on ls exigenis requeridsF in ese soD si quiere pror su hipótesisD el ingeniero deerá onsiderr un ontrste de l hipótesis nul H0 : µ ≥ 30 frente H1 : µ < 30F hiho de otr formD sólo podrá ontrstr su hipótesis si enuentr dtos empírios que permitn rehzr es hipótesis nul en fvor de su lterntivD que demuestren on un lto nivel de (ilidd que el proveedor que est siendo eptdo hor no umple on los requisitosFhe hehoD es importntísimo que desde el prinipio tengmos lro qué tipo de deisiones puede proporioEnrnos un ontrste de hipótesisF eunque y ls hemos omentdoD vmos insistir en ellsF on ls dossiguientesX IF i el vlor del estdístio de ontrste pr los dtos de l muestr e en l región de rehzoD podremos (rmr con un determinado nivel de conanza que los dtos de l muestr permiten rehzr l hipótesis nul en fvor de l lterntivF PF i el vlor del estdístio de ontrste pr los dtos de l muestr no e en l región de rehzoD no podremos (rmr con el nivel de conanza exigido que los dtos de l muestr permiten rehzr l hipótesis nul en fvor de l lterntivFv lve rdi en que entendmos desde el prinipio que l hipótesis nul ree de on(nzF is sumidsólo omo punto de prtidD pero será ndond undo los dtos empírios muestren evidenis lrsen su ontr y fvor de l lterntivF v rg de l prue de hipótesis rdi siempre en l hipótesislterntivD que es l úni hipótesis en l que podremos grntizr un determindo nivel de on(nzF8.2. Errores en un contraste de hipótesisil ontrste de un hipótesis estdísti impliD por tntoD un tom de deisiónD fvor de H0 o en ontrde H0 y en fvor de H1F isto impli que podemos equivornos l tomr l deisión de dos formsFe llm error tipo I o falso negativo rehzr l hipótesis nul undo es iertD y su proilidd senot por αD llmdo nivel de signicaciónFe llm nivel de conanza l proilidd de eptr l hipótesis nul undo es iertD es deirD 1 − α.Prof. Dr. Antonio José Sáez Castillo 151
Dpto de Estadística e I.O. Universidad de Jaén Estado real H0 H1 Decisión en H0 heisión orret irror tipo ss el contraste H1 irror tipo s heisión orret gudro VFIX isquemtizión de los errorres tipo s y tipo ssFe llm error tipo II o falso positivo eptr l hipótesis nul undo es flsD y su proilidd senot por β.e llm potencia l proilidd de rehzr l hipótesis nul undo es flsD es deirD 1 − β.¾guál de los dos errores es más grvec rolemente eso depende de d ontrsteD pero en generlD lo quese pretende es otr el error tipo s y trtr de minimizr el error tipo ssD es deirD trtr de elegir ontrsteslo más potentes posiles grntizndo que l proilidd del error tipo s es inferior un determindo nivelFEjemplo.
n frinte de miniomputdors ree que puede vender ierto pquete de softwre másdel PH 7 de quienes omprn sus omputdorsF e seleionron l zr IH posiles omprdores de lomputdor y se les preguntó si estn interesdos en el pquete de softwreF he ests personsD Rindiron que pensn omprr el pqueteF ¾roporion est muestr su(ientes prues de que másdel PH 7 de los omprdores de l omputdor dquirirán el pquete de softwreci p es l verdder proporión de omprdores que dquirirán el pquete de softwreD ddo que desemosdemostrr p > 0.2D tenemos que H0 : p = 0.2 y H1 : p > 0.2Fe X : número de posiles omprdores de l muestrD en uyo soD X → B (10, p)F
tilizremos elvlor de X omo estdístio del ontrsteD rehzndo H0 si X es grndeFupongmos que estleemos omo región de rehzo x ≥ 4F in ese soD ddo que en l muestr x = 4Drehzrímos H0 en fvor de H1D llegndo l onlusión de que el frinte tiene rzónFeroD ¾uál es el nivel de on(nz de este ontrstec glulemos l proilidd de error tipo sF relloD en el gudro VFP pree l distriuión de proilidd del estdístio de ontrste que hemoselegidoD suponiendo que H0 es iertD y que deemos lulr α = P [ehzr H0|H0 es cierta] = P [X ≥ 4|p=0.2] = 0.08808 + 2.6424 × 10−2 + 5.505 × 10−3 + 7.8643 × 10−4 + 7.3728 × 10−5 + 4.096 × 10−6 + 1.024 × 10−7 = 0.12087,luego el nivel de on(nz del ontrste es del (1 − 0.12087) × 100 % = 87.913 %F v onlusión serí quea la luz de los datos podemos armar con un 87.913 % de conanza que p > 0.2F¾ si queremos un nivel de on(nz myorD es deirD un proilidd de error tipo s menorc heemosreduir l región de rehzoF i ponemos omo región de rehzo x ≥ 5D y no podremos rehzr H0 en152 Prof. Dr. Antonio José Sáez Castillo
Apuntes de Estadística para Ingenierosx P [X = x]H 10 0.200.810 = 0.10737 0 10 0.210.89I 1 = 0.26844 egión deP 10 0.220.88 = 0.30199 eptión 2 10 0.230.87Q 3 = 0.20133R 10 0.240.86 = 0.08808 4 10 0.250.85 2.6424 × 10−2S 5 =T 10 0.260.84 = 5.505 × 10−3 egiónU 106 0.270.83 = 7.8643 × 10−4 deV 170 0.280.82 = 7.3728 × 10−5 8 rehzoW 10 0.290.81 = 4.096 × 10−6 9 10 0.2100.80 1.024 × 10−7IH 10 =gudro VFPX punión ms del estdístio de ontrste suponiendo iert H0D es deirD suponiendo que p = 0.2Ffvor de H1, y que x = 4F edemásD hor α = 2.6424 × 10−2 + 5.505 × 10−3 + 7.864 3 × 10−4 + 7.3728 × 10−5 + 4.096 × 10−6 + 1.024 × 10−7 = 3.2793 × 10−2,luego el nivel de on(nz serí 1 − 3.2793 × 10−2 × 100 % = 96.721 %D y l onlusión serí que a laluz de los datos no podemos armar que p > 0.2 con un 96.721 % de conanza.il estudio de β es lgo más omplido y no lo ordremosF8.3. p-valor de un contraste de hipótesisristórimenteD l form más omún de tur en un ontrste de hipótesis ps por elegir un nivel designi(ión @joAD que determin un límite pr el error tipo s que estmos dispuestos sumirF ise nivelde signi(ión determin tod l región de rehzo yD exminndo si el vlor del estdístio e en ellDpodemos onluir si rehzmos o no l hipótesis nul en fvor de l lterntiv on el nivel de on(nzrequeridoFixisteD sin emrgoD otr form de tur que h tenido un uge enorme desde que ls omputdors se hnonvertido en un herrmient l lne de ulquierF fjo est form de turD lulremos el vlor delestdístio de ontrste y vlorremos ómo es de extremo este vlor jo l distriuión en el muestreo del hipótesis nulF i es más extremo que el nivel de signi(ión desedoD se rehzrá l hipótesis nul enfvor de l lterntivF ist medid de uán extremo es el vlor del estdístio se llm p-valorF8.3.1. Denición de p-valorhe form generlD supongmos que queremos ontrstr un hipótesis estdísti simple del tipo H0 : θ = θ0Dfrente lgun de ls lterntivs siguientesX H1 : θ = θ0, H1 : θ > θ0 o H1 : θ < θ0F upongmos demásProf. Dr. Antonio José Sáez Castillo 153
Dpto de Estadística e I.O. Universidad de Jaénque el ontrste se reliz medinte un estdístio que notremos SD y que el vlor del estdístio pr lmuestr es sFil p-valor soido l ontrste se de(ne omo el mínimo nivel de signi(ión on el que l hipótesis nulserí rehzd en fvor de l lterntivF Ejemplo. in el ijemplo VFP hemos visto ómo podemos rehzr l hipótesis nul on un 87.913 % de on(nzD pero no on un 96.721 %F hiho de otr formD podemos rehzr l hipótesis nul on un nivel de signi(ión del 12.087 %D pero no on un nivel de signi(ión del 3.279 %F isto impli que el pEvlor estrá justo entre estos dos últimos vloresFhdo que normlmente se elige omo nivel de signi(ión máximo α = 0.05D se tiene que l regl de deisiónen un ontrste on ese nivel de signi(iónD ddo el pEvlorD serí l siguienteXi p < 0.05D rehzmos H0 en fvor de H1 on más de un WS 7 de on(nzFi p ≥ 0.05D no podemos rehzr H0 en fvor de H1 on l menos un WS 7 de on(nzFin emrgoD est regl de deisiónD que es l más hitulD es demsido reduionist si no se proporionel vlor exto del pEvlorF v rzón es que no es lo mismo rehzr un hipótesis on al menos un WS 7 deon(nz si el pEvlor es HFHRW que si es HFHHIF ry que proporionr siempre el pEvlor de un ontrsteD yque eso permite d letor deidir por sí mismoFin resumenD el pEvlor permite utilizr ulquier otro nivel de signi(iónD y que si onsidermos un nivelde signi(ión αXi p < αD rehzmos H0 en fvor de H1 on más de un (1 − α) × % de on(nzFi p ≥ αD no podemos rehzr H0 en fvor de H1 on l menos un (1 − α) × % de on(nzFgomo onlusiónD siempre que hgmos un ontrste de hipótesisD deemos filitr el pEvlor soidoFgomo not (nl sore el onepto de pEvlorD es importnte señlr queD l ontrrio de lo que errónementese piens en demsids osionesD el pEvlor no es l proilidd de l hipótesis nulF wuh gente piensesto porque es ierto que undo el pEvlor es pequeño es undo se rehz l hipótesis nulF in emrgoDpr empezrD no tiene sentido plnternos l probabilidad de l hipótesis nulD y que éstD o es iertD o esflsX desde un perspetiv lási de l proiliddD se hl de l proilidd de un sueso porque vees ourre y vees noD pero en este so no podemos pensr síD y que l hipótesis nul o se d o no sedF in reliddD el pEvlor lo que d es un indiio de l ertidumre que tenemosD de l on(nz en que lhipótesis nul se verddD teniendo en uent los dtos de l muestrF ist interpretión tiene más que veron l interpretión sujetiv de l proilidd de l que hlmos l prinipio de ursoFry que deir queD en relión est interpretión sujetiv de l proiliddD existe un visión de listdístiD llmd istdísti fyesinD en l que el pEvlor sí puede entenderse omo l proiliddde l hipótesis nulD pero entendiendo que medimos l proilidd de l hipótesis nulD no porque puedourrir o no ourrir en funión del zrD sino porque tenemos inertidumre sore ellF154 Prof. Dr. Antonio José Sáez Castillo
Apuntes de Estadística para Ingenieros0.0 0.1 0.2 0.3 0.4 Región de aceptación 0.0 0.1 0.2 0.3 0.4 Región de aceptación α 1−α 1−α α −3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3pigur VFIX egiones de rehzo en ontrstes unilterles l izquierd y l derehF0.0 0.1 0.2 0.3 0.4 α2 Región de aceptación α2 1−α −3 −2 23 −1 0 1pigur VFPX egión de rehzo en un ontrste ilterlF8.3.2. Cálculo del p-valorr omprender ómo se lul el pEvlor de un ontrste es neesrio distinguir entre ontrstes unilterleso de un ol frente ontrstes ilterles o de dos olsFgomo y omentmosD los ontrstes del tipo H0 : θ = θ0D frente H1 : θ = θ0 son contrastes bilateraleso de dos colasD y que el rehzo de l hipótesis nul en fvor de l lterntiv puede produirse porque elestdístio de ontrste tom vlores muy ltos o muy josF or ontrD los ontrstes del tipo H0 : θ = θ0Dfrente H1 : θ > θ0 o H1 : θ < θ0 son contrastes unilaterales o de una colaD y que el rehzo de lhipótesis nul en fvor de l lterntiv puede produirse sólo si el estdístio de ontrste tom vlores muyltos @undo H1 : θ > θ0, llmdo contraste a la derechaA o muy jos @undo H1 : θ < θ0D llamadocontraste a la izquierdaAFProf. Dr. Antonio José Sáez Castillo 155
Dpto de Estadística e I.O. Universidad de Jaénor tntoD teniendo en uent l de(niión de pEvlorD su álulo se reliz de l siguiente formXi el ontrste es unilterl l izquierd @H1 : θ < θ0AD p = P [S ≤ s/H0 ] .i el ontrste es unilterl l dereh @H1 : θ > θ0AD p = P [S > s/H0 ] .i el ontrste es ilterl @H1 : θ = θ0AD p = 2 × m´ın {P [S ≤ s/H0 ] , P [S > s/H0 ]} .ry que deir que el uso del pEvlor se h extendido hst onvertirse en el método más hitul de tomde ls deisiones desde que el uso de los ordendores y de los softwre de álulo están disposiión de lmyorí de los usuriosF roy en dí si ndie he istdísti a manoD y prátimente todos los progrmsestdístios proporionn el pEvlor omo dto pr l tom de ls deisionesFin lo que rest del tem lo que vmos her es enunir distintos ontrstes de hipótesis pr l mediD lvrinz o l proporión de un polión y pr omprr ls medisD ls vrinzs y ls proporiones endos poliones distintsF xo nos vmos entrr en los detlles de ómo se deduen sino sólo en ómo seutilizn en l prátiFhe tods formsD es importnte her un lriónX undo los dtos proeden de un distriuión normlDes muy senillo otener l distriuión del estdístio del ontrsteD gris los resultdos que vimos enel pítulo de distriuiones en el muestreoF in emrgoD si los dtos no proeden de vriles normlesDest uestión es muhísimo más difíilF efortundmenteD si el tmño de l muestr es grndeD el eoremgentrl del vímite grntiz que los prámetros que se sn en sums sds en ls muestrs siguenproximdmente un distriuión normlF is por ello que en d tipo de ontrste que vmos desriir ontinuión se distinguen quellos que se sn en muestrs grndes y los que se sn en muestrsreduidsD que sólo podrán ser utilizdos si l vrile es normlFin d soD vmos ompñr el ontrste on un ejemplo que omentremos extensmenteF8.4. Contraste para la media de una poblaciónmos suponer que tenemos un muestr x1, ..., xn de un vrile letori on medi polionl µFxotremos x¯ l medi muestrl y s2n−1 l vrinz muestrlF8.4.1. Con muestras grandes (n ≥ 30)il gudro VFQ inluye un resumen del proedimiento pr el ontrsteF in élD zp es el vlor de un N (0, 1)tl que P [Z < zp] = pFe modo de ejemploD podemos pensr en que los rqueólogos utilizn el heho onoido de que los húmerosde los nimles de l mism espeie tienden tener proximdmente ls misms rzones longitudGnhur156 Prof. Dr. Antonio José Sáez Castillo
Apuntes de Estadística para Ingenieros ipo de prue e l izquierd filterl e l dereh H0 : µ = µ0 H0 : µ = µ0 ripótesis H1 : µ < µ0 H0 : µ = µ0 H1 : µ > µ0 istdístio z < zα H1 : µ = µ0 z > z1−α ehzo P [Z < z] P [Z > z] pEvlor z = x¯−µ√0 upuestos sn−1/ n |z| > z1−α/2 2P [Z > |z|] n ≥ 30 gudro VFQX gontrste pr l medi on muestrs grndes WFPQ IHFQV WFUT UFSV WFWW WFRT IHFIV WFHV UFHW WFPSIPFSU VFUI WFIT IHFVH WFVT UFTI VFWV IHFVI WFHS WFQW VFRP UFVR WFIT WFRH WFHQ WFHH WFPS IHFQW VFSH WFSI WFSW VFTQ UFRV UFUS VFWP IPFVS IIFHI VFIW UFRR IIFTTIIFQU IHFHT VFHW WFIW IHFUW WFVP WFQU WFTT WFUS WFTT gudro VFRX htos del ejemplo de ls espeiespr trtr de disernir si los húmeros fósiles que enuentrn en un yimiento orresponden o no un nuevespeieFupongmos que un espeie omún en l zon donde se enlv un yimientoD l Bichus localisD tiene unrzón medi longitudGnhur de WF vos rqueólogos enrgdos del yimiento hn hlldo SH húmerosfósilesD uyos dtos preen en el gudro VFRF ¾ienen los rqueólogos indiios su(ientes pr onluir quehn desuierto en el yimiento un espeie distint de l Bichus localiscin primer lugrD oservemos que no nos hn espei(do ningún nivel de signi(ión en el enunidoF ineste soD lo hitul es onsiderr α = 0.05F in so de que l deisión se muy relevnteD elegirímos unnivel más joFe ontinuión deemos plnter ls hipótesis del ontrsteF in prinipioD l zon de l exvión indi quel espeie del yimiento deerí ser l espeie Bichus localisD slvo que demostremos lo ontrrioD es deirDl hipótesis nul es H0 : µ = 9D donde por µ estmos notndo l medi de l rzón longitudGnhur delhúmero de l espeie del yimientoF gomo hipótesis lterntiv nos plntemos que se trte de otr espeieDes deir H1 : µ = 9F e trtD por tntoD de un ontrste de dos olsFr relizrloD deemos lulr en primer lugr el estdístio de ontrsteF ÉsteD su vezD requiere delálulo de l medi y de l desviión típi muestrl de los dtosF istos vlores sonD respetivmenteD WFRIRy IFPQWF or tntoD z = 9.414 √− 9 = 2.363. 1.239/ 50ehor tenemos que plnternos si este vlor del estdístio nos permite rehzr l hipótesis nul en fvorde l lterntiv o noF odemos herlo de dos formsXIF yteniendo l región de rehzoF hdo que z1−0.05/2 = 1.96D l región de rehzo es |z| > 1.96F emos queD en efetoD 2.363 > 1.96D por lo que podemos rehzr l hipótesis nul en fvor de l lterntiv on un WS 7 de on(nzD onluyendo on ese nivel de on(nz que se trt de un nuev espeieF xos quedD sin emrgoD l dud de ser qué huier psdo de tomr un nivel de signi(ión más exigenteY por ejemploD α = 0.01FProf. Dr. Antonio José Sáez Castillo 157
Dpto de Estadística e I.O. Universidad de Jaén ipo de prue e l izquierd filterl e l dereh ripótesis H0 : µ = µ0 H0 : µ = µ0 H0 : µ = µ0 istdístio H1 : µ < µ0 H1 : µ = µ0 H1 : µ > µ0 ehzo pEvlor t = x¯−µ√0 upuestos sn−1/ n t < tα;n−1 |t| > t1−α/2;n−1 t > t1−α;n−1 P [Tn−1 < t] 2P [Tn−1 > |t|] P [Tn−1 > t] histriuión de proilidd proximdmente norml gudro VFSX gontrste pr l medi on muestrs pequeñsPF wedinte el pEvlorF enemos que p = 2 × P [Z > |2.363|] = 0.018. hdo que es inferior l S 7D podemos rehzr l hipótesis nul en fvor de l lterntiv on un WS 7 de on(nzD onluyendo on ese nivel de on(nz que l rzón medi longitudGnhur de los húmeros del yimiento es distint de l del Bichus localisD pero no podrímos llegr her es (rmión on un WW 7 de on(nz @I 7 de signi(iónA1F8.4.2. Con muestras pequeñas (n < 30)v prinipl difereni es queD l no poder utilizr el eorem gentrl del vímite por trtrse de muestrspequeñsD deemos ñdir omo hipótesis l normlidd de los dtosF in ese soD l distriuión en elmuestreo del estdístio y no es normlD sino tEstudentF il resumen pree en el gudro VFSF in ellD tp;ves el vlor de un t de tudent on v grdos de liertd tl que P [Tv < tp;v] = pFmos plir el test en l siguiente situiónF il dirio ur puli un notii el S de noviemre de PHHVdonde se indi que los niveles de concentración de benceno, un tipo de hidrocarburo cancerígeno que seencuentra como vapor a temperatura ambiente y es indisoluble en agua, no superan el máximo permitido porla Directiva Europea de Calidad del Aire, cinco microgramos por metro cúbico. Ésta es la principal conclusióndel estudio elaborado por un equipo de la Escuela Andaluza de Salud Pública en el gmpo de qirltrF vnotii sólo indi que el estudio se s en un muestrD dndo el vlor medio muestrl en vris zonsdel gmpo de qirltrD pero no el tmño ni l desviión típi muestrlFr relizr el ejemploD nosotros vmos imginr unos dtos orrespondientes un muestr de PH hogresdonde se midió l onentrión de enenoD rrojndo un medi muestrl de SFI mirogrmos por metroúio y un desviión típi muestrl de IFUF istoy seguro de queD en ese soD el periódio hrí sdogrndes titulres sore l ontminión por eneno en los hogres del gmpo de qirltr peroD ¾podemos(rmr queD en efetoD se supern los límites de l hiretiv iurope de glidd del eirecin primer lugrD de nuevo no nos indin un nivel de signi(ión on el que relizr l prueF isogemosDen prinipioD α = 0.05Fenemos que tener uiddoD porque el plntemiento de l prueD tl y omo se nos h plntedoD seráontrstr l hipótesis nul H0 : µ = 5 frente H1 : µ > 5D en uyo soD un error tipo s se trdue enonluir que se viol l normtiv undo en relidd no lo heD lo uál es grve porque gener lrminjusti(d en l poliónD mientrs que el error tipo ssD el que no ontrolmos on el αD es onluir que 1Debe quedar claro que, estadísticamente, lo que hemos demostrado es que la razón media es distinta de 9. Son los arqueólogoslos que deciden que eso implica una nueva especie.158 Prof. Dr. Antonio José Sáez Castillo
Apuntes de Estadística para Ingenierosse umple l normtiv undo en relidd no lo heD ½lo ul es grvísimo pr l polión3 gon estoquiero inidir en un uestión importnte respeto lo que se nos pide que demostremosX se nos die quenos plnteemos si se supern los límites de l normtivD en uyo so H1 dee ser µ > 5D pero en reliddDdeerímos plnternos l pregunt de si podemos estr seguros de que se está por dejo de los límitesmáximos permitidosD es deirD deerímos pror H1 : µ < 5Fgentrándonos exlusivmente en lo que se nos pide en el enunidoD tenemos que H1 : µ > 5 determin quese trt de un prue unilterl l derehF il estdístio de ontrste es t = 5.1 √− 5 = 0.263. 1.7/ 20 IF i queremos onluir on l región de rehzoD ést está formd por los vlores t > t0.95;19 = 1.729D luegoD ddo que 0.263 < 1.729D no podemos (rmr on un WS 7 de on(nz que se esté inumpliendo l normtivF PF il pEvlor es ún más informtivoF u vlor es p = P [T19 > 0.263] = 0.398D por lo que tendrímos que llegr hst si un RH 7 de signi(ión pr rehzr l hipótesis nul en fvor de l lterntiv (rmndo que se inumple l normtivFor lo tntoD tl y omo está plntedo el prolemD no podemos (rmr que se esté inumpliendo l normtiv@on un S 7 de signi(iónAD por más que un vlor muestrl de l mediD SFID prez indir que síF voque yo reomendrí los responsles del umplimiento l normtiv es que umentrn el tmño de lmuestrD y queD por ejemploD si esos mismos dtos orrespondiern IHHH hogres en vez de PHD sí sepodrí (rmr on un WS 7 de on(nz que se inumple l normtivF8.5. Contraste para la diferencia de medias de poblaciones indepen- dientesen dos muestrsD x1, ..., xn1 e y1, ..., yn2 D de vFF independientes on medis µ1 y µ2 y vrinzs σ12 y σ22Fen x¯D y¯D sn1 −1 2 y s2n−1 2 medis y vrinzs muestrlesF8.5.1. Con muestras grandes (n1, n2 ≥ 30)il resumen del proedimiento pr el ontrste pree en el gudro VFTFmos onsiderr un ejemplo donde plir el ontrsteF smginemos que un ingeniero invent un nuevométodo de produión on el que ree que pueden reduirse los tiempos de produiónF r omprorloDprodue SH uniddes on el nuevo proeso y QH on el ntiguoD ontilizndo el tiempo @en segundosA que setrd en produir d uniddF in el gudro VFU pree un resumen de los resultdosF¾roporionn ests muestrs prues su(ientes pr onluir que el promedio de tiempo de produióndisminuye on el nuevo proesoc ruéese on α = 0.05Fvlmemos µ1 l tiempo medio de produión jo el nuevo proeso y µ2 l tiempo medio de produión joel ntiguo proesoF xos piden que ontrstemos H0 : µ1 = µ2 frente H1 : µ1 < µ2 oD lo que es lo mismoDH1 : µ1 − µ2 < 0X se trtD por tntoD de un test unilterl l izquierdFProf. Dr. Antonio José Sáez Castillo 159
Dpto de Estadística e I.O. Universidad de Jaén ipo de
nilterl filterl
nilterl prue l izquierd l dereh H0 : µ1 − µ2 = D0 H0 : µ1 − µ2 = D0 H0 : µ1 − µ2 = D0 ripótesis H1 : µ1 − µ2 < D0 H1 : µ1 − µ2 = D0 H1 : µ1 − µ2 > D0 istdístio z= (x¯−y¯)−D0 de ontrste ( ) ( )s1n−12 2 egión de rehzo n1+ sn2 −1 pEvlor n2 upuestos z < zα |z| > z1−α/2 z > z1−α P [Z < z] 2P [Z > |z|] P [Z > z] n1, n2 ≥ 30F wuestreo independiente y letorio gudro VFTX gontrste pr l difereni de medis on muestrs grndes roeso nuevo roeso ntiguo n1 = 50 n2 = 30 y¯1 = 1255 y¯2 = 1330 s1 = 215 s2 = 238 gudro VFUX htos del ejemplo del nuevo proeso de produiónil estdístio es z = 1255 − 1330 = −1.41. 2152 + 2382 50 30r tomr l deisión podemos otener l región ríti o el pEvlorXIF v región de rehzo es z < z0.05 = −1.65F hdo que z = −1.41 no e en est regiónD no podemos rehzr l hipótesis nul en fvor de l lterntiv on α = 0.05D es deirD no tenemos un WS 7 de on(nz en que el nuevo proeso hy disminuido el tiempo medio de produiónF xo ostnteD est respuest dej iert l preguntD si no un WS 7 de on(nzD ¾uántcFPF hdo que el pEvlor es p = P [Z < −1.41] = 0.079 > 0.05D no podemos rehzr l hipótesis nul en fvor de l lterntiv on el nivel de signi(ión α = 0.05Fry que deir que no hemos podido pror lo que se sospehD que el nuevo proeso reduí el tiempomedio de produiónD pero los dtos puntn en est direiónF hesde el punto de vist estdístioD deerímosreomendr l ingeniero que umente el tmño de ls muestrs porque es posile que en ese so sí puedpror es hipótesisF8.5.2. Con muestras pequeñas (n1 < 30 o n2 < 30) y varianzas igualesil resumen pree en el gudro VFVF e propósito de l hipótesis de l iguldd de ls vrinzsD ést deesrse en rzones no estdístisF vo hitul es que se supong que son igules porque el experto que estárelizndo el ontrste tiene rzones experimentles pr herloD rzones jens l estdístiFmos onsiderr omo ejemplo el de un ingeniero que dese omprr dos equipos de trjo pr nlizrsi se omportn de form homogéneF r ello reliz un prue de destrez entre los trjdores demos equiposX IQ del equipo I y IS del equipo PD uys puntuiones preen en el gudro VFWF ¾ryindiios su(ientes de que existn diferenis entre ls puntuiones medis de los dos equiposc (α = 0.05)F160 Prof. Dr. Antonio José Sáez Castillo
Apuntes de Estadística para Ingenieros ipo e l izquierd filterl e l dereh ripótesis H0 : µ1 − µ2 = D0 H0 : µ1 − µ2 = D0 H0 : µ1 − µ2 = D0 istdístio H1 : µ1 − µ2 < D0 H1 : µ1 − µ2 = D0 H1 : µ1 − µ2 > D0 de ontrste t= (x¯−y¯)−D0 , sp2 = ( ) ( )(n1−1) s1n−1 2+(n2−1) sn2 −1 2 egión de ehzo sp2 1 + 1 n1 +n2 −2 n1 n2 pEvlor t < tα;n1+n2−2 |t| > t1−α/2;n1+n2−2 t > t1−α;n1+n2−2 upuestos P [Tn1+n2−2 < t] 2P [Tn1+n2−2 > |t|] P [Tn1+n2−2 > t] wuestreo independiente y letorioF riles normlesF σ12 = σ22 gudro VFVX gontrste pr l iguldd de medis on muestrs pequeñsiquipo I SW UQ UR TI WP TH VR SR UQ RU IHP US QQiquipo P UI TQ RH QR QV RV TH US RU RI RR VT SQ TV QW gudro VFWX htos de ls puntuiones de los dos equipos de trjoxos piden que ontrstemos l iguldd de ls medis @H0 : µ1 = µ2AD frente l lterntiv H1 : µ1 = µ2Dpor lo que se trt de un ontrste ilterlFin primer lugrD otenemos los estdístios muestrles de mos equiposF vs medis sonD respetivmenteDTVFP y SQFVD mientrs que ls desviiones típis muestrles son IVFT y ISFVF gon estos vlores podemoslulr s2pX 12 × 18.6 + 14 × 13 + 15 − 2 s2p = 15.8 = 294.09.gon este vlor y podemos lulr el estdístio de ontrsteX 68.2 − 53.8 t = = 2.22. 294.09( 1 + 1 ) 13 15eunque no hemos diho nd l respetoD vmos suponer que ls vrinzs son igulesF isto no preedeselldo si dmitimos que ls ondiiones en que trjn mos equipos determinn que no dee herdiferenis en l vriilidd de sus puntuionesF ist hipótesis dee ser dmitid y propuest por el experto@en este soD el ingenieroA que mnej los dtosFr otener l onlusiónD omo siempreD vmos otener l región de rehzo y vlorr el pEvlorXIF v región de rehzo es |t| > t0.975;26 = 2.055F hdo que t = 2.22 e en es regiónD podemos rehzr l iguldd de ls medis on un WS 7 de on(nzFPF hdo que el pEvlorD p = 2P [T26 > 2.22] = 0.035 es inferior HFHSD podemos rehzr l iguldd de ls medis on un WS 7 de on(nzF he hehoD podrímos llegr un WTFS 7F8.5.3. Con muestras pequeñas, varianzas distintas y mismo tamaño muestralil resumen del ontrste se reoge en el gudro VFIH8.5.4. Con muestras pequeñas, varianzas distintas y distinto tamaño muestralil resumen pree en el gudro VFIID donde v se redonde l entero más ernoFProf. Dr. Antonio José Sáez Castillo 161
Dpto de Estadística e I.O. Universidad de Jaén ipo de prue
nilterl filterl
nilterl l izquierd l dereh ripótesis H0 : µ1 − µ2 = D0 H0 : µ1 − µ2 = D0 H0 : µ1 − µ2 = D0 istdístio H1 : µ1 − µ2 < D0 H1 : µ1 − µ2 = D0 H1 : µ1 − µ2 > D0 de ontrste egión de t= (x¯−y¯)−D0 rehzo s1n−1 2+ sn2 −1 2 pEvlor ( ) ( )1 upuestos n t < tα;2(n−1) |t| > t1−α/2;2(n−1) t > t1−α;2(n−1) P [Tα;2(n−1) < t] 2P [Tα;2(n−1) > |t|] P [Tα;2(n−1) > t] vs dos muestrs se reogen de form independiente y letori ems vriles siguen distriuiones proximdmente normles vs muestrs tienen el mismo tmñoD n1 = n2 = ngudro VFIHX gontrste pr l iguldd de medis on muestrs pequeñs vrinzs distints y mismotmño muestrl ipo de prue
nilterl filterl
nilterl l izquierd l dereh ripótesis H0 : µ1 − µ2 = D0 H0 : µ1 − µ2 = D0 H0 : µ1 − µ2 = D0 istdístio de ontrste H1 : µ1 − µ2 < D0 H1 : µ1 − µ2 = D0 H1 : µ1 − µ2 > D0 egión ( ) ( )sn1 −12 2 2 de rehzo n1 + pEvlor sn2 −1 upuestos (x¯−y¯)−D0 n2 t= 2 2 ,v = ( ) 2 2 ( ) 2 2 + ( ) ( )s1n−1 sn1 −1 sn2 −1 n1 sn2 −1 n1 n2 n2 n1−1 + n2−1 t < tα;v |t| > t1−α/2;v t > t1−α;v P [Tv < t] 2P [Tv > |t|] P [Tv > t] vs dos muestrs se reogen de form independiente y letori ems vriles siguen distriuiones proximdmente normlesgudro VFIIX gontrste pr l iguldd de medis on muestrs pequeñsD vrinzs distints y distintotmño muestrl8.6. Contraste para la diferencia de medias de poblaciones aparea- dasenemos un mism polión en l que seleionmos un muestr de n individuosF in d uno de ellososervmos dos vrilesD X e Y F ists vriles no son independientesX ls muestrs están apareadasD(x1, y1) , ..., (xn, yn)F r omprr ms vriles se onsider un nuev vrileD D = X − Y F xotmosd¯ l medi muestrl de x1 − y1, ..., xn − yn y sdn−1 2 su vrinz muestrlF8.6.1. Con muestras grandes (n ≥ 30)il resumen pree en el gudro VFIPF8.6.2. Con muestras pequeñas (n < 30)il resumen pree en el gudro VFIQF emos un ejemploF
n empres frmeúti está investigndo un medimento que redue l preseni en sngre de un omE162 Prof. Dr. Antonio José Sáez Castillo
Apuntes de Estadística para Ingenieros ipo e l izquierd filterl e l dereh H0 : µ1 − µ2 = D0 H0 : µ1 − µ2 = D0 ripótesis H1 : µ1 − µ2 < D0 H0 : µ1 − µ2 = D0 H1 : µ1 − µ2 > D0 H1 : µ1 − µ2 = D0istdístio z < zα z > z1−α ehzo P [Z < z] z = sdnd¯−−1D/√0 n P [Z > z] pEvlor |z| > z1−α/2upuestos 2P [Z > |z|] n ≥ 30gudro VFIPX gontrste pr l iguldd de medis en poliones preds on muestr grnde ipo e l izquierd filterl e l dereh ripótesis H0 : µ1 − µ2 = D0 H0 : µ1 − µ2 = D0 H0 : µ1 − µ2 = D0 H1 : µ1 − µ2 < D0 H1 : µ1 − µ2 > D0istdístio H1 : µ1 − µ2 = D0 ehzo t < tα;n−1 t = sdnd¯−−1D/√0 n t > t1−α;n−1 pEvlor P [Tn−1 < t] P [Tn−1 > t]upuestos |t| > t1−α/2;n−1 2P [Tn−1 > |t|] D = X − Y D es proximdmente normlgudro VFIQX gontrste pr l iguldd de medis en poliones preds y muestr pequeñponente no desedo2F entes de srlo l merdo neesit un estudio de sosEontroles que demuestre sue(iFil estudio de sos ontroles onsiste en enontrr un número determindo de prejs de persons onrterístis (siológis preidsY en este soD l más importnte de ests rterístis serí que lsprejs soEontrol tengn l iniio del estudio el mismo o muy preido nivel de preseni en sngre delomponente no desedoX en d un de ess prejsD un tú omo soD tomndo l mediión en estudioDy l otr omo ontrolD tomndo un produto inouo llmdo pleoF xingun de ls dos personsD ni siquierel médio o el frmeútio que ontrol el proesoD se quién es el so y quién el ontrolF ólo quien reopily nliz los resultdosD sin ontto lguno on el pienteD tiene esos dtosF ist metodologí se onoeomo doble ciego y evit que el onoimiento de que se está dministrndo l mediin provoque un efetoen sí mismoF vos dtos preen en el gudro VFIRF
n nálisis ostoEene(io de l empres frmeúti muestr que será ene(ioso sr l merdo elproduto si l disminuión medi del omponente perjudiil es de l menos P puntosF eliemos un nuevprue pr yudr l ompñí tomr l deisión orretF vos dtos son l disminuión de presenien sngre del omponente no desedo después de tomr el medimento o el pleoFimpeemos por l notiónF mos llmr muestr I l del medimento y muestr P l del pleoFgon est notiónD nos piden que ontrstemos H0 : µ1 −µ2 = 2 frente H1 : µ1 > µ2 +2D o equivlentementeDH1 : µ1 − µ2 > 2F in ese soD el estdístio de ontrste es t = 3.21 −√2 = 3.375 1.134/ 10y el pEvlor soido es p = P [T9 > 3.375] = 0.004F emos que l signi(ión determin un pEvlor inferiorDpor ejemploD α = 0.05D por lo que podemos onluir on ese nivel de signi(ión que l mejor es superiorDen mediD P puntos yD por tntoD el medimento es rentleF2Podría ser colesterol, ácido úrico, ...Prof. Dr. Antonio José Sáez Castillo 163
Dpto de Estadística e I.O. Universidad de Jaén rej wedimento leo hifereni I QPFIH PUFIH SFHH P QTFIH QIFSH RFTH Q QPFQH QHFRH IFWH R PWFSH PTFWH PFTH S QRFQH PWFWH RFRH T QIFWH PVFUH QFPH U QQFRH QHFPH QFPH V QRFTH QIFVH PFVH W QSFPH QQFTH IFTH IH QPFUH PWFWH PFVH gudro VFIRX htos del ejemplo de l ompñí frmeúti ipo de prue
nilterl filterl
nilterl l izquierd l dereh ripótesis H0 : p = p0 H0 : p = p0 H0 : p = p0 H1 : p < p0 H1 : p = p0 H1 : p > p0 istdístio de ontrste P [Z < z] z = pˆ−p0 P [Z > z] p0 (1−p0 ) pEvlor n egión 2P [Z > |z|] de rehzo upuestos z < zα |z| > z1−α/2 z > z1−α np0, n (1 − p0) ≥ 10 gudro VFISX gontrste pr un proporión8.7. Contraste para la proporción en una poblaciónin est osión tenemos un polión donde un proporión dd present un determind rterístiDque denominmos éxitoD y uy proilidd es pF hesemos her infereni sore est proporiónF rello seleionmos un muestr letori simple de tmño n y ontilizmos l proporión de éxitos en lmuestrD pˆF il resumen del ontrste pree en el gudro VFISFmos onsiderr un primer ejempo reltivo l relión entre el género y los identes de trá(oF eestim que el TH 7 de los ondutores son vronesF or otr prteD un estudio relizdo sore los dtos de IPHidentes de trá(o muestr que en ellos el UH 7 de los identes fueron provodos por un vrón ondutorF¾odemosD on esos dtosD on(rmr que los homres son más peligrosos l volnteci notmos por p l proporión de vrones usntes de identes de trá(oD l pregunt se responderá(rmtivmente si logrmos ontrstr l hipótesis H1 : p > 0.6F il vlor del estdístio es 0.7 − 0.6 z = = 2.236. 0.6×0.4 120or su prteD l región de rehzo serí |z| > 1.96 pr un α = 0.05D luego en efetoD podemos onluir que lproporión de vrones usntes de identes es superior l proporión de vrones ondutores en generlFil pEvlorD de hehoD es HFHIQFmos nlizr on muho detlle otro ejemplo sore iguldd de proporionesF he tods formsD lo quequiero enftizros on el ejemplo no está reliondo en sí on el heho de que se re(er un proporiónFUna marca de nueces arma que, como máximo, el 6 % de las nueces están vacías. Se eligieron 300 nueces164 Prof. Dr. Antonio José Sáez Castillo
Apuntes de Estadística para Ingenierosal azar y se detectaron 21 vacías. Con un nivel de signicación del 5 %, ¾se puede aceptar la armación dela marca?in primer lugrD pedir un nivel de signi(ión del S 7 es equivlente pedir un nivel de on(nz delWS 7 FFF ¾sore quéc xos preguntn si se puede eptr l (rmión de l mr con un nivel designicación del 5 %, es decir, con un nivel de conanza del 95 %F iso impli que queremospror on mplis grntís que l mr no mienteD y l úni form de herlo es poner su hipótesis@p < 0.06A en l hipótesis lterntivF or tntoD tendrímos H0 : p ≥ 0.06 frente lo que (rm lmrD H1 : p < 0.06Fehor ienD (jémonos que l proporión muestrl de nuees vís es pˆ = 21/300 = 0.07F is deirD nospiden que vemos si un proporión muestrl de HFHU d su(iente on(nz @WS 7 pr ser extosA deque p < 0.06FFF ½xo d ningun3 xi siquier he flt her el ontrste on númerosF tmás podremosrehzr l hipótesis nul en fvor de l hipótesis de l mrD es deirD en soluto podemos (rmrlo que die l mrD p < 0.06D on un WS 7 de on(nzF he tods formsD por si hy lgún inréduloDel estdístio de ontrste serí z = √0.07−0.06 = 0.729F v región de rehzoD ddo que es un test l 0.06×0.94 300izquierdD serí z < z0.05 = −1.645F gomo vemosD el vlor del estdístio de ontrste está en l ol del dereh y l región de rehzo en l de l izquierdF or eso deí ntes que es imposile rehzr lhipótesis nul en fvor de l lterntivD independientemente del nivel de on(nz requeridoFrst hor hemos demostrdo que l mr no puede (rmr que l proporión de nuees vís esinferior l T 7 on un WS 7 de on(nzF he hehoD no lo puede (rmr on ningún nivel de on(nzDporque los dtos tomdos proporionn un estimión de HFHU que v justo en ontr de su hipótesisFero vmos suponer que nos ponemos gllitos y deimosX es más, podría demostrar que hay eviden-cias empíricas que proporcionan un 95 % de conanza en que la compañía miente, siendo en realidadla proporción de nueces vacías superior al 6 % F ehor somos nosotros los que (rmmos otr osX(rmmos p > 0.06 on un WS 7 de on(nzD lo que equivle deir que hemos plntedo un nuevoontrste de hipótesis en el que H0 : p ≤ 0.06 frente H1 : p > 0.06F vs uents están si hehsD yque el vlor del estdístio de ontrste es el mismoD z = 0.729D mientrs que l región de rehzo esz > z0.95 = 1.645F ehor el vlor del estdístioD es deirD l informión que nos dn los dtos @PI deQHH nuees vísAD sí es oherente on l hipótesis lterntivD de hí que esté en l mism ol que lregión de rehzoFFF ½pero no e en ell3F or lo tntoD no tenemos su(ientes evidenis en los dtospr rehzr l hipótesis nul en fvor de l lterntiv on un WS 7 de on(nzD sí que no podemosdemostrr on ese nivel de on(nz que l mr mienteFin resumenD unque prez prdójioD no tenemos su(ientes evidenis en los dtos pr (rmrque l ompñí die l verddD pero tmpoo pr demostrr que mienteF v difereni entre mshipótesis rdi en que no tenemos ningun on(nz en l (rmión de l ompñíD y sí lgunon(nz en l (rmión ontrriF ¾guánt on(nz tenemos en l (rmión ontrri p > 0.06cise vlor viene ddo por el pEvlorD P [Z > 0.729] = 0.233D que determin que el nivel de on(nz enp > 0.06 es (1 − 0.233) × 100 % = 72.9 %FpinlmenteD lguien podrí pensrD ¾y entonces qué hacemos? F hesde el punto de vist estdístiolo únio que podemos reomendr es umentr el tmño de l muestrD es deirD romper más de QHHnuees pr tomr l deisiónF eprentementeD l informión reogid on QHH nuees pree indirProf. Dr. Antonio José Sáez Castillo 165
Dpto de Estadística e I.O. Universidad de Jaén ipo de
nilterl filterl
nilterl prue l izquierd l dereh H0 : p1 − p2 = D0 H0 : p1 − p2 = D0 H0 : p1 − p2 = D0 ripótesis H1 : p1 − p2 < D0 H1 : p1 − p2 = D0 H1 : p1 − p2 > D0 istdístio z= , pˆ =pˆ1−pˆ2−D0 n1 pˆ1 +n2 pˆ2 de ontrste n1 +n2 pˆ(1−pˆ) 1 + 1 egión n1 n2 de rehzo z < zα |z| > z1−α/2 z > z1−α pEvlor upuestos P [Z < z] 2P [Z > |z|] P [Z > z] el menos IH éxitos y IH frsos gudro VFITX gontrste pr l difereni de proporiones que l mr mienteF he hehoD si l proporión muestrl de HFHU provinier de un muestr de ITHH nuees en vez de QHHD sí huiérmos podido demostrr on un WS 7 de on(nz que l mr mienteF8.8. Contraste para la diferencia de proporcionesin est osión prtimos de dos poliones dentro de ls ules hy proporiones p1 y p2 de individuos onl rterísti éxitoF retendemos omprr ests proporiones medinte l tom de muestrs de tmño n1y n2F xotremos pˆ1 y pˆ2 ls proporiones de éxitos en ls muestrsF upondremos de nuevo que ls muestrsson grndes pr poder plir el eorem gentrl del vímite l hor de trjr on el estdístio deontrsteF il resumen del ontrste pree en el gudro VFITFmos onsiderr un estudio3 on dtos relesD unque lgo ntiudosD referente l relión entre losidentes de trá(o y el onsumo de loholD relizdo por l hq en l gomunidd eutónom de xvrren IWWIFe relizron prues de loholemi en PUR ondutores implidos en identes de trá(o on heridosDde los ulesD VV dieron positivoF or su prteD l qurdi givil de rá(o relizó en l mism zon IHRRontroles de loholemi l zrD de los ules IS dieron positivoFvo que l hq quiere demostrr es que el lohol es usnte de los identes de trá(oF in emrgoDdesde el punto de vist estdístio sólo podemos ontrstr l hipótesis de que l proporión de positivos enl prue de loholemi es myor en el grupo de ondutores implidos en identes de trá(oFxotemos por p1 y p2 ls verdders proporiones en el grupo de implidos en identes y en el grupode ondutores no implidosF e nos pide ontrstr H0 : p1 = p2 frente H1 : p1 > p2F il estdístio deontrste es 88 − 15 274 1044 z= = 904.29. 88+15 (1 − 88+15 )( 1 + 1 ) 274+1044 274+1044 274 1044istá lro que el vlor del estdístio es estilD sin neesidd de vlorr l región de rehzoD que seríz > z0.95 = 1.645D luego podemos rehzr l hipótesis nul en fvor de l lterntiv onD l menosD el WS 7de on(nzF il pEvlorD p = P [Z > 904.29] = 0 indi que l on(nz esD de hehoD stnte myorFxo puedo resistirme onluir el ejemplo sin reordr que lo que l hq relmente querrá dr entenderes que el lohol es el usnte de los identes de trá(oD pero que eso no puede ser demostrdo on elontrsteF 3http://www.dgt.es/educacionvial/imagenes/educacionvial/recursos/dgt/EduVial/50/40/index.htm166 Prof. Dr. Antonio José Sáez Castillo
Apuntes de Estadística para Ingenierosipo de prue
nilterl filterl
nilterl l izquierd l dereh ripótesis istdístio H0 : σ2 = σ02 H0 : σ2 = σ02 H0 : σ2 = σ02 de ontrste H1 : σ2 < σ02 H1 : σ2 = σ02 H1 : σ2 > σ02 ehzo χ =2 (n−1)sn2 −1 pEvlor σ02 upuestos χ2 < χ2α;n−1 χ2 < χα2 /2;n−1 o χ2 > χ12−α;n−1 P [χn2 −1 < χ2] χ2 > χ21−α/2;n−1 P [χn2 −1 > χ2] 2min(P [χ2n−1 < χ2], P [χ2n−1 > χ2]) histriuión de proilidd proximdmente norml gudro VFIUX gontrste pr l vrinz8.9. Contraste para la varianza de una poblaciónhe nuevo onsideremos que tenemos un vrile letori X on vrinz σ2 y que tommos un muestr detmño nD uy vrinz muestrl notmos por sn2−1F mos trtr de her infereni sore σ2F il prolemes que hor no podemos plir el eorem gentrl del vímiteD por lo que sólo utilizr los ontrstes undol vrile X es normlF χp2;v es el vlor de un χ2 de v grdos de liertd tl que P χ2 < χ2p;v = pFvs empres idel (rm que su máquin de llendo riwe posee un desviión típi en el llendo deontenedores de SHHml de produto homogéneo inferior HFV grF4 mos suponer que el supervisor de ontrolde lidd quiere relizr un omproión l respetoF eopil pr ello un muestr del llendo de SHontenedoresD oteniendo un vrinz muestrl de HFT ¾ist informión proporion prues su(ientes deque l desviión típi de su proeso de llendo es relmente inferior HFVgrFclntemosD en primer lugrD ls hipótesis del ontrsteF e nos pide que ontrstemos H0 : σ = 0.8 oDequivlentementeD H0 : σ2 = 0.64 frente l lterntiv H1 : σ2 < 0.64F e trtD por tntoD de un testunilterl l izquierdF il estdístio de ontrste es χ2 = 49 × 0.6 = 45.938. 0.64ehor onluimos trvés de l región de rehzo @elegimos α = 0.05A y del pEvlorX IF hdo que χ02.05;9 = 33.930D y χ2 = 45.938 > χ02.05;9 = 33.930D no podemos onluir on l menos un WS 7 de on(nz queD en efetoD l desviión típi de l ntidd de llendo es inferior HFVgrF PF hdo que el pEvlor es p = P [χ429 < 45.938] = 0.4D stnte ltoD tenemos muy seris duds er de queD en efetoD l desviión típi se relmente inferior HFVgrFOjoX ntes de que l empres idel se enfde on nosotrosD no olvidemos que los dtos son imginriosX sóloson reles ls espei(iones ténis de σ < 0.8gr.8.10. Contraste para el cociente de varianzasenemos dos muestrsD x1, ..., xn1 y y1, ..., yn2 D de dos vriles letoris independientes on vrinzs σ12 yσ22F xotremos (sn1−1)2 y (sn2−1)2 ls vrinzs muestrlesF he nuevo sólo podremos onsiderr el ontrste 4http://www.sidel.com/es/products/equipment/the-art-of-lling/hema-gwProf. Dr. Antonio José Sáez Castillo 167
Dpto de Estadística e I.O. Universidad de Jaén ipo
nilterl filterl
nilterl l izquierd l dereh ripótesis H0 : σ12 =1 H0 : σ12 =1 H0 : σ12 =1istdístio H1 : σσ1222 <1 H1 : σσ2122 =1 H1 : σσ2122 >1 ehzo σ22 σ22 σ22 pEvlor ( )s1n−1 2upuestos f = ( )sn2 −1 2 f < fα;n1−1,n2−1 f < fα/2;n1−1,n2−1 o f > f1−α;n1−1,n2−1 f > f1−α/2;n1−1,n2−1 P [Fn1−1,n2−1 < f ] 2min(P [Fn1−1,n2−1 < f ], P [Fn1−1,n2−1 > f ]) P [Fn1−1,n2−1 > f ] vs dos muestrs se reogen de form independiente y letori ems vriles siguen distriuiones proximdmente normles gudro VFIVX gontrste pr el oiente de vrinzssi ms vriles son normlesF il resumen del ontrste pree en el gudro VFIVF in élD fp;v1,v2 es elvlor de un F de v1 y v2 grdos de liertd5 tl que P [F < fp;v1,v2 ] = pFr prtir sore el ontrsteD onsideremos que se hn relizdo PH mediiones de l durez en l eslikers de ero on lto ontenido en romo y otrs PH mediiones independientes de l durez de unsolddur produid sore ese metlF vs desviiones estándr de ls muestrs de durez del metl y dedurez de l solddur sore éste fue de IPFHTµHV y IIFRIµHV D respetivmenteF odemos suponer quels durezs orresponden vriles normles e independientesF ¾odemos onluir que l durez del metlásio es más vrile que l durez medid en l solddurcmos llmr l durez sore el eroD XD y l durez sore l solddurD Y F e nos pide que ontrstemosH0 : σX2 = σY2 frente l lterntiv H1 : σX2 > σY2 oD equivlentementeD H1 : σX2 > 1F e trtD por tntoD de σY2un prue unilterl l derehF il estdístio de ontrste es 12.062 f = 11.412 = 1.1172.mos tomr un nivel de signi(ión de α = 0.05F v región ríti viene delimitd por el vlor f0.95;19,19 =2.168F hdo que f = 1.1172 < f0.95;19,19 = 2.168D no podemos onluir l nivel de signi(ión α = 0.05 quel durez del metl ásio se más vrile que l durez medid en l solddurFil pEvlorD por su prteD es p = P [F19,19 > 1.1172] = 0.4058F8.11. Contraste para las medias de más de dos poblaciones inde- pendientes. ANOVAin lguns de ls seiones nteriores hemos onseguido ontrstes de hipótesis pr vlorr si existen diferenEis signi(tivs entre dos grupos independientesF vo que nos plntemos quí es extender estos ontrstespr poder omprr no sólo dos sino tres o más gruposF e d por hehoD por tntoD que existe un factorque sepr los vlores de l vrile en vrios grupos @dos o másAFgonretmenteD supongmos m muestrs independientes uns de otrsD d un de ells on un tmñoni6F upongmos tmién que d un de ls muestrs provienen de poliones on distriuión norml5De cara al uso de las tablas hay una propiedad bastante útil: fp;v1,v2 = 1/f1−p;v2,v16No es necesario, aunque sí deseable, que todas las muestras tengan el mismo tamaño.168 Prof. Dr. Antonio José Sáez Castillo
Apuntes de Estadística para Ingenierosde medis µi y vrinzs tods igulesD σ2Fvo que plntemos es ontrstr H0 : µ1 = ... = µmfrente H1 : no tods ls medis son igulesFysérvese que l lterntiv no die que todas las medias sean distintas sino tn sólo que l menos dos deells sen diferentesFhenotemos por xi1, ..., xni i l muestr i−ésimD y x¯i y s2i,ni−1 su medi y su vrinz muestrlD oni = 1, ..., mFiste ontrste se denomin exye omo rónimo de Analysis of VarianceD y queD omo vmos verD ses en nlizr qué se dee l vriilidd totl que presentn los dtosD si l zr o ls diferenis entrels poliones de ls que proeden ls muestrsFupongmos que juntamos tods ls muestrsD oteniendo un úni muestr glol de tmño m N = ni, i=1y lulmos su mediD m ni i=1 j=1 x¯ = xji . NehorD vmos preguntrnos por ls fuentes de variación de los datosXIF in primer lugrD los dtos vrín glolmente respeto l medi totlF
n medid de est vriión es l suma de los cuadrados totalesD m ni xij − x¯ 2 . SCT = i=1 j=1PF or otro ldoD puede her diferenis entre ls medis de d grupo y l medi totlF odemos medir ests diferenis on l suma de los cuadrados entre-gruposX m SCE = ni (x¯i − x¯)2 . i=1 i l hipótesis nul fuer iertD sólo hrí pequeñs diferenis muestrales entre ls medis de d muestrD en uyo soD l SCE serí pequeñF i fuer flsD hrí muhs diferenis entre ls medis y on respeto l medi totlD en uyo so SCE serí grndeFQF or últimoD deido l vriilidd inherente tod muestrD los dtos de d muestr vn vE rir respeto su medi prtiulrF gomo medid de est vriión onsidermos l suma de los cuadrados dentro de los grupos o intra-grupos: m ni xij − x¯i 2 = m SCD = (ni − 1) s2i,ni−1. i=1 j=1 i=1Prof. Dr. Antonio José Sáez Castillo 169
Dpto de Estadística e I.O. Universidad de Jaénv lve en ests onsideriones lo onstituye l siguiente igulddD onoid omo teorema de particiónde la varianzaX SCT = SCE + SCD.eniendo en uent este resultdoD el exye onsiste en ver si SCE es signi(tivmente grnde respetode SCDF r ello st onsiderr queD suponiendo que l hipótesis nul es iertX SCT sigue un χ2 on N − 1 grdos de liertdF σ2 SCE sigue un χ2 on m−1 grdos de liertdF σ2 SCD sigue un χ2 on N −m grdos de liertdF σ2esíD el estdístio de ontrste del test es SCE F= m−1 , SCD N −mqueD suponiendo que l hipótesis nul es iertD sigue un F de nedeor on m − 1 y N − m grdos deliertdFor lo tntoD el test podemos resumirlo de l siguiente formXIF glulmos x¯ = m ni xij y on ell i=1 j=1 N mm SCE = ni (x¯i − x¯)2 = nix¯i2 − N x¯2. i=1 i=1PF glulmos m ni m SCD = xij − x¯i 2 = (ni − 1) si2,ni−1. i=1 j=1 i=1QF glulmos el estdístio del testX SCE F= m−1 . SCD N −mRF ommos l deisiónX aA i F ≤ Fm−1,N−m;1−αD no rehzmos l hipótesis nul en fvor de l lterntiv on un nivel de signi(ión αF bA i F > Fm−1,N−m;1−αD rehzmos l hipótesis nul en fvor de l lterntiv on un nivel de signi(ión αFEjemplo. in un experimento se preprron )ujos de solddur on R omposiiones químis diferentesFe hiieron S solddurs on d omposiión sore l mism se de eroD midiendo l durez en lesl de frinellF il gudro VFIW siguiente resume los resultdosFmos ontrstr si existen diferenis signi(tivs entre ls durezsD suponiendo que ests siguendistriuiones normles tods ells on l mism vrinzF170 Prof. Dr. Antonio José Sáez Castillo
Apuntes de Estadística para Ingenieros gomposiión wedi muestrl hesviión típi muestrl e PSQFV WFUSUH f PTQFP SFRHQU g PUIFH VFUIUV h PTPFH UFRRWV gudro VFIWX htos del ejemplo de exyein primer lugrD oservemos que los tmños muestrles son igulesX n1 = ... = n4 = 5For otr prteD tenemosX 5 × 253.8 + 5 × 263.2 + 5 × 271.0 + 5 × 262.0 x¯ = = 262.5 20 SCE = 5 × (253.8 − 262.5)2 + ... + 5 × (262.0 − 262.5)2 = 743.4 SCD = (5 − 1) 9.75702 + ... + (5 − 1) 7.44982 = 1023.6.or tntoD 743.4 F = 4−1 = 3.8734. 1023.6 20−4or su prteD el vlor de F3,16;0.95 es QFPQVWD de mner que podemos (rmr que existen diferenissigni(tivs entre ls durezs de los R ompuestosD on un WS 7 de on(nzF8.12. El problemas de las pruebas múltiples. Método de Bonferroni¾ué ourre si en un estudio tenemos que relizr más de un prue de hipótesisc gd prue llev onsigoun determindo nivel de on(nz yD por tntoD un proilidd de equivornos rehzndo un hipótesisnul que es iert @error tipo sAF gunts más prues hgmosD más proiliddes tenemos de ometer unerror en l deisión rehzndo un hipótesis nul iert oD diho de otr formD menor on(nz tendremosFil método de fonferroni es uno de los métodos más simples pr trtr de orregir este prolem soido ls prues múltiplesF e trt de orregir los pEvlores de tods ls prues que se estén relizndosimultánementeD multipliándolos por el nº totl de pruesD ntes de tomr l deisiónF Ejemplo. in fiologí woleulr se estudi l relión que puede tener el nivel de expresión de un gen on l posiilidd de pdeer un tipo de ánerF
n investigdor onsigue nlizr el nivel de expresión de IH genes en un muestr de pientes y reliz IH ontrstes de hipótesis donde l hipótesis lterntiv de d uno de ellos die que un gen está reliondo on l posiilidd de pdeer ese ánerF vos pEvlores otenidos son los siguientesX (0.1, 0.01, 0.21, 0.06, 0.32, 0.24, 0.45, 0.7, 0.08, 0.0003)Prof. Dr. Antonio José Sáez Castillo 171
Dpto de Estadística e I.O. Universidad de Jaénin prinipioD tendrímos evidenis de que el Pº y el último gen están signi(tivmente reliondos onese tipo de ánerF in emrgoD deemos orregir el efeto de l relizión de ls IH prues simultánesFeplindo el método de fonferroniD deemos multiplir por IH los pEvloresF in ese soD el segundogen y no puede ser onsiderdo estdístimente signi(tivo pr el riesgo de pdeer el áner (0.01 ×10 > 0.05)Y por el ontrrioD ddo que 0.0003 × 10 < 0.05D el último gen sigue siendo onsiderdosigni(tivmente reliondo on el ánerF8.13. Resolución del ejemplo del del diámetro de los cojineteseordemos el plntemientoX Un ingeniero industrial es responsable de la producción de cojinetes de bolas ytiene dos máquinas distintas para ello. Le interesa que los cojinetes producidos tengan diámetros similares,independientemente de la máquina que los produce, pero tiene sospechas de que está produciendo algún pro-blema de falta de calibración entre ellas. Para analizar esta cuestión, extrae una muestra de 120 cojinetes quese fabricaron en la máquina A, y encuentra que la media del diámetro es de 5.068 mm y que su desviaciónestándar es de 0.011 mm. Realiza el mismo experimento con la máquina B sobre 65 cojinetes y encuentra quela media y la desviación estándar son, respectivamente, 5.072 mm y 0.007 mm. ¾Puede el ingeniero concluirque los cojinetes producidos por las máquinas tienen diámetros medios signicativamente diferentes?in este soD fortundmente tenemos un tmño muestrl que v permitir ovir l hipótesis de normliEddF emos que se plnte un supuesto que puede ser nlizdo trvés de l mediD en onretoD omprndol medi de ms máquinsF i llmmos X l diámetro de l máquin e e Y l diámetro de l máquinfD tenemos que ontrstr H0 : µX = µY frente H1 : µX = µY Fil estdístio de ontrste es z = 5.068 − 5.072 = −3.013. 0.0112 + 0.0072 120 65il pEvlor soido es 2 × P [Z < −3.361] = 0.002D luego tenemos evidenis de queD en efetoD el diámetromedio de ms máquins es distintoF172 Prof. Dr. Antonio José Sáez Castillo
Capítulo 9Contrastes de hipótesis no paramétricas odos prendemos de l experieniD y l leión en est osión es que nun se dee perder de vist l lterntivF herlok rolmes @eF gF hoyleAD en vs eventurs de flk eterResumen. gontinundo on los ontrste de hipótesisD presentmos en este pítulo nuevos ontrstes quepermitirán deidir si un juste medinte un distriuión teóri es válido y vlorr si existe relión entrevriles ulittivsFPalabras clave: ondd de justeD test χ2 de ondd de justeD test de ondd de juste de uolmogorovEmirno'D test χ2 de independeniF9.1. Introducciónodos los ontrstes que hemos desrito en el pítulo nterior se snD diret o indiretmente @ trvésdel teorem entrl del límiteA en que los dtos se justn l distriuión normlD hiendo infereni deun u otr form sore sus prámetrosF in este pítulo vmos onsiderr ontrstes que no neesitnde tl hipótesisD por lo que no se enunin omo ontrstes sore lgún prámetro desonoidoX de hí queformen prte de los llmdos contrastes no paramétricos o contrastes de hipótesis no paramétricasF9.2. Contrastes de bondad de ajusteqris lo estudido en el prtdo orrespondiente l estimión puntul de prámetros hor somospes de justr un distriuión unos dtos medinte lgún método de estimión @momentosD máximverosimilitudD FFFAF in emrgoD hst hor no disponemos de ningun herrmient pz de juzgar si esejuste es ueno o mloD o ómo de ueno esF he hehoD en l relión de prolems orrespondiente dejmosiert est uestiónD y que sólo pudimos vlorr est bondad del ajuste medinte representiones grá(sDlo que sólo nos dio un visión pril del prolemD que puede ser muy sujetivFvos dos ontrstes de hipótesis que vmos desriir hor vn permitir ontrstr omo hipótesis nul H0 : l distriuión se just deudmente los dtosD IUQ
Dpto de Estadística e I.O. Universidad de Jaén esultdo yservdos isperdos I IHS IHH P IHU IHH Q VW IHH R IHQ IHH S III IHH T VS IHH THH THH otl gudro WFIX preuenis oservds y esperds en THH lnzmientos del ddoFfrente l lterntiv H1 : l distriuión no se just deudmente los dtosDfilitndo demás un pEvlor que permitiráD demásD omprr l ondd de distintos justesFheirD por últimoD que unque estos dos ontrstes de hipótesis pueden plirse ulquier tipo de vrilesestán espeilmente indidos pr vriles de tipo disreto o ulittivo en el so del primero de ellos @testχ2 de ondd de justeA y pr vriles de tipo ontinuo en el segundo @test de uolmogorovEmirnovAF9.2.1. Test χ2 de bondad de ajusteEjemplo. upongmos que un thur del wissisipi quiere pror un ddo pr ver si es deudo prjugr honestmente on élF in ese soD si notmos por pi l proilidd de que en el lnzmiento delddo resulte el vlor i = 1, 2, ..., 6D el thur quiere pror l hipótesis 1 H0 : p1 = ... = p6 = 6frente l lterntiv de H1 que lgún pi se distint de 1 F 6r relizr l prueD lnzrá el ddo THH veesD notndo el número de vees que se d d resultdoFists ntiddes se denominn frecuencias observadasFor otr prteD si el ddo fuer justo @hipótesis H0AD en THH lnzmientos deerín drse proximdmenteIHH de d resultdo posileF Ésts freuenis se denominn frecuencias esperadasFil thur tomrá l deisión on respeto l ddo prtir de l omprión de ls freuenis oservdsy ls esperds @ver gudro WFIAF ¾ué deidirís tú l luz de esos dtosce ontinuiónD vmos desriir el test χ2D que permite relizr prues de este tipoF gomo hemos omentdoen l introduiónD on ell podremos juzgar justes de los que hemos logrdo en el pítulo de estimiónpuntulD pero tmién podremos utilizrl en ejemplos omo el que mos de verD en el que el expertoestá interesdo en ontrstr dtos experimentles on respeto un distriuión teóri que le result deinterésFin primer lugr y de form más generlD supongmos que tenemos un muestr de tmño N de un vFFdisret o ulittivD XD justd un modelo ddo por un distriuiónF174 Prof. Dr. Antonio José Sáez Castillo
Apuntes de Estadística para Ingenierosgonsideremos un prtiión del onjunto de vlores que puede tomr l vrileX S1, ..., SrF in prinipioDest prtiión podrín ser simplemente todos y d uno de los vlores que tom l vrile XD peroD omoveremosD es posile que tengmos que grupr lgunos de ellosFeguidmenteD onsideremos l proiliddD según l distriuión dd por el juste que queremos evlurDde d un de ests prtesD pi = P [X ∈ Si/H0 ] > 0.he igul formD lulemos OiD el número de oserviones de l muestr que en en d onjunto Si.v ide del test es omprr el número de oserviones Oi que en relmente en d onjunto Si on elnúmero esperdo de oserviones que deerín er en Si si el juste es el ddo por nuestro modeloD queserí N × piF r elloD un medid que ompr ests dos ntiddes viene dd por D = r (Oi − N × pi)2 . i=1 N × piiD pr un muestr ddD est vFF tom un vlor d muy ltoD indi que los vlores oservdos no cuadranon el juste que hemos propuesto @on lo uál se rehzrí l hipótesis nul en fvor de l lterntivAYsiD por el ontrrioD tom un vlor d joD indi que nuestro juste orresponde ien on los dtos de lmuestrD por lo que es aceptable l hipótesis nulFil prolem (nl es deidir uándo el vlor de l vFF D, dD es lo su(ientemente lto omo pr que nosresulte ineptle el justeF r deidirlo hy que tener en uent que undo N es rzonlemente lto yl hipótesis H 0 es iertD l distriuión de proilidd de D es χ2 on r − k − 1 grdos de liertdD es deirD D/H0 N→>> χ2r−k−1,donde k es el número de prámetros que hn sido estimdos en el justeF eniendo en uent este resultdoDse lul jo est distriuión l proilidd de que se de un vlor todví más lto que d @el pEvlorD portntoAD p = P [D > d/H0 ] .i est proilidd es inferior l S 7D se rehz l hipótesis nul en fvor de l lterntiv on un WS 7 deon(nzF hiho de otr formD se ept l hipótesis nul sólo si el vlor de D entr dentro del WS 7 deresultdos más fvorles ellFisquemátimenteD el proeso es el siguienteX IF e enuni el testX H0 : los dtos siguen l distriuión dd por nuestro juste H1 : los dtos no siguen l distriuión dd por nuestro justePF i en l muestr se dn los vlores x1, ..., xmD se luln ls freuenis esperds según el juste propuesto de d vlor xiD N × P [X = xi]D i = 1, ..., mF i lgun de ests freuenis es inferior SD se grup on lgun de l más ern hst que sumen un freueni myor o igul SF e onstruye sí l prtiión del onjunto de vlores posiles pr XD S1, ...SrD uys freuenis esperdsProf. Dr. Antonio José Sáez Castillo 175
Dpto de Estadística e I.O. Universidad de Jaén xi H I P Q R S T preF osF RP PV IQ S U Q P gudro WFPX preuenis oservds en l muestr de tiempos entre llegdsF son tods myores o igules SF in reliddD esto es sólo un reomendión que puede reljrseX si lgun freueni esperd es sólo ligermente inferior SD no es espeilmente grveFQF e luln ls freuenis oservds de d SiD y lo notmos omo OiFRF e lul el estdístio del test en l muestr d = r (Oi −N × pi)2 . i=1 N × piSF e lul el pEvlor soido l vlor del estdístioD p = P [D > d/H0 ] , según un distriuión χ2 on r − k − 1 grdos de liertdFTF e tom l deisión @pr un nivel de on(nz del 95 %AX aA i p < 0.05D se rehz l hipótesis nul en fvor de l lterntivD on un 95 % de on(nzF bA i p ≥ 0.05D se onluye que no hy evidenis en ontr de (rmr que los dtos se justn l distriuión ddFEjemplo. vos dtos que se presentn en el gudro WFP onstituyen un muestr letori simple deltiempo en msF que trnsurre entre l llegd de pquetes trnsmitidos por un determindo protooloFin l tl preen los vlores junto l número de vees que hn sido oservdos en l muestrFe sospeh que un distriuión geométri puede justr ien esos dtosF mos relizr ese justey ontrstr si es eptle medinte el test de l hiEudrdoFin primer lugrD pr justr un distriuión geométri deemos estimr el prámetro de l mismFmos herlo de form senill por el método de los momentosF il vlor de l medi de l distriuiónes 6ia de donde p = 1 . or tntoD nuestro estimdor será 1+EX 1 pˆ = . 1 + x¯or su prteD 0 × 42 + 1 × 28 + 2 × 13 + 3 × 5 + 4 × 7 + 5 × 3 + 6 × 2luego 6 x¯ = = 1.24, 100176 Prof. Dr. Antonio José Sáez Castillo
Apuntes de Estadística para Ingenierosesí puesD desemos ontrstr en qué medid el juste de un Geo (0.4464) es válido pr los dtos del muestrF is deirD desemos ontrstr H0 : X → Geo (0.4464) frente l lterntiv H1 : XGeo (0.4464) .mos lulr uáles son ls proiliddes teóris según es distriuión de los vlores oservdosen l muestrX P [X = 0] = 0.4464 × (1 − 0.4464)0 = 0.4464 P [X = 1] = 0.4464 × (1 − 0.4464)1 = 0.2471 P [X = 2] = 0.4464 × (1 − 0.4464)2 = 0.1368 P [X = 3] = 0.4464 × (1 − 0.4464)3 = 0.0757 P [X = 4] = 0.4464 × (1 − 0.4464)4 = 0.0419 P [X = 5] = 0.4464 × (1 − 0.4464)5 = 0.0232 P [X = 6] = 0.4464 × (1 − 0.4464)6 = 0.0128P [X > 6] = 1 − (0.4464 + 0.2471 + 0.1368 + 0.0757 + 0.0419 + 0.0232 + 0.0128) = 0.0159ehor tenemos que onstruir l prtiión de los vlores de l vrile queD omo semosD son HDIDFFF ryque tener en uent que deemos prourr que ls freuenis esperds sen superiores o igules SFgomo hy IHH oservionesD será neesrio grupr los vlores R en delnte en un solo onjuntoF mos resumir este plntemiento en el gudro WFQ dondeD demásD preen los residuos l udrdo entrels freuenis oservds y esperdsD neesrios pr lulr el estdístio del testFil vlor de éste se lul prtir de los resultdos de l tl de l siguiente mnerX 6.9696 0.0841 0.4624 6.6049 6.8644 d = + + + + = 1.7973. 44.64 27.71 13.68 7.57 9.38pinlmenteD el pEvlor se lul omo P [D > 1.7973] , donde D sigue un χ25−1−1D es deirD un Gammade prámetros (5 − 1 − 1)/2 y 1/2F or tntoD ˆ∞ 1 1 x 3 −1 e− 1 x 2 Γ 2 2 3 p − valor = 2 2 dx = 0.61552. 1.7973el ser superior @muy superiorD de hehoA HFHSD podemos (rmr que no hy evidenis en los dtos del muestr en ontr de que éstos sign un distriuión Geo (0.4464)FProf. Dr. Antonio José Sáez Castillo 177
Dpto de Estadística e I.O. Universidad de Jaén xi Oi N × pi (Oi − N × pi)2 0 42 44.64 (42 − 44.64)2 = 6.969 6 1 28 27.71 (28 − 27.71)2 = 0 .0841 2 13 13.68 (13 − 13.68)2 = 0.462 4 3 5 7.57 (5 − 7.57)2 = 6.604 9 ≥ 4 12 9.38 (12 − 9.38)2 = 6.864 4 gudro WFQX preuenis oservdsD freuenis esperds y residuosF9.2.2. Test de Kolmogorov-Smirnoin este so el test es plile sore todo vriles de tipo ontinuoF e s en l omprión de lfunión de distriuión teóri propuest por el modelo uyo juste estmos evlundo on l funión dedistriuión empíri de los dtosFgonretmenteD si tenemos X1, ..., XN un muestr de un vFF XD si notmos por F (x) l funión dedistriuión del modelo propuesto y por SN (x) l funión de distriuión empíri soid l muestrDel estdístio que se utiliz pr este ontrste viene ddo por DN = Sup |F (x) − SN (x)| . xe l hor de lulr este máximo deemos tener en uent que l vrile x es de tipo ontinuoFv hipótesis nul ontrstr es H0 : los dtos de l muestr se justn l distriuión dd por F (x) ,frente l hipótesis lterntiv H1 : los dtos de l muestr no se justn l distriuión dd por F (x) .e rehzrá l hipótesis nul en fvor de l lterntiv undo el pEvlor soido l vlor que tome DN seinferior HFHSFisquemátimenteD el proeso en el desrrollo del test puede resumirse en los siguientes psosXIF yrdenmos los vlores de l muestr de menor myorX x(1), ..., x(N).PF gonstruimos l funión de distriuión empíriD que en d vlor de l muestr viene ddo por SN x(i) = i F NQF il vlor del estdístio se lul omo dN = ma´x m´ax F x(i) − SN x(i) , F x(i) − SN x(i−1) . 1≤i≤NRF e rehzrá l hipótesis nul en fvor de l lterntiv si p = P [DN > dN ] < 0.05D on un (1 − p) × 100 % de on(nzFv distriuión de proilidd de DN D neesri pr lulr el pEvlorD no es muy onoidF edemásDpr evlur est proilidd hy que tener en uent el número de prámetros de l distriuión en el178 Prof. Dr. Antonio José Sáez Castillo
Apuntes de Estadística para IngenierosjusteF
n metodologí deud pr ello es onoid omo wétodos de wonte grloD unque exede losontenidos de estos puntesF heo dvertir que muhos de los pquetes estdístios más hitules puedeninduir error en el álulo de este pEvlorD y que proporionn por defeto quél orrespondiente unjuste en el que no se estime ningún prámetro en l distriuión jo l hipótesis nulD dndo lugr unsoreestimión de diho pEvlorF IFRTRU HFRWWS HFUPIT HFIISI HFPUIU HFUVRP QFWVWV HFIWTU HFVIHQ HFRVSR HFPQQQ HFHVIR HFQHQS IFUQSV HFWHPI HFHTTU HFHVTV HFVWHW HFIIPR HFHSIP gudro WFRX htos de l muestrFEjemplo. vos dtos que preen en el gudro WFR orresponden l tiempo en seF entre onexiones un servidorF xos plntemos si un distriuión exponenil es deud pr su justeFin primer lugr hemos de deidir uál es el juste propuestoF il estimdor máximo verosímil del práEmetro λ de un exponenil oinide on el estimdor del método de los momentosD λˆ = 1 F in este m1soD λˆ = 1/0.6902 = 1. 448 9.r lulr el vlor del estdístio del ontrsteD deemos evlur l funión de distriuión de unexp (1.4489)D F (x) = 1 − e−1.4489x, x ≥ 0on l funión de distriuión empíriF il gudro WFS muestr ms funiones de distriuiónF he ellse dedue que el vlor del estdístio de ontrste es 0.172 72F il pEvlor soido @luldo por wétodosde wonte grlo on A tom el vlor P [D20 > 0.172 72] = 0.5707.or tntoD no hy en los dtos evideni en ontr de sumir que siguen un distriuión exp (1.4489)Fv pigur WFI muestr en un vertiente grá( l ondd del juste y el punto donde se lnz ldistni máxim entre ls funión de distriuión teóri y empíriF x(i) F x(i) i i−1 x(i) F x(i) i i−1 20 20 0.50505 20 20 0.51506 0.0512 7.1499 × 10−2 0.05 0 0.4854 0.55 0.5 0.0667 9.2119 × 10−2 0.1 0.05 0.4995 0.6 0.55 0.0814 0.11125 0.15 0.1 0.7216 0.64849 0.65 0.6 0.0868 0.11818 0.2 0.15 0.7842 0.67897 0.7 0.65 0.1124 0.15029 0.25 0.2 0.8103 0.69089 0.75 0.7 0.1151 0.1536 0.3 0.25 0.8909 0.72496 0.8 0.75 0.1967 0.24798 0.25 0.3 0.9021 0.72938 0.85 0.8 0.2333 0.28682 0.4 0.35 1.4647 0.88023 0.9 0.85 0.2717 0.32542 0.45 0.4 1.7358 0.91914 0.95 0.9 0.3035 0.3558 0.5 0.45 3.9898 0.99691 1 0.95 gudro WFSX l soid l est de uolmogorovEmirnovFProf. Dr. Antonio José Sáez Castillo 179
Dpto de Estadística e I.O. Universidad de Jaén 1 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.5 1 1.5 2 2.5 3 3.5 4pigur WFIX puniones de distriuión teóri y empíriF lor donde se d el estdístio de uolmogorovEmirnofF9.3. Contraste de independencia χ2i nos dmos uentD desde el pítulo de estdísti desriptiv nos hemos entrdo exlusivmente envriles de tipo untittivoFin emrgoD en numeross osiones el ojeto de estudio viene determindoD no por un ntiddD sinopor un ulidd o un estdo no unti(leF is por ello que vmos onsiderr un ontrste reltivo vriles de tipo ulittivoD onretmenteD pr vlorr si dos de ests vriles están o no signi(tivmentereliondsF Ejemplo. ¾istá reliond l ideologí políti on el género del votntec is deirD nos plntemos si el que un person se delre de izquierds o de derehs depende de si es vrón o mujerF ixisten dos vriles ulittivs o rterístis que dividen l poliónF vo que nos interes es si es división está o no reliondF ¾erán más onservdors ls mujerescgonsideremos en generl un polión en l que d individuo se lsi( de uerdo on dos rterístisDdesignds omo X e Y F upongmos que los posiles vlores de X son x1, ..., xr y los posiles vlores de Yson y1, ..., ysFhenotemos por pij l proporión de individuos de l polión uys rterístis son simultánementexi e yjF henotemos demásD omo pi. l proporión de individuos on rterísti xi y p.j l proporiónde individuos on rterísti yjF in términos de proiliddesD tendremos que si se elige un individuo lzrD P [X = xi, Y = yj] = pij180 s P [X = xi] = pi. = pij j=1 Prof. Dr. Antonio José Sáez Castillo
Apuntes de Estadística para Ingenieros r P [Y = yj] = p.j = pij. i=1vo que pretendemos ontrstr es si ls dos rterístis son independientesD es deirD si pr todo i y prtodo jD P [X = xi, Y = yj] = P [X = xi] × P [Y = yj] ,es deirD si pij = pi. × p.j .esí puesD podemos enunir el ontrste omo H0 : pij = pi. × p.j pr todo i = 1, ..., r; j = 1, ..., sfrente H1 : pij = pi. × p.j pr lgún vlor de i y jFr llevr o el ontrste tomremos un muestr de l polión de tmño nF henotemos por nij losindividuos de es muestr que tomn simultánemente el vlor xi y el vlor yj @frecuencias observadasA,ni. = s nij los individuos de l muestr que tomn el vlor xi y n.j = r nij los que tomn el vlor j=1 i=1yj .he est formD nij n pˆij =será un estimdor sdo en l muestr de pijD pˆi. = ni. nserá un estimdor sdo en l muestr de pi. y pˆ.j = n.j nserá un estimdor sdo en l muestr de p.j.or otr prteD si l hipótesis nul fuer iertD el número de individuos en l muestrD de tmño nD quetomn simultánemente los vlores xi y yj serí eij = n × pi. × p.j .fsdo en l muestrD los vlores eˆij = n × pˆi. × pˆ.j = ni. × n.j n@frecuencias esperadasA serín sus estimdoresFpinlmenteD el estdístio del ontrste se s en omprr los vlores reles en l muestr de nij onlos vlores eˆij que se drín si l hipótesis nul fuer iertD es deirD si ls rterístis X e Y fuernProf. Dr. Antonio José Sáez Castillo 181
Dpto de Estadística e I.O. Universidad de JaénindependientesF il vlor del estdístio es r s (nij − eˆij )2 . eˆij d= i=1 j=1uponiendo que l hipótesis nul es iertD l distriuión del estdístio del ontrste es χ2 on (r − 1) (s − 1)grdos de liertdD por lo que deidiremos en funión del pEvlor soidoD p = P [D > d/H0 ] ,donde D → χ(2r−1)(s−1) o ienX ehzremos H0 on nivel de signi(ión α si d > χ(2r−1)(s−1);1−α. xo rehzremos H0 on nivel de signi(ión α si d < χ(2r−1)(s−1);1−α.ry que her un últim oserviónX pr que en efeto D → χ2 on (r − 1) (s − 1) es neesrio que tods@o si todsA ls freuenis esperds eˆij sen myores o igules SF i lgun o lguns de ells no losonD l distriuión χ2 podrí no ser deud y el resultdo del test inorretoF r que esto no ourr esreomendle que el tmño de l muestr se grndeFEjemplo. e tom un muestr de QHH personsD preguntándoles si se onsidern más de derehsD másde izquierds o de entro y notndo su géneroF il resultdo se resume en l siguiente tlX wujeres szquierd hereh gentro otl romres TV ST QP IST SP UP PH IRR otl IPH IPV SP QHHiste tipo de tls se onoen omo tablas de contingenciaF gontiene los vlores que hemos notdonij yD en los márgenes inferior y lterl derehoD los vlores ni. y n.j.mos ver si el género está reliondo on l ideologíF i no fuer síD si l ideologí fuer independientedel géneroD se tendrí en un muestr de QHH individuos ls freuenis esperds serín szquierd hereh gentro otl IST wujeres 300 156 120 300 156 128 300 156 52 IRR romres 300 300 300 300 300 300 QHH otl 300 144 120 300 144 128 300 144 52 300 300 300 300 300 300 IPH IPV SP wujeres szquierd hereh gentro otl romres TPFRH TTFST PUFHR IST SUFTH TIFRR PRFWT otl IPH IPV . SP IRR QHH182 Prof. Dr. Antonio José Sáez Castillo
Apuntes de Estadística para Ingenierosil vlor del estdístio de ontrste esD por tntoD (68 − 62.40)2 (56 − 66.56)2 (32 − 27.04)2 D= + + + 62.40 66.56 27.04 (52 − 57.60)2 (72 − 61.44)2 (20 − 24.96)2 + + + = 6.433. 57.60 61.44 24.96or su prteD χ2(2−1)(3−1);0.95 = 5.991D de mner que podemos rehzr l hipótesis nul en fvor de llterntivD (rmndo on un WS 7 de on(nz que el genero está reliondo on l ideologíF ¾in quésentido lo estrác i nos entrmos sólo en los de izquierdsD tenemos que el porentje de homres y mujeres es de 68 × 100 % = 56.667 % y de 52 × 100 % = 43.333 %D respetivmenteF 120 120 i nos entrmos sólo en los de derehsD tenemos que el porentje de homres y mujeres es de 56 × 100 % = 43.75 % y de 72 × 100 % = 56.25 %D respetivmenteF 128 128 pinlmenteD si nos entrmos sólo en los de entroD tenemos que el porentje de homres y mujeres es de 32 × 100 = 61.538 % y de 20 × 100 = 38.462 %D respetivmenteF 52 52vo que pree que ourre es que ls mujeres tienen myor prefereni por l derehF in emrgoD est(rmión no se h ontrstdoD sino que se s simplemente en dtos desriptivos1F9.4. Resolución del ejemplo de los accidentes laboralesedordemos el plntemientoX En una empresa se sospecha que hay franjas horarias donde los accidenteslaborales son más frecuentes. Para estudiar este fenómeno, contabilizan los accidentes laborales que sufrenlos trabajadores según franjas horarias, durante un año. Los resultados aparecen en la tabla. rors del dí xúmero de identes VEIH hF RU IHEIP hF SP IQEIS hF SU ISEIU hF TQCon esa información, los responsables de seguridad de la empresa deben decidir si hay franjas horarias dondelos accidentes son más probables o si, por el contrario, éstos ocurren absolutamente al azar.in primer lugr deemos plnternos l hipótesis que queremos ontrstrF il heho de que ourrn losidentes solutmente l zr vendrí deir que l proilidd de ourreni es l mism en d frnjhorri @puesto que tods ells tienen l mism mplitudAF or elloD si notmos pi l proilidd de queourr un idente en l iEésim frnj horriD nos plntemos omo hipótesis nul H0 : p1 = ... = p4 = 1 4frente l lterntiv de que no tods ls proiliddes sen igulesFr relizr el ontrste podemos onsiderr un ontrste de ondd de juste en el que l distriuión deproilidd se un uniforme disretD que no tiene prámetrosFProf. Dr. Antonio José Sáez Castillo 183
Dpto de Estadística e I.O. Universidad de Jaénin este soD el estdístio de ontrste es muy senilloXχ2 = (47 − 219 × (1/4))2 + (52 − 219 × (1/4))2 + (57 − 219 × (1/4))2 + (63 − 219 × (1/4))2 = 2.571. 219 × (1/4) 219 × (1/4) 219 × (1/4) 219 × (1/4)or su prteD el pEvlor es p = P [χ24−0−1 > 2.571] = 0.462D por lo que no tenemos evidenis en estos dtosque hgn pensr en que hy frnjs horris más propiis los identesF184 Prof. Dr. Antonio José Sáez Castillo
Capítulo 10Regresión lineal simple
n polítio dee ser pz de predeir lo que psrá mñnD y l semnD el mes y el ño próximosF tmién dee ser pz de explir por qué no ertóF inston ghurhillResumen. in este pítulo se desrie el modelo de regresión linel simpleD que sume que entre dos vrilesdds existe un relión de tipo linel ontmind por un error letorioF eprenderemos estimr dihomodelo yD prtir de ests estimiones y jo determinds hipótesisD podremos extrer prediiones delmodelo e inferir l fortlez de dih relión linelFPalabras clave: regresión linel simpleD vrile dependienteD vrile independienteD error letorioD nuede puntosD prinipio de mínimos udrdosD oe(iente de orrelión linelD oe(iente de determiniónlinelD ondd del justeD prediiónD estimiónF10.1. Introducción
no de los spetos más relevntes que ord l istdísti se re(ere l nálisis de ls reliones que se dnentre dos vriles letorisF il nálisis de ests reliones está muy freuentemente ligdo l nálisis deun vrileD llmd variable dependiente (Y ) , y del efeto que sore ell tiene otr @u otrsA vrile@sADllmd@sA variable(s) independiente(s) (X)D y permite responder dos uestiones ásisX ¾is signi(tiv l in)ueni que tiene l vrile independiente sore l vrile dependientec iD en efetoD es relión es signi(tivD ¾ómo esc y ¾podemos provehr es relión pr predeir vlores de l vrile dependiente prtir de vlores oservdos de l vrile independientec wás únD ¾podemos inferir rterístis sore es relión y on el fenómeno que suye ellc Ejemplo.
n equipo de investigdores que trjn en seguridd en el trjo está trtndo de nlizr ómo l piel sore un ierto omponente químio peligrosoF r elloD olo diferentes volúmenes del ompuesto químio sore diferentes segmentos de piel durnte distintos intervlos de tiempoD midiendo l o de ese tiempo el porentje de volumen sorido del ompuestoF il diseño del experimento se h IVS
Dpto de Estadística e I.O. Universidad de Jaénrelizdo pr que l interión esperle entre el tiempo y el volumen no in)uy sore los resultdosFvos dtos preen en el gudro IHFIvo que los investigdores se uestionn es si l ntidd de ompuesto por un ldo y el tiempo deexposiión l que se somete por otroD in)uyen en el porentje que se soreF he ser síD serí interesnteestimr el porentje de sorión de persons que se sometn un exposiión de un determindntiddD por ejemploD durnte V horsFin un primer proximión l prolemD podemos oservr un representión grá( de los dtos enlos digrms de dispersión o nues de puntos de l pigur IHFIF ¾ué (rmrímosc ree que sí hyun relión linel más o menos lr @pero no de(nitivA entre el tiempo de exposiión y el porentjede soriónD pero ¾l hy entre el volumen y el porentje de soriónc ixperimento olumen iempo orentje esorido I HFHS P SHFVV P HFHS IH RWFWT Q HFHS PR VQFTT R PFHH P SRFHW S PFHH IH TVFPU T PFHH PR VSFTS U SFHH P RVFQW V SFHH IH TRFVV W SFHH PR VVFHI gudro IHFIX htos sore el experimento de l sorión del ompuesto
n modelo de regresión lineal simple pr un vrileD Y @variable dependienteAD dd otr vrileD X@variable independienteAD es un modelo mtemátio que permite otener un fórmul pz de relionrY on X sd sólo en reliones linelesD del tipo Y = β0 + β1X + ε.in est expresiónX Y represent l vrile dependienteD es deirD quell vrile que desemos estudir en relión on otrsF X represent l vrile independienteD es deirD quells que reemos que puede fetr en lgun medid l vrile dependienteF v estmos notndo en myúsulD indindo que podrí ser un vrile letoriD pero hitulmente se onsider que es un onstnte que el investigdor puede (jr su ntojo en distintos vloresF ε represent el error aleatorioD es deirD quell ntidd @letoriA que provo que l relión entre l vrile dependiente y l vrile independiente no se perfetD sino que esté sujet inertidumreF186 Prof. Dr. Antonio José Sáez Castillo
Apuntes de Estadística para IngenierosPorcentaje.Absorbido 50 60 70 80 Porcentaje.Absorbido 50 60 70 805 15 024 Tiempo Volumenpigur IHFIX xue de puntosry que tener en uent que el vlor de ε será siempre desonoido hst que se oserven los vlores de X eY D de mner que el modelo de prediión será relmente Yˆ = β0 + β1X.vo que en primer lugr resultrí desele de un modelo de regresión es que estos errores letorios ourrn enl mism medid por exeso que por defetoD se ul se el vlor de XD de mner que E [ε/X=x] = E [ε] = 0yD por tntoD E [Y /X=x] = β0 + β1x + E [ε/X=x] = β0 + β1x.is deirD ls medis de los vlores de Y pr un vlor de X ddo son un retFv pigur IHFP represent un nue de puntos y l ret de regresión que los just de unos dtos genériosFodemos ver el vlor onreto de ε = y − E [Y /X=x] pr un dtoD supuesto que hemos otenido un modelode regresiónF in ell se puede ver tmién l interpretión de los oe(ientes del modeloX β0 es la ordenada al origen del modeloD es deirD el punto donde l ret interept o ort l eje yF β1 represent la pendiente de l líne yD por tntoD puede interpretrse omo el inremento de l vrile dependiente por d inremento en un unidd de l vrile independienteFProf. Dr. Antonio José Sáez Castillo 187
Dpto de Estadística e I.O. Universidad de Jaén 100 105 yi εi β0 + β1xi y 95 90 85 xi 50 60 70 80 90 100 x pigur IHFPX higrm de dispersión y líne de ls medis hipotétisFNota. is evidente que l utilidd de un modelo de regresión linel tiene sentido siempre que l reliónhipotéti entre X e Y se de tipo linelD pero ¾qué ourre si en vez de ser de este tipo es de otro tipo@exponenilD logrítmioD hiperólioFFFAcin primer lugrD es solutmente onveniente diujr el digrm de dispersión ntes de omenzr trtr de otener un modelo de regresión linelD y que si l form de este digrm sugiere un per(ldistinto l de un ret quizá deerímos plnternos otro tipo de modeloFD por otr prteD si se oserv que el digrm de dispersión es de otro tipo onoidoD puede optrsepor relizr un mio de vrile pr onsiderr un modelo linelF ixisten ténis muy senills prest uestiónD pero no ls veremos quíF10.2. Estimación de los coecientes del modelo por mínimos cua- dradosi queremos otener el modelo de regresión linel que mejor se ajuste a los datos de la muestraD deeremosestimr los oe(ientes β0 y β1 del modeloF r otener estimdores de estos oe(ientes vmos onsiderrun nuevo método de estimiónD onoido omo método de mínimos cuadradosF ry que deir quejo determindos supuestos que veremos en reveD los estimdores de mínimos udrdos oiniden on losestimdores máximoEverosímiles de β0 y β1.il rzonmiento que motiv el método de mínimos udrdos es el siguienteX si tenemos un muestr de188 Prof. Dr. Antonio José Sáez Castillo
Apuntes de Estadística para Ingenierosvlores de ls vriles independiente y dependienteD (x1, y1) , ..., (xn, yn) ,usremos vlores estimdos de β0 y β1, que notremos por βˆ0 y βˆ1, de mner que en el modelo justdoD yˆx = βˆ0 + βˆ1xminimie l sum de los udrdos de los errores oservdosF eordemos que E [Y /X=x] = β0 + β1x,luego yˆx puede interpretrse de dos formsX IF gomo un prediión del vlor que tomrá Y si X = x. PF gomo un estimión del vlor medio de Y undo X = xFgonretndoD lo que usmos es minimizr l suma de los cuadrados de los errores n yi − (βˆ0 + βˆ1xi) 2 SSE = , i=1es deir usmos βˆ0, βˆ1 = arg m´ın SSE . β0 ,β1e llm recta de regresión por mínimos cuadrados (o simplemente recta de regresión) de Ydada X l líne que tiene l SSE más pequeñ de entre todos los modelos linelesFv soluión de ese prolem de mínimo se otiene por el menismo hitulX se deriv SSE respeto de βˆ0y βˆ1, se igul ero y se despejn estosF v soluión es βˆ1 = SSxy y βˆ0 = y¯ − βˆ1x¯, donde SSxx nn SSxy = (xi − x¯) (yi − y¯) = xiyi − nx¯y¯ i=1 i=1 nn SSxx = (xi − x¯)2 = x2i − nx¯2. i=1 i=1gon est notiónD es fáil demostrr que n yi − (βˆ0 + βˆ1xi) 2 SSxxSSyy − SSx2y SSxx SSE = = i=1 =SSyy − S Sxy 2 = SSyy − SSxy × βˆ1. SSxxProf. Dr. Antonio José Sáez Castillo 189
Dpto de Estadística e I.O. Universidad de Jaénin este sentidoD se de(ne omo medid de l lidd del juste de l ret de regresión el error estandar deljuste omo i yi − βˆ0 + βˆ1x 2 n−2 se = SSE = n−2 = S Syy − βˆ1S Sxy . n−2gunto myor se est ntiddD peor son ls prediiones de l ret de regresiónFEjemplo. r los dtos sore el ejemplo de l sorión del ompuestoD vmos lulr e interpretrls dos rets de regresión posilesFin primer lugrD vmos onsiderr l ret de regresión pr explir el porentje de sorión @y)onoido el volumen de sustni @xAX SSxy = 36.24, SSx = 37.31luego βˆ1 = SSxy = 0.97 SSxx βˆ0 = y¯ − βˆ1x¯ = 63.69,sí que l ret de regresión justd es yˆx = 63.69 + 0.97 × x.v interpretión de βˆ1 = 0.97 es que el porentje de soriónD Y D ument en promedio HFWU por dinremento de I unidd de volumen de ompuestoF v interpretión de βˆ0 = 63.69 serí l del vlorpromedio de Y undo x = 0D pero es que en este so este supuesto no tiene sentidoD sí que no deetenerse en uentFmos on l ret de regresión pr explir el porentje de sorión @yA en funión del tiempo deexposiión @xAX SSxy = 1187.96, SSxx = 744luego βˆ1 = SSxy = 1.60 SSxx βˆ0 = y¯ − βˆ1x¯ = 46.82,190 Prof. Dr. Antonio José Sáez Castillo
Apuntes de Estadística para Ingenieros pigur IHFQX xues de puntos y rets de regresión justds en el ejemplo de l soriónsí que l ret de regresión justd es yˆx = 46.82 + 1.60 × x.or d inremento de un unidd del tiempo de exposiiónD el porentje de sorión ument enmedi IFTHFehor vmos representr ls nues de puntos de nuevo on sus rets de regresión justdsF hees mner podremos ompror de un form grá( ómo de uens son ls rets en unto supidd de juste de los dtosF vos resultdos preen en l pigur IHFQF odemos ver que el justees muho mejor undo l vrile explitiv es el tiempo de soriónD mientrs que si l vrileexplitiv es el volumenD l ret no puede psr er de los dtosFNota. ry que her un oservión importnte que suele onduir freuentes erroresF v ret deregresión pr l vrile dependiente Y D dd l vrile independiente X no es l mism que l retde regresión de X dd Y F v rzón es muy senillX pr otener l ret de regresión de Y ddo Xdeemos minimizr n yi − βˆ0 + βˆ1xi 2 i=1 ,Prof. Dr. Antonio José Sáez Castillo 191
Dpto de Estadística e I.O. Universidad de Jaénmientrs que pr otener l ret de regresión de X ddo Y deerímos minimizr n 2 xi − βˆ0 + βˆ1yi , i=1en uyo so otendrímos omo soluión βˆ1 = SSxy SSyy βˆ0 = x¯ − βˆ1y¯,siendo l ret de regresiónD xˆ = βˆ0 + βˆ1yFil error que suele ometerse on freueni es pensr que si tenemosD por ejemploD l ret de Y ddoXD l de X ddo Y puede otenerse despejandoFis importnte queD pr terminr este prtdoD reordemos que βˆ0 y βˆ1 son sólo estimiones de β0 y β1Destimiones sds en los dtos que se hn otenido en l muestrF
n form de hernos onsientes de que se trt de estimiones y no de vlores extos @es imposileonoer el vlor exto de ningún prámetro polionlA es proporionr ls estimiones de los erroresestndr de ls estimiones de β0 y β1F e onoe que dihs estimiones sonX s.e. βˆ1 = se2 s.e. βˆ0 = SSxx s2e 1 x¯2 + n SSxxEjemplo. in el ejemplo de los dtos de sorión hemos estimdo los oe(ientes de ls dos retsde regresión del porentje de sorión en funión del volumen y del tiempo de soriónF mos ompletr ese nálisis on el álulo de los errores estndres de ess estimionesF vos resultdospreen resumidos en l siguiente tlX wodelo βˆ0 s.e. βˆ0 βˆ1 s.e. βˆ1 % absorcio´n = β0 + β1 × V olumen TQFTW VFVH HFWU PFVQ % absorcio´n = β0 + β1 × T iempo RTFVP QFIT IFTH HFPIysérvese que los errores estndr en el modelo en funión del volumen son myores proporionlmenteque en el modelo en funión del tiempo de soriónF10.3. Supuestos adicionales para los estimadores de mínimos cua- dradosrst hor lo únio que le hemos exigido l ret de regresión esX192 Prof. Dr. Antonio José Sáez Castillo
Apuntes de Estadística para Ingenieros IF ue ls medis de Y pr d vlor de x se justen más o menos un líne retD lgo fáilmente omprole on un nue de puntosF i el speto de est nue no reuerd un líne ret sino otro tipo de funiónD lógimente no hremos regresión linelF PF ue los errores tengn medi eroD independientemente del vlor de xD lo queD por otr prteD no es un hipótesis sino más ien un requerimiento lógio l modeloFvo que hor vmos her es ñdir lgunos supuestos l modelo de mner que undo éstos se umplnDls propieddes de los estimdores de los oe(ientes del modelo sen muy uensF isto nos v permitirher infereni sore estos oe(ientes y sore ls estimiones que pueden drse de los vlores de l vriledependienteFvos supuestos que podemos ñdir se re(eren l error del modeloD l vrile εFSupuesto 1. l y omo y hemos dihoD E [ /X=x] = E [ ] = 0D lo que impli que E [Y /X=x] = β0 + β1xFSupuesto 2. v vrinz de tmién es onstnte pr ulquier vlor de x ddoD es deirD V ar ( /X=x) = σ2pr todo xFSupuesto 3. v distriuión de proilidd de es normlFSupuesto 4. vos errores son independientes unos de otrosD es deirD l mgnitud de un error no in)uye ensoluto en l mgnitud de otros erroresFin resumenD todos los supuestos pueden resumirse diiendo que |X=x→ N (0, σ2) y son independientes entresíFistos supuestos son restritivosD por lo que deen omprorse undo se pli l téniF i el tmño del muestr es grndeD l hipótesis de normlidd de los residuos estrá stnte grntizd por el teorementrl del límiteF in unto l vrinz onstnte respeto los vlores de xD un inumplimiento moderdono es grveD pero sí si ls diferenis son evidentesFixisten ténis espeí(s pr evlur en qué medid se umplen ests hipótesisF mién existen proEedimientos pr orregir el inumplimiento de estos supuestosF istos spetos serán trtdos l (nl deltemF10.4. Inferencias sobre el modelo10.4.1. Inferencia sobre la pendienteel omienzo del pítulo nos plnteámos omo uno de los ojetivos de l regresión el deidir si el efeto del vrile independiente es o no signi(tivo pr l vrile dependienteF i nos (jmosD esto es equivlente ontrstr si el oe(iente β1 es o no signi(tivmente distinto de eroF mos profundizr en porqué essíFyservemos l pigur IHFRF in l nue de puntos y l ret de regresión justd de l izquierdD ¾oservmosun relión linel buena entre x e y on un uen juste de l ret de regresiónc grí pensr que síD peroProf. Dr. Antonio José Sáez Castillo 193
Dpto de Estadística e I.O. Universidad de Jaén pigur IHFRX xues de puntos y rets de regresión que ls justnestrímos equivodosX si l ret de regresión trt de explir y en funión de xD ¾uánto vrí y onformevrí xc hdo que l pendiente de es ret es ero o prátimente eroD por muho que mies xD esono fet l vlor de yD es deirD ½x no inuye nada sobre y! in emrgoD en l nue de puntos de lderehD pesr de que prentemente el juste es peorD l ret justd sí tiene pendiente distint de eroDluego el heho de que y vríe viene ddo en uen prte por el heho de que x vríD y ello ourre porque lpendiente de es ret es distint de eroF esí puesD no lo olvidemosX deir que dos vriles están reliondslinelmente equivle deir que l pendiente de l ret de regresión que just un en funión de l otr esdistint de eroFues ienD ddos los supuestos desritos en l seión nteriorD es posile otener un ontrste de este tipoDtl y omo se resumen en el gudro IHFPF in ellD siD en efetoD lo que desemos es ontrstr si el efeto del vrile independiente es o no signi(tivo pr l vrile dependienteD el vlor de b1 será eroFEjemplo. r los dtos del ejemplo sore l soriónD prtímos del deseo de ompror si l volumenyGo el tiempo de exposiión in)uín sore el porentje de soriónF vs nues de puntos y el juste del ret y nos dieron pistsX d l impresión de que el tiempo de sorión sí in)uí en el porentjede soriónD pero no qued tn lro si el volumen lo híF is el momento de omprorloFxos plntemos en primer lugr si el tiempo de exposiión in)uye o no sore el porentje de soriónDes deirD nos plntemos si en el modelo linel P orcentaje de absorcio´n = β0 + β1 × T iempo de exposicio´n + ε194 Prof. Dr. Antonio José Sáez Castillo
Apuntes de Estadística para Ingenierosipo de prue
nilterl filterl
nilterl l izquierd l dereh ripótesis H0 : β1 = b1 H0 : β1 = b1 H0 : β1 = b1 istdístio H1 : β1 < b1 H1 : β1 = b1 H1 : β1 > b1 de ontrste egión t= √βˆ1−b1 , se2 = SSyy −βˆ1SSxy = SSE de rehzo n−2 n−2 se2 /S Sxx pEvlor upuestos t < tα;n−2 |t| > t1−α/2;n−2 t > t1−α;n−2 P [Tn−2 < t] 2P [Tn−2 > |t|] P [T > t] vos ddos en l eión IHFQ gudro IHFPX gontrste sore β1el oe(iente β1 es o no eroF pormlmenteD nos plntemos H0 : β1 = 0 frente H1 : β1 = 0X βˆ1 = 1.6 s2e = SSyy − βˆ1SSxy = 32.82 n−2t0.975;9−2 = 2.364624, t0.025;30−2 = −2.364624 1.6 − 0 t = = 7.60, 32.82/744luegoD omo í esperrD podemos (rmr l luz de los dtos y on un WS 7 de on(nz que elefeto del tiempo de exposiión sore el porentje de sorión es signi(tivoF il pEvlorD de hehoD esp = 2P [T7 > 7.60] = 0.000126Fmos hor nlizr si el efeto linel del volumen sore el porentje de sorión es signi(tivoFis deirD hor nos plntemos si en el modelo linelP orcentaje de absorcio´n = β0 + β1 × V olumen + εel oe(iente β1 es o no eroD es deirD plntemos el ontrste de H0 : β1 = 0 frente H1 : β1 = 0X βˆ1 = 0.97 s2e = SSyy − βˆ1SSxy = 298.77 n−2t0.975;9−2 = 2.364624, t0.025;30−2 = −2.364624 0.97 − 0 t = = 0.34, 298.77/37.31luegoD omo í esperrD no podemos (rmr l luz de los dtos y on un WS 7 de on(nz que elefeto del volumen sore el porentje de sorión se signi(tivoF il pEvlorD de hehoD es p = 2P [T7 >0.34] = 0.741Fin vist de los resultdosD prtir de hor dejremos de onsiderr el efeto del volumen sore elporentje de soriónD y sólo tendremos en uent el efeto del tiempo de exposiiónFProf. Dr. Antonio José Sáez Castillo 195
Dpto de Estadística e I.O. Universidad de JaénEjemplo.
n ingeniero químio está lirndo un espetrómetro pr medir l onentrión de gyen muestrs de ireF ist lirión impli que dee ompror que no hy diferenis signicativasentre l onentrión verdder de gy @xA y l onentrión medid por el espetrómetro @yAF rello tom II muestrs de ire en ls que onoe su verdder onentrión de gy y ls ompr on lonentrión medid por el espetrómetroF vos dtos son los siguientes @ls uniddes son ppmAX x H IH PH QH RH SH TH UH VH WH IHH y I IP PH PW QV RV TI TV UW WI WUvo idelD lo desedoD serí que y = xD es deirD que el modelo linel que expli y en funión de x tuvieroe(ientes β0 = 0 y β1 = 1F or hor vmos entrrnos en el primer pso en l omproión de queel espetrómetro está ien lirdoD que impli ontrstr que β1 = 1F r elloD SSxx = 11000; SSyy = 10506.73; SSxy = 10740 βˆ1 = 10460 = 0.976 11000 s2e = SSyy − βˆ1SSxy = 2.286 n−2por lo tntoD t = 0.976 − 1 = −1.639. 1.964/11000hdo que t1− 0.05 ;11−2 = t0.975;9 = 2.262 y |−1.639| < 2.262, no hy rzones pr onluir que β1 = 1F 2esí puesD el modelo podrí ser y = β0 + x,unque lo desedoD insistmosD serí que fuer y = x,es deirD que lo que mid el espetrómetro oinid on l ntidd rel de gy en el ireF gomo hemosdihoD eso ourrirí si β0 = 0D lo que equivle deir que en useni de gyD el espetrómetro esté eroFedemás del ontrste de hipótesisD es trivil proporionr un intervlo de on(nz pr l pendienteD y queonoemos su estimiónD su error estndr y l distriuión en el muestreo @tEstudentD omo pree en elontrsteAF gonretmenteD P β1 ∈ βˆ1 − t1− α ;n−2 × s.e. βˆ1 , βˆ1 + t1− α ;n−2 × s.e. βˆ1 = 1 − α. 2 2Ejemplo. in el ejemplo que mos de ver sore l lirión del espetrómetroD el intervlo deon(nz pr β1 es (0.94, 1.01)F gomo podemos verD el vlor β1 = 1 es un vlor on(le del intervloDluego rti(mos que no podemos (rmr que el espetrómetro esté ml lirdoF196 Prof. Dr. Antonio José Sáez Castillo
Search
Read the Text Version
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
- 28
- 29
- 30
- 31
- 32
- 33
- 34
- 35
- 36
- 37
- 38
- 39
- 40
- 41
- 42
- 43
- 44
- 45
- 46
- 47
- 48
- 49
- 50
- 51
- 52
- 53
- 54
- 55
- 56
- 57
- 58
- 59
- 60
- 61
- 62
- 63
- 64
- 65
- 66
- 67
- 68
- 69
- 70
- 71
- 72
- 73
- 74
- 75
- 76
- 77
- 78
- 79
- 80
- 81
- 82
- 83
- 84
- 85
- 86
- 87
- 88
- 89
- 90
- 91
- 92
- 93
- 94
- 95
- 96
- 97
- 98
- 99
- 100
- 101
- 102
- 103
- 104
- 105
- 106
- 107
- 108
- 109
- 110
- 111
- 112
- 113
- 114
- 115
- 116
- 117
- 118
- 119
- 120
- 121
- 122
- 123
- 124
- 125
- 126
- 127
- 128
- 129
- 130
- 131
- 132
- 133
- 134
- 135
- 136
- 137
- 138
- 139
- 140
- 141
- 142
- 143
- 144
- 145
- 146
- 147
- 148
- 149
- 150
- 151
- 152
- 153
- 154
- 155
- 156
- 157
- 158
- 159
- 160
- 161
- 162
- 163
- 164
- 165
- 166
- 167
- 168
- 169
- 170
- 171
- 172
- 173
- 174
- 175
- 176
- 177
- 178
- 179
- 180
- 181
- 182
- 183
- 184
- 185
- 186
- 187
- 188
- 189
- 190
- 191
- 192
- 193
- 194
- 195
- 196
- 197
- 198
- 199
- 200
- 201
- 202
- 203
- 204
- 205
- 206
- 207
- 208
- 209
- 210
- 211
- 212
- 213
- 214
- 215
- 216
- 217
- 218
- 219
- 220
- 221
- 222
- 223
- 224
- 225
- 226
- 227
- 228
- 229
- 230
- 231
- 232
- 233
- 234
- 235