143είναι ανεξάρτητες. Αυτό είναι διαισθητικά προφανές, διότι η τ.µ. Yi = gi ( X i )εξαρτάται µόνο από την τ.µ. X i , η οποία είναι στοχαστικά ανεξάρτητη από τιςυπόλοιπες. Επίσης, ισχύει και για συναρτήσεις πολλών µεταβλητών, π.χ. οι τ.µ. Y1 = g1( X1,..., X k ) , Y2 = g1( X k+1,..., X v ) , 1 ≤ k ≤ v − 1,είναι ανεξάρτητες όταν οι X1,..., X v είναι ανεξάρτητες, διότι οι τ.µ. Y1 και Y2ορίζονται σε ξένα υποσύνολα ανεξαρτήτων τ.µ. (∆εν θα ίσχυε όµως κάτι τέτοιο ανήταν π.χ. Y1 = g1( X1, X 2 ) και Y2 = g2 ( X1, X 3 ) , αφού τότε η τ.µ. X1 θα επηρέαζεταυτόχρονα και τις δύο τ.µ. Y1,Y2 ) . Το επόµενο θεώρηµα είναι πολύ χρήσιµο στον υπολογισµό µέσων τιµώνανεξαρτήτων τ.µ.Θεώρηµα 1.2. Αν οι τ.µ. X1,..., X v είναι ανεξάρτητες, τότε(i) E[X1L Xv] = E[X1]L E[Xv] ,και γενικότερα,(ii) E[g1(X1)L gv(Xv)] = E[g1(X1)]L E[gv(Xv)],(µε την προϋπόθεση ότι οι µέσες τιµές είναι πεπερασµένες).H απόδειξη µπορεί να γίνει µόνο µε χρήση πολυδιάστατων συναρτήσεων κατανοµήςκαι γι’ αυτό παραλείπεται.Πόρισµα 1.1. Αν οι X1,..., X v είναι ανεξάρτητες, τότε(i) Var( X1 +L+ X v ) = Var( X1) +L+ Var( X v ) , και(ii) Var[g1( X1) +L+ gv ( X v )] = Var[g1( X1)] +L+ Var[gv ( X v )](µε την προϋπόθεση ότι οι διασπορές είναι πεπερασµένες).Απόδειξη. Έστω Y = g1( X1) +L+ gv ( X v ) .Είναι Var(Y ) = E(Y 2 ) − [E(Y )]2 .Όµως E(Y ) = E[g1( X1) +L+ gv ( X v )] = E[g1( X1)] +L+ E[gv ( X ν )] = µ1 +L+ µν ,όπου µi = E[gi ( Χ i )] , (πρβλ. Θεώρηµα 4.1, σχέση (4.8) του Κεφ. 2), και συνεπώς
144 vv ∑ ∑[E(Y )]2 = (µ1 +L+ µν )2 = µi µ j . i=1 j=1Αφού vv ∑ ∑Y 2 = [g1( X1) +L+ gv ( X v )]2 = gi (Xi )g j (X j ), i=1 j=1έχουµε ⎡ v v ⎤v vΤελικά, ⎢ gi (X i )g j (X j )⎥ = =∑ ∑ ∑ ∑E(Y 2 )E E[gi ( X i )g j ( X j )] . ⎢⎣ i=1 j=1 ⎥⎦ i=1 j=1 vv ∑ ∑Var(Y ) = E(Y 2 ) − [E(Y )]2 = [E[gi ( X i )g j ( X j )] − µi µ j ] . i=1 j=1Όµως από το Θεώρηµα 1.2 (ii), για i ≠ j έχουµε E[gi ( X i )g j ( X j )] = E[gi ( X i )]E[g j ( X j )] = µi µ j ,επειδή οι X i , X j είναι ανεξάρτητες. Συνεπώς, { } ∑v v Var(Y) = ∑ = Var[gi ( X i )], E [(gi(Xi))2] − µi2 i=1 i=1που αποδεικνύει το (ii). Το (i) προκύπτει από το (ii) αν θέσουµε gi ( X i ) = X i , i = 1, 2,..., v .Παράδειγµα 1.1. Ας θεωρήσουµε ν ανεξάρτητες δοκιµές Bernoulli X1, X 2 ,..., X v ,καθεµιά µε πιθανότητα επιτυχίας p (ίδια για κάθε δοκιµή), δηλ. P( X i = 1) = p ,P( X i = 0) = 1 − p = q , i = 1, 2,..., v . Τότε η τ.µ. X = X1 +L+ Xv (1.3)παριστάνει το πλήθος επιτυχιών στις ν δοκιµές, και ως γνωστόν, η Χ είναι διωνυµικήµε παραµέτρους ν και p, X ~ b(v, p) . Φυσικά RX = {0,1,..., v} . Η µέση τιµή µ = vpκαθώς και η διασπορά σ 2 = vpq της Χ υπολογίστηκαν στο Κεφ. 2.Χρησιµοποιώντας την (1.3) έχουµε αµέσως µ = Ε( Χ ) = Ε( Χ1 +L+ Χ ν ) = Ε( Χ1) +L+ Ε( Χ ν ) = vp(αφού E( X i ) = p , i = 1, 2,..., v) . Από το Πόρισµα 1.1 µπορεί να υπολογιστεί αµέσωςη διασπορά της Χ, διότι οι X1,..., X v είναι ανεξάρτητες µε Var( X i ) = pq . Συνεπώς,
145 σ 2 = Var( X ) = Var( X1 +L+ X v ) = Var( X1) +L+ Var( X v ) = vpq ,χωρίς να απαιτούνται οι πολύπλοκοι υπολογισµοί του Κεφ. 2. Επιπλέον, µπορούµε ναυπολογίσουµε τη µέση τιµή και τη διασπορά οποιουδήποτε γραµµικού συνδυασµού Y = a1 X1 +L+ av X v ,όπου a1,..., av σταθερές, ως εξής: Ε(Υ ) = ⎜⎛⎝⎜∑Ε v ai X i ⎠⎟⎟⎞ = v = v = v , i=1 ∑ E(ai X i ) ∑ ai E(X i ) p∑ ai i=1 i=1 i=1και Var(Y ) = Var⎜⎜⎛⎝ v ai X i ⎟⎠⎞⎟ = v = v = v ∑ ∑Var(ai X i ) ∑ ai2Var( X i ) pq∑ ai2 i=1 i=1 i=1 i=1(το τελευταίο επειδή οι τ.µ. ai X i , i = 1, 2,..., v , είναι ανεξάρτητες). Για παράδειγµα, E( X1 − X 2 ) = 0 , Var( X1 − X 2 ) = 2 pq .Παράδειγµα 1.2. Αν οι X i είναι ανεξάρτητες κανονικές µε µέση τιµή µi καιδιασπορά σ 2 , i = 1, 2,...,v (δηλ Xi ~ N ( µi , σ 2 )) , τότε µε τον ίδιο τρόπο προκύπτει i iότι ∑ ∑ ∑ ∑E⎜⎜⎝⎛vXi ⎟⎟⎞⎠ = v ai µi και Var⎜⎜⎛⎝ v Xi ⎠⎞⎟⎟ = v ai2 σ 2 . i=1 i=1 i ai ai i=1 i=1Για παράδειγµα, E( X1 − X 2 ) = µ1 − µ2 , Var( X1 − X 2) = σ12 + σ 2 . 2Παράδειγµα 1.3. Αν οι Χ i είναι ανεξάρτητες τ.µ. µε κατανοµή Poisson, Χ i ~ P(λi ) ,i = 1, 2,..., v , όπου λi > 0 , τότε ∑ ∑ ∑ ∑E⎝⎛⎜⎜v Xi ⎟⎠⎟⎞ = v ai λi και Var⎜⎜⎝⎛ v ai X i ⎞⎟⎠⎟ = v ai2 λi i=1 i=1 i=1 ai i=1(διότι E( X i ) = Var( X i ) = λi όταν X i ~ P(λi ) ).2. ΑΝΑΠΑΡΑΓΩΓΙΚΗ Ι∆ΙΟΤΗΤΑ Επειδή τα αθροίσµατα ανεξαρτήτων τ.µ. διαδραµατίζουν σπουδαίο ρόλο στηστατιστική συµπερασµατολογία, αναφέρουµε χωρίς απόδειξη το εξής βοηθητικόαποτέλεσµα.Θεώρηµα 2.1. Έστω X1, X 2 ,..., X v ανεξάρτητες τ.µ.
146(i) (Αναπαραγωγική ιδιότητα της Bernoulli και της διωνυµικής ως προς την πρώτηπαράµετρο (πλήθος δοκιµών)). Αν X i ~ b(vi , p) , i = 1, 2,..., v τότε η X = v ~ b⎜⎜⎝⎛ v vi , p ⎞⎟⎠⎟ , ∑ Xi ∑ i=1 i=1και ειδικότερα, αν οι X i είναι ανεξάρτητες Bernoulli, X i ~ b( p) ≡ b(1, p) , τότε X1 +L+ X v ~ b(v, p) .(ii) (Αναπαραγωγική ιδιότητα της Αρνητικής ∆ιωνυµικής (Pascal) ως προς την πρώτηπαράµετρο). Αν X i ~ NB(ri , p) , i = 1, 2,..., v , τότε η ∑ ∑X= v Xi ~ NB⎜⎛⎝⎜ v p ⎟⎟⎠⎞ , i=1 ri , i=1και ειδικότερα, αν οι X i είναι ανεξάρτητες Γεωµετρικές, X i ~ G( p) ≡ NB(1, p) , τότε X1 +L+ X v ~ NB(v, p) .(iii) (Αναπαραγωγική ιδιότητα της Poisson). Αν X i ~ P(λi ) , i = 1, 2,..., v , τότε η X = v ~ P⎜⎜⎛⎝ v λi ⎞⎠⎟⎟ . ∑ Xi ∑ i=1 i=1(iv) (Αναπαραγωγική ιδιότητα της κατανοµής Γάµµα ως προς την πρώτη παράµετρο).Αν X i ~ Γ (ai ,θ) , i = 1, 2,..., v , δηλαδή f Xi (x) = θ ai x ai −1e −x / θ , x ≥ 0, Γ (ai )όπου ∫Γ (ai ) = ∞ u ai −1e−u du , ai > 0 , 0η συνάρτηση Γάµµα του Euler (βλ. Παρατήρηση 2.3 του Κεφ. 4), τότε ∑ ∑vXi ~ Γ ⎛⎝⎜⎜ v ai , θ ⎟⎟⎠⎞ . =1 i=1 iΕιδικότερα, αν οι X i είναι ανεξάρτητες εκθετικές µε κοινή παράµετρο θ > 0 , δηλ.X i ~ E(θ) ≡ E(1,θ) ≡ Γ (1,θ) , τότε Χ1 +L+ Χ v ~ Ε(ν,θ) ≡ Γ (ν,θ) .(v) (Αναπαραγωγική ιδιότητα της Κανονικής). Αν Χi ~ Ν ( µi , σ 2 ) τότε i ∑ ∑ ∑v ~ N ⎜⎜⎝⎛ v µi , v σ 2 ⎠⎟⎟⎞ , i=1 =1 i Xi i i=1
147και γενικότερα, ∑ ∑ ∑v + β ~ Ν ⎝⎜⎛⎜ v + β, v αi2 σ 2 ⎟⎞⎟⎠ . i=1 i αi X i αi µi i=1 i=1Για παράδειγµα, αν X1 ~ N (µ, σ 2 ) και Χ 2 ~ Ν (µ, σ 2 ) (και αν είναι ανεξάρτητες),τότε Χ1 − Χ 2 − 3 ~ Ν (−3, 2σ 2 ) .Σηµειώνουµε ότι η αναπαραγωγική ιδιότητα της κανονικής είναι η σπουδαιότερη,όσον αφορά τις στατιστικές εφαρµογές.3. ΚΕΝΤΡΙΚΟ ΟΡΙΑΚΟ ΘΕΩΡΗΜΑ Το Κεντρικό Οριακό Θεώρηµα, το σπουδαιότερο Θεώρηµα των Πιθανοτήτων,εξετάζει την ασυµπτωτική συµπεριφορά αθροισµάτων “πολλών” ανεξαρτήτωντυχαίων µεταβλητών, της µορφής S = X1 +L+ Xv ,για v → ∞ . Στην πράξη, η συνθήκη v → ∞ µεταφράζεται ως “µεγάλο ν”, και οι τ.µ.X1,..., X v µπορούν να θεωρηθούν ως ένα “µεγάλο” τυχαίο δείγµα.Ορισµός 3.1. Έστω X1, X 2 ,..., X v ανεξάρτητες τ.µ. από την ίδια συνάρτησηκατανοµής F (συµβολικά, X1, X 2 ,..., X v ~ F ) . Τότε οι X1, X 2 ,..., X v καλούνταιτυχαίο δείγµα µεγέθους ν. Οι X1, X 2 ,..., X v καλούνται επίσης ανεξάρτητες καιισόνοµες (ισόνοµες = έχουν την ίδια κατανοµή, δηλ. διέπονται από τον ίδιο “νόµο”πιθανότητας), και για συντοµία “ανισ” κατ’ αντιστοιχία του i.i.d. = independent, identi-cally distributed.Θεώρηµα 3.1. Έστω X1, X 2 ,..., X v ένα τυχαίο δείγµα από την συνάρτηση κατανοµήςF. Υποθέτουµε ότι E( X i ) = µ και Var( X i ) = σ 2 , 0 < σ 2 < ∞ , i = 1, 2,..., v . Τότεισχύουν οι ισότητες v(X − µ) = Χ − Ε(Χ ) = S(ν) − E(S(ν)) = S(ν) − vµ , (3.1) σ Var(X ) Var(S(ν)) σ νκαι µάλιστα Ε ⎡⎢ v(X − µ) ⎤ = 0 , Var ⎡ v(X − µ) ⎤ = 1, (3.2) ⎣ σ ⎥ ⎢ σ ⎥ ⎦ ⎣ ⎦όπου
148 Χ = Χ1 +L+ Χν = S(ν) , S(ν) = X1 +L+ Xv . ν vΑπόδειξη. Έχουµε E(S(ν)) = E(X1 +L+ Xv) = E( X1) +L+ E( X v ) = vµκαι εποµένως, Ε(Χ ) = Ε⎛⎜⎝ 1 S(ν) ⎠⎞⎟ = 1 E(S(ν)) = µ . ν vΕπίσης, λόγω ανεξαρτησίας, Var(S(ν)) = Var(Χ1 +L+ Xv) = Var(X1) +L+ Var(Xv) = vσ2και συνεπώς Var(X ) = Var⎜⎛⎝ 1 S(ν) ⎞⎟⎠ = ⎛⎝⎜ 1 ⎞⎟⎠2Var(S(ν)) = σ2 . v v νΆρα Χ − Ε(Χ ) = X − µ = ν ( Χ − µ) , S(ν) − E(S(ν)) = S(ν) − νµ = S(ν) − vµ , σ Var(S(ν)) νσ2 σ ν Var( X ) σ2 νκαι v(X − µ) ν⎜⎛⎝⎜ S(ν) − µ⎠⎞⎟⎟ ν⎜⎜⎛⎝ S(ν) − µ⎠⎟⎟⎞ S(ν) − νµ σ v v ν σ ν = = = . σ σΣυνεπώς ισχύουν όλες οι ισότητες (3.1).Τέλος, E⎜⎜⎝⎛ v ( X − µ) ⎠⎞⎟⎟ = ν Ε(Χ − µ) = ν ( Ε( Χ ) − µ) = ν ( µ − µ) = 0 , σ σ σ σκαι Var⎛⎝⎜⎜ v ( X − µ) ⎠⎞⎟⎟ = Var⎝⎜⎜⎛ v (Χ − µ)⎠⎞⎟⎟ = ⎜⎜⎝⎛ v ⎞⎟⎟⎠ 2 Var ( X − µ) = v Var( X − µ) σ σ σ σ2 = ν Var( X ) = v ⋅ σ2 =1. σ2 σ2 νΠαρατήρηση 1.1. Ο Χ ονοµάζεται δειγµατικός µέσος (των Χ1,..., Χ ν ) ενώ το S(ν)ονοµάζεται µερικό άθροισµα των Χ1,..., Χ ν . Το Θεώρηµα 3.1 µας διαβεβαιώνει ότι οτυποποιηµένος δειγµατικός µέσος
149 Χ − Ε(Χ ) = v(X − µ) Var( X ) σταυτίζεται µε το τυποποιηµένο µερικό άθροισµα S(ν) − E(S(ν)) = S(ν) − vµ . Var(S(ν)) σ νΤο κεντρικό οριακό θεώρηµα, του οποίου η απόδειξη ξεφεύγει από τους σκοπούς τουπαρόντος, αποδεικνύει ότι η οριακή κατανοµή (για ν → ∞ , πρακτικά για µεγάλοµέγεθος δείγµατος) του τυποποιηµένου δειγµατικού µέσου είναι η τυποποιηµένηκανονική.Θεώρηµα 3.2. (Κεντρκό Οριακό Θεώρηµα, Κ.Ο.Θ.).Αν X1, X 2 ,..., X v είναι ανεξάρτητες και ισόνοµες τ.µ. µε συνάρτηση κατανοµής F(τυχαίο δείγµα) και E( X i ) = µ , Var( X i ) = σ 2 , 0 < σ 2 < ∞ , i = 1, 2,..., v , τότε γιακάθε πραγµατικό αριθµό t, lim P⎝⎜⎜⎛ v(X − µ) ≤ t ⎞⎟⎠⎟ = Φ(t) , (3.3) σ (3.4) v→∞όπου Φ(t) = 1 ∫ t e−u2 / 2du = P(Z ≤ t) 2π −∞η συνάρτηση κατανοµής της τυποποιηµένης κανονικής Z ~ N(0,1) .Με άλλα λόγια, η συµπεριφορά των τυποποιηµένων αθροισµάτων v ( X − µ) / σπροσεγγίζει αυτήν της Ζ ~ Ν (0,1) , για µεγάλο ν. Η σηµαντική πληροφορία που µας παρέχει το Κ.Ο.Θ. είναι η εξής: Από όποιακατανοµή F και αν λάβαµε τυχαίο δείγµα, η προσεγγιστική κατανοµή τουτυποποιηµένου δειγµατικού µέσου v ( X − µ) / σ θα είναι (περίπου) Φ(t) , όταν τοµέγεθος ν του δείγµατος είναι αρκετά µεγάλο. Στην πράξη, v ≥ 30 είναι αρκετό γιανα έχουµε ικανοποιητικές προσεγγίσεις. Έχουµε ήδη περιγράψει κάποιες ειδικές περιπτώσεις του Κ.Ο.Θ. (βλ. Θεωρήµατα4.1, 4.2 και 4.3 του Κεφ. 4). Τα αποτελέσµατα αυτά προκύπτουν ως πορίσµατα τουΚ.Ο.Θ.Πόρισµα 3.1. Αν X1,..., X v ~ b( p) τότε(i) lim P ⎛⎜⎝⎜ v(X − p) ≤ t ⎟⎠⎞⎟ = Φ(t) . (3.5) p(1 − p) v→∞
150(ii) Αν X ~ b(v, p) , τότε για µεγάλο ν (και σταθερό p), P(α < X ≤ β) ≅ Φ⎝⎜⎛⎜ β− νp ⎟⎞ − Φ⎜⎝⎜⎛ α − vp ⎞⎟ (3.6) vp(1 − p) ⎠⎟ vp(1 − p) ⎠⎟για α < β , και αν τα α και β είναι ακέραιοι, α ≤ β , α, β ∈{0,1,..., v}, τότε ⎛⎜ β + 1 − vp ⎟⎞ ⎜⎛ α + 1 − vp ⎟⎞ ≅ Φ⎜ 2 ⎟ − Φ⎜ 2 ⎟ P(α ≤ Χ ≤ β) (3.7) ⎜⎝⎜ vp(1 − p) ⎟⎠⎟ ⎝⎜⎜ vp(1 − p) ⎟⎠⎟(Οι τιµές Φ(t) για τα διάφορα t βρίσκονται από τον Πίνακα Β1 της τυποποιηµένηςΚανονικής).Απόδειξη. Αφού Χ i ~ b( p) έπεται ότι E( X i ) = µ = p και Var( X i ) = σ 2 = p(1 − p) .Άρα v( X − µ) = ν(Χ − p) , σ p(1 − p)και η (i) προκύπτει από το Κ.Ο.Θ.(ii) Έστω X = S(ν) = X1 +L+ Xv , όπου X1,..., X v ~ b( p) . Τότε X ~ b(v, p) , καισυνεπώς P(α < X ≤ β) = Ρ(α < S(ν) ≤ β) = Ρ⎛⎜ α < Χ ≤ β ⎟⎞ = Ρ⎛⎜ Χ ≤ β ⎟⎞ − P⎜⎛ X ≤ α ⎞⎟ . ⎝ ν ν ⎠ ⎝ ν ⎠ ⎝ ν ⎠Όµως P⎛⎜ X ≤ β ⎞⎟ = P⎜⎛ X − p ≤ β − p ⎞⎟ ⎝ ν ⎠ ⎝ ν ⎠ = P⎛⎝⎜⎜ v (X − p) ≤ v p) ⎜⎛ β − p ⎟⎞⎠⎟⎞⎟⎠ p(1 − p) p(1 − ⎝ ν ⎛⎜ v(X − p) ≤ v⎛⎜ β − p ⎞⎟ ⎟⎞ = P⎜⎜ p(1 − p) ⎝ ν ⎠ ⎟ ⎜ vp(1 − p) ⎟ ⎟ ⎝⎠
151 = P⎛⎜⎝⎜ v(X − p) ≤ β − vp ⎞⎟ ≅ Φ⎜⎜⎛⎝ β − vp ⎟⎞ . p(1 − p) vp(1 − p) ⎟⎠ vp(1 − p) ⎠⎟Κατά τον ίδιο τρόπο, P⎛⎜⎝ X ≤ α ⎟⎞⎠ ≅ Φ⎜⎜⎛⎝ α− vp ⎟⎞⎠⎟ , v vp(1 − p)και έτσι P(α < Χ ≤ β) ≅ Φ⎜⎛⎜⎝ β − vp ⎞⎟ − Φ⎜⎛⎝⎜ α − vp ⎞⎟ , vp(1 − p) ⎠⎟ vp(1 − p) ⎟⎠δηλαδή η (3.6). H (3.7) προκύπτει από την (3.6) παρατηρώντας ότι για α, βακεραίους, P(α ≤ Χ ≤ β) = P⎜⎛ α − 1 < Χ ≤ β + 1 ⎟⎞ . ⎝ 2 2 ⎠Παρατήρηση 3.1. Η σχέση (3.7) αποτελεί τη λεγόµενη διόρθωση συνεχείας της(3.6), και δίδει κατά κανόνα καλύτερη προσέγγιση. Γενικά, αν έχουµε ένα άθροισµα S(ν) = X = X1 +L+ Xv ,αποτελούµενο από ανεξάρτητες και ισόνοµες διακριτές τ.µ. X1,..., X v , µεE( X i ) = µ , Var( X i ) = σ 2 , οι οποίες παίρνουν ακέραιες τιµές στο {0,1, 2,...} , τότε ητ.µ. Χ παίρνει ακέραιες τιµές (RΧ ⊆ {0,1, 2,...}) , και έτσι, P(α ≤ Χ ≤ β) = P⎜⎛⎝α − 1 < Χ ≤ β + 1 ⎞⎠⎟ , 2 2όταν οι α ≤ β είναι ακέραιοι. Σε αυτήν την περίπτωση, είναι προτιµότερο ναχρησιµοποιούµε την προσέγγιση ⎜⎛ β + 1 − νµ ⎟⎞ ⎛⎜ α − 1 − νµ ⎟⎞ Φ⎜ 2 ⎟ − Φ⎜ 2 ⎟ P(α ≤ Χ ≤ β) ≅ ⎝⎜⎜ σ ν ⎟⎠⎟ ⎝⎜⎜ σ ν ⎟⎟⎠(αντίστοιχη της (3.7)), αντί της P(α < Χ ≤ β) ≅ Φ⎜⎛⎜⎝ β− νµ ⎟⎞⎟⎠ − Φ⎛⎜⎝⎜ α − νµ ⎟⎟⎞⎠ , σ ν σναντίστοιχη της (3.6).
152Παράδειγµα 3.1. Ενδιαφερόµαστε να εκτιµήσουµε το άγνωστο ποσοστό p που θαλάβει ένας υποψήφιος στις προσεχείς εκλογές. Η πρακτική που χρησιµοποιείται είναινα λάβουµε ένα δείγµα µεγέθους ν, Χ1,..., Χ ν , µε Χ i = 1 αν ο i -οστός ερωτώµενοςψηφίζει τον υποψήφιο και X i = 0 αν δεν τον ψηφίζει. Τότε X1,..., X v ~ b( p) , όπουp = άγνωστο ποσοστό του υποψηφίου. Ας υποθέσουµε ότι µας ενδιαφέρει ναπροσδιορίσουµε το v = πλήθος ερωτώµενων, έτσι ώστε το ποσοστό των ατόµων τουδείγµατος να µην διαφέρει από το πραγµατικό ποσοστό πάνω από 1%, µε πιθανότητατουλάχιστον 0.95 = 95% . Τι µέγεθος ν πρέπει να λάβουµε; Ποια είναι η ελάχιστητιµή του ν; Επειδή X1,..., X v ~ b( p) , έπεται ότι X = 1 (X1 +L+ X v ) είναι το ποσοστό των vερωτώµενων που ψηφίζουν τον υποψήφιο, και vX = X1 +L+ X v ~ b(v, p) . Ηαπόκλιση από το πραγµατικό ποσοστό είναι | X − p |= X1 +L+ Xv − p , vσυνεπώς επιθυµούµε να ισχύει P(| X − p |≤ 0.01) ≥ 0.95 .Όµως, χρησιµοποιώντας το Κ.Ο.Θ., P(| X − p |≤ 0.01) = P(−0.01 ≤ X − p ≤ 0.01) = P⎜⎝⎜⎛ − 0.01 v ≤ v (X − p) ≤ 0.01 v ⎟⎞⎟⎠ p(1 − p) p(1 − p) p(1 − p) ≅ Φ⎜⎜⎝⎛ 0.01 ν ⎟⎠⎟⎞ − Φ⎜⎜⎛⎝ − 0.01 ν ⎞⎠⎟⎟ , p(1 − p) p(1 − p)και επειδή Φ(−t) = 1 − Φ(t) , P( | X − p |≤ 0.01) ≅ 2Φ⎝⎜⎛⎜ 0.01 v ⎟⎞⎠⎟ − 1. p(1 − p)Τελικά, η σχέση P(| X − p |≤ 0.01) ≥ 0.95 γράφεται κατά προσέγγιση 2Φ⎜⎛⎜⎝ 0.01 ν ⎞⎟⎠⎟ − 1 ≥ 0.95 p(1 − p)ή
153 Φ ⎜⎜⎛⎝ 0.01 ν ⎟⎠⎟⎞ ≥ 0.975 = Φ (1.96) p(1 − p)(η τελευταία ισότητα από τον Πίνακα Β1 της τυποποιηµένης Κανονικής), και επειδήη Φ είναι γνησίως αύξουσα, 0.01 ν ≥ 1.96 , ή v ≥ 38416 p(1 − p) . p(1 − p)Η τελευταία ανισότητα θα µας παρείχε την απαιτούµενη τιµή του ν αν το p ήτανγνωστό. Επειδή όµως το p είναι άγνωστο, πρέπει να εξασφαλίζεται η ανισότητα v ≥ 38416 p(1 − p)για κάθε p ∈ (0,1) . Όµως p(1 − p) ≤ 1/ 4 , 0 ≤ p ≤ 1, διότι η συνάρτησηg(p) = p(1 − p) είναι γνησίως αύξουσα για p ∈[0,1/ 2] και γνησίως φθίνουσα γιαp ∈[1/ 2,1] , µε µέγιστη τιµή g (1/ 2) = 1/ 4 . Άρα, η σχέση v ≥ 38416 p(1 − p)εξασφαλίζεται για όλα τα p ∈ (0,1) όταν v ≥ 38416 ⋅ 0.25 ≅ 9604 . Τελικά, ο ελάχιστος αριθµός ερωτώµενων πρέπει να είναι v ≅ 9600 . Ο αριθµόςαυτός µπορεί να ελαττωθεί αρκετά αν γνωρίζουµε π.χ., ότι ο υποψήφιος δεν θα λάβειποσοστό µεγαλύτερο του 10%, δηλ. p ≤ 0.1. Τότε p(1 − p) ≤ 0.09 , οπότεv ≥ 38416 ⋅ 0.09 ≅ 3460 , και έτσι v = 3460 ερωτώµενοι θα ήταν αρκετοί για ναεξαχθούν ασφαλή συµπεράσµατα για κάποιον υποψήφιο που δεν είναι πολύδηµοφιλής (µε p ≤ 0.1) .Παράδειγµα 3.2. Ο ταµίας ενός super-market στρογγυλοποιεί τους λογαριασµούςστο πλησιέστερο πολλαπλάσιο των 0.10 Ευρώ, π.χ., ένας λογαριασµός των 40.32Ευρώ στρογγυλοποιείται σε 40.30 Ευρώ, ενώ των 62.38 Ευρώ στρογγυλοποιείται σε62.40 Ευρώ κ.ο.κ. Αν σε µία µέρα εξυπηρετήσει v = 100 πελάτες να υπολογίσετε τηνπιθανότητα όπως το συνολικό σφάλµα στρογγυλοποίησης δεν υπερβεί ποσό των 0.80Ευρώ. Μπορούµε, για απλότητα στις πράξεις, να υποθέσουµε ότι η στρογγυλοποίησηX i του λογαριασµού i είναι συνεχής τ.µ., οµοιόµορφα κατανεµηµένη στο[−0.05, 0.05] , δηλαδή η πυκνότητα των X i είναι η U (−0.05, 0.05) : f (x) = 10 , − 0.05 ≤ x ≤ 0.05 .(Εδώ σιωπηρά υποθέτουµε ότι ένας λογαριασµός µπορεί να πάρει οποιαδήποτεπραγµατική τιµή). Τότε µ=0 και σ2 = (β − α)2 = 1 . Το συνολικό σφάλµα 12 1200στρογγυλοποίησης ισούται µε S(100) = X1 +L+ X100 ,
154και ενδιαφερόµαστε για την P(| S(100) |≤ 0.8) .Η ζητούµενη πιθανότητα γράφεται: P( | S(100 ) |≤ 0.8) = P(−0.8 ≤ S(100) ≤ 0.8) = P⎜⎛⎜⎝ − 0.8 ≤ S(100) ≤ 0.8 ⎟⎠⎞⎟ 100 100 100 = P⎛⎜ − 0.8 − 0 ≤ X − µ ≤ 0.8 − 0⎟⎞ ⎝ 100 100 ⎠ ⎛⎜ 100 ⎛⎜ − 0.8 ⎞⎟ ≤ ν (X − µ) ≤ 100 ⎛⎜⎝ 100.80 ⎟⎞ ⎞⎟ = P⎜⎜ 1 ⎝ 100 ⎠ σ 1 ⎠ ⎟ ⎟ ⎜ 1200 ⎟ ⎝ 1200 ⎠ = P⎝⎜⎜⎛ − 2.77 ≤ ν (X − µ) ≤ 2.77⎞⎠⎟⎟ . σΕπειδή το v = 100 είναι αρκετά µεγάλο, η τελευταία πιθανότητα προσεγγίζεται,βάσει του Κ.Ο.Θ., από την (στα επόµενα Z ~ N (0,1)) P(−2.77 ≤ Z ≤ 2.77) = P(Z ≤ 2.77) − P(Z < −2.77) = Φ(2.77) − Φ(−2.77) = Φ(2.77) − (1 − Φ(2.77)) = 2Φ(2.77) −1.Από τον Πίνακα Β1 της τυποποιηµένης Κανονικής βρίσκουµε Φ(2.77) = 0.9972 ,οπότε P(| S(100) |≤ 0.8) ≅ 2Φ (2.77) −1 = 99.44% .∆ηλαδή, µε πιθανότητα περίπου 99.5%, το σφάλµα στρογγυλοποίησης δεν θα υπερβείτα 0.80 Ευρώ.ΑΣΚΗΣΕΙΣ ΚΕΦ. 5 1. Η διάρκεια ζωής ενός λαµπτήρα ακολουθεί εκθετική κατανοµή µε µέσο 1000ώρες. Εκλέγουµε v = 100 τέτοιους λαµπτήρες, και έστω X i , i = 1, 2,...,100 ο χρόνοςζωής του i λαµπτήρα. Θέτουµε X = ( X1 +L+ X100 ) /100 , δηλ. X είναι οδειγµατικός µέσος χρόνος ζωής των 100 λαµπτήρων.(α) Βρείτε την πυκνότητα του X .(β) Υπολογίστε κατά προσέγγιση την πιθανότητα P(90 ≤ X ≤ 120) .
155 2. Ένας παίκτης χάνει 2 ή 4 λεπτά του Ευρώ αν το αποτέλεσµα της ρίψης ενόςσυνήθους κύβου είναι 2 ή 4, αντίστοιχα, ενώ κερδίζει 6 λεπτά αν το αποτέλεσµα είναι6. Ο παίκτης ούτε χάνει ούτε κερδίζει αν το αποτέλεσµα είναι περιττός αριθµός. Ναυπολογιστεί (κατά προσέγγιση) η πιθανότητα όπως το συνολικό κέρδος σε 48 ρίψειςείναι µεταξύ των − 7 και 7 λεπτών. 3. Είναι γνωστό ότι το 10% της παραγωγής ενός βιοµηχανικού προϊόντος δενπληροί τις προδιαγραφές. Το προϊόν συσκευάζεται σε κιβώτια των 100 και κάθε µέραελέγχονται 100 τέτοια κιβώτια. Αν από κάθε κιβώτιο εκλέγονται τυχαία 5 µονάδεςτου προϊόντος, να υπολογιστεί (κατά προσέγγιση) η πιθανότητα όπως ο αριθµός τωνελαττωµατικών δεν υπερβαίνει τα 60. 4. Αν η κατανάλωση βενζίνης σε λίτρα ανά χιλιόµετρο ενός αυτοκινήτου είναιοµοιόµορφη τυχαία µεταβλητή στο [0.07, 0.12] , ποια είναι (κατά προσέγγιση) ηπιθανότητα όπως 48 λίτρα βενζίνης είναι αρκετά για διαδροµή 500 χιλιοµέτρων; 5. Στο παιχνίδι της ρουλέτας η πιθανότητα να κερδίσει ο παίκτης ένα Ευρώ είναι18/37 σε κάθε γύρισµα, ενώ η πιθανότητα να χάσει ένα Ευρώ είναι 19/37 (παίζει στακόκκινα-µαύρα). Πόσα γυρίσµατα πρέπει να κάνει η ρουλέτα σε µια µέρα, έτσι ώστεµε πιθανότητα 1/2 το καζίνο να κερδίσει τουλάχιστον 1000 Ευρώ; 6. Η ποσότητα µιας χηµικής ουσίας που περιέχεται σε κάθε δισκίο ενόςφαρµάκου ακολουθεί κάποια (άγνωστη) κατανοµή µε µέσο µ = 5 mg και τυπικήαπόκλιση σ = 2 mg. Ένας ασθενής θεραπεύεται αν σε διάστηµα 100 ηµερών λάβειαπό 480mg ως 530mg της χηµικής ουσίας. Αν ο ασθενής λαµβάνει ένα δισκίοκαθεµιά από τις επόµενες 100 ηµέρες, (α) ποια είναι η πιθανότητα να θεραπευτεί στοτέλος των 100 ηµερών; (β) ποια η πιθανότητα να λάβει υπερβολική δόση της ουσίας(πάνω από 530mg); (γ) ποια η πιθανότητα να µην θεραπευτεί επειδή έλαβε ανεπαρκήποσότητα της ουσίας (κάτω των 480mg);
Μέρος ΒΣΤΑΤΙΣΤΙΚΗ
Β1ΠΕΡΙΓΡΑΦΙΚΗ ΣΤΑΤΙΣΤΙΚΗ
ΚΕΦΑΛΑΙΟ 6ΟΡΓΑΝΩΣΗ ΚΑΙ ΓΡΑΦΙΚΗ ΠΑΡΑΣΤΑΣΗΣΤΑΤΙΣΤΙΚΩΝ ∆Ε∆ΟΜΕΝΩΝ1. ΕΙΣΑΓΩΓΗ Τα δεδοµένα µιας στατιστικής έρευνας αποτελούνται συνήθως από ένα µεγάλοπλήθος στοιχείων που αφορούν τον πληθυσµό που µας ενδιαφέρει. Τα στοιχεία αυτάοργανώνονται αρχικά σε µορφή πινάκων µε τέτοιο τρόπο ώστε να µπορεί κανείς µεµία απλή ανάγνωση να σχηµατίσει µία ιδέα για το δείγµα (ή τον πληθυσµό). Στησυνέχεια, για µία πιο αποτελεσµατική παρουσίαση, γίνεται χρήση είτε γραφικών είτεαριθµητικών µεθόδων. Προτού προχωρήσουµε στην αναλυτική εξέταση των µέσων παρουσίασηςστατιστικών στοιχείων ας αναφέρουµε τους κυριότερους τύπους δεδοµένων. Έστωλοιπόν ένας πληθυσµός στα άτοµα του οποίου καταγράφουµε τις τιµές που παίρνειένα (ή περισσότερα) συγκεκριµένο χαρακτηριστικό π.χ. το µηνιαίο εισόδηµα, χρώµαµατιών, ύψος, ηλικία κ.λ.π. Έτσι έχουµε µία τυχαία µεταβλητή Χ και αν από τονπληθυσµό θεωρήσουµε ένα τυχαίο δείγµα µεγέθους ν θα πάρουµε ν ανεξάρτητες καιισόνοµες τυχαίες µεταβλητές X1, X 2 ,..., X v . Οι τυχαίες µεταβλητές διακρίνονταιανάλογα µε το είδος των τιµών που µπορούν να πάρουν σε ποσοτικές και ποιοτικές. Μία τυχαία µεταβλητή θα λέγεται ποσοτική (quantitative) αν παίρνει µόνοαριθµητικές τιµές όπως π.χ. ο αριθµός των παιδιών µιας οικογένειας, ο αριθµός τωνατόµων που τραυµατίζονται στους εθνικούς δρόµους της Ελλάδας έναΣαββατοκύριακο, ο χρόνος που χρειάζεται ένας φοιτητής για να απαντήσει σταθέµατα ενός διαγωνίσµατος Στατιστικής, το ύψος των ατόµων ενός πληθυσµού κ.λπ.Αν το σύνολο των τιµών που παίρνει µία ποσοτική τυχαία µεταβλητή είναιπεπερασµένο ή αριθµήσιµο τότε θα µιλάµε για διακριτή (discrete) τυχαία µεταβλητή.Αντίθετα, αν µία τυχαία µεταβλητή µπορεί να πάρει, θεωρητικά τουλάχιστον, κάθετιµή ενός διαστήµατος (α, β) µε − ∞ ≤ α < β ≤ +∞ , θα λέγεται συνεχής (continuous).Από τα παραδείγµατα που δόθηκαν παραπάνω, οι δύο πρώτες τυχαίες µεταβλητέςείναι διακριτές ενώ οι άλλες δύο συνεχείς. Οι ποιοτικές ή κατηγορικές (qualitative, categorical) τυχαίες µεταβλητέςχαρακτηρίζονται από το γεγονός ότι οι τιµές τους µπορούν απλώς να ταξινοµηθούνσε κατηγορίες και δεν εκφράζουν απαραίτητα κάτι το µετρήσιµο. Τέτοιες µεταβλητές
158είναι π.χ. το χρώµα των µατιών, η υγεία (κακή, µέτρια ή καλή), το επάγγελµα τωνατόµων του πληθυσµού κ.λπ. Ο απλούστερος τύπος ποιοτικών τυχαίων µεταβλητώνείναι αυτές που παίρνουν µόνο δύο τιµές (π.χ. το φύλο ενός ατόµου, το αν ένα άτοµοχρησιµοποιεί ή όχι συγκεκριµένο προϊόν κ.λπ.) και λέγονται διχοτοµικές (dichoto-mous). Στις επόµενες παραγράφους θα εξετάσουµε αναλυτικά τους τρόπους οργάνωσηςκαι παρουσίασης των διαφόρων ειδών δεδοµένων.2. ΠΙΝΑΚΕΣ ΣΥΧΝΟΤΗΤΩΝ Έστω Χ µία τυχαία µεταβλητή (χαρακτηριστικό) που αφορά τα άτοµα ενόςπληθυσµού και X1, X 2 ,..., X v ένα τυχαίο δείγµα µεγέθους ν. Για ένα συγκεκριµένοδείγµα θα συµβολίζουµε µε x1, x2 ,..., xv τις τιµές του χαρακτηριστικού για τα ν άτοµατου δείγµατος και µε y1, y2 ,..., yk (k ≤ v) τις k διαφορετικές µεταξύ τους τιµές απότα x1, x2 ,..., xv . Συχνότητα (frequency) vi της τιµής yi θα λέγεται το πλήθος τωνx1, x2 ,.., xv που είναι ίσα µε yi , ενώ σχετική συχνότητα (relative frequency) fi θαλέγεται το αντίστοιχο ποσοστό, δηλαδή fi = vi = vi , i = 1, 2,..., k . v k ∑vj j =1Συνήθως οι ποσότητες yi , vi , fi , i = 1, 2,..., k για ένα δείγµα συγκεντρώνονται σεένα συνοπτικό πίνακα που ονοµάζεται πίνακας συχνοτήτων.Παράδειγµα 2.1. Σε ένα δείγµα 20 οικογενειών από µία περιοχή της Αθήνας, τοεπάγγελµα του πατέρα, ο µηνιαίος µισθός του πατέρα και ο αριθµός παιδιών τηςοικογένειας δίνονται στον Πίνακα 2.1. Πίνακας 2.1 ∆εδοµένα ενός δείγµατος 20 οικογενειών. Οικογένεια Επάγγελµα Μηνιαίος Αριθµ. παιδιών i Πατέρα Μισθός πατέρα Οικογένειας 1 εργάτης 700 0 2 οδηγός 750 1 3 εργάτης 800 0 4 δηµ. υπάλληλος 700 2 5 δηµ. υπάλληλος 800 2 6 δηµ. υπάλληλος 500 2 7 δάσκαλος 900 3 8 ιερέας 1000 2 9 οδηγός 600 4 10 εργάτης 600 1
15911 δάσκαλος 700 112 εργάτης 600 213 εργάτης 800 314 δηµ. υπάλληλος 700 415 ιερέας 900 116 δάσκαλος 1000 217 εργάτης 900 218 δηµ. υπάλληλος 650 219 δάσκαλος 750 220 δηµ. υπάλληλος 800 2Οι αντίστοιχες συχνότητες για τις τρεις µεταβλητές που καταγράφηκαν στα 20 άτοµατου δείγµατος δίνονται στους Πίνακες 2.2, 2.3, 2.4. Πίνακας 2.2.Πίνακας συχνοτήτων για το επάγγελµα πατέρα στο δείγµα των 20 οικογενειών του Πίνακα 2.1.i yi vi fi1 Εργάτης ΙΙΙΙΙ Ι 6 0.3 2 0.12 οδηγός ΙΙ 6 0.3 4 0.23 δηµ. υπάλληλος Ι Ι Ι Ι Ι Ι 2 0.1 20 1.04 δάσκαλος ΙΙΙΙ5 ιερέας ΙΙ Σύνολο Πίνακας 2.3.Πίνακας συχνοτήτων για το Μηνιαίο µισθό στο δείγµα των 20 οικογενειών του Πίνακα 2.1.i yi vi fi (σε 10άδες) 0.051 50 Ι 1 0.15 0.052 60 Ι Ι Ι 3 0.20 0.103 65 Ι 1 0.20 0.154 70 Ι Ι Ι Ι 4 0.10 1.005 75 Ι Ι 26 80 Ι Ι Ι Ι 47 90 Ι Ι Ι 38 100 Ι Ι 2 Σύνολο 20
160 Πίνακας 2.4. Πίνακας συχνοτήτων για τον αριθµό παιδιών στο δείγµα των 20 οικογενειών του Πίνακα 2.1. i yi vi fi 1 0 ΙΙ 2 0.1 2 1 ΙΙΙΙ 4 0.2 3 2 ΙΙΙΙI ΙΙΙΙI 10 0.5 4 3 ΙΙ 2 0.1 5 4 ΙΙ 2 0.1 Σύνολο 20 1.0Στην περίπτωση ποσοτικών τυχαίων µεταβλητών εκτός των ποσοτήτων vi , fiχρησιµοποιούνται συνήθως και οι λεγόµενες αθροιστικές συχνότητες (cumulativefrequencies) Ni , καθώς και οι αθροιστικές σχετικές συχνότητες (cumulative rela-tive frequencies) Fi οι οποίες δίνουν το πλήθος και το ποσοστό αντίστοιχα τωνπαρατηρήσεων που είναι µικρότερες ή ίσες του yi . Αν τα y1, y2,..., yk είναιδιατεταγµένα κατά αύξουσα σειρά µεγέθους δηλ. y1 ≤ y2 ≤L≤ yk είναι φανερό ότι Ni = v1 + v2 +L+ vi , i = 1, 2,..., k , Fi = f1 + f 2 +L+ fi , i = 1, 2,..., k , v1 = N1 , vi = Ni − Ni−1 , i = 2,3,..., k , f1 = F1 , fi = Fi − Fi−1 , i = 2,3,..., k .Παράδειγµα 2.1. (συνέχεια) Συµπληρώνοντας τους Πίνακες 2.3 και 2.4 µε τιςαντίστοιχες αθροιστικές και αθροιστικές σχετικές συχνότητες (για τις ποσοτικέςτυχαίες µεταβλητές “Μηνιαίος µισθός” και “αριθµός παιδιών”) παίρνουµε τουςΠίνακες 2.5 και 2.6. Πίνακας 2.5. Πίνακας συχνοτήτων και αθροιστικών συχνοτήτων για το Μηνιαίο µισθό στο δείγµα των 20 οικογενειών του Πίνακα 2.1. i yi vi fi Ni Fi (σε 10άδες) 1 50 1 0.05 1 0.05 2 60 3 0.15 4 0.20 3 65 1 0.05 5 0.25 4 70 4 0.20 9 0.45 5 75 2 0.10 11 0.55 6 80 4 0.20 15 0.75 7 90 3 0.15 18 0.90 8 100 2 0.10 20 1.00 20 1.00
161 Πίνακας 2.6.Πίνακας συχνοτήτων και αθροιστικών συχνοτήτων για τον αριθµό παιδιώνστο δείγµα των 20 οικογενειών του Πίνακα 2.1.i yi vi fi Ni Fi10 2 0.1 2 0.121 4 0.2 6 0.33 2 10 0.5 16 0.843 2 0.1 18 0.954 2 0.1 20 1.0 20 1.03. ΓΡΑΦΙΚΕΣ ΜΕΘΟ∆ΟΙ ΠΑΡΟΥΣΙΑΣΗΣ ΣΤΑΤΙΣΤΙΚΩΝ ∆Ε∆ΟΜΕΝΩΝ Ανάλογα µε το είδος των δεδοµένων που διαθέτουµε υπάρχουν διάφοροι τρόποιγραφικής παρουσίασης. Θα εξετάσουµε λοιπόν ξεχωριστά κάθε κατηγορία. α) Παρουσίαση ποιοτικών δεδοµένων Για τη γραφική παράσταση ποιοτικών δεδοµένων χρησιµοποιούνται κυρίως δύοείδη διαγραµµάτων: το ραβδόγραµµα (barchart) και το κυκλικό διάγραµµασυχνοτήτων (piechart). Στο ραβδόγραµµα, οι κατηγορίες της τυχαίας µεταβλητής παριστάνονται στονοριζόντιο άξονα σαν ισοµήκη διαστήµατα (µε κενά συνήθως µεταξύ τους) ενώ οιαντίστοιχες συχνότητες ή σχετικές συχνότητες στον κατακόρυφο. Τα επόµενα δύοσχήµατα δίνουν τα ραβδογράµµατα των δεδοµένων του Πίνακα 2.2. Σχήµα 3.1αΡαβδόγραµµα Συχνοτήτων για τα δεδοµένα του Πίνακα 2.2.
162 Σχήµα 3.1β Ραβδόγραµµα Σχετικών Συχνοτήτων για τα δεδοµένα του Πίνακα 2.2. Μερικές φορές σε ένα ραβδόγραµµα συχνοτήτων ο ρόλος των δύο αξόνων είναιδυνατόν να αντιστραφεί όπως φαίνεται και στο Σχήµα 3.2. Σχήµα 3.2 Ραβδόγραµµα Συχνοτήτων για τα δεδοµένα του Πίνακα 2.2. Τα κυκλικά διαγράµµατα χρησιµοποιούν για την παράσταση των δεδοµένωνένα κύκλο χωρισµένο σε κυκλικά τµήµατα (βλ. Σχήµα 3.3).
163 Σχήµα 3.3Κυκλικό διάγραµµα συχνοτήτων για τα δεδοµένα του Πίνακα 2.2.Κάθε κυκλικό τµήµα αναφέρεται σε µία κατηγορία του χαρακτηριστικού και έχειτόξο αi ανάλογο της αντίστοιχης συχνότητας ή σχετικής συχνότητας, δηλαδήαi = vi 360o = 360 fi , i = 1, 2,..., k . v β) Παρουσίαση ποσοτικών δεδοµένων Όταν τα δεδοµένα είναι ποσοτικά και το πλήθος k των διαφορετικών τιµών πουπήραµε από το δείγµα είναι µικρό τότε αφού γίνει η πινακοποίηση των δεδοµένων σεένα πίνακα συχνοτήτων µπορούµε να χρησιµοποιήσουµε για την γραφική τουςπαράσταση είτε ένα διάγραµµα συχνοτήτων (line diagram) είτε ένα κυκλικόδιάγραµµα
164 Σχήµα 3.4 Κυκλικό διάγραµµα συχνοτήτων για τα δεδοµένα του Πίνακα 2.4.συχνοτήτων. Το δεύτερο σχηµατίζεται µε τον ίδιο ακριβώς τρόπο, όπως για ταποιοτικά χαρακτηριστικά (βλ. Σχήµα 3.4). Το πρώτο µοιάζει µε το ραβδόγραµµα µεµόνη διαφορά ότι αντί να χρησιµοποιούµε συµπαγή ορθογώνια, υψώνουµε σε κάθεyi µία Σχήµα 3.5 ∆ιάγραµµα συχνοτήτων για τα δεδοµένα του Πίνακα 2.4.κάθετη γραµµή µε µήκος ίσο προς την αντίστοιχη συχνότητα ή σχετική συχνότητα(βλ. Σχήµα 3.5).
165 Σχήµα 3.6 Πολύγωνο συχνοτήτων για τα δεδοµένα του Πίνακα 2.4.Πολλές φορές οι κορυφές των κατακόρυφων γραµµών ενώνονται µεταξύ τουςσχηµατίζοντας το λεγόµενο πολύγωνο συχνοτήτων (frequency polygon) το οποίοµας δίνει µία γενική ιδέα για τη µεταβολή της συχνότητας ή της σχετικής συχνότηταςόσο µεγαλώνει η τιµή της τυχαίας µεταβλητής που µελετάµε (βλ. Σχήµατα 3.6 και3.7). Σχήµα 3.7 Πολύγωνο σχετικών συχνοτήτων για τα δεδοµένα του Πίνακα 2.4. Για µικρά σύνολα δεδοµένων, µπορεί κανείς να χρησιµοποιήσει και το λεγόµενοσηµειόγραµµα (dot diagram) στο οποίο οι παρατηρήσεις παριστάνονται µε τελείεςστις αντίστοιχες θέσεις ενός οριζόντιου άξονα. Η κλίµακα του άξονα είναι κατάλληλαδιαλεγµένη ώστε να καλύπτει όλα τα δεδοµένα.Παράδειγµα 3.1. Οι χρόνοι (σε min) που χρειάστηκαν οι 22 µαθητές µιας τάξης γιανα λύσουν ένα πρόβληµα µαθηµατικών ήταν 2, 1, 9, 8, 3, 5, 5, 6, 4, 4, 7, 2, 7, 4, 13, 4, 10, 7, 7, 9, 10, 2 .Το αντίστοιχο σηµειόγραµµα φαίνεται στο επόµενο σχήµα:
166Παράδειγµα 3.2. Ο αριθµός των ηµερών που επέζησαν οι πρώτοι 6 ασθενείς µετάαπό µεταµόσχευση καρδιάς στο Stanford ήταν 15, 3, 46, 623, 126, 64. Tα δεδοµένααυτά παριστάνονται σε ένα σηµειόγραµµα όπως παρακάτωΤο σηµειόγραµµα αυτό δείχνει γενικά µικρή διάρκεια ζωής µετά από µεταµόσχευσηκαρδιάς µε µία τιµή µάλλον µεγάλη (ακραία τιµή (outlier)). Είναι φανερό ότι σε περίπτωση µεγάλου πλήθους δεδοµένων η κατασκευή τουσηµειογράµµατος γίνεται αρκετά επίπονη. Το πιο συνηθισµένο µέσο περιγραφής ποσοτικών δεδοµένων είναι τοιστόγραµµα (histogram). Αυτό αποτελείται από διαδοχικά ορθογώνια των οποίων τούψος διαλέγεται µε τέτοιο τρόπο ώστε το εµβαδόν του ορθογωνίου να είναι ίσο µετην αντίστοιχη συχνότητα ή σχετική συχνότητα της τιµής στην οποία αναφέρεται. Γιαδιακριτά δεδοµένα, ως άκρα των βάσεων των ορθογωνίων διαλέγονται συνήθως ταµεσαία σηµεία µεταξύ των διαδοχικών yi (βλ. Σχήµα 3.8). Σχήµα 3.8 Ιστόγραµµα Συχνοτήτων για τα δεδοµένα του Πίνακα 2.4.
167 Αξίζει να σηµειωθεί ότι λόγω του τρόπου σχηµατισµού του ιστογράµµατοςσυχνοτήτων, το συνολικό εµβαδόν όλων των ορθογωνίων είναι ίσο µε το µέγεθος τουδείγµατος ν. Με παρόµοιο τρόπο σχηµατίζεται το ιστόγραµµα σχετικών συχνοτήτων(βλ. Σχήµα 3.9) στο οποίο το συνολικό εµβαδόν είναι ίσο µε 1. Σχήµα 3.9 Ιστόγραµµα Σχετικών Συχνοτήτων για τα δεδοµένα του Πίνακα 2.4. Με ανάλογο τρόπο σχηµατίζονται και τα ιστογράµµατα αθροιστικών συχνοτήτωνκαι αθροιστικών σχετικών συχνοτήτων (βλ. Σχήµα 3.10 και Σχήµα 3.11). Σχήµα 3.10 Ιστόγραµµα αθροιστικών συχνοτήτων για τα δεδοµένα του Πίνακα 2.4.
168 Οι µέθοδοι παρουσίασης ποσοτικών δεδοµένων που αναφέρθηκαν παραπάνωµπορούν να χρησιµοποιηθούν στην πράξη µόνο όταν ο αριθµός των διαφορετικώνπαρατηρήσεων είναι σχετικά µικρός. Στην αντίθετη περίπτωση είναι απαραίτητο ναταξινοµηθούν τα δεδοµένα σε µικρό πλήθος οµάδων και να θεωρούνται όµοιες όλεςοι παρατηρήσεις που ανήκουν στην ίδια οµάδα. Έτσι µπορούµε να πάρουµε τιςσυχνότητες (απόλυτες ή σχετικές) και αθροιστικές συχνότητες των διαφόρων οµάδωνκαι να προχωρήσουµε σε πινακοποίηση και γραφική παράσταση των δεδοµένων. Σχήµα 3.11 Ιστόγραµµα αθροιστικών σχετικών συχνοτήτων για τα δεδοµένα του Πίνακα 2.4.Παράδειγµα 3.3. Η συγκέντρωση (σε µgr / cm3 ) ενός συγκεκριµένου ρύπου σεδείγµατα αέρος που πάρθηκαν από 57 πόλεις των ΗΠΑ δίνεται από τον επόµενοπίνακα. Πίνακας 3.1 Συγκέντρωση ( µgr / cm3 ) ενός ρύπου στον αέρα 57 πόλεων των ΗΠΑ. 68 63 42 27 30 36 28 32 79 27 22 23 24 25 24 65 43 25 74 51 36 42 28 31 28 25 45 12 57 51 12 32 49 38 42 27 31 50 38 21 16 24 69 47 23 22 43 27 49 48 23 12 19 46 30 49 49 Πηγή: Statistical Abstract of the United States 1970, σελ. 174.
169Αν πινακοποιήσουµε τα δεδοµένα µας µε βάση τις διαφορετικές τιµές τωνπαρατηρήσεων έχουµε τον Πίνακα 3.2. Πίνακας 3.2 Πίνακας συχνοτήτων για τα δεδοµένα του Πίνακα 2.1.i yi Συχνότητα Σχετική Αθροιστική Αθρ. Σχετ. Συχνότητα Συχνότητα Συχνότητα1 12 3 .0526 3 .05262 16 1 .0175 4 .07023 19 1 .0175 5 .08774 21 1 .0175 6 .10535 22 2 .0351 8 .14046 23 3 .0526 11 .19307 24 2 .0351 13 .22818 25 3 .0526 16 .28079 27 4 .0702 20 .350910 28 4 .0702 24 .421111 30 2 .0351 26 .456112 31 2 .0351 28 .491213 32 2 .0351 30 .526314 36 2 .0351 32 .561415 38 2 .0351 34 .596516 42 3 .0526 37 .649117 43 3 .0526 40 .701818 44 1 .0175 41 .719319 45 1 .0175 42 .736820 46 1 .0175 43 .754421 47 1 .0175 44 .771922 49 3 .0526 47 .824623 50 1 .0175 48 .842124 51 2 .0351 50 .877225 57 1 .0175 51 .894726 63 1 .0175 52 .912327 65 1 .0175 53 .929828 68 1 .0175 54 .947429 69 1 .0175 55 .964930 74 1 .0175 56 .982531 79 1 .0175 57 1.0000Το αντίστοιχο ιστόγραµµα συχνοτήτων, όπως φαίνεται στο Σχήµα 3.12, δεν είναικαθόλου πληροφοριακό για τη φύση των δεδοµένων.
170 Οµαδοποιώντας τις παρατηρήσεις σε 4 διαστήµατα πλάτους 20 παίρνουµε τονΠίνακα 3.3 και το Σχήµα 3.13 τα οποία είναι πολύ περισσότερο κατατοπιστικά γιατην κατανοµή των δεδοµένων µας.
170 Σχήµα 3.12 Ιστόγραµµα Συχνοτήτων για τα δεδοµένα του Πίνακα 3.1. Πίνακας 3.3 Πίνακας συχνοτήτων για τα (οµαδοποιηµένα) δεδοµένα του Πίνακα 3.1. Κλάση Κάτω ΄Ανω vi Σχετική Αθροιστ. Αθρ. Σχετ. όριο όριο Συχνότ. Συχνότ. Συχνότητα 1 10.50 30.50 26 .4561 26 .456 2 30.50 50.50 22 .3860 48 .842 3 50.50 70.50 7 .1228 55 .965 4 70.50 90.50 2 .0351 57 1.000 Σχήµα 3.13 Ιστόγραµµα Συχνοτήτων για τα δεδοµένα του Πίνακα 3.3.
171 Είναι φανερό από το προηγούµενο παράδειγµα ότι η αυθαίρετη οµαδοποίησηµπορεί να οδηγήσει σε παραπλανητικά συµπεράσµατα για τα δεδοµένα πουδιαθέτουµε. Ας δούµε λοιπόν τώρα αναλυτικά τα διάφορα στάδια της διαδικασίαςοµαδοποίησης των δεδοµένων και ορισµένους απλούς κανόνες για επίτευξηκαλύτερων αποτελεσµάτων. Το πρώτο βήµα της οµαδοποίησης είναι η εκλογή τουαριθµού q των οµάδων ή διαστηµάτων ή κλάσεων. Ο αριθµός αυτός συνήθωςορίζεται αυθαίρετα από τον ερευνητή σύµφωνα µε την πείρα του, υπάρχει όµως καιένας τύπος που µπορεί να χρησιµοποιηθεί ως οδηγός. Αυτός είναι γνωστός ως τύποςτου Sturges και ορίζεται ως εξής:q = 1 + 3.32 log10 vόπου q είναι ο αριθµός των κλάσεων και ν το µέγεθος του δείγµατος. Το δεύτερο βήµα είναι ο προσδιορισµός του πλάτους των κλάσεων. Σηµειώνουµεότι συνιστάται το πλάτος να είναι το ίδιο για όλες τις κλάσεις. Συνήθως το πλάτος (c)υπολογίζεται διαιρώντας το εύρος (R) του δείγµατος δια του αριθµού τωνδιαστηµάτων. ∆ηλαδή,c = R qόπου το εύρος R = max{xi , i = 1, 2,..., v} − min{xi , i = 1, 2,..., v} ορίζεται ως ηδιαφορά της µικρότερης παρατήρησης από την µεγαλύτερη. Αξίζει να σηµειωθεί εδώότι τόσο στον υπολογισµό του q όσο και του c, οι στρογγυλοποιήσεις που πιθανόν θαχρειαστούν πρέπει να γίνουν προς τα επάνω ώστε τα q διαστήµατα πλάτους c νακαλύψουν όλες τις διαθέσιµες παρατηρήσεις. Το τρίτο βήµα είναι ο καθορισµός των διαστηµάτων. Το πρώτο διάστηµαδιαλέγεται συνήθως έτσι ώστε να περιέχει τη µικρότερη παρατήρηση και τοτελευταίο να περιέχει τη µεγαλύτερη. Καλό θα ήταν επίσης η επιλογή του σηµείουαρχής του πρώτου διαστήµατος να γίνεται έτσι ώστε καµιά από τις παρατηρήσεις µαςνα µη συµπίπτει µε άκρο του διαστήµατος για να αποφεύγονται αµφισβητήσειςσχετικά µε το διάστηµα στο οποίο βρίσκεται κάθε παρατήρηση.Παράδειγµα 3.3. (συνέχεια) Από τα δεδοµένα του Πίνακα 3.1 βρίσκουµε για τοναριθµό των κλάσεων q = 1 + 3.32 log10 57 = 1 + 3.32 ⋅1.76 = 6.83 ≅ 7ενώ το εύρος των παρατηρήσεων είναι R = 79 −12 = 67 .Άρα
172 c = R = 67 = 9.6 ≅ 10 q 7και αν θεωρήσουµε σαν αρχή του πρώτου διαστήµατος το 9.5 (οπότε καµµίαπαρατήρηση δεν πέφτει σε άκρο διαστήµατος) θα έχουµε τον επόµενο πίνακασυχνοτήτων 3.4. Αξίζει να σηµειωθεί ότι κατά τον υπολογισµό του αριθµού τωνκλάσεων q και του πλάτους c των διαστηµάτων, οι στρογγυλοποιήσεις θα πρέπει ναγίνονται προς τα επάνω ώστε να εξασφαλίζεται ότι το ολικό πλάτος q ⋅ c µπορεί, µεκατάλληλη επιλογή της αρχής, να καλύψει όλο το εύρος των παρατηρήσεων. Πίνακας 3.4 Πίνακας συχνοτήτων των δεδοµένων του Πίνακα 3.1. i Κάτω ΄Ανω Κέντρο Σχετική Αθροιστ. Αρθ. Σχετ. όριο όριο yi vi Συχνότ. Συχνότ Συχνότητα 1 9.50 19.50 14.50 5 .0877 5 .0877 2 19.50 29.50 24.50 19 .3333 24 .4211 3 29.50 39.50 34.50 10 .1754 34 .5965 4 39.50 49.50 44.50 13 .2281 47 .8246 5 49.50 59.50 54.50 4 .0702 51 .8947 6 59.50 69.50 64.50 4 .0702 55 .9649 7 69.50 79.50 74.50 2 .0351 57 1.0000Για την κατασκευή του ιστογράµµατος συχνοτήτων θεωρούµε ένα σύστηµαορθογωνίων αξόνων στον οριζόντιο άξονα του οποίου σηµειώνουµε τα όρια τωνκλάσεων. Στη συνέχεια κατασκευάζουµε ορθογώνια παραλληλόγραµµα που έχουνβάσεις τα διαστήµατα των κλάσεων και ύψος τέτοιο, ώστε το εµβαδόν κάθεορθογωνίου να ισούται µε την συχνότητα των παρατηρήσεων στην αντίστοιχη κλάση.Εάν οι κλάσεις είναι όλες του ιδίου εύρους, τότε τα ορθογώνια έχουν ύψος ανάλογοτης αντίστοιχης συχνότητας. Έτσι το ιστόγραµµα συχνοτήτων της κατανοµήςσυχνοτήτων του Πίνακα 3.4 δίνεται από το Σχήµα 3.14. Ενώνοντας στο Σχήµα 3.14, τα µέσα των άνω βάσεων των ορθογωνίωνπαραλληλογράµµων (και προσθέτοντας δύο ακόµη υποθετικές κλάσεις µε συχνότηταµηδέν δεξιά και αριστερά των πραγµατικών κλάσεων) σχηµατίζουµε το πολύγωνοσυχνοτήτων. Αυτό χρησιµοποιείται κυρίως όταν η µεταβλητή είναι συνεχής. Προφανώς το εµβαδόν που περικλείεται κάτω από την πολυγωνική γραµµή καιτον οριζόντιο άξονα είναι ίσο µε το άθροισµα των συχνοτήτων, δηλαδή µε τοσυνολικό αριθµό παρατηρήσεων. Με τον ίδιο τρόπο όπως το ιστόγραµµα συχνοτήτων κατασκευάζονται και ταιστόγραµµα αθροιστικών συχνοτήτων, σχετικών συχνοτήτων και αθροιστικώνσχετικών συχνοτήτων.
173 Σχήµα 3.14 Ιστόγραµµα συχνοτήτων (και πολύγωνο συχνοτήτων) για τα δεδοµένα του Πίνακα 3.4. Σχήµα 3.15 Ιστόγραµµα αθροιστικών συχνοτήτων και αθροιστικό διάγραµµα (ogive) για τα δεδοµένα του Πίνακα 3.4.Το ιστόγραµµα αθροιστικών συχνοτήτων για τα δεδοµένα του Πίνακα 3.4 δίνεται στοΣχήµα 3.15. Στο σχήµα αυτό παριστάνεται επίσης και το αθροιστικό διάγραµµα(ogive) της κατανοµής µε διακεκοµµένη γραµµή.
174 Παρόλο που ένα ιστόγραµµα µας δίνει µία γενική ιδέα για τη µορφή τηςκατανοµής του χαρακτηριστικού για το οποίο έχουµε πάρει τις παρατηρήσεις εντούτοις είναι δυνατό πολλές φορές δύο ιστογράµµατα που έχουν κατασκευαστεί απότις ίδιες παρατηρήσεις να δίνουν µάλλον διαφορετικές εντυπώσεις. Οι διαφορές αυτέςπροκύπτουν συνήθως από το διαφορετικό αριθµό (και εύρος) κλάσεων πουεπιλέγονται για τα συγκεκριµένα δεδοµένα. Η διαφορά που φαίνεται σταιστογράµµατα των Σχηµάτων 3.13 και 3.16 οφείλεται στο ότι στο µεν πρώτοιστόγραµµα έχουν 4 κλάσεις Σχήµα 3.16 Ιστόγραµµα Συχνοτήτων για τα δεδοµένα του Πίνακα 3.4.πλάτους 20 η κάθε µία ενώ στο δεύτερο 7 κλάσεις πλάτους 10 η κάθε µία. Εκτός από τους παραδοσιακούς τρόπους παρουσίασης δεδοµένων στηνπεριγραφική στατιστική, όπως τα ιστογράµµατα και οι πίνακες συχνοτήτων, άλλεςνεώτερες µέθοδοι παρουσίασης και ανάλυσης δεδοµένων είναι τα λεγόµεναφυλλογραφήµατα (stem-leaf plots). Περιληπτικά η κατασκευή ενός φυλλογραφήµατος γίνεται µε βάση τα παρακάτωβήµατα:α) Επιλέγουµε πρώτα τα stems (οδηγούντα ψηφία), και τα leaves (επόµενα ψηφία).β) Καταγράφουµε τα stems και τα leaves.γ) ∆ιατάσσουµε τα stems κατ’ αύξουσα τάξη γράφοντάς τα κατακόρυφα.δ) Γράφουµε τα leaves στην ίδια γραµµή που βρίσκεται το αντίστοιχό τους stem.ε) Ελέγχουµε αν έχουµε καταγράψει όλα τα leaves (ο αριθµός τους είναι φυσικά ίσος µε το συνολικό αριθµό παρατηρήσεων).Παράδειγµα 3.5. Ας υποθέσουµε ότι έχουµε τις εξής τιµές: 136.4 110.9 120.0 110.1 110.6 116.2 99.0.
175Στρογγυλοποιώντας τα δεδοµένα στον πλησιέστερο ακέραιο και θεωρώντας σαν stemτις δεκάδες και leaf τις µονάδες µπορούµε να σχηµατίσουµε το επόµενοφυλλογράφηµα.∆εδοµένα Ακέραιοι stems leaves ∆εκάδες Μονάδες 9 136.4 136 13 6 9 110.9 111 11 1 10 1016 120.0 120 12 0 11 0 110.1 110 11 0 12 6 110.6 111 11 1 13 116.2 116 11 6 99 9 99.0 9Παράδειγµα 3.3. (συνέχεια) Για τα δεδοµένα του Πίνακα 3.1 έχουµε το παρακάτωφυλλογράφηµα. Πίνακας 3.5 Φυλλογράφηµα για τα δεδοµένα του Πίνακα 3.1. ∆εκάδες Μονάδες 1 22629 2 787234588571432783 3 0626128180 4 232592739639 5 1710 6 8359 7 94∆ιατάσσοντας κατ’ αύξουσα τάξη τα ψηφία (µονάδες που αντιστοιχούν σε κάθεδεκάδα), έχουµε στον Πίνακα 3.6 το διατεταγµένο φυλλογράφηµα. Πίνακας 3.6 ∆ιατεταγµένο φυλλογράφηµα για τα δεδοµένα του Πίνακα 3.1. ∆εκάδες Μονάδες 1 22269 2 122334445557777888 3 0011226688 4 2223335678999 5 0117 6 3589 7 49 Είναι φανερό ότι, η µορφή ενός φυλλογραφήµατος επηρεάζεται δραστικά απότην επιλογή των stems, όπως ακριβώς τα ιστογράµµατα επηρεάζονται από τηνεπιλογή των κλάσεων. Αυτό φαίνεται αρκετά γλαφυρά στο επόµενο παράδειγµα.
176Παράδειγµα 3.4. Η βαθµολογία 70 µαθητών σε ένα τεστ νοηµοσύνης (IQ) δίνεταιαπό τον επόµενο πίνακα. Πίνακας 3.7 Πίνακας Βαθµολογίας σε IQ test 70 µαθητών. 103 115 124 137 98 115 94 110 99 117 120 103 117 121 123 132 114 119 128 121 124 114 120 105 91 97 115 122 117 127 109 119 105 96 97 119 109 115 127 117 103 115 110 112 111 96 110 99 116 110 107 119 110 116 127 112 98 122 102 100 107 103 96 110 132 103 120 105 103 103∆ιαλέγοντας σαν stem τις 10δες και τις 5άδες έχουµε αντίστοιχα τα επόµεναφυλλογραφήµατα. Πίνακας 3.8 ∆ιατεταγµένο φυλλογράφηµα για τα δεδοµένα του Πίνακα 3.7. (stem = 10άδα) stems leaves 9 * 14666778899 10 * 0233333335557799 11* 00000012244555556677779999 12 * 00011223447778 13* 227Αξίζει να σηµειωθεί ότι τα φυλλογραφήµατα είναι στην πραγµατικότητα ταιστογράµµατα µε στραµµένους τους άξονές τους κατά 90o όπως φαίνεται και σταΣχήµατα 3.17, 3.18. Το πλεονέκτηµα του φυλλογραφήµατος σε σχέση µε το ιστόγραµµα είναι ότι τοπρώτο διατηρεί τις αρχικές παρατηρήσεις. Έτσι, από ένα φυλλογράφηµα µπορείκανείς αµέσως να διαπιστώσει αν µία συγκεκριµένη παρατήρηση υπάρχει ή όχι στο
177δείγµα. Αντίθετα από ένα ιστόγραµµα που έχει προκύψει µε οµαδοποίηση αυτό δενείναι εφικτό. Πίνακας 3.9∆ιατεταγµένο φυλλογράφηµα για τα δεδοµένα του Πίνακα 3.7. (stem = 5άδα)stem leaves 9* 14 9o 66677889910 * 02333333310o 555779911* 0000001224411o 55555667777999912 * 000112234412o 777813 * 2213o 7*: πρώτη πεντάδα (0-4) o : δεύτερη πεντάδα (5-9) Σχήµα 3.17 Φυλλογράφηµα και Ιστόγραµµα των δεδοµένων του Πίνακα 3.7. (stem = 10άδα) 9 1466677889910 023333333555779911 0000001224455555667777999912 0001122344777813 227
178 Σχήµα 3.18 Φυλογράφηµα και Ιστόγραµµα των δεδοµένων του Πίνακα 3.7. (stem = 5άδα) 9 * 14 9o 66677889910 * 02333333310o 555779911* 0000001224411o 55555667777999912 * 000112234412o 777813* 2213o 7
ΚΕΦΑΛΑΙΟ 7ΑΡΙΘΜΗΤΙΚΑ ΠΕΡΙΓΡΑΦΙΚΑ ΜΕΤΡΑ1. ΕΙΣΑΓΩΓΗ Τα αριθµητικά περιγραφικά µέτρα (numerical descriptive measures) µας βοηθούννα σχηµατίσουµε µία συνοπτική εικόνα των δεδοµένων µας µε χρήση πολύ µικρού(σε σχέση µε τις αρχικές παρατηρήσεις) πλήθους αριθµητικών στοιχείων. Τααριθµητικά περιγραφικά µέτρα χρησιµοποιούνται επίσης όπως θα δούµε σε επόµενακεφάλαια για την θεωρία της στατιστικής συµπερασµατολογίας. ∆ιακρίνονται κυρίωςσε δύο βασικές κατηγορίες: τα µέτρα θέσης ή κεντρικής τάσης (location measures,central tendency measures) και τα µέτρα διασποράς ή µεταβλητότητας (measures ofvariability, measures of variance, dispersion measures). Στο τέλος της παραγράφουαυτής θα εξετάσουµε επίσης και µερικά άλλα αριθµητικά περιγραφικά µέτρα ταοποία ορίζονται µε βάση τα µέτρα θέσης και διασποράς.2. ΜΕΤΡΑ ΚΕΝΤΡΙΚΗΣ ΤΑΣΗΣ Η ΘΕΣΗΣ Τα µέτρα κεντρικής τάσης είναι χρήσιµα για την περιγραφή της θέσης τηςκατανοµής από την οποία προέρχονται τα δεδοµένα µας. Θα ορίσουµε αρχικά ταµέτρα της κατηγορίας αυτής για την περίπτωση µη οµαδοποιηµένων δεδοµένωνδηλαδή όταν διαθέτουµε τις πρωτογενείς παρατηρήσεις x1, x2 ,..., xv ή ισοδύναµα τιςδιαφορετικές µεταξύ τους παρατηρήσεις y1, y2 ,..., yk και τις αντίστοιχες συχνότητες. α) Μέση Τιµή. Μέση τιµή (mean, mean value) ή δειγµατική µέση τιµή (samplemean) λέγεται το άθροισµα των τιµών των παρατηρήσεων του δείγµατος δια τουπλήθους των παρατηρήσεων δηλαδή x = 1 v . v ∑ xi i=1Όταν χρησιµοποιούµε πίνακα συχνοτήτων, η µέση τιµή προκύπτει από τις ισοδύναµεςεκφράσεις k ∑ vi yi k ∑x i=1 = k = fi yi . ∑ vi i=1 i=1
180Παράδειγµα 2.1. Αν τα βάρη (σε kgr) 10 κοτόπουλων ενός ορνιθοτροφείου ήταν 2,4, 4, 3, 4, 3, 3, 3, 6, 3 η µέση τιµή του δείγµατος θα είναι x = 35 /10 = 3.5 . ΣτονΠίνακα 2.1 φαίνεται ο τρόπος υπολογισµού του δειγµατικού µέσου µε χρήση πίνακασυχνοτήτων Πίνακας 2.1 i yi vi vi yi 1212 2 3 5 15 3 4 3 12 4616 10 35 Αξίζει να σηµειωθεί ότι για τη µέση τιµή ισχύει η σχέση k ∑ vi ( yi − x) = 0 i=1η οποία δείχνει ότι το x είναι το κέντρο βάρους k σωµατιδίων µε βάρη v1, v2 ,..., vkτοποθετηµένων στις θέσεις y1, y2 ,..., yk αντίστοιχα (βλ. Σχήµα 2.1 το οποίο αφοράτα δεδοµένα του Παραδείγµατος 2.1). Σχήµα 2.1 Φυσική ερµηνεία της µέσης τιµής. Ο δειγµατικός µέσος χρησιµοποιείται ευρύτατα ως αριθµητικό περιγραφικόµέτρο αφού είναι πολύ απλός στον υπολογισµό και για ένα σύνολο δεδοµένωνκαθορίζεται µονοσήµαντα. Έχει όµως το µειονέκτηµα να επηρεάζεται από πιθανέςακραίες τιµές (π.χ. αν xi = 1, i = 1, 2,...,100 και x101 = 10000 τότε x = 100) , να µηναντιστοιχεί πάντοτε σε “λογική” τιµή της τυχαίας µεταβλητής που εξετάζουµε (ανστο Παράδειγµα 2.1 υποθέσουµε ότι τα δεδοµένα αφορούν αριθµό παιδιών απόδείγµα 10 οικογενειών τότε οι οικογένειες θα έχουν κατά µέσο όρο 3.5 παιδιά), ενώδεν µπορεί να χρησιµοποιηθεί για την περιγραφή ποιοτικών χαρακτηριστικών.
181 β) Κορυφή. Κορυφή (mode) ή επικρατούσα τιµή M 0 ενός συνόλουπαρατηρήσεων ορίζεται η παρατήρηση µε τη µεγαλύτερη συχνότητα.Παράδειγµα 2.1. (συνέχεια) Από τον Πίνακα 2.1 είναι φανερό ότι M 0 = 3 . Η κορυφή ενός συνόλου δεδοµένων δεν καθορίζεται πάντοτε µονοσήµαντα. Γιαπαράδειγµα αν όλες οι παρατηρήσεις είναι διαφορετικές µεταξύ τους τότε όλες είναικορυφές (στην περίπτωση αυτή λέµε συνήθως ότι δεν υπάρχει κορυφή). Ταπλεονεκτήµατα από την χρήση της κορυφής σαν αριθµητικού περιγραφικού µέτρουείναι ότι υπολογίζεται εύκολα, δεν επηρεάζεται από ακραίες τιµές ενώ µπορεί ναχρησιµοποιηθεί και για ποιοτικές µεταβλητές. γ) ∆ιάµεσος. Η διάµεσος (median) δ ενός δείγµατος είναι η τιµή που χωρίζει τοδείγµα σε δύο ίσα µέρη έτσι ώστε ο αριθµός των παρατηρήσεων που είναι µικρότερεςή ίσες από το δ να είναι ίσος µε τον αριθµό των παρατηρήσεων που είναι µεγαλύτερεςή ίσες από το δ. Έτσι αν διατάξουµε τις ν παρατηρήσεις x1, x2 ,..., xv καισυµβολίσουµε µε x(1) ≤ x(2) ≤L≤ x(v) το αντίστοιχο διατεταγµένο δείγµα, τότε ηδιάµεσος δ ορίζεται από τη σχέση ⎡x(r) αν ν = 2r −1 δ ⎢ x(r) + x(r+1) = ⎢ 2 αν v = 2r. ⎣Παράδειγµα 2.1 (συνέχεια) Το διατεταγµένο δείγµα είναι 2,3,3,3,3,3, 4, 4, 4, 6οπότε δ = x(5) + x(6) = 3. 2 Η διάµεσος είναι απλή στον υπολογισµό και δεν επηρεάζεται από ακραίες τιµές,δεν µπορεί όµως να χρησιµοποιηθεί για ποιοτικές τυχαίες µεταβλητές. δ) Ποσοστηµόρια. Γενικεύοντας την έννοια της διαµέσου µπορεί κανείς εύκολανα ορίσει τα ποσοστηµόρια (quantiles) ως εξής: Το α-στο ποσοστηµόριο pα( 0 < α < 1) ενός συνόλου παρατηρήσεων είναι η τιµή για την οποία το α100% τωνπαρατηρήσεων είναι µικρότερες ή ίσες του pα και (1 − α)100% µεγαλύτερες ή ίσεςτου pα . Αν το 100 α = β είναι ακέραιος (β = 1, 2,...,99) τότε τα αντίστοιχα ποσοστηµόριαλέγονται εκατοστηµόρια (percentiles). Συνήθως εξετάζουµε το 10ο, 20ο,...,90οεκατοσστηµόρια τα οποία λέγονται δεκατηµόρια (deciles) (1ο, 2ο,...,9ο
182δεκατηµόριο αντίστοιχα). Ιδιαίτερο ενδιαφέρον παρουσιάζουν επίσης τατεταρτηµόρια (quartiles) που αντιστοιχούν σε α = 0.25, 0.50, 0.75 . Το p0.25συµβολίζεται µε Q1 και λέγεται πρώτο τεταρτηµόριο ενώ το p0.75 µε Q3 και λέγεταιτρίτο τεταρτηµόριο. Είναι προφανές ότι το δεύτερο τεταρτηµόριο p0.50 συµπίπτει µετη διάµεσο δ των παρατηρήσεων.Παράδειγµα 2.2. Για τις παρατηρήσεις 1,5,3,3, 6, 4,3, 2 το Q1 θα πρέπει να αφήνει 2παρατηρήσεις του διατεταγµένου δείγµατος αριστερά και 6 δεξιά του. Εποµένως θαπρέπει να πάρουµε Q1 = (2 + 3) / 2 = 2.5 . Όµοια Q3 = (4 + 5) / 2 = 4.5 . Οι ορισµοί που δόθηκαν παραπάνω για τα διάφορα µέτρα θέσης δεν µπορούν ναχρησιµοποιηθούν όταν τα δεδοµένα δεν δίνονται ακριβώς, αλλά υπό µορφή πινάκωνσυχνοτήτων στους οποίους έχει γίνει οµαδοποίηση. Στην περίπτωση αυτήυποθέτουµε ότι οι τιµές στην κάθε κλάση κατανέµονται οµοιόµορφα οπότε οιπαρατηρήσεις που ανήκουν σε αυτήν µπορούν να αντιπροσωπευθούν από τηνκεντρική τιµή της κλάσης (ηµιάθροισµα των άκρων της). Με βάση αυτή τηνπαρατήρηση έχουµε τους επόµενους τύπους για τα πέντε µέτρα θέσης. α) Μέση τιµή. Αυτή γράφεται στη µορφή x = 1 k vi yi = k fi yi v ∑ ∑ i=1 i=1όπου yi η κεντρική τιµή της i κλάσης και vi , fi η αντίστοιχη συχνότητα καισχετική συχνότητα. β) Κορυφή. Στα οµαδοποιηµένα δεδοµένα, επειδή οι αρχικές παρατηρήσεις δενείναι διαθέσιµες δεν µπορούµε να καθορίσουµε την παρατήρηση µε τη µεγαλύτερησυχνότητα. Αντί αυτής λοιπόν θεωρούµε την επικρατούσα κλάση, δηλαδή τηνοµάδα µε τη µεγαλύτερη συχνότητα και ας συµβολίσουµε µε Li το κάτω όριό της. Ογραφικός υπολογισµός της κορυφής M 0 από ένα ιστόγραµµα συχνοτήτων δείχνεταιστο Σχήµα 2.2: από το σηµείο τοµής των ΑΓ και Β∆ φέρνουµε παράλληλη προς τονάξονα των συχνοτήτων. Το σηµείο στο οποίο αυτή συναντά τον οριζόντιο άξονα είναιη κορυφή Μ 0 . Από το σχήµα είναι φανερό ότι Μ 0 = Li + EZκαι αν συµβολίσουµε µε c: το πλάτος των κλάσεων
183∆1 = vi − vi−1 (διαφορά µεταξύ της µεγαλύτερης συχνότητας και της συχνότητας της προηγούµενης κλάσης)∆2 = vi − vi+1 (διαφορά µεταξύ της µεγαλύτερης συχνότητας και της συχνότητας της επόµενης κλάσης)θα έχουµε AB = ∆1 / c , Γ∆ = ∆2 / c , BΓ = c .Εποµένως EZ = AB ΒΓ = ∆1 ∆1 c AB + Γ∆ + ∆2και η κορυφή M 0 θα δίνεται από τον τύπο M0 = Li + ∆1 ∆1 c. (2.1) + ∆2 Σχήµα 2.2 Γραφικός προσδιορισµός της κορυφής οµαδοποιηµένων δεδοµένων µε βάση το ιστόγραµµα συχνοτήτων. γ) ∆ιάµεσος. Αρχικά υπολογίζουµε τη µεσαία κλάση δηλαδή το διάστηµα στοοποίο ανήκει η διατεταγµένη παρατήρηση µε σειρά (v + 1) / 2 (αν το ν είναι άρτιοςµας ενδιαφέρουν οι παρατηρήσεις µε σειρά v / 2 και (v + 1) / 2) και ας συµβολίσουµεµε Li το κάτω όριό της. Ο γραφικός υπολογισµός της διαµέσου δ βασίζεται στοιστόγραµµα αθροιστικών συχνοτήτων (βλ. Σχήµα 2.3) και γίνεται ως εξής: Από τοµέσο ∆ του τµήµατος OH φέρνουµε παράλληλη µε τον άξονα των παρατηρήσεων
184και από το σηµείο όπου αυτή συναντά το αθροιστικό διάγραµµα φέρνουµεπαράλληλη µε τον άξονα των συχνοτήτων. Το σηµείο τοµής της τελευταίας µε τονοριζόντιο άξονα είναι η διάµεσος δ των παρατηρήσεων. Από το σχήµα είναι φανερόότι δ = Li + EZκαι αν συµβολίσουµεc: το πλάτος των κλάσεωνvi : τη συχνότητα της κλάσης µε κάτω όριο LiNi−1 = v1 + v2 +L+ vi−1 (αθροιστική συχνότητα της κλάσης µε άνω όριο το Li )θα έχουµε AB = vi , AE = v − N i−1 , ΒΓ = c . c 2c cΕποµένως AE v − N i−1 AB 2 EZ = BΓ = ⋅c viκαι η διάµεσος δ θα δίνεται από τον τύπο δ = Li + v − Ni−1 ⋅c. (2.2) 2 vi Σχήµα 2.3 Γραφικός προσδιορισµός διαµέσου οµαδοποιηµένων παρατηρήσεων από το ιστόγραµµα αθροιστικών συχνοτήτων.
185 δ) Ποσοστηµόρια. ∆ουλεύοντας όπως και στη διάµεσο µπορούµε να δείξουµεότι το α-στο ποσοστηµόριο pα δίνεται από τον τύπο pα = Li + αv − Ni−1 ⋅c, (2.3) viόπου: c: το πλάτος των κλάσεωνLi : το κάτω όριο της κλάσης που περιέχει την διατεταγµένη παρατήρηση µε σειρά [α ν]vi : η συχνότητα της κλάσης µε κάτω όριο το LiNi−1 = v1 + v2 +L+ vi−1 (αθροιστική συχνότητα της κλάσης µε άνω όριο το Li )Ειδικά για το πρώτο ( α = 0.25 ) και τρίτο ( α = 0.75 ) τεταρτηµόριο έχουµε τους τύπους Q1 = Li + v − Ni−1 ⋅c, (2.4) 4 vi Q3 = Li + 3v − Ni−1 ⋅c . (2.5) 4 viΠαράδειγµα 2.3. Η βαθµολογία των 28 µαθητών µιας τάξης σε ένα τεστ δίνεται στονεπόµενο πίνακα Πίνακας 2.2 Βαθµολογία 28 µαθητών µιας τάξης σε ένα τεστ. 15 22 11 8 10 11 11 11 9 12 11 14 10 10 11 11 12 15 9 6 8 11 7 16 9 10 17 11
186Το αντίστοιχο διατεταγµένο φυλλογράφηµα είναι Σχήµα 2.4. Φυλλογράφηµα των δεδοµένων του Πίνακα 2.2. (stems = 10αδες, leaves = µονάδες) stems leaves 0 6788999 1 0 0 0 0111111111 2 2 4 5 5 6 7 22από όπου µπορούµε εύκολα να διαπιστώσουµε ότι M 0 = 11 , δ = 11, Q1 = (9 + 10) / 2 = 9.5 , Q3 = 12 .Επίσης 28 ∑ xi x= = 318 = 11.357 . i=1 28 28Οµαδοποιώντας τα δεδοµένα σε q = 1 + 3.32 log10 28 = 5.8 ≅ 6οµάδες παίρνουµε τον επόµενο πίνακα i Κάτω Άνω Κεντρική Συχνότητα vi yi Αθροιστ. όριο όριο Συχνότητ. Τιµή yi vi Ni 1 5.5 8.5 7 4 28 4 2 8.5 11.5 10 16 160 20 3 11.5 14.5 13 3 39 23 4 14.5 17.5 16 4 64 27 5 17.5 20.5 19 0 0 27 6 20.5 23.5 22 1 22 28 28 313 -οπότεα) x = 1 k = 313 = 11.178 . v 28 ∑ vi yi i=1β) Για την κορυφή έχουµε
187L2 = 8.5 , ∆1 = 16 − 4 = 12 , ∆2 = 16 − 3 = 13 ,και ο τύπος (2.1) δίνει Μ0 = 8.5 + 12 ⋅ 3 = 9.94 .γ) Για τη διάµεσο έχουµε 12 + 13 L2 = 8.5 , v2 = 16 , N1 = 4και ο τύπος (2.2) δίνει δ = 8.5 + 14 − 4 ⋅3 = 10.375 . 16δ) Για το πρώτο τεταρτηµόριο είναι L2 = 8.5 , v2 = 16 , M 2 = 4και ο τύπος (2.4) δίνει Q1 = 8.5 + 7−4 ⋅3 = 9.06 . 16ε) Για το τρίτο τεταρτηµόριο έχουµε L3 = 11.5 , v3 = 3 , N 2 = v1 + v2 = 20και ο τύπος (2.5) δίνει Q3 = 11.5 + 21 − 20 ⋅ 3 = 12.5 . 3Αξίζει να σηµειωθεί ότι όλες σχεδόν οι προσεγγιστικές τιµές που βρίσκονται µε βάσητα οµαδοποιηµένα δεδοµένα είναι αρκετά κοντά στις αντίστοιχες ακριβείς τιµές.3. ΜΕΤΡΑ ∆ΙΑΣΠΟΡΑΣ Η ΜΕΤΑΒΛΗΤΟΤΗΤΑΣ Παρόλο που τα µέτρα θέσης παρέχουν κάποια πληροφορία για την κατανοµήενός πληθυσµού δεν είναι όµως επαρκή για να τον περιγράψουν ικανοποιητικά.Θεωρώντας για παράδειγµα τα έξι δείγµατα του Πίνακα 3.1 παρατηρούµε ότι, αν καιέχουν τις ίδιες µέσες τιµές x = 10 και διαµέσους δ = 10 , είναι φανερό ότι οικατανοµές τους διαφέρουν σηµαντικά. Πιο συγκεκριµένα, οι παρατηρήσεις των έξιδειγµάτων έχουν διαφορετική µεταβλητότητα, δηλαδή αποκλίσεις από τη µέση τιµή(οι αποκλίσεις αυτές αυξάνονται συνεχώς όσο προχωράµε από τον πληθυσµό I προςτον πληθυσµό VI). Πίνακας 3.1 Ι ΙΙ ΙΙΙ ΙV V VI 884411 9 10 7 4 3 5 10 10 10 10 10 10
188 11 10 13 16 17 15 12 12 16 16 19 19 Παράλληλα λοιπόν µε τα µέτρα θέσης κρίνεται απαραίτητη και η εξέτασηκάποιων µέτρων µεταβλητότητας, δηλαδή µέτρων που εκφράζουν τις αποκλίσεις τωντιµών µίας µεταβλητής γύρω από τα µέτρα κεντρικής τάσης. Τέτοια µέτρα λέγονταιµέτρα διασποράς ή µεταβλητότητας (measures of variability, measures of variance,dispersion measures) και τα περισσότερο συνηθισµένα από αυτά είναι τα επόµενα:α) Εύρος–Κύµανση. Το απλούστερο από τα µέτρα διασποράς είναι το εύρος (Range)R που ορίζεται ως η διαφορά της ελάχιστης παρατήρησης από τη µέγιστηπαρατήρηση. Όταν τα δεδοµένα είναι ταξινοµηµένα σε κατανοµή συχνότητας, το εύροςπροκύπτει σαν διαφορά µεταξύ του κατώτερου ορίου του πρώτου διαστήµατος καιτου ανώτερου ορίου του τελευταίου διαστήµατος. Το εύρος, αν και είναι πολύ εύκολο στον υπολογισµό του, δε θεωρείται αξιόπιστοµέτρο διασποράς καθότι βασίζεται µόνο στις δύο ακραίες τιµές και δεν επηρεάζεταικαθόλου από την κατανοµή των υπολοίπων τιµών στο ενδιάµεσο διάστηµα.β) Ενδοτεταρτηµοριακή και Ηµιενδοτεταρτηµοριακή απόκλιση. Ηενδοτεταρτηµοριακή απόκλιση ή ενδοτεταρτηµοριακό εύρος (interquantile deviation,interquantile range) είναι η διαφορά του πρώτου τεταρτηµορίου Q1 από το τρίτοτεταρτηµόριο Q3 . Στο µεταξύ τους διάστηµα περιλαµβάνεται το 50% των τιµών τουδείγµατος. Εποµένως όσο µικρότερο θα είναι αυτό το διάστηµα, τόσο µεγαλύτερη θαείναι η συγκέντρωση των τιµών και άρα µικρότερη η διασπορά των τιµών τηςµεταβλητής. Το µισό της διαφοράς Q3 − Q1 είναι το λεγόµενο ηµιενδοτεταρτηµοριακόεύρος ή απόκλιση (semi-interquantile deviation, semi-interquantile range) καισυµβολίζεται µε Q, δηλ. Q = Q3 − Q1 . 2 Το Q µετριέται µε τις ίδιες µονάδες της µεταβλητής και δεν εξαρτάται από όλεςτις τιµές, αλλά µόνο από εκείνες που περιλαµβάνονται στον υπολογισµό των Q1 καιQ3 .γ) Μέση Απόκλιση. Ως (δειγµατική) µέση απόκλιση (mean deviation) ορίζεται τοµέγεθος
189 MD = 1 v xi − x | v ∑| i=1δηλαδή ο αριθµητικός µέσος των απολύτων τιµών των αποκλίσεων των τιµών τηςµεταβλητής από τη µέση τιµή τους. Όσο µεγαλύτερη είναι η µέση απόκλιση, τόσοπερισσότερο απέχουν οι τιµές της µεταβλητής από τη µέση τιµή. Όταν τα στατιστικά δεδοµένα δίνονται µε τη µορφή πινάκων συχνοτήτων, τότε ηµέση απόκλιση δίνεται από τον τύπο MD = 1 k vi | yi − x | . v ∑ i=1 Ο ίδιος τύπος ισχύει και για οµαδοποιηµένα δεδοµένα, αν στη θέση των yiχρησιµοποιήσουµε την κεντρική τιµή των αντίστοιχων κλάσεων.δ) ∆ιασπορά ή ∆ιακύµανση. Το πιο διαδεδοµένο µέτρο διασποράς είναι ηδειγµατική διασπορά ή διακύµανση (variance) που ορίζεται από τη σχέση s2 = v ∑1 1 v (xi − x)2 . i=1 −Αυτή ισοδύναµα γράφεται στη µορφή s2 = v 1 1 ⎡v xi2 − 1 ∑⎜⎛⎝⎜ v xi ⎞⎟⎟⎠2⎤⎥⎥⎦ = v 1 1 ⎢⎡∑v xi2 − ν (x)2⎤⎥ . − ν i=1 − ⎦ ⎢∑ ⎣i=1 ⎣⎢i=1 Η διασπορά είναι η κυριότερη παράµετρος µεταβλητότητας. Όταν οι τιµές ενόςσυνόλου παρατηρήσεων δεν διαφέρουν πολύ από τη µέση τιµή τους, τότε η διασποράείναι µικρή, ενώ αντίθετα η διασπορά µεγαλώνει όταν οι τιµές είναι σκορπισµένες σεµεγάλη απόσταση γύρω από τη µέση τιµή. Για την εύρεση της διασποράςλαµβάνονται υπόψη όλες οι τιµές των παρατηρήσεων, ως µέτρο δε µεταβλητότηταςπροσφέρεται για περαιτέρω µαθηµατική ανάλυση. Στις περιπτώσεις δεδοµένων που δίνονται µε τη µορφή πινάκων συχνοτήτων ηδιασπορά µπορεί να υπολογισθεί από τον τύπο s2 = v ∑1 1 k vi(yi − x)2 =1 − iή ισοδύναµα, s2 = 1 ∑⎡ k vi yi2 − 1 ⎝⎜⎜⎛ k vi yi ⎟⎞⎠⎟2⎤⎦⎥⎥ = 1 ∑⎡ k vi yi2 − ν(x)2⎥⎤⎦ . v −1 ν v −1 ⎢ ∑ ⎣⎢i=1 ⎣⎢i=1 i=1
190 Ο ίδιος τύπος ισχύει και για οµαδοποιηµένα δεδοµένα, αρκεί στη θέση των yi ναχρησιµοποιήσουµε την κεντρική τιµή των αντίστοιχων κλάσεων.
Search
Read the Text Version
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
- 28
- 29
- 30
- 31
- 32
- 33
- 34
- 35
- 36
- 37
- 38
- 39
- 40
- 41
- 42
- 43
- 44
- 45
- 46
- 47
- 48
- 49
- 50
- 51
- 52
- 53
- 54
- 55
- 56
- 57
- 58
- 59
- 60
- 61
- 62
- 63
- 64
- 65
- 66
- 67
- 68
- 69
- 70
- 71
- 72
- 73
- 74
- 75
- 76
- 77
- 78
- 79
- 80
- 81
- 82
- 83
- 84
- 85
- 86
- 87
- 88
- 89
- 90
- 91
- 92
- 93
- 94
- 95
- 96
- 97
- 98
- 99
- 100
- 101
- 102
- 103
- 104
- 105
- 106
- 107
- 108
- 109
- 110
- 111
- 112
- 113
- 114
- 115
- 116
- 117
- 118
- 119
- 120
- 121
- 122
- 123
- 124
- 125
- 126
- 127
- 128
- 129
- 130
- 131
- 132
- 133
- 134
- 135
- 136
- 137
- 138
- 139
- 140
- 141
- 142
- 143
- 144
- 145
- 146
- 147
- 148
- 149
- 150
- 151
- 152
- 153
- 154
- 155
- 156
- 157
- 158
- 159
- 160
- 161
- 162
- 163
- 164
- 165
- 166
- 167
- 168
- 169
- 170
- 171
- 172
- 173
- 174
- 175
- 176
- 177
- 178
- 179
- 180
- 181
- 182
- 183
- 184
- 185
- 186
- 187
- 188
- 189
- 190
- 191
- 192
- 193
- 194
- 195
- 196
- 197
- 198
- 199
- 200
- 201
- 202
- 203
- 204
- 205
- 206
- 207
- 208
- 209
- 210
- 211
- 212
- 213
- 214
- 215
- 216
- 217
- 218
- 219
- 220
- 221
- 222
- 223
- 224
- 225
- 226
- 227
- 228
- 229
- 230
- 231
- 232
- 233
- 234
- 235
- 236
- 237
- 238
- 239
- 240
- 241
- 242
- 243
- 244
- 245
- 246
- 247
- 248
- 249
- 250
- 251
- 252
- 253
- 254
- 255
- 256
- 257
- 258
- 259
- 260
- 261
- 262
- 263
- 264
- 265
- 266
- 267
- 268
- 269
- 270
- 271
- 272
- 273
- 274
- 275
- 276
- 277
- 278
- 279
- 280
- 281
- 282
- 283
- 284
- 285
- 286
- 287
- 288
- 289
- 290
- 291
- 292
- 293
- 294
- 295
- 296
- 297
- 298
- 299
- 300
- 301
- 302
- 303
- 304
- 305
- 306
- 307
- 308
- 309
- 310
- 311