Important Announcement
PubHTML5 Scheduled Server Maintenance on (GMT) Sunday, June 26th, 2:00 am - 8:00 am.
PubHTML5 site will be inoperative during the times indicated!

Home Explore คู่มือการใช้โปรแกรมR

คู่มือการใช้โปรแกรมR

Published by bunthom.s, 2020-02-18 02:28:48

Description: คู่มือการใช้โปรแกรมR

Keywords: โปรแกรม,R

Search

Read the Text Version

การนาเสนอข้อมูล – 45 – กราฟเสน้ กราฟเสน้ ใช้เพอื่ แสดงจาํ นวนความถ่ีของแต่ละข้อมูล รปู แบบของฟังกช์ ัน lines( ) dose <– c(20,30,40,45,60) drugA <– c(16,20,27,40,60) drugB <– c(15,18,25,31,40) par(lwd=2, cex=1.5, font.lab=2) plot(dose, drugA, type=\"b\", pch=15, lty=1, col=\"red\", ylim=c(0, 60), main=\"Drug A vs. Drug B\" xlab=\"Drug Dosage\", ylab=\"Drug Response\") lines(dose,drugB, type =\"b\" pch=17, lty=2, col=\"blue\") abline(h=c(30), lwd=1.5, ity=2,col=\"gray\") ผศ.ดร.บรรทม สรุ ะพร ภาควชิ าคณิตศาสตร์ สถิติและคอมพิวเตอร์ คณะวทิ ยาศาสตร์ มหาวทิ ยาลยั อบุ ลราชธานี

– 46 – การวเิ คราะหข์ อ้ มูลทางสถติ ิ โดยใช้โปรแกรม R {*** ยงั ไม่สามารถเรยี ก library นี้ได้ ซงึ่ แสดงคําเตือนด้านบน *** library(Hmisc) minor.tick(nx=3, ny=3, tick.ratio=0.5) legend(\"topleft\", inset=0.05, title=\"Drug type\", c(\"A\",\"B\") lty=c(1,2), pch=c(15,17), col=c(\"red\", \"Blue\") กราฟอนุกรมเวลา > data2 <- read.csv(\"C:/Users/Bunthom/Desktop/R Program/dataR/ รายได้อีสาน.csv”) > attach(data2) > data2 ผศ.ดร.บรรทม สรุ ะพร ภาควชิ าคณิตศาสตร์ สถติ ิและคอมพิวเตอร์ คณะวทิ ยาศาสตร์ มหาวทิ ยาลัยอบุ ลราชธานี

การนาเสนอข้อมลู – 47 – 4.3 การนาเสนอข้อมูลในรูปแผนภาพ แผนภาพจดุ รปู แบบคําส่ัง dotchart( ) > customer <– c(20,40,10,16,25) > brand <– c(\"Hatch\", \" Nokai\", \"Samsang\", \"iMobine\", \"Ericsun\") > dotchart(customer, labels = brand, main=\"Mobile Phone Brands\") ผศ.ดร.บรรทม สรุ ะพร ภาควชิ าคณติ ศาสตร์ สถติ ิและคอมพวิ เตอร์ คณะวทิ ยาศาสตร์ มหาวิทยาลยั อบุ ลราชธานี

– 48 – การวเิ คราะห์ขอ้ มูลทางสถติ ิ โดยใช้โปรแกรม R แผนภาพกล่อง รูปแบบคําสั่ง boxplot( ) แผนภาพกลอ่ งจะแสดงค่าสถิติ FNS 5 คา่ คือคา่ ตํ่าสุด (Minimum) ค่า lower quartile ค่ามธั ยฐาน (median) คา่ upper quartile และค่าสงู สุด (maximum) จาก แผนภาพกลอ่ งสามารถพจิ ารณาการกระจายของขอ้ มลู ได้ โดยดูจากขนาดของกลอ่ ง คือค่าพิสยั ควอร์ไทล์ (IQR) ค่ากลางของข้อมลู คือค่ามธั ยฐาน ซึง่ แสดงโดยเส้นต้ังฉากภายในกล่อง > library(MASS) > attach(Cars93) > boxplot(Min.Price,ylab=\"Minimum Price (in $1,000) for basic version\", Col=\"gray\") > f <– fivenum(Min.Price) > text(rep(1.25,5), f, labels=c(\"Min\", expression(H[L]), + expression(Q[2]), expression(H[U]), \"Max\"), pos=4) > detach(Cars93) # Clean up ผศ.ดร.บรรทม สรุ ะพร ภาควิชาคณติ ศาสตร์ สถติ แิ ละคอมพวิ เตอร์ คณะวทิ ยาศาสตร์ มหาวิทยาลัยอบุ ลราชธานี

การนาเสนอขอ้ มูล – 49 – แผนภูมิกา้ นและใบ รปู แบบคาํ สงั่ stem( ) stem(x, scale = 1, width = 80, atom = 1e-08) แผนภูมกิ ้านและใบ (stem and leaf) เป็นการนาํ เสนอและการวิเคราะหข์ ้อมลู เชงิ ตัวเลข สมมติมีค่าสังเกต ดังน้ี 2 3 16 23 14 12 4 13 2 0 0 0 6 28 31 14 4 8 2 5 > scores = scan( ) 1: 2 3 16 23 14 12 4 13 2 0 0 0 6 28 31 14 4 8 2 5 21: Read 20 items > apropos(\"stem\") # What exactly is the name? [1] \"R_system_version\" \"stem\" \"system\" [5] \"system.time\" > stem(scores) The decimal point is 1 digit(s) to the right of the | 0 | 000222344568 1 | 23446 2 | 38 3|1 สามารถกําหนดความกว้างของแตล่ ะช้ัน โดยใชต้ ัวกาํ หนด scale = k ซง่ึ ความกวา้ งของชั้น เท่ากบั 10/k > stem(scores, scale = 2) The decimal point is 1 digit(s) to the right of the | 0 | 000222344 0 | 568 1 | 2344 1|6 2|3 2|8 3|1 การสรา้ งชว่ งใหก้ ับข้อมูล โดยใช้คําส่ัง cut( ) > sals = c(12, .4, 5, 2, 50, 8, 3, 1, 4, .25) # enter data > cats = cut(sals, breaks=c(0,1,5,max(sals))) # specify the breaks > cats # view the values [1] (5,50] (0,1] (1,5] (1,5] (5,50] (5,50] (1,5] (0,1] (1,5] (0,1] Levels: (0,1] (1,5] (5,50] > table(cats) # organize cats (0,1] (1,5] (5,50] 34 3 > levels(cats) = c(\"poor\",\"rich\", \"millionaire\") # change labels > table(cats) cats poor rich millionaire 34 3 ผศ.ดร.บรรทม สรุ ะพร ภาควชิ าคณิตศาสตร์ สถติ ิและคอมพิวเตอร์ คณะวทิ ยาศาสตร์ มหาวทิ ยาลยั อบุ ลราชธานี

– 50 – การวิเคราะหข์ ้อมูลทางสถิติ โดยใชโ้ ปรแกรม R 4.4 การสร้างฮิสโตแกรม ตัวอยา่ ง ระยะหา่ งระหวา่ งการเกิดฝนดาวตก (หน่วยเปน็ นาท)ี ทจ่ี ดุ สงั เกตบนยอดเขาแหง่ หนึ่ง ปรากฏขอ้ มลู ดังน้ี 29.6 28.2 19.6 13.7 13.0 7.8 3.4 2.0 1.9 1.0 0.7 0.4 0.4 0.3 0.3 0.3 0.3 0.3 0.2 0.2 0.2 0.1 0.1 0.1 0.1 0.1 > rain = scan( ) 1: 29.6 28.2 19.6 13.7 13.0 7.8 3.4 2.0 1.9 1.0 0.7 0.4 0.4 0.3 0.3 16: 0.3 0.3 0.3 0.2 0.2 0.2 0.1 0.1 0.1 0.1 0.1 27: Read 26 items > hist(rain) # frequencies > hist(rain,probability=TRUE) # proportions (or probabilities) > rug(jitter(rain)) # add tick marks > hist(rain,breaks=10) # 10 breaks, or just hist(rain,10) > hist(rain,breaks=c(0,1,2,3,4,5,10,20,max(rain))) # specify break ผศ.ดร.บรรทม สรุ ะพร ภาควชิ าคณิตศาสตร์ สถติ ิและคอมพวิ เตอร์ คณะวิทยาศาสตร์ มหาวิทยาลยั อบุ ลราชธานี

การนาเสนอข้อมูล – 51 – การดึงข้อมูลจาก library แลว้ หาค่าสถติ ิเบอื้ งต้น ด้วยคาํ สั่ง summary( ) > library(\"tseries\") # load the library > data(\"lynx \") # load the data > summary(lynx) # just what is lynx? Min. 1st Qu. Median Mean 3rd Qu. Max. 6991.0 39.0 348.2 771.0 1538.0 2567.0 การสร้าง polygon frequency > x = rnorm(100,50,10) > tmp = hist(x) #store the results > tmp$breaks [1] 25 30 35 40 45 50 55 60 65 70 > tmp$mids [1] 27.5 32.5 37.5 42.5 47.5 52.5 57.5 62.5 67.5 > lines(c(min(tmp$breaks),tmp$mids,max(tmp$breaks)), c(0,tmp$counts,0),type=\"l\") > การสรา้ ง densities estimation > data(faithful) > attach(faithful) #make eruptions visible > hist(eruptions,15,,prob=T) # proportions, not frequencies > lines(density(eruptions)) # lines makes a curve, default bandwidth > lines(density(eruptions,bw=\"SJ\"),col='red') # Use SJ bandwidth,in red ผศ.ดร.บรรทม สรุ ะพร ภาควชิ าคณิตศาสตร์ สถิติและคอมพิวเตอร์ คณะวทิ ยาศาสตร์ มหาวิทยาลัยอบุ ลราชธานี

– 52 – การวิเคราะห์ข้อมลู ทางสถิติ โดยใช้โปรแกรม R การสร้าง Q – Q plot > x <– rt(250, df = 5) > qqnorm(x); qqline(x) > qqplot(qt(ppoints(250), df = 5), x, xlab= \"Q-Q plot for t distribution\") > qqline(x) การสร้าง Q – Q Plot เพื่อตรวจสอบความเปน็ ข้อมูลที่มีการแจกแจงเปน็ ปรกติ (Normal distribution) ผศ.ดร.บรรทม สรุ ะพร ภาควิชาคณิตศาสตร์ สถติ แิ ละคอมพวิ เตอร์ คณะวิทยาศาสตร์ มหาวทิ ยาลัยอบุ ลราชธานี

การนาเสนอข้อมูล – 53 – เพ่ิมคําสั่งอีกหน่ึงคําส่ังคือ > qqplot (qnorm(ppoints(300)),x, xlab = ‘Q – Q plot for Z distribution’) จะไดภ้ าพดังนี้ การสรา้ งแผนภาพการกระจายสามมิติ > require(lattice) > data(iris) ~> print(cloud(Sepal.Length Petal.Length * Petal.Width, data=iris, groups=Species, screen = list(z=20,x=-70),perspective = FALSE, key =list(title= \"Iris Data \", x=.15, y=.85,corner=c(0,1), border = TRUE,points=Rows(trellis.par.get(\"superpose.symbol\"), 1:3), text = list(levels(iris$Species))))) ผศ.ดร.บรรทม สรุ ะพร ภาควชิ าคณิตศาสตร์ สถติ ิและคอมพิวเตอร์ คณะวิทยาศาสตร์ มหาวิทยาลยั อบุ ลราชธานี

– 54 – การวิเคราะห์ข้อมูลทางสถติ ิ โดยใช้โปรแกรม R 4.5 การสร้างตวั แบบการถดถอย การสร้าง Scatter plot Scatter plot หรือเรยี กวา่ แผนภาพการกระจาย จะช่วยในการวเิ คราะห์ความสัมพันธ์ ของตัวแปรสองตัว ซง่ึ การใช้แผนภาพการกระจายจะเปน็ เพียงการมองดว้ ยตาเปล่าและเปน็ การ วิเคราะห์เบอ้ื งตน้ > data(data1);attach(data1) > plot(PRE,POST) > detach(data1) การหาค่าสมั ประสิทธสิ์ หสมั พนั ธข์ องตวั แปร PRE และ POST หาไดจ้ ากคําสง่ั > attach(data1) > cor(na.omit(PRE,POST)) [1] 0.1886023 เมื่อพิจารณาจากความสมั พนั ธ์ของตัวแปร PRE และ POST ซ่ึงมีความสัมพันธเ์ ชงิ บวกคอ่ นขา้ ง สูง และตอ้ งการหาสมการแสดงความสมั พนั ธ์โดยการวเิ คราะห์การถดถอยเชิงเส้นอยา่ งง่าย ทาํ ได้ ดังนี้ > x = PRE > y = POST > plot (x, y) > abline(lm(y ~x)) คําส่งั abline() ใช้เพ่ือลากเสน้ ถดถอย ผศ.ดร.บรรทม สรุ ะพร ภาควชิ าคณติ ศาสตร์ สถิตแิ ละคอมพิวเตอร์ คณะวิทยาศาสตร์ มหาวิทยาลัยอบุ ลราชธานี

การนาเสนอข้อมลู – 55 – ถ้าต้องการแสดงค่าประมาณพารามิเตอร์ของตวั แบบการถดถอย ใชค้ าํ สั่ง simple.lm() > data(data1) ; attach(data1) > x = PRE ; y = POST > simple.lm(x,y) Call: Lm(formula = y ~x) Coefficients: (Intercept) – 2.121e+05 6.879e+00 > lm.res = simple.lm(x,y) # store the answers in lm.res > coef(lm.res) (Intercept) x – 2.121158e+05 6.879161e+00 > coef(lm.res)[1] # first one, use [2] for second (Intercept) – 212115.8 ในการวเิ คราะห์การถดถอยจําเปน็ ต้องตรวจสอบเก่ียวกบั คา่ residual โดยใช้คาํ ส่งั ดงั นี้ > simple.l,(x,y,show.residuals=TRUE) ผศ.ดร.บรรทม สรุ ะพร ภาควชิ าคณิตศาสตร์ สถิติและคอมพวิ เตอร์ คณะวทิ ยาศาสตร์ มหาวิทยาลยั อบุ ลราชธานี

– 56 – การวเิ คราะห์ขอ้ มลู ทางสถติ ิ โดยใชโ้ ปรแกรม R ถา้ ตอ้ งการดงึ คา่ จากผลลพั ธ์ในทน่ี ีค้ ือตัวแบบการถดถอยจาก simple.lm(x,y) > lm.res = simple.l,(x,y) > the.residuals = resid(lm.res) # how to get residuals > plot(the.residuals) สมั ประสทิ ธิ์สหสัมพนั ธ์ Spearman ซึง่ เป็นสถติ ิเชิงนอนพาราเมตริก สามารถหาไดด้ ังนี้ > rank(c(2,3,5,7,11)) # already in order [1] 1 2 3 4 5 # for example, 5 is 3rd largest > rank(c(3,5,2,7,11)) # ties have ranks averaged (2+3+4)/3 [1] 2 3 1 4 5 > rank(c(5,5,2,7,5)) [1] 3 3 1 5 3 > cor(rank(x), rank(y)) [1] 0.925 สามารถเขียนเปน็ ฟงั กช์ ัน ได้ดังนี้ > cor.sp <– function(x,y) { Cor(rank(x), rank(y)) } ซง่ึ เรียกใช้ฟังก์ชนั ดังนี้ > cor.sp(x,y) [1] 0.925 การบนั ทึกข้อมูลเชงิ พหุในรปู แบบ data frame สามารถทําไดด้ งั นี้ > weight = c(65, 48, 72, 61) > height = c(162, 158, 183, 159) > gender = c(\"Fe\",\"Fe\",\"M\",\"Fe\") > study = data.frame(weight,height,gender) # make the data frame การดงึ ขอ้ มูลบางสว่ นใน data frame (SQL) > study = data.frame(w=weight, h=height, g=gender) > > row.names(study) <– c(\"Mary\",\"Alice\",\"Bob\",\"Judy\") > study[, 'w'] # all rows, just the weight column [1] 65 48 72 61 > study[,1] column [1] 65 48 72 61 ผศ.ดร.บรรทม สรุ ะพร ภาควชิ าคณติ ศาสตร์ สถติ แิ ละคอมพวิ เตอร์ คณะวิทยาศาสตร์ มหาวทิ ยาลัยอบุ ลราชธานี

การนาเสนอขอ้ มูล – 57 – > study['Mary', 'w'] [1] 65 > การจัดการข้อมลู ในรูป stack และ unstack > data(PlantGrowth) > PlantGrowth Weight group 1 4.17 ctrl 2 5.58 ctrl 3 5.18 ctrl 4 6.11 ctrl จะพบว่าข้อมูลอย่ใู นรปู stack ท่ีมี 3 group คือ ctrl trt1 และ trt2 จะทาํ ข้อมลู ใหอ้ ย่ใู น รปู unstack ดังนี้ ขั้นแรก attach ขอ้ มลู ให้เข้ามาอย่ใู นระบบก่อนแลว้ unstack > attack(PlantGrowth) > weight.ctrl = weight[group == \"ctrl\"] > unstack(PlantGrowth) ctrl trt1 trt2 1 4.17 4.81 6.31 2 5.58 4.17 5.12 3 5.18 4.41 5.54 4 6.11 3.59 5.50 …… สรา้ ง boxplot จากข้อมูลที่อยู่ในรปู unstack > boxplot(unstack(PlantGrowth) ผศ.ดร.บรรทม สรุ ะพร ภาควิชาคณิตศาสตร์ สถิตแิ ละคอมพวิ เตอร์ คณะวทิ ยาศาสตร์ มหาวทิ ยาลยั อบุ ลราชธานี

– 58 – การวิเคราะหข์ ้อมูลทางสถิติ โดยใช้โปรแกรม R การอา่ นและดงึ ข้อมลู เชิงพหุ > library(MASS) ;data(Cars93);attach(Cars93) > price = cut(Price,c(0,12,20,max(Price))) > levels(price)=c(\"cheap\",\"okay\",\"expensive\") > mpg = cut(MPG.highway,c(0,20,30,max(MPG.highway))) > levels(mpg) = c(\"gas guzzler\",\"‘okay\", \" miser\") > table(Type) Type Compact Large Midsize Small Sporty Van 16 11 22 21 14 9 > table(price,Type) Type Price Compact Large Midsize Small Sporty Van cheap 30 0 18 10 okay 93 83 98 expensive 4 8 14 0 41 > table(price,Type,mpg) , , mpg = miser Type Price Compact Large Midsize Small Sporty Van cheap 20 0 14 10 okay 40 23 30 expensive 00 00 00 > barplot(table(price,Type),beside=T) #the price by different types > barplot(table(Type,price),beside=T) #type by different prices การสร้าง side by side boxplot สําหรบั การวิเคราะห์ตวั แปรเชงิ พหนุ บั ว่าเป็นวธิ ที ่ีนยิ มใชใ้ น การวิเคราะห์ทางดา้ น data mining > y = rnorm(1000) # 1000 random numbers > f = factor(rep(1:10,100) # the number 1,2,3,…10 100 times > boxplot(y ~ f,main = \"Boxplot of normal random data with model notation\") ผศ.ดร.บรรทม สรุ ะพร ภาควชิ าคณติ ศาสตร์ สถิติและคอมพวิ เตอร์ คณะวทิ ยาศาสตร์ มหาวทิ ยาลัยอบุ ลราชธานี

การนาเสนอข้อมูล – 59 – ตัวอย่าง plot ในรูปแบบอื่นๆ เช่น violinplots และ densityplots ซึ่งสามารถสร้างได้ดังนี้ > par(mfrow=c(1,3)) # 3 graphs per page > data(InsectSprays) # load in the data > boxplot(count ~ spray, data = InsectSprays, col = \"lightgray\") > simple.violinplot(count ~ spray, data = InsectSprays, col = \"lightgray\") > simple.densityplot(count ~ spray, data = InsectSprays) การสรา้ งชุดของ scatter plot ผศ.ดร.บรรทม สรุ ะพร ภาควิชาคณิตศาสตร์ สถติ ิและคอมพวิ เตอร์ คณะวิทยาศาสตร์ มหาวทิ ยาลัยอบุ ลราชธานี

– 60 – การวิเคราะหข์ อ้ มลู ทางสถติ ิ โดยใชโ้ ปรแกรม R หรอื รูปแบบคําสัง่ graphics::smoothScatter ดงั นี้ ตวั อยา่ งใชค้ าํ สั่ง ดังน้ี > pairs(Cars93) ผศ.ดร.บรรทม สรุ ะพร ภาควิชาคณติ ศาสตร์ สถิติและคอมพวิ เตอร์ คณะวทิ ยาศาสตร์ มหาวทิ ยาลัยอบุ ลราชธานี

การใช้แพคเกจโดยไลบารี และ 5 การเขียนฟังกช์ นั บน R (use package by library & user-defined function on R) ฟังก์ชนั และชุดข้อมลู ของโปรแกรมสําเรจ็ รปู R จะเก็บอยู่ในรปู package ดังน้ันก่อนเรียกใช้ จาํ เปน็ ตอ้ ง load เขา้ มาในระบบก่อน ซง่ึ หากต้องการดูรายชือ่ package ในระบบขณะน้นั วา่ ใช้ package อะไรบ้าง สามารถใช้คําส่ัง library( ) ดังน้ี > library( ) ซ่งึ ได้กลา่ วไวแ้ ลว้ ในหวั ข้อ 3.3.4 การอา่ นขอ้ มลู จากแฟ้มใน library เมอ่ื ต้องการ load เขา้ มาในระบบ สมมตวิ ่าตอ้ งการ load แพคเกจ boot จะใชค้ ําส่งั ดงั น้ี > library(boot) หากตอ้ งการดชู ื่อของแพคเกจและ 0bjects ในขณะนั้น จะใชค้ าํ สั่ง search( ) ดงั น้ี > search( ) 5.1 แพคเกจมาตรฐาน (base package) แพคเกจพน้ื ฐานของโปรแกรม R จะเรยี กวา่ base package จะถูก load เขา้ มาเมื่อ เร่ิมต้นระบบ R และสามารถใช้คาํ ส่ังตา่ งๆ และชดุ ขอ้ มลู ในแพคเกจน้ีไดท้ ันที ถงึ แม้ว่าเป็นการ เรมิ่ ต้นใช้ R เป็นคร้ังแรก ดรู ายช่ือฟังกช์ นั ตา่ งๆ เจากคาํ สั่ง > library(help = \"base\") ผศ.ดร.บรรทม สรุ ะพร ภาควิชาคณติ ศาสตร์ สถติ ิและคอมพวิ เตอร์ คณะวทิ ยาศาสตร์ มหาวิทยาลัยอบุ ลราชธานี

– 62 – การวิเคราะห์ข้อมลู ทางสถิติ โดยใชโ้ ปรแกรม R 5.2 แพคเกจสนับสนุน (Contributed package) แพคเกจสนับสนุนเปน็ แพคเกจเฉพาะดา้ นท่ีใชภ้ ายใต้โปรแกรม R เชน่ boot เป็น แพคเกจทใ่ี ช้ในการวเิ คราะหส์ ถติ ิ bootstrap ปัจจุบนั มีแพคเกจมากกวา่ 5000 แพคเกจ ซึ่ง สามารถดาวน์โหลดไดจ้ ากเวบไซด์ CRAN (http://CRAN.R-project.org/) และ mirrors ของ CRAN นอกจากน้ยี งั มีกล่มุ นกั วิจัยทางชวี วิทยาไดพ้ ัฒนาแพคเกจเพ่ือการวจิ ยั ทางชีววิทยา โดยใช้ชอื่ วา่ Bioconductor (http://www.bioconductor.org/) เม่อื ต้องการเรยี กใช้แพคเกจสนบั สนุน จําเปน็ ตอ้ งทาํ การติดตงั้ ก่อน โดยใช้เมนูคําสั่ง package ▶ Install package(s)… ท้ังน้ตี ้องมีการเขื่อมต่ออินเตอรเ์ นทด้วย เพอื่ การดาวน์โหลด หรือหากไมม่ ีการเชอ่ื มต่อ จะใชว้ ธิ กี าร install จากแฟม้ zip ก็ได้ โดยดาวน์โหลดแพคเกจแลว้ บันทกึ ไวใ้ นส่ือก่อนการตดิ ตั้ง ซึง่ เมอื่ ทําการ install เสร็จเรยี บร้อยแล้วจะต้องโหลดแพคเกจก่อน การใช้งาน ทําไดโ้ ดยใช้เมนคู ําส่งั package ▶ load package… จากนน้ั จงึ เรียกใชฟ้ งั ก์ชันตา่ งๆ ได้ แพคเกจสนับสนุนบน R มีจํานวน 9,937 แพคเกจ (ณ วนั พฤหสั บดีท่ี 18 มกราคม พ.ศ.2560) การเลือกใชแ้ พคเกจใดน้ันขึน้ อยู่กับลักษณะงานหรือโจทย์ปญั หา ในท่นี ้จี ะขอยกตัวอย่างแพคเกจ ท่งี ่ายและแสดงใหเ้ น้นถึงการแกป้ ญั หาให้ไดผ้ ลลัพธอ์ ย่างง่ายและสะดวก ตัวอย่าง 5.1 การใช้ฟงั กช์ ัน bct ซงึ่ อย่ใู นแพคเกจ TeachingDemos โดยที่ bct เป็นฟังกช์ ันใน การแปลง Box Cox transform > y <– rnorm(500, 3, 2) > par(mfrow=c(2,2) > qqnorm(y) > qqnorm(bct(y,1/2)) ผศ.ดร.บรรทม สรุ ะพร ภาควชิ าคณิตศาสตร์ สถิติและคอมพวิ เตอร์ คณะวิทยาศาสตร์ มหาวิทยาลยั อบุ ลราชธานี

การเขยี นฟังกช์ นั บน R – 63 – > qqnorm(bct(y,0)) > hist(bct(y,0)) ตวั อย่าง 5.2 การใช้ฟงั ก์ชัน EDA ซง่ึ อยู่ในแพคเกจ BSDA โดยที่ EDA เป็นฟังก์ชันวเิ คราะห์ เบื้องต้นเกยี่ วกบั ลักษณะการแจกแจงของข้อมูล ผศ.ดร.บรรทม สรุ ะพร ภาควิชาคณติ ศาสตร์ สถติ แิ ละคอมพวิ เตอร์ คณะวทิ ยาศาสตร์ มหาวิทยาลัยอบุ ลราชธานี

– 64 – การวิเคราะหข์ อ้ มูลทางสถิติ โดยใชโ้ ปรแกรม R > EDA(rexp(20,1)) > EDA(rlnorm(100)) ผศ.ดร.บรรทม สรุ ะพร ภาควิชาคณติ ศาสตร์ สถติ ิและคอมพิวเตอร์ คณะวิทยาศาสตร์ มหาวทิ ยาลัยอบุ ลราชธานี

การเขียนฟงั ก์ชันบน R – 65 – ตัวอย่าง 5.3 การใชฟ้ ังก์ชนั scatterplot( ) ซ่ึงอยูใ่ นแพคเกจ car ข้อมลู จากแฟ้มข้อมลู UN ประกอบดว้ ยตัวแปร gdp และ infant.mortality > require(car) > UN Afghanistan Infant.mortality gdp 154 2848 Albania 32 863 : China 38 582 : Tanzania 80 139 Thailand 30 2896 : Yugoslavia 19 1487 Zambia 103 382 Zimbabwe 68 786 ผศ.ดร.บรรทม สรุ ะพร ภาควิชาคณติ ศาสตร์ สถติ แิ ละคอมพิวเตอร์ คณะวทิ ยาศาสตร์ มหาวิทยาลยั อบุ ลราชธานี

– 66 – การวเิ คราะหข์ อ้ มูลทางสถติ ิ โดยใชโ้ ปรแกรม R เมื่อเขียนแผนภาพการกระจายโดยใช้คาํ ส่ัง plot(UN) หรอื plot(UN$infant.mortality,UN$gdp) จะได้ผลลพั ธเ์ ปน็ ดงั แผนภาพดงั น้ี การหาเส้นถดถอยทเี่ หมาะสมกับการอธบิ าย infant mortality กับ gdp โดยใช้การถดถอยแบบนอน พาราเมตริก ดว้ ยคําสง่ั scatterplot(infant.mortality ~gdp, data = UN) จะได้ผลลัพธ์เปน็ ดัง แผนภาพดงั น้ี ผศ.ดร.บรรทม สรุ ะพร ภาควชิ าคณติ ศาสตร์ สถิติและคอมพวิ เตอร์ คณะวทิ ยาศาสตร์ มหาวิทยาลยั อบุ ลราชธานี

การเขียนฟังกช์ ันบน R – 67 – 5.3 การเขยี นฟังก์ชัน บน R เมอ่ื ผู้วจิ ัยตอ้ งการใชฟ้ ังกช์ ันเฉพาะ และมีการเรยี กใช้งานฟังก์ชนั ลักษณะน้นั บ่อยๆ ผู้วจิ ยั สามารถสร้างหรือเขียนฟังกช์ ันเก็บไว้ใช้งานตลอดไป โดยการเขยี น user-defined function ซง่ึ รูปแบบท่ัวไปของ user-defined functions มดี งั น้ี functionname <– function (arguments) { body of function } ข้ันตอนการเขยี นฟังก์ชัน ใชค้ ําสั่ง fix(functionname) สมมติในทนี่ ้ีใช้ functionname ชือ่ myprog > fix(myprog) จะปรากฏวินโดวน์ R Editor ดังนี้ เขียนโปรแกรมลงในวินโดวน์ R myprog- R Editor function (x,y) #sum of square { x^2 + y*y } เมือ่ เขียนโปรแกรมเสร็จเรยี บร้อย ตอ้ งการจะบนั ทึกไว้ ซึง่ สามารถดําเนินการได้ 2 วธิ ี วธิ ีแรก ใชเ้ มนคู าํ ส่ัง File ▶ Close script จะปรากฏกล่องข้อความใหเ้ ราเลือก Yes เพ่ือ บนั ทกึ ฟังกช์ ัน myprog วิธีท่สี อง คลกิ๊ เคร่ืองหมาย X เพ่ือปดิ R Editor จะปรากฏกลอ่ งข้อความใหเ้ ราเลอื ก Yes เพอ่ื บันทกึ ฟงั ก์ชนั myprog เหมอื นวิธแี รก การเขียนโปรแกรม ยังสามารถเรียกใช้ Editor บน R ได้จากเมนู โดยเรยี ก File ▶ Newscript กไ็ ด้ ผศ.ดร.บรรทม สรุ ะพร ภาควิชาคณิตศาสตร์ สถิตแิ ละคอมพวิ เตอร์ คณะวทิ ยาศาสตร์ มหาวทิ ยาลัยอบุ ลราชธานี

– 68 – การวิเคราะหข์ อ้ มูลทางสถติ ิ โดยใช้โปรแกรม R 5.4 การเรียกใช้ user-defined function เมอื่ ผูว้ จิ ัยได้ทําการบันทกึ ฟังก์ชันท่ีไดส้ ร้างข้ึนเอาไวแ้ ล้ว หรือที่มีคนอนื่ สรา้ งไว้ใช้งาน มากมาย สามารถเรียกเพ่ือใชง้ านได้ โดยพิมพ์ชอื่ ฟงั กช์ ัน ดังตัวอยา่ งการเรยี กใช้ฟังก์ชนั myprog ท้งั น้ีหากไม่ทราบรายละเอียดของ argument ก็ยงั ไมต่ ้องกําหนด argument ลงไป > myprog function (x,y) #sum of square { x^2 + y*y } เมื่อพบรายละเอยี ดของ argument ซง่ึ ประกอบดว้ ยเวคเตอร์ x และ y จงึ ค่อยป้อนค่าใน ฟังกช์ นั > myprog (10,8) [1] 164 หรือกาํ หนดค่า x และ y ในรูปเวคเตอร์ ดงั นี้ > x <– c(10, 20, 30, 40 ,50) > y <– c(1, 2, 3, 4 ,5) > myprog (x,y) [1] 101 404 909 1616 2525 5.5 การแก้ไข user-defined function หากผวู้ จิ ยั ตอ้ งการแก้ไขฟงั ก์ชันท่ไี ด้สร้างขนึ้ และจัดเก็บไวด้ ้วยแลว้ แต่ตอ้ งการแกไ้ ขให้ สมบูรณย์ ิ่งข้นึ สามารถใช้คําสง่ั fix(functionname) เชน่ fix(myprog) จะปรากฏกลอ่ ง ขอ้ ความให้แก้ไข ดังนี้ ผวู้ ิจยั กส็ ามารถแก้ไขในกลอ่ งขอ้ ความนนั้ ไดต้ ามท่ตี ้องการ และเมื่อแก้ไขเรียบร้อยแลว้ อย่าลมื เกบ็ ดว้ ย โดยดาํ เนนิ การตามท่ีไดก้ ล่าวมาแลว้ ผศ.ดร.บรรทม สรุ ะพร ภาควชิ าคณติ ศาสตร์ สถติ ิและคอมพิวเตอร์ คณะวิทยาศาสตร์ มหาวิทยาลยั อบุ ลราชธานี

6 การวิเคราะหค์ า่ สถิติ (Statistical Analysis) โปรแกรมสําเร็จรปู R มีความสามารถในการประมวลผลและการวิเคราะหข์ ้อมูลเชิงสถิติท่ีมี ประสทิ ธภิ าพ อีกทง้ั ยังสามารถแสดงผลการวเิ คราะห์เป็นกราฟิกได้เป็นอย่างดี ซงึ่ การประมวลผล เบอื้ งตน้ การคํานวณเชิงเลขคณติ พีชคณิต การเขียนโปรแกรมใน R จะเขียนด้วยคาํ สั่งเบ้ืองตน้ (เรียกวา่ ฟงั ก์ชัน) หรอื การสร้างฟังกช์ ันขน้ึ ใชเ้ อง ซึ่งได้กล่าวไว้แลว้ ในบทที่ 5 คําส่ังหรือฟังกช์ นั ทมี่ ีอยู่ใน R จะ เรยี กวา่ built-in function และเรียกฟังก์ชันที่ผู้ใช้สรา้ งข้ึนใหม่ว่า user-defined function การคาํ นวณเชงิ เลขคณิตจะเก่ียวข้องกบั การกระทําหรือการดาํ เนินการ(operations) ทาง เลขคณติ เช่น บวก ลบ คูณ หาร เปน็ พน้ื ฐานซง่ึ สามารถ ใชค้ าํ สง่ั ท่ีเขา้ ใจง่าย ------------------------------------------------------------------------------------------------ -- การกระทาํ ฟงั กช์ ัน ตวั อยา่ ง ผลลัพธ์ -------------------------------------------------------------------------------------------------- บวก + 3+5 8 ลบ – 50 – 10 40 คณู * 3*5 15 หาร / 23 / 3 7.666 ยกกาํ ลัง ^ หรอื ** 25 รากที่สอง 5^2 sqrt(x) 1.414213562 sqrt(2) ฯลฯ ในการแสดงผลของจาํ นวนจริงสามารถกําหนดจํานวนหลกั ที่ใหแ้ สดงผลได้ โดยใช้คาํ สัง่ > options(digits = n) เมอ่ื n เป็นจาํ นวนหลักทต่ี อ้ งการใหแ้ สดงผล โดยท่ี n = 1,2,3,…,21,22 ซ่งึ หากเรากาํ หนดเกนิ โปรแกรม R จะฟอ้ งว่าหลักเกนิ ดงั น้ี 6.1 สถติ เิ ชิงพรรณนา (descriptive statistics) 6.1.1 การคานวณค่าแนวโนม้ สสู่ ่วนกลาง (Tendency measure) โปรแกรมสําเรจ็ รูป R มีฟังก์ชันอยู่หลายฟงั ก์ชันในการหาค่าสถติ ิพรรณนา โดยจะ คํานวณคา่ สถิติพรรณนาเบอื้ งต้น เช่น ค่าเฉลย่ี ค่ามธั ยฐาน ค่าฐานนยิ ม คา่ สงู สดุ คา่ ตํา่ สดุ นอกจากน้ยี ังสามารถใชฟ้ งั ก์ชนั sapply( ) ในการคํานวณค่าสถติ ิพรรณนาหลายๆ ตัวแปรพรอ้ มกัน เช่น ผศ.ดร.บรรทม สรุ ะพร ภาควชิ าคณติ ศาสตร์ สถิตแิ ละคอมพิวเตอร์ คณะวทิ ยาศาสตร์ มหาวิทยาลยั อบุ ลราชธานี

– 70 – การวเิ คราะหข์ อ้ มลู ทางสถิติ โดยใชโ้ ปรแกรม R > sapply (work, mean, na.rm = TRUE) Warning in mean.default (X[[1L]], …) : Argument is not numeric or logical: returning NA Warning in mean.default (X[[3L]], …) : Argument is not numeric or logical: returning NA Warning in mean.default (X[[4L]], …) : Argument is not numeric or logical: returning NA sex age educ sector income NA 28.6 NA NA 24325.0 na.rm=TRUE เปน็ การกําหนดเพือ่ ให้คํานวณโดยไมร่ วมคา่ สญู หาย (excluding missing values) สามารถใช้ฟงั กช์ ัน mean, min, max, med, mod ในการ ประมวลด้วยฟงั กช์ ัน sapply( ) และมีฟงั ก์ชันบน R เป็นจาํ นวนมากท่ีใช้ในการ คํานวณคา่ สถิติพรรณนา เชน่ summary( ) และ fivenum( ) # mean, median, 25th and 75th quartiles, min, max summary(income) # Tukey min, lower-hinge, median, upper-hinge, max fivenum(income) > summary(income) Max. Min. 1st Qu. Median Mean 3rd Qu. 60000 12000 19000 25000 24360 26000 > fivenum(income) [1] 12000 19000 25000 26000 60000 สมมติดงึ เอาข้อมูลท่ีได้จากแบบสอบถามในหวั ขอ้ 3.7 การวางแผนจัดทาํ แฟม้ ข้อมลู ได้ข้อมูลดงั นี้ ผศ.ดร.บรรทม สรุ ะพร ภาควิชาคณิตศาสตร์ สถิติและคอมพวิ เตอร์ คณะวิทยาศาสตร์ มหาวิทยาลัยอบุ ลราชธานี

การวเิ คราะหค์ ่าสถิติ – 71 – 6.1.2 การวดั คา่ การกระจาย (Variation measure) การพิจารณาการกระจายของข้อมูล สามารถพิจารณาได้จากค่าสถิติต่างๆ หลาย ลักษณะข้อมูล เช่น ค่าพิสยั ค่าความแปรปรวน ค่าสว่ นเบ่ยี งเบนมาตรฐาน เปน็ ต้น คา่ พสิ ยั (Range) พสิ ัยเป็นค่าท่วี ดั ความแตกตา่ งระหวา่ งค่าสงู สุดกับค่าตํ่าสุด โดยสามารถหาค่าพิสัย ได้ โดยใช้คําสั่ง range() ซ่ึงจะให้ผลลัพธ์เป็นค่าตํ่าสุดและค่าสูงสุดของข้อมูล หาก ต้องการทราบผลต่างระหวา่ งสองคา่ นีท้ ําได้โดยใชค้ าํ สั่ง diff(range()) > range(1:10) [1] 1 10 > diff(range(1:10)) [1] 9 > range(data1) [1] 1 99 คา่ พิสยั ควอรไ์ ทล์ (Interquartile Range , IQR) คา่ พสิ ยั ควอร์ไทลเ์ ป็นระยะห่างระหว่าง Q3 และ Q1 ซง่ึ หาคา่ พสิ ยั ควอร์ไทล์ไดโ้ ดย ใช้คําส่ัง IQR() โดยท่ี IQR = Q3 – Q1 ค่าความแปรปรวน (Variance) ความแปรปรวนเป็นคา่ ท่ีแสดงการกระจายของข้อมูลท่ีมีผวู้ ิจัยนิยมใช้ หากคา่ ความ แปรปรวนมคี ่านอ้ ยสว่ นใหญ่แลว้ จะเปน็ ข้อมลู ท่ีดี เช่นสนใจน้ําหนักของปลานิลด้วยวิธี การเลีย้ งดว้ ยสูตร A มคี า่ น้อยกว่าการเลี้ยงด้วยสตู รอืน่ หมายความว่านํ้าหนักของปลา นิลแตล่ ะตวั มคี ่าใกลเ้ คียงกัน ส่งผลใหส้ ามารถประมาณน้ําหนกั รวมได้คอ่ นข้างใกลเ้ คียง ในขณะทเี่ ล้ยี งดว้ ยสตู ร B น้าํ หนักแต่ละตัวมีความแตกตา่ งกนั มากก็จะส่งผลใหค้ ่าความ แปรปรวนมีค่าสูงกว่า ซึ่งคา่ ความแปรปรวนนน้ั หามาได้จากการเฉล่ียของกาํ ลงั สองของ ผลต่างระหวา่ งค่าสงั เกตกบั ค่าเฉลย่ี เขียนแทนดว้ ย S2 โดยที่ n n Xi )2 n  X 2  ( i i1 i1 S2  n (Xi  X )2  ซึ่งหนว่ ยของคา่ ความแปรปรวนเปน็ กําลังสอง  i1 n 1 n 1 เช่น กก2 บาท2 จงึ หาคา่ สว่ นเบยี่ งเบนมาตรฐาน S  S2 หน่วยกลับมาเหมือนเดมิ ผศ.ดร.บรรทม สรุ ะพร ภาควชิ าคณิตศาสตร์ สถติ ิและคอมพิวเตอร์ คณะวิทยาศาสตร์ มหาวทิ ยาลยั อบุ ลราชธานี

– 72 – การวเิ คราะห์ข้อมูลทางสถติ ิ โดยใช้โปรแกรม R # numerator of S2 hard way # เกบ็ ไวใ้ นตวั แปรพมิ พเ์ ลก็ แตพ่ มิ พต์ วั ใหญ่ # denominator of S2 # variance hard way # variance easy way # standard deviation hard way # standard deviation easy way with R กราฟและการจัดการกราฟ บน R กราฟนบั วา่ เป็นเครื่องมือที่สําคัญอันหน่ึงในการสรุปเกี่ยวกับขอ้ มูล โปรแกรม R นบั ว่าเปน็ โปรแกรมทม่ี จี ดุ เดน่ ในการสร้างกราฟ การกําหนดจํานวนกราฟท่ีแสดงต่อ หน้าจอในแตล่ ะคร้ังท่ีสร้างกราฟ จะใช้คาํ สัง่ par(mfrow = c(2,2), pty = \"s\") ซง่ึ จะสร้างเปน็ จาํ นวน 2 แถว 2 คอลมั น์ต่อหน้าจอ > PI <‒ c(0.1,0.5,0.7,0.9) ; x<‒ 0:10 > xlab <‒ expression(italic(x)) > par(mfrow = c(2,2)) for (i in 1:4) { density <‒ dgeom(x, PI[i]) ylab <‒ bquote(italic(P(X==x)~~~~~pi) ==. (PI[i])) plot(x, density, type = \"h\", lwd = 2, xlab = xlab, ylab = ylab) abline (h=0,lwd = 2) } ผศ.ดร.บรรทม สรุ ะพร ภาควิชาคณติ ศาสตร์ สถติ ิและคอมพวิ เตอร์ คณะวทิ ยาศาสตร์ มหาวิทยาลยั อบุ ลราชธานี

การวเิ คราะหค์ ่าสถติ ิ – 73 – คาํ สั่งในการสร้างกราฟได้แก่ plot() line() points() segments() polygon() ตัวอย่าง 6.1 การใช้คําส่งั plot() ในการสรา้ งกราฟ > require(stats) # หรอื จะใช้ packages ▶ load package… > cars speed dist 1 42 2 4 10 3 74 : 48 24 93 49 24 120 50 25 85 > plot(cars) # เทียบเท่ากับ plot(cars$speed, cars$dist) ผศ.ดร.บรรทม สรุ ะพร ภาควชิ าคณติ ศาสตร์ สถติ ิและคอมพิวเตอร์ คณะวิทยาศาสตร์ มหาวิทยาลัยอบุ ลราชธานี

– 74 – การวิเคราะหข์ ้อมูลทางสถติ ิ โดยใช้โปรแกรม R ตัวอย่าง 6.2 การใช้คําสง่ั lines() ในการสรา้ งกราฟแสดงเสน้ แนวโน้ม > require(stats) > plot(cars, main=\"Stopping Distance versus Speed\") > lines(lowess(cars)) ตวั อย่าง 6.3 การใช้คําสง่ั points() ในการสรา้ งกราฟ > require(stats) > plot(–4 :4, –4 :4, type = \"n\") # setting up coord. System > points(rnorm(200), rnorm(200), col = \"red\") > points(rnorm(100)/2, rnorm(100)/2, col = \"blue\", cex=1.5) ผศ.ดร.บรรทม สรุ ะพร ภาควิชาคณติ ศาสตร์ สถิตแิ ละคอมพวิ เตอร์ คณะวทิ ยาศาสตร์ มหาวิทยาลยั อบุ ลราชธานี

การวเิ คราะหค์ ่าสถติ ิ – 75 – การสร้างฮิสโตแกรม บน R ฮสิ โตแกรมเปน็ การแสดงข้อมูลในรูปกราฟิกท่ีมปี ระโยชน์มาก ซึง่ ได้กลา่ วมาบา้ ง ในบทท่ี 4 การนาํ เสนอข้อมลู แตจ่ ะเพ่ิมรายละเอียดมากขนึ้ ในเรื่องของสถิติพรรณนา สาํ หรับคาํ ส่ังบน R จะใช้ hist() โดยจะตอ้ งกาํ หนดข้อมลู ตามรปู แบบของคําส่ัง > wn15 <‒ c(11,13,15,12,13,12,14,12,15,16,14,12,19,20,12) > hist(wn15) > wn15 <‒ c(11,13,15,12,13,12,14,12,15,16,14,12,19,20,12) > hist(wn15,probability=TRUE) > lines(density(wn15), col= 300, lwd = 3) ผศ.ดร.บรรทม สรุ ะพร ภาควชิ าคณติ ศาสตร์ สถติ ิและคอมพิวเตอร์ คณะวิทยาศาสตร์ มหาวทิ ยาลัยอบุ ลราชธานี

– 76 – การวิเคราะหข์ อ้ มลู ทางสถิติ โดยใชโ้ ปรแกรม R ผใู้ ช้สามารถดูรายละเอียดของคาํ สั่ง hist โดยใช้ help(hist) บน command line > help(hist) starting httpd help server … done hist {graphics} R Documentation Histograms Description The generic function hist computes a histogram of the given data values. If plot = TRUE, the resulting object of class \"histogram\" is plotted by plot.histogram, before it is returned. Usage hist(x, ...) ## Default S3 method: hist(x, breaks = \"Sturges\", freq = NULL, probability = !freq, include.lowest = TRUE, right = TRUE, density = NULL, angle = 45, col = NULL, border = NULL, main = paste(\"Histogram of\" , xname), xlim = range(breaks), ylim = NULL, xlab = xname, ylab, axes = TRUE, plot = TRUE, labels = FALSE, nclass = NULL, warn.unused = TRUE, ...) Arguments x a vector of values for which the histogram is desired. breaks one of:  a vector giving the breakpoints between histogram cells,  a function to compute the vector of breakpoints,  a single number giving the number of cells for the histogram,  a character string naming an algorithm to compute the number of cells (see ‘Details’),  a function to compute the number of cells. In the last three cases the number is a suggestion only; the breakpoints will be set to pretty values. If breaks is a function, the x vector is supplied to it as the only argument. freq logical; if TRUE, the histogram graphic is a representation of frequencies, the counts component of the result; if FALSE, probability densities, component density, are plotted (so that the histogram has a total area of one). Defaults to TRUE if and only if breaks are equidistant (and probability is not specified). probability an alias for !freq, for S compatibility. include.lowest logical; if TRUE, an x[i] equal to the breaks value will be included in the first (or last, for right = FALSE) bar. This will be ignored (with a warning) unless breaks is a vector. angle the slope of shading lines, given as an angle in degrees (counter- clockwise). col a colour to be used to fill the bars. The default of NULL yields unfilled bars. ผศ.ดร.บรรทม สรุ ะพร ภาควชิ าคณติ ศาสตร์ สถติ ิและคอมพวิ เตอร์ คณะวทิ ยาศาสตร์ มหาวทิ ยาลยั อบุ ลราชธานี border the color of the border around the bars. The default is to use the standard foreground color.

การวิเคราะห์คา่ สถติ ิ – 77 – right logical; if TRUE, the histogram cells are right-closed (left open) intervals. density the density of shading lines, in lines per inch. The default value of NULL means that no shading lines are drawn. Non-positive values of density also inhibit the drawing of shading lines. angle the slope of shading lines, given as an angle in degrees (counter- clockwise). col a colour to be used to fill the bars. The default of NULL yields unfilled bars. border the color of the border around the bars. The default is to use the standard foreground color. main, xlab, these arguments to title have useful defaults here. ylab xlim, ylim the range of x and y values with sensible defaults. Note that xlim is not used to define the histogram (breaks), but only for plotting (when plot = TRUE). axes logical. If TRUE (default), axes are draw if the plot is drawn. plot logical. If TRUE (default), a histogram is plotted, otherwise a list of breaks and counts is returned. In the latter case, a warning is used if (typically graphical) arguments are specified that only apply to the plot = TRUE case. labels logical or character string. Additionally draw labels on top of bars, if not FALSE; see plot.histogram. nclass numeric (integer). For S(-PLUS) compatibility only, nclass is equivalent to breaks for a scalar or character argument. warn.unused logical. If plot = FALSE and warn.unused = TRUE, a warning will be issued when graphical parameters are passed to hist.default(). ... further arguments and graphical parameters passed to plot.histogram and thence to title and axis (if plot = TRUE). Details The definition of histogram differs by source (with country-specific biases). R's default with equi-spaced breaks (also the default) is to plot the counts in the cells defined by breaks. Thus the height of a rectangle is proportional to the number of points falling into the cell, as is the area provided the breaks are equally-spaced. The default with non-equi-spaced breaks is to give a plot of area one, in which the area of the rectangles is the fraction of the data points falling in the cells. If right = TRUE (default), the histogram cells are intervals of the form (a, b], i.e., they include their right-hand endpoint, but not their left one, with the exception of the first cell when include.lowest is TRUE. For right = FALSE, the intervals are of the form [a, b), and include.lowest means ‘include highest’. A numerical tolerance of 1e-7 times the median bin size (for more than four bins, otherwise the median is substituted) is applied when counting entries on the edges of bins. This is not included in the reported breaks nor in the calculation of density. The default for breaks is \"Sturges\": see nclass.Sturges. Other names for which algorithms are supplied are \"Scott\" and \"FD\" / \"Freedman-Diaconis\" (with corresponding functions nclass.scott and nclass.FD). Case is ignored and partial matching is used. Alternatively, a function can be supplied which will compute the intended number of breaks or the actual breakpoints as a function of x. ผศ.ดร.บรรทม สรุ ะพร ภาควชิ าคณิตศาสตร์ สถติ แิ ละคอมพิวเตอร์ คณะวิทยาศาสตร์ มหาวทิ ยาลยั อบุ ลราชธานี

– 78 – การวเิ คราะห์ขอ้ มูลทางสถติ ิ โดยใช้โปรแกรม R Value an object of class \"histogram\" which is a list with components: breaks the n+1 cell boundaries (= breaks if that was a vector). These are the nominal breaks, not with the boundary fuzz. counts n integers; for each cell, the number of x[] inside. density values f^(x[i]), as estimated density values. If all(diff(breaks) == 1), they are the relative frequencies counts/n and in general satisfy sum[i; f^(x[i]) (b[i+1]-b[i])] = 1, where b[i] = breaks[i]. mids the n cell midpoints. xname a character string with the actual x argument name. equidist logical, indicating if the distances between breaks are all the same. References Becker, R. A., Chambers, J. M. and Wilks, A. R. (1988) The New S Language. Wadsworth & Brooks/Cole. Venables, W. N. and Ripley. B. D. (2002) Modern Applied Statistics with S. Springer. See Also nclass.Sturges, stem, density, truehist in package MASS. Typical plots with vertical bars are not histograms. Consider barplot or plot(*, type = \"h\") for such bar plots. Examples op <- par(mfrow = c(2, 2)) hist(islands) utils::str(hist(islands, col = \"gray\", labels = TRUE)) hist(sqrt(islands), breaks = 12, col = \"lightblue\", border = \"pink\") ##-- For non-equidistant breaks, counts should NOT be graphed unscaled: r <- hist(sqrt(islands), breaks = c(4*0:5, 10*3:5, 70, 100, 140), col = \"blue1\") text(r$mids, r$density, r$counts, adj = c(.5, -.5), col = \"blue3\") sapply(r[2:3], sum) sum(r$density * diff(r$breaks)) # == 1 lines(r, lty = 3, border = \"purple\") # -> lines.histogram(*) par(op) require(utils) # for str str(hist(islands, breaks = 12, plot = FALSE)) #-> 10 (~= 12) breaks str(hist(islands, breaks = c(12,20,36,80,200,1000,17000), plot = FALSE)) hist(islands, breaks = c(12,20,36,80,200,1000,17000), freq = TRUE, main = \"WRONG histogram\") # and warning require(stats) set.seed(14) x <- rchisq(100, df = 4) ## Comparing data with a model distribution should be done with qqplot()! qqplot(x, qchisq(ppoints(x), df = 4)); abline(0, 1, col = 2, lty = 2) ผศ.ดร.บรรทม สรุ ะพร ภาควชิ าคณติ ศาสตร์ สถิติและคอมพิวเตอร์ คณะวทิ ยาศาสตร์ มหาวิทยาลัยอบุ ลราชธานี

การวเิ คราะห์ค่าสถิติ – 79 – ## if you really insist on using hist() ... : hist(x, freq = FALSE, ylim = c(0, 0.2)) curve(dchisq(x, df = 4), col = 2, lty = 2, lwd = 2, add = TRUE) นอกจากน้ยี งั สามารถใชค้ าํ ส่งั example(hist) > example(hist) hist> op <‒ par(mfrow = c(2,2)) hist> hist(islands) Waiting to confirm page change … เมอ่ื กด Enter เพอ่ื confirm ให้แสดงผลตอ่ ไปน้ี จะปรากฏผลลัพธ์ท้ังบน R Console และ R Graphics ดงั นี้ ในกรณีที่ต้องการเพิม่ เส้นโคง้ ความนา่ จะเปน็ ลงบนฮิสโตแกรม เราสามารถเขยี นคาํ สั่ง เพ่มิ เติมตอ่ จาก hist() ดว้ ย lines() และ density() ดังนี้ > sp1 <‒ rnorm(100, mean = 3, sd = 0.5) > hist(sp1, probability = TRUE) > lines(density(sp1), col=625, lwd = 3) ผศ.ดร.บรรทม สรุ ะพร ภาควิชาคณิตศาสตร์ สถติ ิและคอมพวิ เตอร์ คณะวิทยาศาสตร์ มหาวิทยาลยั อบุ ลราชธานี

– 80 – การวิเคราะหข์ อ้ มูลทางสถติ ิ โดยใชโ้ ปรแกรม R นอกจากนยี้ ังมีคาํ สัง่ truehist() ซึ่งพัฒนาโดย Venables, W.N. and Ripley, B.D. (2000)1 และอยู่ในแพคเกจ MASS > require(MASS) > wn48 <‒ rnorm(30, 100, 2) > truehist(wn48)) 1 Venables, W.N. and Ripley, B.D. (2002) Modern Applied Statistics with S. Fouth edition. Springer. ผศ.ดร.บรรทม สรุ ะพร ภาควิชาคณติ ศาสตร์ สถติ ิและคอมพวิ เตอร์ คณะวทิ ยาศาสตร์ มหาวิทยาลัยอบุ ลราชธานี

การวเิ คราะหค์ า่ สถติ ิ – 81 – 6.2 สถติ เิ ชิงอนุมาน (inferential statistics) การอนุมานเชงิ สถติ ิ เป็นกรณที ผ่ี วู้ จิ ัยไดด้ าํ เนินการเกบ็ รวบรวมขอ้ มลู มาบางส่วนจาก ประชากร หรอื เรียกวา่ เกบ็ ขอ้ มูลมาจากกลุ่มตัวอยา่ ง ทาํ ใหท้ ราบค่าท่ีไดจ้ ากตัวอยา่ งเรียกวา่ ค่าสถิติ ซ่งึ คา่ สถิติน้ันจะแปรไปตามกล่มุ ตวั อยา่ งทีเ่ ลือกมา ดงั นัน้ ค่าสถิติจึงเปน็ ตวั แปรสุ่ม โดยที่ ผวู้ จิ ยั นั้นไมท่ ราบค่าพารามิเตอร์ซ่ึงเป็นค่าคงทท่ี ี่อธิบายคณุ ลักษณะเฉพาะของประชากรน้ันๆ ผู้ วจิ ัยจึงเอาค่าสถิติท่ไี ด้จากตัวอยา่ งนนั้ ไปอ้างอิงหรือสรปุ ผลเกีย่ วกับคา่ บ่งบอกลักษณะของ ประชากร การอนุมานเชงิ สถิตจิ ะไม่มี หากผวู้ ิจยั น้ันเก็บรวบรวมท้งั ประชากรหรือเรยี กว่าการสาํ - มะโนประชากร จะมเี ฉพาะสถติ เิ ชงิ พรรณนาเทา่ น้ัน การอนุมานเชิงสถิติอาจจําแนกเป็นการ ประมาณคา่ พารามิเตอร์ และการทดสอบสมมติฐาน การประมาณค่า (Estimation) การประมาณค่า เปน็ การคาํ นวณค่าจากข้อมลู กลุ่มตัวอย่าง เพ่ือนําไปอธบิ ายค่าพารามิ- เตอรข์ องประชากร เช่นคา่ เฉลีย่ ของตวั อย่าง X จะใชใ้ นการอธบิ ายคา่ เฉลี่ยของประชากร  คา่ สดั ส่วน pˆ นาํ ไปใช้ในการอธบิ ายค่าสดั ส่วนของประชากร P หรอื คา่ ความแปรปรวน S2 จะใช้ ในการอธบิ ายค่าความแปรปรวนของประชากร  2 เป็นตน้ ซ่งึ ในการคํานวณข้อมูลจากกลุ่ม ตวั อยา่ ง จะได้คา่ เพยี งคา่ เดียว จึงเรียกเป็นการประมาณค่าแบบจดุ (point estimation) ทําให้ ไม่สามารถทราบถึงความผิดพลาดของการประมาณได้ และเน่อื งจากการใช้ค่าทไ่ี ด้จากการ ประมาณแบบจดุ นั้นมีโอกาสสูงท่จี ะแตกตา่ งจากค่าพารามิเตอรท์ แี่ ทจ้ รงิ ดงั นัน้ จึงใชก้ ารประมาณ อีกแบบหน่ึงเรยี กว่าการประมาณค่าแบบชว่ ง (interval estimation) ให้ ˆ เปน็ ตัวประมาณค่าแบบจดุ สว่ นการประมาณคา่ แบบช่วงจะเปน็ การประมาณ ค่าพารามิเตอร์ ซึ่งมคี า่ อยูร่ ะหวา่ งค่าสองค่าคือ l และ u โดยที่ pr(l< <u) = 1 –  และจะ เรียกวา่ ช่วงความเช่ือม่ัน (1– )100% สาํ หรับ  จะไดว้ า่ ˆ –Dˆ V (ˆ) < <ˆ + Dˆ V (ˆ) โดยท่ี Dˆ เปน็ การแจกแจงของตัวประมาณ ˆ หรอื เป็นช่วงความเชือ่ มน่ั (1– ) 100% ของ  การทดสอบสมมตฐิ าน (testing hypothesis) ในกรณีที่ต้องการตอบข้อสงสัยเกย่ี วกับคา่ พารามเิ ตอรข์ องประชากร วิธีการดาํ เนินการ เพื่อตอบคําถามนเ้ี รียกว่าการทดสอบสมมติฐาน ซ่งึ จะเกี่ยวข้องกับข้อสมมตฐิ านทผี่ ู้วิจัยไดต้ ง้ั ไว้ โดยจะมีสมมตฐิ านหลักหรือสมมติฐานวา่ ง (null hypothesis) และสมมติฐานรองหรือสมมติฐาน ทางเลือก (alternative hypothesis) เช่นสมมตฐิ านหลักคอื H0 :  ในขณะทสี่ มมติ 0 ฐานรอง มี 3 กรณคี ือ Ha :  หรอื Ha :  หรอื Ha :  แล้วผูว้ จิ ยั ตอ้ งเลือกตวั 0 0 0 สถติ ิทดสอบใหเ้ หมาะสมกบั พารามเิ ตอร์ท่ีตอ้ งการทดสอบ พรอ้ มกับกําหนดค่าความผดิ พลาด ประเภทที่ 1 (Type I error) คือค่า  หรือเรียกอกี อยา่ งหนึ่งว่าการกําหนดระดับนัยสาํ คัญ ซง่ึ การ กําหนดน้นั ถ้ากาํ หนดใหม้ ีค่าน้อยๆ ก็ยง่ิ เปน็ การทดสอบท่ีดี แต่จะทาํ ใหโ้ อกาสท่จี ะปฏิเสธ สมมติฐานหลกั น้อยลงไปด้วย ท่ีนิยมกาํ หนดกนั คอื หากเปน็ การทดสอบข้อมูลทางด้านมนษุ ย- ศาสตร์และสังคมศาสตร์ จะกาํ หนดไว้ท่ี 0.1 ถ้าเป็นข้อมูลทางด้านวทิ ยาศาสตร์ จะกําหนดทร่ี ับ 0.05 แต่ถา้ เป็นข้อมลู ทางด้านวงการแพทยเ์ ภสชั หรอื เกี่ยวขอ้ งกับชวี ติ มนุษย์ จะกําหนดท่รี ะดบั ผศ.ดร.บรรทม สรุ ะพร ภาควิชาคณติ ศาสตร์ สถติ ิและคอมพิวเตอร์ คณะวทิ ยาศาสตร์ มหาวิทยาลยั อบุ ลราชธานี

– 82 – การวเิ คราะห์ขอ้ มลู ทางสถิติ โดยใชโ้ ปรแกรม R 0.01 ซง่ึ ก็ข้ึนอยู่กับดุลยพินจิ ของผู้วิจยั น้ัน ถา้ เปน็ การกาํ หนดไว้กลางๆ ส่วนใหญ่กจ็ ะกาํ หนดไว้ที่ 0.05 นั่นคือยอมใหผ้ ดิ พลาดประมาณ 5 เปอร์เซนตน์ ั่นเอง 6.2.1 การอนุมานสาหรับประชากรเดียว (One population) การประมาณคา่ เฉลย่ี (Mean) สมมติให้ X1, X2,…, Xn เปน็ ตัวอยา่ งสมุ่ ขนาด n จากประชากร ค่าเฉลยี่ จาก กลุม่ ตัวอยา่ งนี้ เขียนแทนดว้ ย X โดยท่ี X  X1  X2 ... Xn ซึ่งเป็นตัวประมาณ n แบบจดุ สาํ หรับค่าเฉลยี่  สาํ หรับการประมาณแบบช่วง แบ่งได้ออกเปน็ 3 กรณีคือ กรณที ราบค่า 2 การแจกแจงของ X ซึ่งมชี ว่ งความเชอื่ มน่ั ( 1– )100% สาํ หรบั  จะได้ วา่ Z1 /2 จึงไดช้ ว่ งความชอื่ ม่ันดังน้ี X  Z1 /2  < <X  Z1 /2  ดังตวั อย่าง n n ตัวอย่าง 6.4 การทดสอบความรู้วิชาสถติ ิเบ้อื งต้นของนักศกึ ษาชนั้ ปีที่ 1 สถาบนั การ ศึกษาแหง่ หนง่ึ พบว่าความแปรปรวน 9 คะแนน2 ถา้ สุ่มตัวอย่างมา 25 คน พบว่า มีคะแนนเฉลย่ี เทา่ กับ 6 คะแนน จงประมาณค่าคะแนนเฉลีย่ ของ นักศึกษาชนั้ ปที ่ี 1 แบบชว่ งด้วยความเช่ือม่ัน 95% วิธที า X = 6, 2=9, n = 25 , Z1-0.025=1.96 แทนคา่ ในชว่ งความเชือ่ มน่ั ดงั น้ี คือX  Z1 /2  6 1.96 3 <  < 6 1.96 3 n <  < X  Z1 /2 n 25 25 จงึ ได้ 4.824 <  < 7.176 เมือ่ ใชโ้ ปรแกรม R ชว่ ยคาํ นวณ ดังนี้ กรณไี มท่ ราบคา่ 2 และเก็บตวั อย่างมาไม่มากพอ (n < 30) การแจกแจงของ X ซ่งึ มชี ่วงความเช่ือม่นั ( 1– )100% สาํ หรับ  จะได้ว่า t/2 ที่มี df=n–1 จงึ ได้ช่วงความชอ่ื มัน่ ดังนี้ X t/2 S <  < X  t /2 S ดงั ตัวอยา่ ง n n ต่อไปนี้ ผศ.ดร.บรรทม สรุ ะพร ภาควชิ าคณติ ศาสตร์ สถิติและคอมพวิ เตอร์ คณะวิทยาศาสตร์ มหาวทิ ยาลัยอบุ ลราชธานี

การวเิ คราะหค์ ่าสถติ ิ – 83 – ตวั อย่าง 6.5 การทดสอบความรวู้ ชิ าสถติ เิ บ้ืองตน้ ของนักศกึ ษาชั้นปีที่ 1 สถาบันการ ศึกษาแห่งหนึง่ ถ้าสุ่มตัวอยา่ งมา 25 คน พบว่ามีคะแนนเฉลีย่ เท่ากบั 10 คะแนน และมีความแปรปรวน 9 คะแนน2 จงประมาณคา่ คะแนนเฉลี่ยของ นักศกึ ษาชั้นปีที่ 1 ด้วยช่วงด้วยความเช่ือมนั่ 95% วธิ ที า X = 10, S2=9, n = 25 , t0.025=2.064 แทนค่าในช่วงความเชอื่ ม่นั ดงั น้ี คือX  t /2S S 10  2.064 3 <  < 10  2.064 3 n <  < X  t /2 n 25 25 จึงได้ 8.7616 <  < 11.2384 เมอ่ื ใชโ้ ปรแกรม R ช่วยคาํ นวณ ดงั นี้ กรณไี มท่ ราบค่า 2 และเก็บตัวอยา่ งมามากพอ (n  30) การแจกแจงของ X ซึ่งมชี ว่ งความเชือ่ มน่ั ( 1– )100% สําหรบั  จะไดว้ ่า Z1 /2 จึงได้ชว่ งความชอื่ ม่ันดังน้ี X  Z1 /2 S <  < X  Z1 /2 S ดังตัวอย่าง n n ตวั อย่าง 6.6 การทดสอบความรู้วิชาสถติ เิ บอ้ื งตน้ ของนักศึกษาช้นั ปีท่ี 1 สถาบันการ ศกึ ษาแหง่ หนงึ่ ถ้าสุม่ ตวั อยา่ งมา 100 คน พบว่า มคี ะแนนเฉล่ียเท่ากบั 10 คะแนน และความแปรปรวนเทา่ กบั 25 คะแนน2 จงประมาณค่าคะแนนเฉลย่ี ของนักศึกษาช้ันปีท่ี 1 แบบช่วงดว้ ยความเชอื่ มนั่ 95% วิธที า X = 10, S2=25,n=100 ,Z1–0.025=1.96 แทนค่าในช่วงความเชอื่ ม่ัน ดังน้ี คือX  Z1 /2S S 10 1.96 5 <  <10 1.96 5 n <  < X  Z1 /2 n 100 100 จึงได้ 9.02 <  < 10.98 เม่อื ใช้โปรแกรม R ชว่ ยคํานวณ ดังน้ี ผศ.ดร.บรรทม สรุ ะพร ภาควิชาคณติ ศาสตร์ สถติ ิและคอมพิวเตอร์ คณะวทิ ยาศาสตร์ มหาวทิ ยาลยั อบุ ลราชธานี

– 84 – การวิเคราะหข์ ้อมลู ทางสถติ ิ โดยใช้โปรแกรม R การประมาณค่าสัดส่วน (Proportion) ในบางคร้งั นักวจิ ยั ต้องการทราบสดั ส่วนของประชากรท่ีสนใจ ข้อมลู เหล่านม้ี กั เปน็ จํานวนนบั จากกลุม่ ท่ีสนใจตอ่ ประชากรท้ังหมด เชน่ สัดสว่ นของสนิ คา้ ทีบ่ กพรอ่ ง สัดสว่ นของนกั ศึกษาที่พึงพอใจระบบการลงทะเบียนเรียนปลายภาค เป็นต้น ค่าสัดส่วน ท่ไี ด้จากตัวอยา่ ง ( Pˆ ) สามารถคาํ นวณได้ดังนี้ จาํ นวนเหตกุ ารณท์ ส่ี นใจ จํานวนเหตุการณ์ท้งั หมด ตวั อยา่ ง 6.7 จากการสุ่มนกั ศกึ ษามา 500 คน พบว่ามนี ักศึกษา 200 คน ทม่ี ีเครื่อง คอมพวิ เตอร์ จงประมาณค่าสัดสว่ นของนกั ศึกษาท่ีมีคอมพิวเตอร์ ทีช่ ว่ ง ความเช่อื ม่ัน 95% วธิ ีทาํ ค่าสดั สว่ นแบบจุด Pˆ  200  0.40 ซึง่ หากต้องการประมาณค่าสดั ส่วนของ 500 นักศกึ ษาแบบช่วงที่ระดับความเชอื่ ม่ัน 95% คอื Pˆ(1 Pˆ) Pˆ(1 Pˆ) n n แทนค่าPˆ  Z1/2 <P <X  Z1 /2 ได้0.40 1.96 (0.40)(0.60) < P <0.40 1.96 (0.40)(0.60) 0.36<P<0.44 500 500 เมือ่ ใชโ้ ปรแกรม R ชว่ ยคาํ นวณ ดงั นี้ > การประมาณคา่ ความแปรปรวน (Variance) การคํานวณค่าความแปรปรวนหรือค่าที่ใช้วดั การกระจายของข้อมูล ว่าข้อมลู ท่ีมีน้ันมีการกระจายมากน้อยเพยี งใด จงึ เอาค่ากลางซึง่ จะใชค้ ่าเฉล่ยี เปน็ ตวั ยึดและจะมา ดกู ันวา่ คา่ สังเกตอ่นื ๆ แตกตา่ งจากค่าเฉล่ยี มากน้อยเพยี งใด จงึ นําคา่ สังเกตอน่ื ๆ มาลบ ออกจากค่าเฉลีย่ และนํามารวมผลต่างของค่าสังเกตต่างๆ จากค่าเฉลี่ย จึงเขยี นไดด้ งั น้ี n ซึ่งสังเกตเห็นวา่ ทุกกลุ่มขอ้ มลู คา่ ผลรวมของแต่ละค่าสังเกตลบกบั  (X iX)  0 i1 คา่ เฉลย่ี มคี ่าเปน็ 0 ค่านีจ้ งึ ไมม่ ปี ระโยชน์ แตน่ กั คณติ ศาสตร์ปรับสตู รคอื เอาเฉพาะ ผลต่าง หรอื เรียกวา่ ส่วนเบ่ยี งเบนเฉล่ีย โดยใส่ค่าสัมบูรณ์ จงึ ได้ n | X i X |  i1 n ผศ.ดร.บรรทม สรุ ะพร ภาควชิ าคณติ ศาสตร์ สถติ ิและคอมพิวเตอร์ คณะวทิ ยาศาสตร์ มหาวทิ ยาลยั อบุ ลราชธานี

การวิเคราะห์คา่ สถิติ – 85 – แต่ที่นิยมคอื ทําการยกกําลังสอง จงึ ได้ S2  n (Xi  X )2 แก้ปญั หาผลตา่ งมีค่าเป็น  i1 n 1 ศนู ย์ แต่ก็มีปัญหาต่อมาคอื หน่วยของค่าความแปรปรวนน้นั มหี น่วยเปน็ กําลงั สองตามท่ี ยกกําลงั สอง เชน่ เกบ็ ข้อมลู มาเปน็ กโิ ลกรมั พอหาคา่ ความแปรปรวน หนว่ ยก็จะเป็น กโิ ลกรัม2 คนก็อาจจะงง จึงทําการหาค่าส่วนเบี่ยงเบนมาตรฐาน(S) หรอื (SD) ก็คอื ราก ทีส่ องของความแปรปรวน ทาํ ใหห้ น่วยข้อมูลกลับมาเปน็ หน่วยเดิม เชน่ กิโลกรมั การประมาณค่าแบบจดุ S2  n (Xi  X )2 ในการคํานวณโดยสูตรนห้ี ากมี  i1 n 1 เครื่องมอื ท่ชี ่วยคาํ นวณไม่ดีพอ คา่ ท่ไี ด้จะมีคา่ ผิดไปมากเนอ่ื งจากคา่ เฉลี่ย X จะเปน็ เลข จาํ นวนจริง (มจี ุดทศนิยม) ดงั นั้นเมื่อนําข้อมลู แต่ละตัวมาลบกับ X ทําให้ไดค้ ่าจํานวน จริง เมือ่ นาํ ไปยกกาํ ลังสองทศนิยมยง่ิ เพม่ิ ข้ึน จึงจาํ เป็นตอ้ งให้นักคณิตศาสตร์มาชว่ ยนกั สถติ ิ ทําให้ได้สูตรคํานวณ (Computing formula) ซง่ึ ใหผ้ ลการคํานวณดกี ว่าสูตรเดิม จงึ ไดส้ มการคาํ นวณดังน้ี n n )2 n (Xi  X )2  X 2   (Xi i S2   i1 i1  n i1 n 1 n 1 การประมาณค่าแบบช่วง ดังน้ี (n 1)S2   2  (n 1)S2 เมื่อ df = n – 1 2 /2 12 /2 ตัวอย่าง 6.8 สมาคมหอการคา้ ในจงั หวดั อบุ ลราชธานี ตอ้ งการศึกษาคา่ เช่ารายเดือน ของบา้ นเช่าที่มี 3 หอ้ งนอน 2 ห้องนํ้า จึงทําการสุ่มตวั อย่างเจ้าของบา้ นเชา่ น้ี มา 6 ราย ไดข้ ้อมูลค่าเชา่ ดงั น้ี 3,400 4,050 2,600 5,000 3,800 3,900 จงประมาณความแปรปรวนแบบจุดและจงหาช่วงความเชือ่ มั่น 95% ของความแปรปรวนคา่ เช่าบา้ นในจังหวดั แห่งน้ี n n )2 วธิ ีทาํ ค่าความแปรปรวน  X 2   (Xi i S2  i1 i1 n n 1   1 [(3040)2  (4050)2  (2600)2  (5000)2  (3800)2  (3900)2]  (3791,667)2 / 6 5 = 622,416.667 ดังนั้นชว่ งความเช่อื ม่นั 95% ของความแปรปรวนคา่ เช่าบ้านคือ = (n 1)S 2   2  (n 1)S 2 แทนคา่ 5(622416.667)   2  5(622416.667) 2 / 2 12 /2 12.8325 0.8312116 = 242515.748 < 2 < 3744033 ดงั นน้ั ชว่ งความเช่ือมน่ั 95% ของความแปรปรวนของค่าเชา่ บ้านเท่ากับ 242,515.748 ถงึ 3,744,033 เมอื่ ใช้โปรแกรม R ช่วยคาํ นวณ ดังนี้ > > ผศ.ดร.บรรทม สรุ ะพร ภาควชิ าคณติ ศาสตร์ สถิติและคอมพิวเตอร์ คณะวทิ ยาศาสตร์ มหาวทิ ยาลัยอบุ ลราชธานี

– 86 – การวเิ คราะห์ข้อมูลทางสถติ ิ โดยใชโ้ ปรแกรม R การทดสอบสมมตฐิ านค่าเฉลยี่ ในการศึกษาหรือการวจิ ยั มักจะมีการเกบ็ รวบรวมข้อมลู จากตัวอยา่ งเนอื่ ง จากประชากรมีขนาดใหญ่ และผู้วจิ ยั มกั มขี ้อจํากดั เร่อื งเวลา งบประมาณและบุคลากร การสรุปลกั ษณะทส่ี ําคญั ของประชากร จะต้องใชห้ ลักการของการทดสอบสมมติฐานทาง สถิติ ซงึ่ การสรปุ ผลการทดสอบสมมติฐานสามารถทําได้ 2 วิธี คือ 1. คาํ นวณคา่ สถติ ทิ ดสอบ Z หรอื t หรอื 2 หรอื F จากข้อมูลตัวอยา่ งท่ี เก็บรวบรวมมาได้ แลว้ นําไปเปรียบเทียบกับคา่ สถติ ิท่ีได้จากตารางสถิติ 2. คํานวณ p-value (Probability value) คา่ p บางครัง้ เรยี กว่า Sig. (Significance) ซึ่งค่อนข้างคาํ นวณยาก แล้วนาํ ไปเปรยี บเทยี บกับระดบั นยั สาํ คัญ () ในกรณที ่ีตอ้ งการทดสอบสมมตฐิ านเกีย่ วกบั คา่ เฉลี่ยซงึ่ แบง่ ออกได้เปน็ 3 กรณี คือ กรณที ราบค่าความแปรปรวน สาํ หรับสมมติฐาน H0 :   0 ใช้สถิติทดสอบ คือ Z  x  0 / n สมมติฐาน ประเภทการทดสอบ และเครอ่ื งมอื สมมตฐิ าน 2 ดา้ น ดา้ นซา้ ย ดา้ นขวา สถิตทิ ดสอบ ใช้สถติ ทิ ดสอบ Ho: = o Ho: = o Ho: = o ใช้ p – value Ha:  o Ha: <o Ha: >o Z  x  Z  x  Z  x  0 0 0 / n / n / n ปฏิเสธ Ho ปฏเิ สธ Ho ปฏิเสธ Ho ถา้ Z  Z1 /2 ถ้า Z  Z1 ถ้า Z  Z1 หรือ Z  Z1/2 ปฏเิ สธ Ho ถา้ ปฏิเสธ Ho ถ้า ปฏิเสธ Ho ถา้ p–value (lower– p–value (upper– p–value (2-tails) tails) นอ้ ยกว่า  tails) น้อยกว่า  น้อยกว่า  ผศ.ดร.บรรทม สรุ ะพร ภาควิชาคณิตศาสตร์ สถติ แิ ละคอมพิวเตอร์ คณะวทิ ยาศาสตร์ มหาวิทยาลัยอบุ ลราชธานี

การวเิ คราะหค์ า่ สถติ ิ – 87 – ตัวอย่าง 6.9 การศกึ ษาอัตราการเผาไหมเ้ ช้ือเพลิงของจรวดซง่ึ มกี ารแจกแจงปกติ สมมติ ทราบคา่ เบยี่ งเบนมาตรฐานคือ 2 เซนตเิ มตร/วินาที ทาํ การทดสอบโดย การสุ่มตัวอย่างมา n = 25 ไดค้ ่าเฉลยี่ 41.25 เซนติเมตร/วนิ าที จง ทดสอบสมมตฐิ านวา่ อัตราการเผาไหม้เช้ือเพลงิ ของจรวดมีค่าเฉล่ีย 40 เซนตเิ มตร/วนิ าทีหรือไม่ ที่ระดบั นัยสําคญั 0.05 วธิ ีทํา สมมตฐิ าน H0 :   40  0 และ Ha :   40 , =0.05 บรเิ วณวิกฤต และZ0<–Z0.025 = –1.96 Z0>Z0.025 = 1.96 ใชส้ ถิตทิ ดสอบ คือ Z  x    41.25  40 = 3.125 0 / n 2 / 25 สามารถคํานวณค่า p-value โดย p = 2[1 – (3.125)] = 0.0018 กรณีไม่ทราบคา่ ความแปรปรวน (เก็บข้อมลู มาไมม่ ากพอ n < 30) ในการทดสอบสมมติฐานเก่ียวกบั คา่ เฉลีย่ ของประชากรท่ีมกี ารแจกแจงปกติ หรอื เขา้ ใกล้การแจกแจงปกติ สําหรับสมมตฐิ าน H0 :    ใช้สถิติทดสอบ คือ 0 t  x  0 S/ n การสรปุ ผลการทดสอบข้ึนอยู่กับสมมติฐานรอง ถ้า Ha :    จะปฏเิ สธ 0 สมมตฐิ าน H0 :    ท่ีระดับนัยสําคญั  เมื่อ t  t ในทาํ นองเดยี วกันสําหรบั 0  กรณี Ha :    จะปฏิเสธสมมตฐิ าน H0 :    ทีร่ ะดับนัยสาํ คัญ  เม่ือ t  t 0 0 และสาํ หรบั กรณี Ha :    จะปฏเิ สธสมมติฐาน H0 :   0 ทรี่ ะดบั นัยสาํ คัญ  0 เมือ่ t  t หรอื แสดงไดต้ ามตาราง /2 สมมตฐิ าน ประเภทการทดสอบ และเครือ่ งมือ สมมตฐิ าน 2 ดา้ น ด้านซา้ ย ดา้ นขวา สถติ ิทดสอบ ใชส้ ถิติทดสอบ Ho: = o Ho: = o Ho: = o ใช้ p – value Ha:  o Ha: <o Ha: >o t  x  t  x  t  x  0 0 0 S/ n S/ n S/ n ปฏเิ สธ Ho ปฏิเสธ Ho ปฏิเสธ Ho ถา้ t  t/2 ถ้า t  t ถ้า t  t หรือ t  t/2 ปฏเิ สธ Ho ถา้ ปฏิเสธ Ho ถ้า ปฏเิ สธ Ho ถ้า p–value (lower– p–value (upper– p–value (2-tails) tails) นอ้ ยกวา่  tails) นอ้ ยกว่า  น้อยกวา่  ผศ.ดร.บรรทม สรุ ะพร ภาควชิ าคณิตศาสตร์ สถิตแิ ละคอมพวิ เตอร์ คณะวทิ ยาศาสตร์ มหาวิทยาลยั อบุ ลราชธานี

– 88 – การวเิ คราะหข์ อ้ มลู ทางสถิติ โดยใชโ้ ปรแกรม R ตวั อย่าง 6.10 ในการสาํ รวจการทํางานของบัณฑติ ต้องการทดสอบวา่ รายได้(income) เฉล่ียของประชากรไม่เท่ากับ 25,000 บาทต่อเดือน ซึ่งตงั้ สมมติฐานได้ดังน้ี กับH0 :   25,000 Ha :   25,000 การประมวลผลดว้ ย R โดยใช้ R cmdr ดงั นี้ หรือStatistics ▶ Means ▶ Single-sample t-test… เขียนฟงั กช์ นั t.test() ใน R ดงั น้ี > t.test(work$income,alternative=’two.sided’, mu=25000, conf.level = 0.95) ได้ผลลัพธ์ One Sample t – test data: work$income t = – 0.4564, df = 39, p-value = 0.6507 alternative hypothesis : true mean is not equal to 25000 95 percent confidence interval : 21333.28 27316.72 sample estimates : mean of x 24325 สรุปผลการทดสอบสมมติฐาน โดยการพจิ ารณาทีร่ ะดบั นยั สาํ คัญ 0.05 ซ่ึงน้อยกว่า p-value ดงั นนั้ จึงไม่มเี หตุผลเพยี งพอทจี่ ะปฏเิ สธ H0 :   25,000 แสดงว่ารายได้เฉลี่ย ของบัณฑติ ของมหาวิทยาลยั นไ้ี มแ่ ตกตา่ งจาก 25,000 บาทต่อเดือน ตวั อยา่ ง 6.11 บรษิ ทั วจิ ยั ตลาดแหง่ หนึ่ง ต้องการตรวจสอบระยะเวลาท่ีเก็บขอ้ มูลโดย การสมั ภาษณ์ทางโทรศัพท์ ถา้ จากข้อมลู ปีท่ีแลว้ พบว่าระยะเวลาที่ สัมภาษณ์ทางโทรศพั ท์ มีการแจกแจงปกติ มสี ว่ นเบ่ียงเบนมาตรฐาน 4 นาที ทางบริษทั ต้องการตรวจสอบระยะเวลาเฉลย่ี ท่ีสมั ภาษณ์ในปีน้ี เพื่อ นําผลการตรวจสอบมาวางนโยบายการคดิ คา่ เกบ็ รวบรวมข้อมลู ทาง โทรศพั ท์ จึงสุ่มการสัมภาษณ์ทางโทรศัพท์ของปีน้ี มา 35 ครั้ง ได้ข้อมลู ระยะเวลาท่สี มั ภาษณ์ทางโทรศัพท์ ดงั น้ี 17 11 12 23 20 23 15 16 23 22 18 23 25 14 12 12 20 18 12 19 11 11 20 21 11 18 14 13 13 19 16 10 22 18 23 ท่ีระดับนัยสําคัญ 0.05 จงทดสอบว่า ก. ระยะเวลาเฉล่ียทส่ี ัมภาษณ์ทางโทรศพั ท์เปน็ 15 นาทีหรอื ไม่ ข. ระยะเวลาเฉล่ยี ท่ีสมั ภาษณท์ างโทรศัพทน์ ้อยกว่า 15 นาที หรือไม่ ค. ระยะเวลาเฉลย่ี ทีส่ ัมภาษณท์ างโทรศัพท์มากกว่า 15 นาที หรือไม่ วิธที ํา 1. สร้างแฟ้มข้อมูล \"Exam_Test\" แล้วป้อนข้อมลู ท้ัง 35 ค่า > Exam_Test <‒ c(17, 11, 12, 23, 20, 23, 15, 16, 23, 22, 18, 23, 25, 14, 12, 12, 20, 18, 12, 19, 11, 11, 20, 21, 11, 18, 14, 13, 13, 19, 16, 10, 22, 18, 23) ผศ.ดร.บรรทม สรุ ะพร ภาควชิ าคณติ ศาสตร์ สถิติและคอมพิวเตอร์ คณะวทิ ยาศาสตร์ มหาวิทยาลัยอบุ ลราชธานี

การวิเคราะหค์ ่าสถติ ิ – 89 – 2. คาํ นวณค่าสถิติเชิงพรรณนา ด้วยคําสง่ั Statistics ▶ Summaries ▶Table of… 3. คาํ นวณค่าสถิตทิ ดสอบในแตล่ ะกรณี ด้วยคาํ สัง่ Statistics▶Means▶Single... เนื่องจากข้อมลู ที่ไดน้ ํามาเปน็ ตวั อย่างนั้น มคี ่าเฉลีย่ 17.00 สงู สดุ 25 และ คา่ ต่าํ สดุ 10 อาจจะทดสอบสมมติฐานวา่ คา่ เฉลี่ยมีค่าเท่ากับ 17 หรือไม่ โดยอาจใช้ command line ดังน้ี จากสมมตฐิ านท่ีตง้ั ไวด้ ังนี้ H0:  = 17 แยง้ กับ Ha:   17 ซง่ึ ได้ค่าสถติ ติ ามขา้ งบน ลองคาํ นวณ t  x  0  17 17  0 และมีค่า p (p-value) เท่ากบั 1 S / n 4.530939 / 35 หมายความว่ายอมรบั H0: 100% ผศ.ดร.บรรทม สรุ ะพร ภาควิชาคณติ ศาสตร์ สถิตแิ ละคอมพิวเตอร์ คณะวิทยาศาสตร์ มหาวทิ ยาลยั อบุ ลราชธานี

– 90 – การวเิ คราะหข์ ้อมลู ทางสถติ ิ โดยใช้โปรแกรม R เมอื่ ตั้งสมมตฐิ าน เป็น H0:  = 15 แย้งกับ Ha:   15 ได้คา่ สถติ ดิ งั น้ี เมอื่ ตง้ั สมมติฐาน เปน็ H0:  = 15 แยง้ กบั Ha:  < 15 ได้คา่ สถติ ิดังนี้ เมื่อตง้ั สมมตฐิ าน เป็น H0:  = 15 แยง้ กับ Ha:  > 15 ได้คา่ สถติ ิดังน้ี ผศ.ดร.บรรทม สรุ ะพร ภาควิชาคณติ ศาสตร์ สถติ แิ ละคอมพวิ เตอร์ คณะวทิ ยาศาสตร์ มหาวิทยาลัยอบุ ลราชธานี

การวเิ คราะห์คา่ สถิติ – 91 – กรณีไม่ทราบค่าความแปรปรวน (เก็บข้อมลู มามากพอ n  30) สําหรับสมมติฐาน H0 :   เราใชส้ ถติ ิทดสอบ คือ Z  x   0 0 S/ n สมมตฐิ าน ประเภทการทดสอบ และเคร่ืองมอื สมมติฐาน 2 ดา้ น ดา้ นซา้ ย ดา้ นขวา สถติ ิทดสอบ ใชส้ ถิตทิ ดสอบ Ho: = o Ho: = o Ho: = o ใช้ p – value Ha:  o Ha: <o Ha: >o Z  x   Z  x   Z  x   0 0 0 S/ n S/ n S/ n ปฏเิ สธ Ho ปฏิเสธ Ho ปฏเิ สธ Ho ถ้า Z  Z1 /2 ถา้ Z  Z1 ถา้ Z  Z1 หรอื Z  Z1/2 ปฏิเสธ Ho ถ้า ปฏิเสธ Ho ถา้ ปฏิเสธ Ho ถ้า p–value (lower– p–value (upper– p–value (2-tails) tails) น้อยกว่า  tails) นอ้ ยกว่า  น้อยกว่า  ตัวอย่าง 6.12 จากงานเทพ้นื อาคารหลงั หนึง่ มคี วามเช่ือว่าคอนกรตี มกี ําลงั อัดเฉลยี่ มาก กว่า 320 กโิ ลกรัม/ตารางเซนติเมตร นักทดลองตอ้ งการทดสอบจึงสุ่มวัดค่า ตัวอยา่ งมาจาํ นวน 40 ชน้ิ พบวา่ มคี า่ เฉลย่ี 391.6 และ s เทา่ กบั 18.82 จง ทดสอบความเช่อื ดังกลา่ วทีร่ ะดบั นัยสําคัญ 0.05 วธิ ีทํา สมมติฐาน H0 :   320  0 และ Ha :  > 320 , =0.05 บรเิ วณวกิ ฤต Z > Z0.05 = 1.645 ใช้สถิติทดสอบ คือ Z  x    391.6  320 = 24.062 0  / n 18.82 / 40 สรุปว่าปฏเิ สธ Ho: หรอื ยอมรับ Ha: > 320 จรงิ การทดสอบสมมตฐิ านของค่าสัดส่วน (Proportion) สําหรับประชากรท่แี ต่ละหน่วยซ่งึ สามารถจําแนกเปน็ 2 ลกั ษณะคือ ต้องการ (Success) และไมต่ ้องการ (Failure) และให้สัดส่วนของการเกิดลักษณะท่ี ตอ้ งการเปน็ พารามเิ ตอร์ เขียนแทนดว้ ย P ในการทดสอบสมมติฐานเก่ยี วกบั สัดส่วนของประชากร อาจจะใช้การทดสอบแบบทวินาม ซึ่งเปน็ การคํานวณคา่ ความน่าจะเปน็ ของตัวแปรส่มุ ทวินาม แต่ถ้าตัวอยา่ งมีขนาดใหญ่จะสามารถใช้การ แจกแจงปกติมาตรฐาน ถ้าหากมขี ้อสงสยั เก่ียวกับสัดสว่ นของประชากร จะทําการ สุม่ ตวั อย่างขนาด n หาค่าประมาณสดั ส่วน pˆ แล้วทําการทดสอบสมมตฐิ าน โดย ต้ังสมมตฐิ านดงั นี้ ผศ.ดร.บรรทม สรุ ะพร ภาควิชาคณติ ศาสตร์ สถิตแิ ละคอมพิวเตอร์ คณะวทิ ยาศาสตร์ มหาวิทยาลยั อบุ ลราชธานี

– 92 – การวิเคราะหข์ อ้ มูลทางสถิติ โดยใช้โปรแกรม R Ho: P = Po เม่อื Po เปน็ ค่าคงท่ี แย้งกบั สมมติฐานรอง คอื Ha: P  Po หรอื หรือHa: P < Po Ha: P > Po สถติ ทิ ่ใี ชใ้ นการทดสอบสมมตฐิ านคือ Z pˆ  P0 เมอื่ pˆ เปน็ สัดส่วนของลกั ษณะทตี่ อ้ งการทค่ี าํ นวณจาก Po (1 Po ) / n ตวั อย่างขนาด n ตามรายละเอียดในตาราง สําหรับสมมติฐาน Ho: P = Po เราใชส้ ถติ ทิ ดสอบ คือ Z  pˆ  P0 Po (1 Po ) / n สมมติฐาน 2 ดา้ น ประเภทการทดสอบ ดา้ นขวา และเครื่องมือ ด้านซา้ ย สมมตฐิ าน Ho: P = Po Ho: P = Po สถติ ทิ ดสอบ Ha: P  Po Ho: P = Po Ha P > Po Ha P < Po ใชส้ ถติ ิ Z  pˆ  P0 Z  pˆ  P0 ทดสอบ Z  pˆ  P0 Po (1 Po ) / n Po (1 Po ) / n ใช้ p–value Po (1 Po ) / n ปฏิเสธ Ho ปฏเิ สธ Ho ถ้า Z  Z1 /2 ปฏิเสธ Ho ถา้ Z  Z1 ถ้า Z  Z1 หรอื Z  Z1/2 ปฏิเสธ Ho ถ้า ปฏเิ สธ Ho ถา้ ปฏเิ สธ Ho ถ้า p–value (2-tails) น้อยกว่า  p–value (lower– p–value (upper– tails) น้อยกว่า  tails) น้อยกวา่  ตัวอยา่ ง 6.13 จากการสาํ รวจการทาํ งานของบัณฑิต ต้องการทดสอบวา่ สัดสว่ นของ บัณฑติ ชายที่มีรายไดส้ งู กวา่ 25,000 บาทตอ่ เดือน มคี า่ เทา่ กบั 0.2 หรือ ไม่ จงึ ต้งั สมมตฐิ านดงั น้ี Ho: P = 0.2 Ha: P  0.2 เตรยี มข้อมูลใหมเ่ ปน็ M, F สําหรับตวั แปรใหมโ่ ดยแบ่งเป็น 2 กลุ่ม จํานวน 11 และ 29 ตามลาํ ดบั (โดยจะนับ M เปน็ ลักษณะทตี่ ้องการ หรือนับ 0 เป็น ลักษณะทต่ี ้องการ ในกรณีข้อมูลเป็น 0, 1 แตต่ ้องแปลงเป็น Character ก่อน ประมวลผล) > newp <‒ subset(work, subset=sex ==\"M\" & income >=25000) > newp sex age educ sector income new newincome 5 M 23 M S 25000 1 26250 16 M 24 M E 25000 1 26250 21 M 32 D E 28000 1 29400 26 M 34 B C 25000 1 26250 28 M 36 B N 26000 1 27300 29 M 32 M N 30000 1 31500 35 M 25 M C 26000 1 27300 36 M 32 M C 25000 1 26250 37 M 36 M C 26000 1 27300 38 M 33 M C 25000 1 26250 39 M 38 M C 26000 1 27300 ผศ.ดร.บรรทม สรุ ะพร ภาควิชาคณิตศาสตร์ สถิติและคอมพิวเตอร์ คณะวทิ ยาศาสตร์ มหาวทิ ยาลยั อบุ ลราชธานี

การวเิ คราะหค์ ่าสถิติ – 93 – การประมวลผลด้วย R โดยใช้ Rcmdr ดงั น้ี Statistics ▶ Proportions ▶ Single-sample proportion test… ในกรณที ่ีใชก้ ารประมาณด้วยการแจกแจงปกติ จะใชฟ้ งั ก์ชัน prop.test( ) การทดสอบสมมติฐานของค่าความแปรปรวน (Variance) การทดสอบสมมตฐิ านค่าความแปรปรวนของประชากร เป็นการทดสอบความ ผันแปรของข้อมลู เชน่ การควบคุมคณุ ภาพสินค้า ต้องการผลิตสินคา้ ใหไ้ ดค้ ุณภาพสม่ํา- เสมอไม่เกินขอบเขตท่ีกําหนดหรอื มคี วามแปรปรวนระดบั ท่ีกาํ หนด การลงทนุ ในหลัก- ทรพั ย์ นอกจากตอ้ งประมาณอัตราผลตอบแทนในแต่ละไตรมาสจากการลงทนุ ในหลกั - ทรพั ย์แลว้ การทราบความผันแปรของผลตอบแทนของหลักทรัพย์น้ีจะช่วยใหท้ ราบ ความแน่นอนของการลงทนุ ด้วย ตวั สถติ ิทใ่ี ชใ้ นการทดสอบคา่ ความแปรปรวนของ ประชากร คือ 2  (n 1)S2 โดยมีองศาอิสระ (df) = n – 1 2 0 ตวั อยา่ ง 6.14 นักวิเคราะหก์ ารเงนิ สนใจศกึ ษาความไม่แน่นอนของการลงทุนในหลกั - ทรพั ย์ กลมุ่ ธนาคารพาณิชย์ โดยเก็บรวบรวมขอ้ มูลบางเดือนพบว่าผล อตั ราตอบแทนของหุน้ ใน 8 เดือน พบวา่ มีความแปรปรวน 6 บาท2 จง ทดสอบความแปรปรวนของการลงทนุ ของผลอตั ราตอบแทนมีคา่ มากกวา่ 5 บาท2 หรอื ไม่ท่รี ะดับนยั สําคัญ 0.05 ผศ.ดร.บรรทม สรุ ะพร ภาควชิ าคณติ ศาสตร์ สถิตแิ ละคอมพวิ เตอร์ คณะวิทยาศาสตร์ มหาวทิ ยาลัยอบุ ลราชธานี

– 94 – การวิเคราะหข์ ้อมลู ทางสถติ ิ โดยใช้โปรแกรม R วธิ ที า ทราบว่า S2=6,  2 = 5, n = 8 0 สมมตฐิ าน Ho: 2 2 5 และ Ha: 2 5 0  2  (n 1)S 2  (8 1)(6)  8.4 โดยท่ี 2 14.067 จงึ ยอมรบั Ho 2 5 0.05,7 0 ใช้คําสง่ั ของโปรแกรม R ได้ดังน้ี 6.2.2 การอนมุ านสาหรับสองประชากร (Two population) การอนมุ านเชงิ สถิตสิ าํ หรับ 2 ประชากร จะเปน็ การประมาณคา่ และการ ทดสอบสมมตฐิ านเชน่ เดมิ ซงึ่ คล้ายกบั การอนมุ านประชากรกลมุ่ เดยี ว ในการพิจาณา ค่าเฉลี่ยสองกล่มุ หรอื สองประชากรนน้ั ส่วนมากจะดผู ลต่างของค่าสองกลุ่ม ส่วนผลบวก นน้ั กพ็ ิจาณาทํานองเดยี วกันแต่จะไมข่ อกลา่ วถึงเพราะไม่ค่อยมใี ครสนใจ จะพจิ ารณา ผลตา่ งของคา่ เฉล่ยี ความแตกต่างระหว่างสัดสว่ นและอัตราส่วนค่าความแปรปรวนของ ทั้งสองประชากร การประมาณผลตา่ งค่าเฉล่ยี 2 ประชากรทอ่ี ิสระกัน สมมติส่มุ ตัวอย่างขนาด n1 และ n2 จากประชากรที่มีการแจกแจงที่มีคา่ เฉลย่ี และ ค่าความแปรปรวน 1, 12 และ 2 ,  2 ตามลาํ ดับ จะไดค้ ่าเฉลยี่ ของตัวอยา่ งกลุ่มที่ 1 2 เปน็ X1 และตัวอยา่ งกล่มุ ที่ 2 เป็น X2 โดยจะได้ว่า X1 และ X2 มีการแจกแจงแบบ ปกตทิ ่มี ีค่าเฉลีย่ 1 และ 2 มคี วามแปรปรวน 12 / n1 และ  2 / n2 และจะได้ว่า 2 X1  X2 มกี ารแจกแจงแบบปกติ ซ่งึ เปน็ ค่าประมาณสาํ หรบั 1  2 และมีคา่ ความ แปรปรวน  2  X 2 เป็น 12 / n1   2 / n2 และได้วา่ Z  ( X1  X 2 )  (1  2 ) มกี าร X1 2 12 2   2 n1 n2 แจกแจงแบบปกติมาตรฐาน ดังนั้นการประมาณค่าแบบชว่ งท่รี ะดบั (1–)100% สําหรบั 1  2 จะอย่ใู นรูป ( X1  X 2 )  Z1 /2 12   2  1  2  ( X1  X 2 )  Z1 /2 12   2 n1 2 2 n2 n1 n2 ผศ.ดร.บรรทม สรุ ะพร ภาควชิ าคณิตศาสตร์ สถิตแิ ละคอมพิวเตอร์ คณะวิทยาศาสตร์ มหาวิทยาลัยอบุ ลราชธานี


Like this book? You can publish your book online for free in a few minutes!
Create your own flipbook