การวเิ คราะห์การถดกอยพหุแบบลอจิสตกิ Multiple Logistic Regression Analysis รศ.ดร. ธวชั ชัย วรพงศธร4/2/2018 1
การวเิ คราะห์การถดถอยพหุแบบลอจิสตคิ Multiple Logistic Regression Analysis1. วตั ถุประสงค์ (Objectives)2. รูปแบบ (Model)3. ข้อตกลง (Assumptions)4. การประมาณค่าพารามเิ ตอร์ (Parameter Estimation)5. การเลอื กปัจจยั เสี่ยง (ตวั แปรต้น) (Risk Factors)6. การสร้าง Dummy Variable7. การนําเสนอและแปลผล (Presentation and Interpretation)4/2/2018 2
1. วตั ถุประสงค์ (Objectives) เป็ นสถติ ทิ ใ่ี ช้วเิ คราะห์ความสัมพนั ธ์ระหว่างตวั แปรตาม 1 ตวั กบั ตัว แปรต้น 1 ตวั หรือหลายตวั เป็ นสถิติที่ใช้ทํานายโอกาสที่จะเกิดหรือไม่เกิดเหตุการณ์ในเรื่องที่ ศึกษาโดยใช้ตัวแปรทํานาย (ตัวแปรต้น, ตัวแปรสาเหตุ) 1 ตัวหรือ หลายตัว ซ่ึงมีระดับการวัดได้หลายรูปแบบ (Dichotomous, ordinal, nominal, continuous) เป็ นสถติ ิทใ่ี ช้เปรียบเทยี บค่า Odds Ratio ระหว่างกลุ่มทส่ี ัมผสั หรือ เกี่ยวข้องกับปัจจัยสาเหตุ (ตัวแปรทํานาย) ว่ามีโอกาสท่ีจะเกิด เหตุการณ์ในเร่ืองทศ่ี ึกษา (เป็ นโรค/ไม่เป็ นโรค, ป่ วย/ไม่ป่ วย, ตดั สิน ใจไป/ไม่ไป) เป็ นกเี่ ท่าของกลุ่มทไ่ี ม่ได้สัมผัสกบั ปัจจัยสาเหตุ (หรือ สัมผสั กบั ปัจจยั สาเหตุน้อย หรือเกย่ี วข้องกบั ปัจจยั สาเหตุน้อย) 3 4/2/2018
2. รูปแบบ (Model)รูปแบบทางสถิติของการถดถอยพหุแบบลอจิสติคพฒั นามาจากฟังก์ชั่นลอจิสติค (Logistic Function) ซ่ึงเป็นฟังกช์ น่ั ท่ีแสดงโอกาสที่ จะเกิ ดและไม่ เกิ ดเหตุ การณ์ ในรู ปของสมการเอกโปเนนเช่ียล (Exponential) โดยแสดงในรูปกราฟและสมการดงั น้ี P4/2/2018 Z4
Example: Smoking (SM) and Coronary Heart Disease(CHD) Table 1 Case-control studySmoking CHD Controls OR 5.13Yes 23 13 Ref.No 10 29 4/2/2018Total 33 42 OR = (23 x 29)/(13 x 10) = 5.135
Logistic FunctionProbability P( y x) e0 xof disease 1.0 e0x 1 0.8 0.6 x 4/2/2018 0.4 0.2 0.0 6
Transformation P( y x) e0 x e0 x 1ln 1 P( y x) 0 x 0 = log odds of disease P( y x) in unexposed logit of P(y|x) = log odds ratio associated with being exposed 7 e = odds ratio 4/2/2018
Fitting equation to the dataln P β0 β1x1 β2x2 ... βixi 1- P Linear regression: Least squares Logistic regression: Maximum likelihood Likelihood function Estimates parameters 0 and Practically easier to work with log-likelihood8 4/2/2018
Probability Logistic Functionof disease Logit (P) x9 4/2/2018
3. ข้อตกลง (Assumptions)1. ตวั แปรตามเป็นตวั แปรประเภททวิ (Dichotomous หรือ Binary) มีการกระจายแบบไบโนเมียล (Binomial Distribution)2. ตวั แปรอิสระตอ้ งไม่มีความสมั พนั ธ์กนั เองสูง หรือไม่มีปัญหา เรื่อง Multicollinearity3. รูปแบบของความสมั พนั ธ์ระหวา่ งตวั แปรตน้ หรือตวั แปรอิสระกับตัวแปรตามรูปแบบของความสัมพันธ์เชิง เหตุ–ผล มีลกั ษณะของความสมั พนั ธ์ทางเดียว (unidirectional) และตวัแปรตน้ ท่ีเป็ นตวั แปรสาเหตุ ตอ้ งเกิดก่อน ตวั แปรตามท่ีเป็ นตวั แป10รผลเสมอ 4/2/2018
3. ข้อตกลง (Assumptions)4. ตวั แปรอิสระ (X1, X2,…., Xp)ในกลุ่มศึกษา (Case) และกลุ่ม ควบคุม (Control) หรืออา้ งอิง มีลกั ษณะการกระจายแบบใดแบบ หน่ึง ดงั ต่อไปน้ี 4.1 เป็นตวั แปรหลายตวั ที่มีการกระจายแบบปกติ ซ่ึงค่าเมตริกซ์ ของความแปรปรวนร่วมเท่ากนั (Multivariate Normally Distributed with Equal Covariance Metrics) หรือ 4.2 เป็ นตวั แปรประเภททวิและเป็ นอิสระต่อกนั (Multivariate Independent Dichotomous Variables) หรือ 11 4/2/2018
4. การประมาณค่าพารามเิ ตอร์ (Parameter Estimation)• ใชว้ ธิ ี Maximum Likelihood Estimationการประมาณค่า Likelihood Functionπ p qL n πn exp(y jd j) j1 di 1di j1 j j πn exp(y j) 1 j1 12 4/2/2018
4. การประมาณค่าพารามเิ ตอร์ (ต่อ) (Parameter Estimation)การประมาณค่า Likelihood Function expy jp j 1 1 expy j 1 exp-y j qj 1-pj 1 1 exp y j y xj p βi ij Combined risk factors i013 4/2/2018
4. การประมาณค่าพารามเิ ตอร์ (ต่อ) (Parameter Estimation)pj = โอกาสของคนท่ี j เส่ียงต่อการเป็นโรคในช่วงเวลาหน่ึง = โอกาสของคนที่ j ไม่เสี่ยงต่อการเป็นโรคในช่วงเวลาหน่ึงqjdj = การเป็นโรค (dj= 1) หรือไม่เป็นโรค (dj = 0)ของคนที่ j เมื่อ dj = 1 with probability pj และ dj = 0 with probability qjXi = ตวั แปรอิสระ หรือ ปัจจยั เสี่ยง Xi ... Xpn = จาํ นวนตวั อยา่ ง 14 4/2/2018
ไดค้ ่า log likelihood Lˆ Lˆ ไดค้ า่ พารามิเตอร์β0 Constantβi Logistic regression coefficient of XiOdds Ratio (OR) = expi(90 or 95 %) CI for OR = exp(i ± Z SE i) /215 4/2/2018
Maximum Likelihood Iterative computing Choice of an arbitrary value for the coefficients (usually 0) Computing of log-likelihood Variation of coefficients’ values Reiteration until maximisation Results Maximum Likelihood Estimates (MLE) for 0 and i Estimates of P(y) for a given value of x 16 4/2/2018
การประเมนิ Logistic Regression Modelพิจารณาจากค่า log likelihoodที่เปลี่ยนแปลงจากค่าติดลบ เขา้ใกล้ ค่า ศูนย์ มากข้ึน เม่ือใส่ตวั แปร X เขา้ ไปแต่ละตวัสามารถทาํ นายโอกาสของการเกิดโรคไดม้ ากข้ึนปเพกรตาิคะ่าวา่loเดgิมliคk่าelliihkoeloihdoodLˆ(pLˆrobมabีคi่าlอitยyรู่ oะfหdวiา่sงeaคse่า)- ถึง 0มีค่าอยรู่ ะหวา่ ง 0 ถึง 1 เม่ือ แปลงค่าเป็น Log Log 0 = - 1, และ Log 1 = 0 -1 0 17 4/2/2018
Likelihood Ratio Statistic Compares two nested modelsLog(odds) = 0 + 1x1 + 2x2 (model 1)Log(odds) = 0 + 1x1 + 2x2 + 3x3 (model 2) LR statistic-2 log (likelihood model 2 / likelihood model 1) =-2 log (likelihood model 2) minus -2log(likelihood model 1)LR statistic is a 2 with DF = number of extraparameters in model18 4/2/2018
5. ก(าRรiเsลkอื Fกaปcัจtoจrยั sเ)สเี่ยขง้าใ(นตสวั มแปการรต้น)1. Enter2. Forward: Conditional (Forward Stepwise)3. Forward: LR (Logistic Regression, Forward Stepwise)4. Forward: Wald (Forward Stepwise)5. Backward: Conditional (Backward Stepwise)6. Backward: LR (Logistic Regression, Backward Stepwise)7. Backward: Wald (Backward Stepwise) 19 4/2/2018
สถิติที่ใชท้ ดสอบการคดั เลือกตวั แปรเขา้ และออก จากสมการคดั เลือกตวั แปรเขา้ ใชส้ ถิติ Score test n X i Yi YScore test i1 n Y (1 - Y ) X i X i1คดั เลือกตวั แปรออก ใชส้ ถิติ Wald testW βi 2 SE βi20 4/2/2018
การสร้างตวั แปรหุ่น (Dummy Variable)ในกรณียท์ ่ีตวั แปรทาํ นาย (ตวั แปรตน้ ) มีระดบั การวดั เป็ นกลุ่ม (nominal scale) จะตอ้ งสร้างตวั แปรหุ่นโดยมีจาํ นวนตวั แปรหุ่น (ในโปรแกรม SPSSเรียกวา่ parameter coding) เท่ากบั จาํ นวนกลุ่ม – 1ตวั แปรหุ่นแต่ละตวั มีรหสั 0 กบั 1 และกลุ่มสุดทา้ ยจะมีรหสั 0 ท้งั หมด (ใชเ้ ป็นกลุ่มอา้ งอิง) แต่ถา้ ใช้กลุ่มแรกเป็นกลุ่มอา้ งอิง กลุ่มแรกจะมีรหสั 0ท้งั หมด ตวั อยา่ ง อายุ แบ่งเป็น 3 กลุ่ม ตอ้ งสร้างตวัแปรหุ่น เพ่มิ เป็น 2 ตวั โดยให้ รหสั 0 1 ดงั น้ี21 4/2/2018
การสร้างตวั แปรหุ่น (Dummy Variable) Age Parameter Coding (1) (2) ปีAge 20-29 10 ปีAge 30-39 01 ปีAge 40-49 00 (reference group) Parameter Coding (1) (2) Age 00 ปีAge 20-29 10 01 (reference group) 4/2/2018 ปีAge 30-39ปี22 Age 40-49
การสร้างตวั แปรหุ่น (Dummy Variable)สาํ หรับตวั แปรท่ีมี 2 กลุ่ม กจ็ ะมีตวั แปรหุ่น(parameter coding) ตวั เดียว โดยใหก้ ลุ่มอา้ งอิง(reference group) มีรหสั เป็ น 0 ดงั ตวั อยา่ งVariable Parameter Codingsex Female (1)SBP 96-140 0- mmHgsmoke none 0- 0-23 4/2/2018
7. การนําเสนอและแปลผล (Presentation and Interpretation)ตวั อย่าง การศึกษาปัจจัยเสี่ยงการเป็ นโรคหลอดเลอื ดหัวใจ: Logistic Regression1. ตวั แปรตาม คือการเกิดโรคหลอดเลือดหวั ใจ (Coronary Heart Disease: CHD) ซง่ึ มีระดบั การวดัเป็ น dichotomous คือเป็ นโรค (case) รหสั = 1 และไม่เป็ นโรค รหสั = 0 มีการกระจายแบบ Binarydistribution2. ตวั แปรอสิ ระ ท่ีเลอื กมาศกึ ษาในครัง้ นี ้มี 6 ปัจจยั คือ1) เพศ (sex) คือเพศชาย รหสั 1 และเพศหญิง รหสั 02) อายุ (age) คืออายขุ องกลมุ่ ตวั อยา่ ง มีหน่วยเป็ นปี โดยแบง่ เป็ น 3 กลมุ่ คือ 40–49 ปี มีรหสั เป็ น 0 00 และ 50–59 ปี มีรหสั เป็ น 0 1 0 และ 60 ปี ขนึ ้ ไป มีรหสั เป็ น 0 0 13) ความดนั โลหิตคา่ บน (Systolic blood pressure: SBP) คือระดบั ความดนั โลหิตคา่ บนของของกลมุ่ตวั อยา่ ง มีหน่วยเป็ น mmHg โดยแบง่ เป็ น 2 กลมุ่ คือ คา่ ตงั้ แต่ 96–140 mmHg มีรหสั เป็ น 0 และคา่ตงั ้ แต่ 141 – 28204 mmHg มีรหสั เป็ น 1 4/2/2018
7. การนําเสนอและแปลผล (Presentation and Interpretation)ตวั อย่าง การศึกษาปัจจัยเสี่ยงการเป็ นโรคหลอดเลอื ดหัวใจ: Logistic Regression2. ตวั แปรอสิ ระ ท่ีเลอื กมาศกึ ษาในครัง้ นี ้มี 6 ปัจจยั (ตอ่ )4) ระดบั ไขมนั ในเลือด (Cholesterol: CHOL) คือระดบั ไขมนั ในเลือดของกลมุ่ ตวั อย่าง มีหน่วยเป็ นmg/dl โดยแบง่ เป็ น 2 กลมุ่ คือ คา่ ตงั้ แต่ 126–200 mg/DL มีรหสั เป็ น 0 และคา่ ตงั้ แต่ 201–405 mg/dlมีรหสั เป็ น 15) นํา้ หนกั ร่างกาย (Body weight) ใช้ช่ือ Framingham Relative Weight (FRW) คือนํา้ หนกั ร่างกายของกลมุ่ ตวั อยา่ ง มีหน่วยเป็ นสดั สว่ นเทียบกบั คา่ เฉลยี่ ตามกลมุ่ อายุ เพศ และสว่ นสงู เดียวกนั (Ratio ofsubject body weight to the median weight for their sex–high group) นํามาจดั ระดบั การวดั ใหม่ให้เป็ นแบบ Dichotomous คือคา่ ตงั้ แต่ 52–100 หน่วย มีรหสั เป็ น 0 และคา่ ตงั้ แต่ 101–222 หน่วย มีรหสั เป็น 1 25 4/2/2018
7. การนําเสนอและแปลผล (Presentation and Interpretation)ตวั อย่าง การศึกษาปัจจยั เส่ียงการเป็ นโรคหลอดเลอื ดหัวใจ: Logistic Regression2. ตวั แปรอสิ ระ ท่ีเลอื กมาศกึ ษาในครัง้ นี ้มี 6 ปัจจยั (ตอ่ )6) การสบู บหุ ร่ี (Number of Cigarettes Smoked per Day: CIG) คือจํานวนบหุ ร่ีท่ีกลมุ่ ตวั อยา่ งสบู ในแตล่ ะวนั กลมุ่ ตวั อยา่ งที่ศกึ ษาครัง้ นีส้ บู บหุ รี่ตงั้ แต่ 0–60 มวนตอ่ วนั นํามาจดั ระดบั การวดั เป็ น Dicho-tomous คือ ไมส่ บู บหุ ร่ี มีรหสั เป็น 0 (หรือ 0 มวนตอ่ วนั ) และสบู บหุ รี่ 1-60 มวนตอ่ วนั มีรหสั เป็น 1 26 4/2/2018
7. การนําเสนอและแปลผล(Presentation and Interpretation)ตวั อย่าง การศึกษาปัจจยั เสี่ยงการเป็ นโรคหลอดเลอื ดหัวใจ:แบบจําลองลอจิสตกิ ในการศกึ ษานี ้มีตวั แปรอิสระ 6 ตวั ดงั นนั้ แบบจําลองในการศกึ ษา คือ Pxi = 1 / { 1 + exp [ 1 – (0 + 1X1 + 2X2 + 3X3 + 4X4 + 5X5 + 6X6) ] }หรือ In pX / qX = 0 + 1X1 + 2X2 + 3X3 + ……. + pXppX = โอกาสเป็ นโรคเม่ือสมั ผสั ปัจจยั เสี่ยง X1, X2, X3,…,Xp 4/2/2018qX = โอกาสไมเ่ ป็ นโรคเม่ือสมั ผสั ปัจจยั เส่ยี ง X1, X2, X3,…,Xp 27
7. การนําเสนอและแปลผล (Presentation and Interpretation)ตวั อย่าง การศึกษาปัจจยั เสี่ยงการเป็ นโรคหลอดเลอื ดหัวใจ:Px = โอกาสที่จะเกิดโรคหลอดเลอื ดหวั ใจเมื่อมีปัจจยั เสี่ยงท่ีเลอื กมาศกึ ษา (d = 1)di การเกิดโรคหลอดเลอื ดหวั ใจ (d = 0) หรือไมเ่ กิดโรคหลอดเลอื ดหวั ใจ =0 = คา่ คงท่ีi = คา่ สมั ประสทิ ธ์ิการถดถอยแบบ logistic ของตวั แปรแตล่ ะตวั X = เพศ (SEX) X1 = อายุ (AGE) X2 = ความดนั โลหิตคา่ บน (SBP) X3 = ระดบั ไขมนั ในเลอื ด (CHOL) X4 X5 = นํา้ หนกั ร่างกาย (FRW) 28 6 = การสบู บหุ ร่ี (CIG) 4/2/2018
7. การนําเสนอและแปลผล (Presentation and Interpretation)ตวั อย่าง การศึกษาปัจจยั เส่ียงการเป็ นโรคหลอดเลอื ดหัวใจ: Logistic Regressionสมมตฐิ าน H0 : ตวั แปรอิสระไม่สามารถทาํ นายโอกาสเส่ียงในการเกิดโรคหลอดเลือดหวั ใจ Ha : ตวั แปรอิสระสามารถทาํ นายโอกาสเสี่ยงในการเกิดโรคหลอดเลือดหวั ใจ หรือ H0 : 1 = 2 = 3 = ………..= k = 0 Ha : 1 2 3 ……….. k 0 29 4/2/2018
7. การนําเสนอและแปลผล (Presentation and Interpretation)ตวั อย่าง การวเิ คราะห์ปัจจัยเสี่ยงการเป็ นโรคหลอดเลอื ดหัวใจ: Logistic Regression1. ผลการวเิ คราะห์ Logistic Regression Ln pX/qX = 0 + 1x1 + 2x2 + …. + pxp = -0.880 + .514 SBP + .588 CIG + .538 AGE60+ 30 4/2/2018
7. การนําเสนอและแปลผล (Presentation and Interpretation)2. นาํ เสนอตาราง แสดง ปัจจยั เส่ียงแต่ละตวั (Xi), ค่า i และ Odds Ratio รวมท้งั ค่า 90 or 95 % CI ของ OR แต่ละตวั 31 4/2/2018
ปัจจยั เส่ียงการเป็ นโรคหลอดเลอื ดหัวใจ: Logistic Regression Factor n S.E. Wald p- OR 95 % CI valueSystolic BloodPressure96-140 mmHg 169 .792 .213 13.861 .000 2.208 1.455 –3.349141-280 mmHg 231Cigarette 211 .813 .219 13.792 .000 2.254 1.468 – 3.461Smoking 189NonsmokeSmokeAge45-49 ปี 114 .222 .273 .660 .416 1.248 0.731 – 2.13250-59 ปี 120 .538 .263 9.264 .002 2.236 1.332 – 3.75560 ปี + 1664/2/2018 32
7. การนําเสนอและแปลผล(Presentation and Interpretation)ตวั อย่าง การวเิ คราะห์ ปัจจยั เส่ียงการเป็ นโรคหลอดเลอื ดหัวใจ:Logistic Regressionการแปลผลค่า สาํ หรับ x มีค่าเป็นจาํ นวน (Quantitative Data)ถา้ x เพ่ิมข้ึน (หรือลดลง ตามเคร่ืองหมาย -) หน่ึงหน่วยของตวัแปร x น้นั โอกาสที่จะเกิดโรคเท่ากบั ค่า logit หน่วย โดยปรับอิทธิพลของตวั แปร x อื่น ๆ ใหค้ งที่หมดตวั อยา่ ง เช่น ค่า สาํ หรับตวั แปร SBP (วดั เป็น mm/Hg) เท่ากบั .792หมายความวา่ ตวั อยา่ งที่มีค่า SBP เพิ่มข้ึน 1 mm/Hg จะมีโอกาสเส่ียงเป็นโรคหลอดเลือดหวั ใจเท่ากบั .792 logit หน่วย โดยปรับอิทธิพลของตวัแปร x อ่ืน33ๆ ใหค้ งที่หมด 4/2/2018
7. การนําเสนอและแปลผล (Presentation and Interpretation)การแปลผลค่า สาํ หรับ x มีค่าเป็นกลุ่ม (Group or CategoryData) ถา้ x เปล่ียนกลุ่ม (จากรหสั 0 ไป 1) (หรือจากรหสั 1 ไป 0 :ลดลง ตามเคร่ืองหมาย ท่ีเป็น -) โอกาสท่ีจะเกิดโรคเท่ากบั ค่า logit หน่วย โดยปรับอิทธิพลของตวั แปร x อ่ืน ๆ ใหค้ งท่ีหมดจากตาราง เช่น ค่า สาํ หรับตวั แปร Age (2) เท่ากบั .538หมายความวา่ ผทู้ ี่อยใู่ นกลุ่มอายุ 45-49 ปี (รหสั 0) มีอายเุ พม่ิ ข้ึนไปอยใู่ นกลุ่มอายุ 60 ปี หรือมากกวา่ (รหสั 2) จะมีโอกาสเสี่ยงเป็นโรคหลอดเลือดหวั ใจ เท่ากบั .538 logit หน่วย โดยปรับอิทธิพลของตวัแปร x อ3ื่น4 ๆ ใหค้ งท่ีหมด 4/2/2018
7. การนําเสนอและแปลผล (Presentation and Interpretation)การแปลผลค่า สาํ หรับ x มีค่าเป็นกลุ่ม (Group or CategoryData) นิยมแปลผลจากค่า Odds Ratio (Exp(B)) ซ่ึงเขา้ ใจง่ายกวา่จากตาราง เช่น ค่า OR ของตวั แปล CIG เท่ากบั 2.254 หมายความวา่ผทู้ ี่สูบบุหรี่ (รหสั 1) จะมีโอกาสเสี่ยงเป็นโรคหลอดเลือดหวั ใจมากกวา่ ผทู้ ่ีไม่สูบบุหร่ี (รหสั 0) 2.254 เท่า โดยปรับอิทธิพลของตวัแปร x อื่น ๆ ใหค้ งท่ีหมด 35 4/2/2018
Reference Hosmer DW, Lemeshow S. Applied logistic regression. Wiley & Sons, New York, 19894/2/2018 36
Search
Read the Text Version
- 1 - 36
Pages: