כגון השוואות בין ממוצע ציוני הבדידות של זקנים בבית אבות לבין ממוצע הציונים של קשישים המתגוררים בקהילה. לסיכום חלק זה נאמר כי מקובל להבחין בארבע רמות מדידה: .1סולם שמי-קטגוריאלי – מבחין בין קטגוריות .2סולם סדר-אורדינלי -מבחין בין קטגוריות +שומר על סדר בין הקטגוריות .3סולם רווח-אינטרוואלי -מבחין בין קטגוריות +שומר על סדר בין הקטגוריות +שומר על רווחים שווים בין קטגוריות .4סולם מנה -מבחין בין קטגוריות +שומר על סדר בין הקטגוריות + שומר על רווחים שווים בין קטגוריות +שומר על יחס שווה (מנה של שני ערכים) בין הקטגוריות. תרגילים לפרק 6 פרק 7 תקפות ומהימנות מבוא בתהליך המדידה אנו משתמשים בכלי מדידה כדי לתת ערך למשתנה המשקף מושג. כך למשל ,אנו מעצבים שאלון שמטרתו לאמוד את הדימוי העצמי של משתתף במחקר ,בונים תצפית שמטרתה למדוד עד כמה פעוט בגן ילדים בוטח בגננת ,ואנו מנתחים תוכן של 'פוסטים' ברשת כדי למדוד נטייה למחשבות אובדניות .באופן אינטואיטיבי נכיר בכך שחלק מהכלים שנבנה יהיו טובים יותר מכלים אחרים .סביר למשל ,שנחשוב שתצפית על ילד בפעוטון תיתן לנו מידע טוב יותר אם תיעשה פעמים אחדות ולאורך זמן ,ואולי גם נחשוב שהתצפית תהייה אמינה יותר אם תיעשה על ידי צופה שקיבל מאתנו הדרכה .מטרתנו כמובן היא לבנות כלים שמאפשרים לנו תהליך מדידה אמין יותר ,וכן להעריך האם כלי קיים עומד בקריטריונים של טיב המדידה כדי לעזור לנו בהחלטה איזה כלי לאמץ למחקר ,וכן לסייע לנו להעריך איזה משקל אנו נותנים לממצאים של מחקר שנישען על כלי מסוים .מקובל להציע שורה של קריטריונים להערכת טיב המדידה ,ואנו נוהגים להתייחס לעמידה של הכלי בקריטריונים אלו כאל תכונות פסיכומטריות ( )psychometric propertiesשל הכלי .בפרקים הבאים נציג את הקריטריונים השונים לטיב המדידה שבאמצעותם אנו בוחנים כלי מדידה. ^^##361מהן מהימנות ותקפות בבחינה של כלי מדידה מקובל להציג שני קריטריוני-על :תוקף ()validity ומהימנות ( .)reliabilityכפי שנרחיב בהמשך ,בחינה של התוקף היא השאלה – עד כמה הכלי מודד את מה שהוא אמור למדוד .עד כמה השאלון למדידת דימוי עצמי אומנם מודד דימוי עצמי (כפי שהגדרנו אותו בהגדרה הנומינלית שלנו) ולא מושג אחר (כגון רצון להציג תמונה חיובית בפני אחרים); עד כמה התצפית על הפעוט בגן
הילדים אומנם נותנת לנו מידע על מידת הביטחון של הפעוט בגננת ואינה משקפת את החשש של הפעוט מהתנהגות מענישה של הגננת; ועד כמה תהליך מדידה של ניתוח תוכן של כתבות על גיוס חרדים אומנם מגלה לנו את עמדתו האמתית של הכותב ,ואינה משקפת מושג אחר כגון סגנון כתיבה ציני. שאלת המהימנות נוגעת למידת העקביות של המדידה ובמילים אחרות – עד כמה יהיו הערכים שנקבל זהים אם נשתמש באותו הכלי למדידת אותה התופעה בהזדמנויות שונות או על ידי מודדים שונים המשתמשים בכלי זה .לדוגמה ,כאשר צופים אחדים בוחנים פרסומת מסוימת בטלוויזיה ומדרגים את המידה שבה היא מתייחסת לנשים כאל חפצים ולא כאל בני אנוש ,אנו נצפה שכל הצופים יגיעו להערכה דומה ובהמשך נצפה שגם כאשר הם יצפו באותה פרסומת שוב ,יגיעו להערכה דומה .התופעה ,כפי שניתן לראות אותה בסרט הפרסומת ,לא השתנתה, ולכן אנו מצפים שהמדידה שלה לא תשתנה .מכיוון שבדרך כלל אנו מודדים את התופעה פעם אחת ,אנו רוצים שיהיה בידינו כלי שיבטיח לנו שהערך שקיבלנו הוא הערך שנקבל גם לאחר מדידה חוזרת באותו כלי או במדידה באמצעות מודד אחר. ניתן לתאר ארבעה מצבי קיצון ביחסים שבין מהימנות ותקפות .בצד אחד – כלי שהוא גם תקף וגם מהימן ,לכך אנו שואפים .בצד האחר ,כלי שאינו תקף ואינו מהימן – במקרה כזה אין לנו התלבטות ,זהו כלי שאינו ראוי .מצבי הביניים הם מורכבים יותר :יש כלים שהמהימנות שלהם אומנם גדולה ,אך הם אינם תקפים .יש להיזהר משימוש בכלים אלו .לעיתים קרובות אני פוגש בהצעות ובדוחות מחקר הצגות של כלים המצביעות על מהימנות גבוהה ,אך מתעלמות משאלת התוקף .חשוב לציין כי ללא בהירות באשר לתוקפו של כלי מדידה ,לעובדה שהכלי מהימן אין חשיבות רבה. יש מקרים אחרים אשר בהם על אף שהכלי הוא תקף ,המדידה שלו אינה מהימנה דייה ,כך שאין לנו בטחון מספק במידע שאנו מקבלים מהכלי .במקרים מעין אלו ,יש להשתדל להעלות את רמת המהימנות של הכלי כדי להביא אותו למצב האופטימלי של תוקף ומהימנות גבוהים .בהמשך נדון בדרכים לשפר תקפות ומהימנות. הספרות על תקפות ומהימנות ענפה למדי ,חלקה טכני ומורכב מכדי שנעמוד כאן על כל הסוגיות הכרוכות בנושא .עם זאת ננסה לעמוד על הסוגיות המרכזיות העומדות בפני כל חוקר המנסה לפתח את כלי המדידה הטובים ביותר האפשריים בנסיבות שבהם הוא חוקר או חוקר המבקש לאתר ולהשתמש בכלי מדידה העומדים בקריטריונים של איכות. תוקף של כלי המדידה הגדרה נומינלית כבסיס לבחינת התוקף סיפור חסידי מספר על רב גאון המבקר בעיירה נידחת .במהלך הסיור ראו הרב ופמלייתו שעל קירות רבים בעיירה מתנוסס חץ במרכז המטרה .המראה היה מדהים -כל החיצים היו במרכז המטרה ,אף לא החטאה אחת .הרב ביקש למצוא את הצלף המעולה .לאחר חיפוש קצר הובא לפני הרב נער צעיר .הרב ביקש לדעת כיצד רכש הנער מיומנות כזו שכל חיציו פוגעים במטרה .לאחר הפצרות רבות גילה הנער את הטכניקה שפיתח :הוא יורה את החץ ,ובמקום שבו פגע החץ שם הוא
מסמן את המטרה .אמר הרב' ,זה אולי טוב לסיפור חסידי ,אך לא למחקר -עליך להחליט על הגדרה נומינלית שמחייבת אותך ,ורק אחר כך תוכל לירות את החץ ולמדוד את מה שאתה רוצה '.עד היום לא ידוע מה עלה בגורלו של הנער ,אך הלקח, כמו בכל סיפור חסידי ברור :חיוני להגדיר בצורה ברורה את המושג שאותו אנו מתכוונים למדוד ,ורק כך נוכל לדעת אם אומנם מדדנו אותו באופן תקף. נתבונן לדוגמה בחוקרת המבקשת למדוד את רמת הבדידות של הקשיש .נניח שהיא מגדירה בדידות בדרך הבאה: בדידות היא מצב חברתי-רגשי המבטא חוסר שייכות ,ריחוק מאנשים או מסביבה אנושית ולרוב כמיהה עזה לקשרים עם אחרים ,עקב מחסור בתקשורת או במגע גופני .תחושת בדידות היא סובייקטיבית ואין הכרח שאדם יימצא לבד ,אלא שהוא חווה חיים ללא יחסים חברתיים מספקים או שהוא יימצא בחברה שבה הוא מרגיש שונה ומרוחק מאחרים. (וויקיפדיה https://he.wikipedia.org/wiki/%D7%91%D7%93%D7%99%D7% .)93%D7%95%D7%AA החוקרת בחרה למדוד את רמת הבדידות של קשיש על ידי הצגת השאלה: 'כמה פעמים בחודש האחרון יצאת ונפגשת עם חברים?' היא מתכוונת לתרגם את התשובה לערכים כגון 0פעמים ,פעם אחת ,פעמיים ,3 ,וכן הלאה ,ולהשתמש בתשובה כמדד לבדידות .במדד זה עלולה להיווצר בעיה מהותית :במקום למדוד בדידות המדד עלול למדוד עד כמה הקשיש מוגבל פיזית ולכן אינו יכול לצאת ולהיפגש עם חברים .שהרי ,לקשיש עשויה להיות רשת חברתית ענפה שאינה תלויה במפגש פיזי מחוץ לבית .כלומר ,המדד עלול להיות בעל תקפות נמוכה משום שאינו מודד את התופעה שהוא נועד למדוד. ניקח כדוגמה אחרת קרימינולוג קליני העובד במוסד לנערים עבריינים המבקש לדעת עד כמה הנערים בטיפולו הפנימו אמצעים נורמטיביים לפתרון קונפליקטים. לאיש המקצוע רשימה של דרכים לפתרון קונפליקטים ('להחזיר בחזרה'' ,להתעלם', 'לנסות להתפשר' וכדומה) .חלקם נורמטיביים ואחרים לא נורמטיביים .נניח שהקרימינולוג מפתח כלי המציג בפני הנערים קונפליקט והוא שואל את הנערים באלו אמצעים הם היו מתמודדים עם הקונפליקט .איש המקצוע רוצה לבסס את המשך עבודתו עם כל אחד מהנערים על סמך המידה שבה הנער בוחר אמצעים נורמטיביים. אולם ,ייתכן בהחלט שמה שהוא מודד לא בהכרח משקף את המידה שבה הנערים הפנימו את האמצעים הנורמטיביים ,אלא את מה שהנערים חושבים שאיש המקצוע רוצה לשמוע (למשל ,כדי שימליץ על שחרורם המוקדם) .ברור שהחוקר צריך לבחון תוצאות המתקבלות ממדידה זו במשנה זהירות. מדוגמאות אלו אפשר להבין מהו האתגר הגדול בקביעת תקפותם של כלי מדידה ,ובמילים אחרות – כיצד נוכל לדעת אם כלי המדידה בודק את המושג שאותו אנו רוצים לבדוק ,כשאין לנו גישה ישירה למושג מופשט זה .שהרי ,אם הייתה לנו גישה ישירה למה שהנערים חושבים על דרכים לפתרון קונפליקטים ,לא היינו צריכים לחפש דרך עקיפה למדוד עמדות אלו באמצעות שאלון .נציין כי בספרות המקצועית
יש ויכוחים ודיונים מעמיקים על הדרכים שבהם יש להגדיר תקפות ולמדוד אותה. במשך השנים חלו התפתחויות רבות בהגדרות של תקפות של כלי מדידה והדרכים לקבוע עד כמה מדידה היא תקפה .בחלקים הבאים נציג את ההיבטים השונים של תקפות כפי שמקובל להתייחס אליהם ברוב רובם של עבודות המחקר במדעי החברה. ככלל ,ניתן לזהות שתי אסטרטגיות לבחינת תקפותם של כלי מדידה .האחת אמפירית ,קרי בדיקת התקפות מתבססת על שימוש בכלי ובעקבות כך עיבוד הנתונים שהתקבלו מהשימוש בכלי ,כדי לבחון את התקפות של הכלי .הדרך האחרת נקראת לא אמפירית ,משום שאינה מבוססת על איסוף נתונים באמצעות הכלי ,אלא על בחינה ביקורתית של הכלי עוד לפני שנאספו נתונים כלשהם באמצעותו .נבחן תחילה את הבדיקה הלא אמפירית ,העומדת בבסיס הצעדים הראשונים בבדיקת תקפותו של כלי ,גם אם בהמשך אנו עוברים לבדיקה אמפירית. בדיקות תוקף שאינן אמפיריות בתחום זה נעשה שימוש תכוף בביטויים אחדים ובהם' :תוכן נראה'' ,על פניו' (' ,)face validityתוקף תוכן' ו'שיפוט (או תוקף) מומחים' .למרות ההבדלים בין הביטויים השונים ,הרעיונות דומים .בבדיקות אלו אנו מציבים את המושג ,כפי שאנו מבינים ומגדירים אותו ,אל מול המדידה שלו ,ובוחנים באיזו מידה כלי המדידה אכן משקף בצורה טובה את המושג ,עד כמה נראה שהמדד או הכלי המסוים אומנם מודד את מה שהוא אמור למדוד .נניח שאנו רוצים למדוד באמצעות שאלון לדיווח עצמי את המושג \"תפיסת יכולת עצמית כהורה\" ( )parental self efficacyשהוגדרה כחוויות סוביקטיביות וקוגניציות של הורה באשר ליכולת ההורית שלו ( & Coleman .)Karraker, 2003לאחר מכן נכין סדרה של שאלות שאנו חושבים שהיא משקפת את המושג .יש לבחון את בחירת השאלות וניסוחן מול גורמים אחרים .אנו יכולים להציג את השאלות לאנשי אקדמיה העוסקים בנושאים קרובים ולבדוק האם השאלות האלה אכן שייכות לעולם התוכן של תפיסת היכולת העצמית כהורה ,האם יש תחומים רלוונטיים בנושא זה שלא שאלנו ,האם יש שאלות שנראה שהן בוחנות מושגים אחרים (כגון דימוי עצמי גבוה) והאם יש שאלות שניתן להבין אותן ביותר מדרך אחת והן עלולות לפגוע בתוקף של הכלי שנבנה. הן הניתוח של תוקף נראה והן הניתוח של תוקף תוכן דומים במידה רבה לשאלת טיב ההגדרה התפעולית שבה דנו בפרק קודם (פרק :)5עד כמה השאלות, ההתנהגויות והתצפיות הנכללות במדידה אומנם מכסות את כלל עולם התוכן של המושג שאותו אנו רוצים למדוד (הן ממצות) ,ובאיזו מידה הן כוללות התייחסות להיבטים שאינם חלק מההגדרה המושגית שלנו (אינן בלבדיות) .כך לדוגמה ,פריט באחד הכלים שבוחן מושג זה הוא' :קשה לי לקבוע גבולות לילדי' .בעת פיתוח הכלי, נבחן פריט זה ,כמו פריטים אחרים ,כדי להעריך האם תשובה חיובית לשאלה זו אומנם מלמדת אותנו שההורה המשיב חסר בטחון ביכולת ההורית שלו (תופעה שאנו מבקשים לכלול במדידה שלנו) או אולי היא מצביעה על תפיסת הורות ליברלית
המעדיפה לא להציב גבולות לילדים (תופעה שהיא מחוץ למושג המעניין אותנו, תפיסת יכולת עצמית כהורה). ניתוח התוקף הנראה ותוקף התוכן נעשה לא רק ברמת הפריט הבודד ,אלא גם במבט על כל מרכיבי כלי המדידה (במקרה הנוכחי כל הפריטים בשאלון) ,וזאת כדי לוודא שהכלי אכן מקיף את כל ההיבטים הנכללים במושג שאותו אנו מבקשים למדוד .נניח שאנו מנסים למדוד התנהגות הורית בעזרת סדרת שאלות הנוגעות להיבטים שונים של התנהגות הורית פוגעת .שאלת תוקף התוכן היא ה אומנם אנו מקיפים בצורה סבירה את ההיבטים השונים של התנהגות הורית פוגעת או אולי אנו נותנים ייצוג יתר לחלק מהנושאים ויצוג חסר לאחרים .מדד להתנהגות הורית פוגעת המתייחס בעיקר לטיפול פיזי בילד ושואל שאלות רבות על פגיעה והתעללות ,אך אינו שואל על היבטים אחרים של הטיפול בילד ומתעלם מהיבטים של תמיכה ופגיעה רגשית וקידום או הזנחה של התפתחות קוגניטיבית ,מדד כזה ייתקל בביקורת על תוקף תוכן לקוי. לעיתים ,חוקרים מציינים שהם העבירו את הכלי שבנו לשיפוטם של מומחים הבקיאים בעולם התוכן המדובר .יש בכך עדות חזקה יותר לתוקף ,מאשר בחינה של הכלי על ידי מי שבנה את הכלי בעצמו (בעיקר אם הוא חוקר בתחילת דרכו) ובעזרת עמיתיו. במקרים אחרים ,השאלון מועבר לבחינה של מי שמיועדים לענות עליו ,כגון הורים בראשית דרכם ,והם נשאלים האם הכלי מחמיץ תחומי הורות הרלוונטיים להערכת מסוגלתם כהורים ,או אולי הוא מכיל תכנים שנראים להם לא רלוונטיים. בדוגמה של תפיסת יכולת הורית ,החוקרים שאלו את ההורים לאחר מילוי השאלון, עד כמה הוא אפשר להם לבטא את חוויותיהם כהורים ,ואם היו להם קשיים עם פריטים מסויימים .ההורים הגיבו על השאלון באופן כללי וגם התייחסו לפריטים מסוימים שנראו להם בלתי ברורים מספיק או שהתשובה עליהם בדרך מסוימת עלולה להציג אותם בצורה לא מדויקת ( & van Rijen, Gasanova, Boonstra, .)Huijding, 2014כמובן שהערות אלו צריכות להישקל בכובד ראש על ידי החוקר הרוצה ללמוד מההורים ,אך ייתכן שיש לחוקר שיקולים מקצועיים שאינם עולים בהכרח בקנה אחד עם עמדתם של ההורים .משום כך ,עשוי החוקר לכלול בכלי פריטים שההורים חשבו שאין להם מקום .בכל מקרה ,בין אם מדובר במומחים מהאקדמיה ובין אם מדובר בהורים המשתפים בחוויות האותנטיות שלהם ,עדיין מדובר בשיפוט המתבסס על ידע ,שיקול דעת וחוויות אישיות ,שחייבים לעמוד במבחן המציאות ,קרי מבחן הבדיקה האמפירית. ^^##365בדיקות תוקף על בסיס אמפירי כדי להשתכנע ולשכנע שכלי מדידה הוא אומנם תקף ,חשוב להעמידו במבחן הבדיקה האמפירית .נבהיר שהכוונה היא לבדיקה המבוססת על איסוף נתונים באמצעות הכלי וביצוע עיבודים סטטיסטיים הבוחנים את הממצאים שהתקבלו. נקדים ונאמר :גם הבדיקות האמפיריות המשכנעות ביותר הן נדבך נוסף לעדויות לכך שכלי מסוים הוא תקף ,אך אין בידינו דרך להבטיח שמדידה של מושג מופשט שאינו נגיש לנו ישירות ולכן אנו נאלצים למדוד אותו באמצעים עקיפים ,כגון עמדות או
מושגים מופשטים (בדידות או נכונות לחשיפה עצמית) ,הוא תקף באופן מוחלט .אנו מתקפים כלים ומציגים את העדויות לתוקף לבחינה ולבדיקה של הקהילה המדעית, האם הכלי תקף דיו למטרות שלהן נועד. נציג כעת דרכים שונות לבחינת התוקף של כלי מדידה. תוקף קריטריון ()Criterion validity זוהי בדיקה הנערכת לכלי מדידה במצבים שבהם יש לנו מדידה אחרת שאנו רואים אותה כמדידה תקפה של המושג שאנו מבקשים למדוד .מדידה זו היא הקריטריון שמולו אנו משווים את הערכים שקיבלנו במדידה באמצעות הכלי שאנו בודקים .קריטריון עשוי להיות ,למשל ,תוצאה שהתקבלה באמצעות כלי שכבר תוקף בעבר או תוצאה שהתקבלה ממדידה ישירה יותר של המושג שלנו .למשל ,אנו רוצים לבחון חרדה באמצעות שאלון למילוי עצמי .הקריטריון במקרה זה עשוי להיות מדידה של תגובות פיזיולוגיות של חרדה (כמו הזעה) ,שאנו מאמינים שהן מדידה ישירה יותר של החרדה .דוגמה אחרת היא תצפית על נהג המנסה ללכת בקו ישר עשרה צעדים רצופים ,כמדד להערכת המידה שבה הוא שתוי .במקרה כזה ,הקריטריון עשוי להיות השוואה של תצפית זו לערכים שמקבלים מבדיקת נשיפה של נהג או מבדיקת דם הבוחנת את רמת האלכוהול בדם ,בדיקות הנחשבות תקפות .ככל שהערכים המתקבלים מהתצפית על הנהג ההולך דומים לאלו המתקבלים מהמדידות הנחשבות תקפות ,יש בכך משום עדות התומכת בתקפות של כלי המדידה של תצפית על הליכה של עשרה צעדים רצופים. בבדיקות של תוקף קריטריון מקובל להבחין בין 'תוקף בו-זמני' ( concurrent )validityל'תוקף ניבוי' (.)predictive validity תוקף בו-זמני בבדיקה בו-זמנית של תוקף קריטריון אנו בוחנים האם המדידה המתבצעת באמצעות הכלי שאנו רוצים לבדוק מעלה ערכים דומים למדידה המתבצעת בו-זמנית עם מדידה אחרת ,שאנו סומכים על תקפותה .לעיתים ,מדובר על השוואה למדידה באמצעים ישירים שנראים לנו כמודדים את התופעה בצורה תקפה כגון השוואת התוצאות של מבחן ההליכה של עשרה צעדים בקו ישר לבדיקת דם לבחינת רמות אלכוהול ,והשוואה של התגובות על שאלון חרדה למדידת מוליכות חשמלית של העור וכדומה .במקרים מעין אלו קל לנו לראות שמדובר בקריטריון שאנו סומכים עליו ומוכנים להשוות אותו למה שמתקבל מהכלי שאנו רוצים לתקף .מקובל לקרוא למדידה שנערכת באמצעים שאנו סומכים עליהם (כגון בדיקת דם לזיהוי רמת האלכוהול) כ.gold standard - במקרים אחרים ,אנו משווים את התוצאות שהתקבלו מהכלי שאותו אנו בוחנים לתוצאות של כלי שמקובל לראות אותו ככלי שכבר תוקף וניתן להשתמש בו כקריטריון עבור כלים אחרים .לדוגמה ,חוקרים עיצבו כלי חדש שנועד להעריך סימפטומים של ילדים על הרצף האוטיסטי על בסיס דיווחי הוריהם ( Bangerter et .)al., 2017כחלק מבדיקת התוקף של הכלי ,החוקרים השוו את הערכים שקיבל כל משתתף בכלי זה עם הערכים שהתקבלו באמצעות סדרה של כלים מקובלים שתוקפו בעבר ונחשבים כקריטריון תקף לתופעה זו .חוקרים אחרים פיתחו כלי שמטרתו
למדוד את ה'אומץ הארגוני' של חברי ארגונים ( & Howard, Farr, Grandey, .)Gutworth, 2017חוקרים אלו ערכו סדרה של בדיקות תוקף (שעל חלקם נעמוד בהמשך) ,שאחת מהן הייתה בחינת הקשר בין הערכים שהתקבלו באמצעות הכלי שפיתחו לבין אלו שהתקבלו בשימוש בכלי אחר ,המודד היבטים דומים של התנהגות ארגונית (.)Norton & Weiss, 2009 מלבד השוואת הכלי לכלים האמורים למדוד את אותה התופעה ,יש חוקרים שבדיקת התוקף הבו-זמני שלהם מתבססת על תיאוריה ועל תוצאות של מחקרים בעבר באשר לקשרים הצפויים בין כלי תקף של התופעה לכלים תקפים שבחנו תופעות אחרות .למשל ,בעת תיקוף הכלי של יכולת הורית ,בחנו החוקרים את הקשר שבין של התוצאות שהתקבלו מהכלי עם תוצאות שהתקבלו מכלי הבוחן בעיות פסיכולוגיות (מדדי חרדה ,דכאון ועוינות מהכלי ,SCL-90-Rהנחשב כלי תקף, .)Derogatis, 1994זאת ,על סמך ממצאים קודמים שהצביעו על קשרים בין תפיסת יכולת כהורה ובין חרדה ,דכאון ועוינות של הורים .ובדוגמה אחרת ,בחנו חוקרים את התוקף הבו-זמני של כלי למדידת בדידות (,)UCLA Revised Loneliness Scale על ידי בחינת הקשרים שלו עם תוצאות שהתקבלו מכלים הבוחנים חוויות רגשיות הקשורות לבדידות הן תיאורטית והן אמפירית .באופן ספציפי ,הם בדקו את הקשרים הסטטיסטיים בין תשובות הנבדקים לשאלון הבדידות ובין תשובותיהם לשאלון דיכאון של בק ולשאלון חרדה של קוסטלו-קומרי .המתאמים החיוביים והמובהקים שהתקבלו היוו מבחינת החוקרים עדויות לתוקף בו-זמני ( Russell, Peplau, & Cutrona, .)1980 תוקף הניבוי תוקף הניבוי של כלי הוא המידה שבה הערכים שמקבלים לכלי זה מנבאים תופעה המתרחשת פרק זמן מאוחר יותר .לדוגמה ,חוקרים עיצבו כלי הבוחן מדד להערכת החומרה של התמכרות לסמים ( Thylstrup, Bloomfield, & Hesse, .)2018אחת הבדיקות שערכו לתוקף היא המידה שבה ציונים על מדד זה ניבאו תופעות רלוונטיות בהמשך כמו אשפוזים פסיכיאטריים ומעשים אובדניים .במחקרם נמצא שככל שהמדד הראה ציון גבוה יותר כך גברו הסיכויים שאדם זה יגיע לטיפול פסיכיאטרי בהמשך .כמו כן ,בבדיקה מי מהמשתתפים ביצע מאוחר יותר מעשה אובדני ,נמצא שבקרב מי שביצע מעשה אובדני קטלני ,היה שיעור גבוה בהרבה של מי שקיבלו ציון גבוה של חומרת ההתמכרות בהשוואה למי שקיבלו ציון נמוך. תוקף ניבוי הוא כמובן מבחן חשוב ,במיוחד לכלים שנועדו מעצם טבעם לנבא תופעות עתידיות ,כגון מבחן קבלה לאוניברסיטה שנועד לבחון את הסיכוי לסיים את הלימודים בהצלחה או מדד לפוטנציאל לפגיעה בילדים ,שמבחנו בשאלה האם מי שקיבל ציון גבוה יותר על כלי זה אומנם ייטה לפגוע בילדיו יותר ממי שקיבל ציון נמוך ( .)van der Put et al., 2017לדוגמה ,חוקרים עיצבו כלי שנועד למדוד את הפוטנציאל של מי שמעורב בפעילות עבריינית להיות קורבן בעתיד ( LSI-R:SV, .)McCafferty & Scherer, 2017במחקר שנערך בקרב 1,900אסירים ,נערכה להם הערכה באמצעות הכלי חודש לפני השיחרור ובהמשך לאחר ,9 ,3ו15 - חודשים אחרי השחרור מהכלא ,שבהם ציינו האם היו קורבנות לאלימות (איימו עליהם בנשק ,תקפו אותם פיזית על ידי דחיפות ,מכות ,בעיטות) .שאלת תוקף הניבוי
הייתה עד כמה הציונים בכלי ,עוד לפני השחרור היו במתאם עם הדיווחים על קורבנות לאחר השיחרור .הממצאים שהוצגו בצורה גרפית מראים שככל שהציון על כלי הניבוי לפניהשיחרור היה גבוה יותר ,כך גברו הסיכויים שהמשתתף ידווח שהיה קורבן לאלימות לאחר השיחרור. דוגמה רלוונטית אחרת היא בחינת תוקף הניבוי של כלי המודד דחק של טיפול בילד ( .)childcare stressהעניין במשתנה זה נובע במידה רבה ממחקרים שהצביעו על הקשר בין דחק אמהי לקראת הלידה ומיד לאחריה לבין תופעות קשות של דכאון לאחר לידה .משום כך ,אך טבעי הוא שחוקרים בקנדה שרצו לבדוק את התוקף של כלי לבחינת דחק הקשור לטיפול בילד בחרו לבדוק גם את תוקף הניבוי של כלי זה מול התפרצות של דחק לאחר לידה ( .)Dennis et al., in pressבמחקר זה הם בחנו באיזו מידה התוצאות שהתקבלו בכלי שלהם ארבעה שבועות לאחר הלידה ניבאו הופעתם של סימפטומים לדיכאון שמונה שבועות לאחר הלידה. ^^##366תוקף המושג התיאורטי – תוקף המבנה ( )Construct Validity יש גישות שונות להגדרה של תוקף המבנה .כך למשל ,גויון ( )Guin, 1980מציג את תיקוף המבנה כאחד ההיבטים של תוקף ,לצד תוקף התוכן ותוקף הקריטריון. לעומתו ,סטראוס וסמית ( )Strauss & Smith, 2009מציגים עמדה אחרת ,שבה לתוקף המבנה מעמד מיוחד ,המכיל בתוכו את כל המרכיבים האחרים של תוקף. מבלי להיכנס לדיון הפילוסופי והמתודולוגי בתחום זה ,נציין את החשיבות המיוחדת שיש לתיאוריה בתיקוף המושג .כלי יכול להיות בעל תוקף ניבוי לתופעה מסוימת, בלי להתעמק בשאלה מה התיאוריה המפורטת הקושרת בין הציון שהכלי נותן לבין המשתנה המנובא .לעומת זאת ,סטראוס וסמית ,מדגישים שבדיקת תוקף מבנה של כלי ,היא גם בחינת התיאוריה שעליה מבוסס הכלי (.)Strauss & Smith 2009 משום כך ,טוענים חוקרים אלו כי תהליך התיקוף הוא תהליך מתמשך ולא חד פעמי של בדיקת המבנה התיאורטי העומד מאחורי הכלי ,תוך הכנסת שינויים בתיאוריה, על סמך הממצאים האמפיריים. באופן כללי ,החשיבה העומדת בבסיס הניסיון לתקף את המבנה התיאורטי שאותו הכלי מנסה למדוד היא זו :אם הכלי שלנו אומנם מודד את המשתנה התיאורטי שהוא טוען שהוא מודד ,הרי בהתבסס על התיאוריה העומדת בבסיסו, היינו מצפים ש ...ולכן נבדוק את הציפייה הזו באופן אמפירי .יש בדיקות אמפיריות אחדות המשקפות דרך חשיבה זו. תוקף מתכנס ()Convergent validity שאלת התוקף המתכנס היא האם הערכים המתקבלים מכלי המדידה שעיצבנו ואנו בודקים את תקפותו דומים לערכים שהתקבלו ממדידה של מושגים אחרים, האמורים לפי התיאוריה שלנו להיות קרובים למושג שאנו מודדים .נבחן לדוגמה מחקרים שבחנו תקפות של כלים למדידת תחושת צורך בנקמה ( vengeance, .)Coelho et al., 2018כדי לבחון את התקפות המתכנסת של הכלים בתחום זה, מחקרים שונים בדקו את המתאם בין המדד של נקמה לבין מדדים של כעס (בציפייה למתאם חיובי) ומדדים של אמפתיה (בציפייה למתאם שלילי) .במחקר על תיקוף כלי לחשיבה יצירתית (Torrance Tests of Creative Thinking Figural Form -
( TTCTהחוקר ( )Yoon, 2017בחן את המתאמים בין הערכים שהתקבלו מהכלי שלו לאלו שהתקבלו ממדידות על משתנים כגון 'פתרון בעיות יצירתי בשאלות מדעיות' ( )Creative Problem Solving in Science -TCPSSומדד ל'אישיות יצירתית' ( ,)Creative Personality Scaleמשום שהתיאוריה מצביעה על הקשרים הצפויים בין חשיבה יצירתית לפתרון בעיות יצירתי ואישיות יצירתית. תוקף מבחין ()Discriminate validity במקביל ,אנו גם בודקים אם המדידה שלנו אינה מתואמת עם משתנים שעמם אינה אמורה ,על פי ההבנה התיאורטית שלנו ,להיות מתואמים .בכך אנו מבטיחים שהכלי שלנו מודד רק את מה שהוא אמור לבדוק ,ולא מושגים אחרים ,שאותם לא היה אמור לבדוק .בדוגמה של חשיבה יצירתית ,איננו רוצים שהכלי שיצרנו למדידת יצירתיות יהיה מתואם בצורה משמעותית עם אינטליגנציה; אנו רוצים שהכלי שלנו יהיו מובחן מאינטליגנציה מסורתית .ההיגיון של בחירת הכלים לבדיקה של תקפות מופיע בבירור בטיעון הבא: If the TTCT measures a general element of creativity, not a general element of achievement, creative attitude rather than science attitude will be strongly related to the TTCT, since these two tests measure the same latent construct using different methods ) P. 42). כלומר ,החוקר טוען שהכלי שלו בודק יצירתיות בפתרון בעיות מדעיות ולא הישגים או עמדות כלליות לגבי מדע .משום כך הוא מצפה שעמדות כלפי יצירתיות יהיו מתואמות עם הכלי (תוקף מתכנס) אך לא עמדות כלפי מדע (תוקף מבחין). בדוגמה אחרת ,בהולנד פותח כלי שנועד לבחון אינטליגנציה רגשית ( Rotterdam & Emotional Intelligence Scale -REIS, Pekaar, Bakker, van der Linden, .)Born, 2018כחלק מתהליך התיקוף של הכלי ,החוקרים בחנו תוקף מתכנס מול שני כלים הבודקים היבטים דומים של אינטליגנציה רגשית ,מתוך ציפייה שהם יהיו מתואמים באופן חיובי .תוקף מבחין נבדק על ידי השוואת הערכים של הכלי עם ערכים של בדיקת אינטליגנציה מסורתית (קוגניטיבית) ועם התוצאות של כלים למדידת מאפייני אישיות שונים .הציפייה הייתה שהכלי לא יהיה מתואם (או מתואם באופן חלש מאוד) עם כלים אלו. בדוגמה אחרת בדקו חוקרים את תקפותו של כלי חדש לבחינת תפיסת הסטיגמה שיש לאנשים באשר למעשה אובדנות ( SOSS-SF, Williamsa , Ceroa .), Gauthierb , & Wittea, 2018בין יתר הבדיקות שערכו החוקרים כדי להעריך את תוקפו של הכלי החדש הם השוו את הממצאים שקיבלו באמצעותו לממצאים שהתקבלו מתשובות המשתתפים בכלי אחר ,ארוך יותר ,שגם הוא נועד לבחון היבטים שונים של היחס למעשי אובדנות ( – Suicide Opinion Questionnaire .)SOC, Domino, 1996החוקרים בחנו את המתאמים בין ממדים שונים של שני הכלים והציגו השערות באשר לקשרים שבין הממדים .חלק מההשערות היו שיהיה קשר בין שני ממדים דומים (תוקף מתכנס( וחלק אחר היה שלא יהיה קשר בין הממד שנבחן באמצעות הכלי החדש וממד אחר ,שנבחן באמצעות הכלי הקודם ,שבו נעשה
שימוש לשם תיקוף .ואכן ,החוקרים הצביעו על מתאמים גבוהים יחסית בין ממדים שהייתה ציפייה שיהיו מתואמים ,ומתאמים נמוכים בין ממדים שהייתה ציפייה (המבוססת על תיאוריה) שלא יהיו מתואמים .לדוגמה ,המתאם בין הממד של סטיגמה בכלי SOSS-SFהיה חיובי וגבוה עם הממד של סטיגמה ב – ( SOCעדות לתוקף מתכנס) ,ומתואם במידה קטנה מאוד עם ממד הדיכאון בכלי ה – (SOCעדות לתוקף מבחין). חשוב להבהיר כי כאשר אנו בודקים תוקף מבחין ,הצפייה שלנו היא שהערכים שהכלי שלנו מניב לא יהיו במתאם עם הערכים שיניבו הכלים האחרים ,שלא אמורים לבחון תופעה דומה .נדגיש – הצפייה היא שלא יהיה מתאם ,ולא שיהיה מתאם שלילי .מתאם שלילי משמעותי לכלי אחר עשוי דווקא לחזק תוקף מתכנס ,זאת אם, על פי התיאוריה והציפיה המבוססת על ידע קודם ,הכלי האחר בודק תופעה דומה, אך הכיוון שלה הפוך .אם אנו רוצים לבדוק אמפתיה ,יש מקום לבדוק תוקף מתכנס מול כלי הבודק קהות רגשית ,והציפייה שלנו היא שהמתאם ביניהם יהיה שלילי. רצייה חברתית במחקרים רבים מקובל לבדוק תוקף מבחין גם באמצעות כלי הבוחן 'רצייה חברתית' ( .)social desirabilityכלומר ,החוקרים בוחנים אם הכלי שלהם מתואם עם כלי המודד סגנון אישיותי של נטייה להגיב בדרך המצופה חברתית .מתאם גבוה עלול להצביע על כך שהכלי שאנו בודקים את תקפותו אינו מודד רק את מה שהוא אמור למדוד ,אלא גם סגנון תגובה מ ַר ֶצה ,שלא היה בכוונתו למדוד .כלי מקובל מאוד למדידת רצייה חברתית נקרא Marlowe–Crowne Social Desirability Scale ) (MCSDויש לו גרסאות שונות באורכן .הכלי מכיל סדרה של פריטים מנוסחים כך שנשאלים אשר להם נטייה להציג את עצמם בדרך חברתית רצויה יותר ,יטו להסכים אתם גם אם לא סביר שהפריטים אכן נכונים .תשובות חיוביות לפריטים המציגים תכונות חיוביות אך כאלו שקשה לעמוד בהם בחיי היום יום כמו 'אני תמיד נחמד לאנשים ,גם לכאלה שמעצבנים מאוד' ,ותשובות שליליות לפריטים המציגים תכונות לא רצויות ,אך שכיחות כגון 'לפעמים זה מכעיס אותי כשאנשים מבקשים טובות ממני' ,הן עדויות לסגנון מ ַר ֶצה חברתית. במחקר שבחן תקפות של כלי המכיל סדרת שאלות שנועדו לזהות התנהגויות בריאות החוקרים בחנו אם הציונים שהתקבלו על ידי הכלי נמצאו במתאם עם ציוני הנשאלים על כלי הרצייה החברתית ( ,)Prathr et al., 2017זאת במטרה לבדוק תוקף מבחין .במקביל ,כדי לבחון תוקף בו-זמני הם בחנו את המתאמים באמצעות כלי הידוע כבעל תוקף גבוה והבוחן בעיות בריאות פיזיות ונפשיות ( – SF12 ,)Survey Health Form, Ware & Sherboune,1992מתוך צפייה לקשר חזק ביניהם .משנמצא קשר כזה ,בחנו החוקרים באמצעים סטטיסטיים האם מקורו של הקשר בנטייה לדיווח המושפע מרצייה חברתית .בניתוחים אלו נמצא שגם הכלי של התנהגויות בריאות וגם הכלי של בעיות בריאות היו מתואמים עם הנטייה לרצייה חברתית ,דבר המצביע על בעיות בתוקף ,גם של הכלי המקובל למדידת בעיות
בריאות ( .)SF-12עם זאת ,בניתוח הסטטיסטי נמצא שהקשר בין שני הכלים (התנהגויות בריאות ובעיות בריאות) אינו נובע מהנטייה לדיווח מ ַר ֶצה חברתית. תוקף הקבוצה הידועה ()known group validity גם בחינת 'תוקף הקבוצה הידועה' נחשב כחלק מבחינת תוקף המושג ( .)construct validityכשאנו בוחנים תוקף זה ,הרציונל שלנו הוא שאם אומנם הכלי שלנו בודק את מה שהוא אמור לבדוק ,הרי קבוצות שונות ,שאנו יודעים שהן אמורות לקבל ערכים שונים של המושג התיאורטי ,יקבלו אכן ערכים שונים במדידה שלנו. לדוגמה ,אם אנו מבקשים למדוד את המושג התיאורטי של דיכאון ,נצפה שכשנבחן קבוצות שידוע שהן שונות במשתנה זה של דיכאון ,כגון מי שנמצאים בטיפול עקב דיכאון לעומת מי שאינם מטופלים ,הרי הערכים שתקבל כל קבוצה יהיו שונים. במחקר שנערך בסינגפור כדי לתקף כלי למדידת רמות חרדה של חולות בסרטן השד ,בדקו החוקרים את תוקף הקבוצה הידועה על ידי השוואה בין קבוצות של חולות בשלבים שונים של מחלת הסרטן ,מתוך מחשבה שאם לכלי שלהם יש תוקף, הרי למי שנמצאות בקבוצת החולות בשלבים מתקדמים של סרטן יהיו ציונים גבוהים יותר במדד החרדה ( .)Xבאופן דומה ,בבדיקת התקפות של כלי שנועד למדוד רמות של 'אבל מטרים' ( )pre-death griefשל מי שמטפלים בזקנים עם דמנציה ,הושוו רמות האבל של בני משפחה המטפלים בקשישים עם דמנציה בשלבים מוקדמים לאלו המטפלים בזקן עם דמנציה בשלבים מתקדמים של המחלה .החוקרים מציינים שהם ערכו השוואה זו על סמך מחקרים אחרים שבחנו מטפלים בזקנים באמצעות כלים אחרים ומתוקפים ומצאו הבדלים בין הקבוצות (.)Liew et al., 2017 ניתוח גורמים מאשש ()Confirmatory Factor Analysis – CFA וניתוח גורמים מגשש ()Exploratory Factor Analysis - EFA אחת הדרכים לבחון את תוקף המבנה של מושגים היא באמצעות ניתוחים סטטיסטים מתוחכמים .במאמרים רבים הדנים בתקפות של מבנה המושג ( )Construct Validityמציגים החוקרים את הממצאים של ניתוח גורמים מאשש ( .)Confirmatory Factor Analysis – CFAכך למשל ,קבוצת חוקרים הולנדית שבחנה את התוקף של כלי להערכת פוסט טראומה לפי כללי ,)CAPS-5( DSM-5 מציגה ממצאים הנוגעים לתוקף המבנה של הכלי (.)Boeschoten et al., 2018 בפרק זה לא נציג את הפרטים הטכניים הנדרשים לביצוע ניתוחים אלו ,שכן הם אינם דרושים לקוראים אשר להם מיועד ספר זה .עם זאת ,מכיוון שלעיתים קרובות המאמרים המציגים את התקפות של כלי מחקר מדווחים על עיבודים אלו ,חשוב שתהיה לקוראים הבנה בסיסית של מושגים אלה .למבקשים ללמוד נושאים אלו לעומקם ,אנו ממליצים לעיין בספרים העוסקים בניתוח רב משתני (כגון Hair, )Black, Babin, Anderon, & Tatham, 2006וכן בספרות המלווה תוכנות לעיבוד נתונים כגון .)(Muthen & Muthen, 2012( Mplus מטרת ניתוח הגורמים המאשש היא לבחון את מידת ההתאמה בין המבנה התיאורטי שהכלי מתבסס עליו ובין הממצאים המתקבלים משימוש בכלי .ככל שיש התאמה רבה יותר בין הממצאים לבין מה שהיה מצופה על סמך התיאוריה העומדת בבסיס כלי המדידה ,אנו נראה בכך חיזוק לתוקף המבנה של המושג .לדוגמה,
אסטור ובנבנישתי ( Astor & Benbenishty, 2019; Benbenishty & Astor, )2005טוענים שיש סוגי קורבנות שונים לאלימות בבית הספר ,ואין מקום להתייחס אליהם ,כפי שנעשה רבות בספרות ,כגורם אחד הנקרא ( bullyingשתורגם לעברית כבריונות ,הטרדה והצקה) .במחקרם הם מציגים בפני המשתתפים שורה של פריטים המתארים קורבנות למעשי אלימות בבית הספר (כגון \"העליבו והשפילו אותי\"\" ,נתנו לי מכות חזקות\"\" ,החרימו אותי\") ,ושואלים עד כמה נפלו קורבן למעשה אלימות זה בחודש האחרון .לפי חוקרים אלו ,הפריטים המוצגים למשתתפים אמורים לייצג שישה ממדים שונים של אלימות :אלימות מילולית ,אלימות פיזית ,איומים ,אלימות חברתית עקיפה (כגון הפצת שמועות מעליבות) ,אלימות מינית ואלימות באמצעות השימוש ברשת (.)cyber כל אחד מהפריטים מהווה אחד האינדיקטורים לאחד הממדים .בשפה הטכנית, כל אחד מהפריטים שעליו עונה המשתתף ,הוא אינדיקטור נצפה ( )indicatorשל הממד התיאורטי הסמוי ,הנקרא גם הגורם הסמוי ( .)latent factorהמודל התיאורטי קובע אלו פריטים נצפים שייכים לאיזה ממד סמוי .למשל ,הפריטים \"תלמיד דחף אותי\" ו\"תלמיד נתן לי מכות קשות\" שייכים לפי התיאוריה של החוקרים לממד הסמוי של 'קורבנות לפגיעה פיזית' ,והפריטים \"תלמיד העיר לי הערות מיניות שלא רציתי בהם\" ו\"תלמיד ניסה לנשק אותי בניגוד לרצוני\" שייכים לממד התיאורטי של 'קורבנות לפגיעה מינית'. החוקרים ביקשו לבחון האם הכלי שלהם אומנם משקף את המבנה התיאורטי שעמד בבסיסו .לשם כך ,הם השתמשו בניתוח גורמים מאשש .מבלי להיכנס לפרטים טכניים ,ניתוח גורמים מאשש ( )Confirmatory Factor Analysis, CFAבוחן פרמטרים אחדים המסייעים לעמוד על מידת הדמיון בין המבנה התיאורטי של הכלי לממצאים בפועל ,וכן מסייעים להבחין היכן יש פערים בין המודל התיאורטי ובין השאלה כיצד הכלי מתנהג באופן אמפירי .בתהליך פיתוח הכלי ,סימנים אלו לאי התאמה עם המודל ,מחייבים את החוקרים לשפר את המודל התיאורטי ,את הכלי או את שניהם .כדי להדגים את הבחינה של תוקף המבנה באמצעות ניתוח גורמים מאשש אנו מביאים דוגמה פיקטיבית של ממצאים מבחינה של כלי המודד ארבעה סוגים של אלימות. איור 7.1 דוגמה לניתוח גורמים מאשש
הפרמטרים המרכזיים בניתוח גורמים מאשש הם: .1טיב ההתאמה הכוללת בין המודל התיאורטי ובין דפוס הממצאים בפועל .ככל שההתאמה טובה פחות ,יש מקום לבחון בצורה מעמיקה את הפרמטרים האחרים, כדי לראות היכן צריך לשפר .המדדים המקובלים לטיב ההתאמה הם: ,RMSEAנצפה שיהיה נמוך מ0.05 - • ,CFIנצפה שיהיה גבוה מ0.95 - • ,TLIנצפה שיהיה גבוה מ0.95 - • • ,SRMRנצפה שיהיה נמוך מ0.05 - .2עד כמה כל פריט קשור לגורם הסמוי שאליו הוא אמור להיות שייך .בשפה הטכנית אנו אומרים שניתן לבחון את הטעינות ( )factor loadingשל הפריט על הממד הסמוי ,ובכך לראות האם הוא שונה ממה שהיינו מצפים ,על בסיס המודל התיאורטי .כך למשל ,יכולים החוקרים לזהות פריטים בשאלון שהם בעלי טעינות נמוכה בגורם שאליו היו אמורים להיות שייכים על פי התיאוריה ,ולעיתים למצוא שהטעינות שלהם בגורם אחר ,שאליו לא היו אמורים להיות שייכים ,גבוהה .מקובל להציג ערכים הנעים בין 0ל .1-ככל שהערכים קרובים ל 1-המשמעות היא שהפריט הוא אכן אינדיקטור טוב לגורם הסמוי. בדוגמה ניתן לראות שהפריט \"תלמיד לעג לך או העליב אותך או השפיל אותך במילים\" טעון על הגורם הסמוי של אלימות מילולית נמוך יותר מהפריט \"תלמיד לעג לך בגלל צבע העור ,המוצא או הדת שלך\" .כמו כן ,ניתן לראות שהטעינות של הפריטים הקשורים לאלימות פיזית ומינית גבוהה מזו של הפריטים הקשורים
לאלימות מילולית ,והטעינות של הפריטים השייכים לאלימות חברתית נמוכים משל הפריטים האחרים. .3מבנה הקשרים בין הגורמים הסמויים בינם לבין עצמם .לעיתים המודל התיאורטי שלנו אינו מניח הנחות באשר לקשרים בין הגורמים הסמויים (למשל ,אינו מניח הנחה מוקדמת שקורבנות לפגיעה פיזית קשורה לקורבנות לפגיעה מינית). במקרים אלו ,לממצאים באשר למבנה הקשרים אין משמעות בבחינת הכלי .אולם, אם היו לנו הנחות תיאורטיות מוקדמות (למשל ,שקורבנות לפגיעה פיזית אינה קשורה לפגיעה מינית) ,יש למידע זה על טיב הקשרים בין הגורמים הסמויים חשיבות לבחינת תוקף המבנה של המושג .לא תמיד מידע זה מוצג בדיווחים על ניתוח גורמים מאשש .במקרים שבהם הוא מוצג הוא מופיע כערך המתאם לצד קשת המחברת בין שני גורמים סמויים .ערך זה נע בין - 1ל – .+1ככל שערכים אלה רחוקים מ ,0-הם מצביעים על כך שהגורמים הסמויים קשורים זה לה באופן חזק יותר .בדוגמה סימנו רק חלק מהקשרים ,ניתן לראות כי הקשר בין אלימות מילולית לאלימות פיזית הוא .25והקשר בין אלימות חברתית למינית הוא .50 במחקר שבחן את תוקף המבנה של הכלי לבחינת קורבנות בבית הספר, החוקרים מצאו התאמה טובה של הנתונים למודל התיאורטי של שישה ממדים של קורבנות ,הן ברמה הכוללת והן ברמה של כל אחד מהפריטים בכלי ( & Astor .)Benbenishty, 2019 בדוגמה אחרת בחנה קבוצת חוקרים ( & Duke, Wood, Bollin, Scullin, )LaBianca, 2018כלי שנועד להעריך את המידה שבה נחקרים תופסים את יחסיהם עם החוקר המשטרתי כחיוביים ( .)rapportהכלי היה מבוסס על מודל תיאורטי שבו המושג של 'יחסי חוקר נחקר' בנוי מחמישה ממדים תיאורטיים ('גורמים סמויים'Attentiveness, Trust/Respect, Expertise, -- ,)latent factors, , .Cultural Similarity, and Connected Flowכל אחד מממדים אלו נמדד באמצעות מספר פריטים בשאלון שהוצג למשתתפים .הם ערכו שני מחקרים ובשניהם התקבלה התאמה סטטיסטית טובה בין המודל התיאורטי שבבסיס הכלי ובין הממצאים שהתקבלו מהשימוש בכלי זה. תהליכי הפיתוח של כלי ותיקופו עשויים להיות ארוכים והדרגתיים .בדרך כלל חוקרים עורכים ניתוחי גורמים מאששים רק לאחר שהגיעו לשלב שבו הכלי נמצא בדרגת בשלות המאפשרת לבחון את המבנה שלו מול המודל התיאורטי .בשלבים מוקדמים יותר של התהליך ,נעזרים חוקרים רבים בניתוח גורמים מגשש ( .)Exploratory Factor Analysis – EFAמבלי להיכנס לפרטים טכניים (ראו Hair ,)et al., 2006ניתוח זה מסייע לחוקרים לראות אם הפריטים השונים שהם כוללים בכלי שלהם מתכנסים למספר גורמים סמויים והאם יש הגיון תיאורטי בטעינות של הפריטים השונים על הגורמים הסמויים .בתהליך מגשש זה יכולים החוקרים לזהות פריטים 'שאינם מתנהגים כצפוי' ,והם אינם טעונים על אף גורם ,טעונים על מספר גורמים או טעונים על גורם המכיל פריטים אחרים שאינם קשורים לפריט זה מבחינה תיאורטית .בניתוח מגשש זה החוקר יכול גם לבחון מספר פתרונות אלטרנטיביים, כמו למשל ,להגדיר מראש כמה גורמים יכיל הפתרון ,ומה יהיו הקשרים בין הגורמים שיימצאו (כגון עד כמה הגורמים לא יהיו קשורים זה לזה) .בעקבות הממצאים החוקר
עשוי להוריד או להוסיף פריטים או לשנות ניסוחים שהוא חושב שבעטיים פריט מסוים לא הובן נכון ולכך התקבלו ממצאים לא צפויים. נדגיש את ההבחנה בין ניתוחי גורמים מגששים הנערכים בתהליכים מוקדמים של פיתוח הכלי לבין ניתוחי גורמים מאששים הנעשים בשלבים מתקדמים של פיתוח הכלי ,כשיש מקום לבחון את תוקף המבנה בצורה פורמאלית .אין להציג ממצאים של ניתוח גורמים מגשש כהוכחה לתוקף מבנה של מושג .לשם כך ,יש להגדיר באופן ברור מודל תיאורטי ולבחון אותו באמצעות ניתוח גורמים מאשש .נזכור עם זאת ,כמו כן ,שגם בעקבות ניתוח גורם מאשש ,חוקרים עשויים להגיע למסקנה שיש עוד מקום להמשיך לפתח ולשפר את הכלי ,כדי להתקדם צעד נוסף בתהליך המתמשך של שיפור התוקף של הכלי. ^^##367הקשר בין תוקף המדידה למטרות השימוש בה עד כאן הצגנו את התוקף כתכונה של הכלי עצמו ,והבחנו בין כלים תקפים יותר ופחות .אולם ,אנשי מדע רבים הצביעו על כך ששאלת התוקף קשורה גם למטרה שלשמה אנו מודדים .ניקח לדוגמה שאלון הבוחן את התפיסה של תלמיד באשר ליכולת השליטה העצמית שלו .כדי לפשט את הדיון ,נניח שהצגנו שאלה אחת – האם לדעתך יש לך שליטה עצמית גבוהה או נמוכה בהשוואה לעמיתייך בכיתה. השאלה אם השאלון תקף ,תהייה קשורה לא רק לבדיקות התוקף השונות שהצגנו כאן ,אלא גם לשאלה כיצד נרצה לעשות בו שימוש .כך למשל ,אם אנו מבקשים למדוד את תפיסת השליטה העצמית של התלמיד כדי לבחון כיצד היא משתנה עם הזמן או כיצד התערבות של מורה משפיעה על שינויים בתפיסה העצמית ,מדד זה עשוי להיות תקף .אולם ,תארו לעצמכם שמטרת המדידה היא להשוות בין תלמידים בבתי ספר מסוימים לתלמידים בבתי ספר אחרים .במקרה כזה ,המדידה עלולה להיות בעייתית משום שלתלמידים בבתי ספר שונים עלולים להיות בסיסים שונים להשוואה .לדוגמה ,תלמידים בבתי ספר טובים שרואים מסביבם תלמידים רבים בעלי שליטה עצמית גבוהה עלולים להעריך את שליטתם העצמית כנמוכה יותר ,זאת בהשוואה לתלמידים בבתי ספר אחרים שבהם רמות השליטה העצמית של התלמידים האחרים נוטות להיות נמוכות ולכן ההערכה העצמית של התלמידים בהם עשויה להיות גבוהה יותר .במקרה כזה ,על אף שיש לנו מידע רב המצביע על כך שרמות השליטה העצמית הן גבוהות יותר בבתי הספר שבהם יש הישגים לימודיים גבוהים יותר ,הממצאים המתבססים על הכלי שבנינו יראו את התמונה ההפוכה .וכך, כלי שהיה תקף כדי לבחון שינויים בשליטה העצמית של תלמיד במהלך הלימודים יהיה פחות תקף כשנעשה בו שימוש להשוואה בין בתי ספר. ^^##368מהימנות של כלי המדידה מטרתו של כלי המדידה היא לתת ערך למשתנה .ההנחה העומדת בבסיס המדידה היא שיש תופעה אמיתית ותפקידו של כלי המדידה היא לשקף את התופעה .לכן, דרישת המהימנות ( )reliabilityהיא שבהינתן תופעה מסוימת ,כלי המדידה ייתן לה ערך זהה בכל פעם שמדידה זו נערכת .אם התופעה אינה משתנה ,אנו מצפים ודורשים שהכלי ייתן לה את אותו הערך ,באופן עקבי .אם עלינו למדוד את מידת הדחק של הורה המגלה שילדו הוא תלמיד מחונן ,הרי שאנו דורשים מהכלי שאם
מידת הדחק של ההורה בבוקר ובערב היא זהה ,הרי על המדידה להניב את אותו הערך ,בבוקר ובערב .אם התופעה היא אותה התופעה והכלי שאנו בוחרים בו נותן לנו ערכים שונים בכל מדידה משמע שהכלי הזה אינו מהימן .ככל שהערכים שונים יותר ,כך אנו רואים את המדידה כמהימנה פחות .כמובן ,לא נצפה שהכלי ייתן לנו את אותו הערך כשהתופעה משתנה .להיפך ,נצפה שייתן לנו ערכים שונים ,הרגישים לשינויים במצב התופעה .מצב הדחק של ההורה עשוי להשתנות לאחר שהוא מבין שיש לילד אפשרויות רבות להתפתחות והחשש שמא יהיה מוקצה על ידי בני גילו פוחת .נצפה שמדידה בשתי נקודות זמן שונות תניב ערכים שונים ולא נראה בכך עדות לאי מהימנות. ודוגמה אחרת ,אם אנו מודדים את רמת הבדידות של קשיש ודבר לא השתנה בבדידות זו ,אך בכל זאת אנו מקבלים כל פעם תוצאות שונות ,ברור לנו שיש לנו בעיה של אי עקביות .קשה להסתמך על כלי כזה משום שאיננו יודעים על איזו תוצאה להסתמך .אם המדידה הראשונה אומרת שהקשיש \"אינו בודד\" ,ומיד אחריה, בשימוש באותו כלי ולגבי אותו קשיש ,אנו מקבלים ציון \"בודד למדי\" ,מה נסיק לגבי הקשיש? איזה ערך ניתן לו על המשתנה? כמו כן ,נניח שאנו מודדים את רמת הבדידות של קשיש ומגלים שהוא \"בודד למדי\" .אנו הפעלנו התערבות שמטרתה להפחית את רמת הבדידות של קשיש זה .כעבור חודשיים אנו מודדים את רמת הבדידות של הקשיש ומגלים ש\"אינו בודד\" .השאלה המטרידה אותנו היא – האם חל שינוי אמיתי ברמת הבדידות של הקשיש או אולי זו תוצאה של חוסר עקביות של המדד שלנו ,והקשיש עצמו חש בדידות ברמה זהה ,לפני ואחרי ההתערבות. יש היבטים שונים לשאלת המהימנות והם קשורים לנושא הנמדד ולדרך המדידה .נציג מספר 'סוגים' של מהימנות ,אשר בבסיס כולם עומדת שאלת העקביות של המדידה – האם בהינתן תופעה זהה אנו מקבלים ערכים זהים בכל מדידה שאנו עורכים באמצעות הכלי שלנו. ^^##369מהימנות בין אישית ,מהימנות בין שופטים ( between person reliability, )interpersonal reliability שאלת המהימנות הבין אישית עולה כשהמדידה נערכת באמצעות מספר צופים או שופטים .דוגמה טובה לכך הם ראיונות הנערכים למועמדים לתפקידים שונים ,כגון קבלה לתוכנית יוקרתית לתואר שני בפסיכולוגיה קלינית .מכיוון שיש רצון רב לדייק בהערכה של הפוטנציאל של המועמד להצליח בלימודים ואולי אף בעבודה הטיפולית (מספר המועמדים רב ומספר המקומות מוגבל) ,מקובל שמספר מראיינים ,הנחשבים מומחים בתחומם ,מראיינים את המועמדים והמועמדות .בסיום הראיון מתבקשים המראיינים לציין את התרשמותם .לעיתים מדובר בהערכה גלובלית :מהי מידת ההתאמה לתוכנית ,ולעיתים בסדרת הערכות הבוחנת מאפיינים שונים של המועמדים :אמינות ,פתיחות ,יכולת התמודדות עם תסכול ,יכולת לאמפתיה ,רמת הידע המקצועי ועוד. השאלה הרלוונטית למהימנות במדידה זו של מאפייני המועמד היא עד כמה יש הסכמה בין המראיינים השונים .בהינתן שמדובר באותו המועמד ובאותו הראיון, הציפייה או הדרישה שלנו היא שכלי המדידה ייתן לנו את אותם הערכים .במקרה
הנוכחי ,אנו מצפים ואף דורשים שההערכות של המראיינים השונים תהיינה דומות או זהות .ככל שההערכות של המראיינים שונות זו מזו ,אנו מעריכים שהמהימנות של כלי מדידה זה היא נמוכה יותר. נבחין בין אי הסכמה בין השופטים בשאלה מה ראו בראיון ,שזו בעיית מהימנות, לבין אי הסכמה אחרת .אם קבוצה זו של מראיינים תישאל מה היא לדעתם התכונה החשובה ביותר להצלחה בתוכנית המוסמך ונקבל מגוון רב של תגובות ,אין בכך כדי להעיד על בעיית מהימנות .התופעה שנמדדת על ידי שאלה זו היא מה כל אחד חושב ומכיוון שכך ,מבחינת מהימנות אין ציפייה או דרישה להסכמה בין המראיינים השונים .האתגר שעמו נתמודד בבניית כלי מהימן להערכת מועמדים הוא כיצד ניתן להבטיח שמראיינים שונים יגיעו להערכת דומות על סמך הראיון .בהמשך נדון בדרכים שבהם ניתן לנקוט כדי להגביר את הסיכוי שהכלי שלנו יהיה בעל מהימנות בינאישית. ^^##370מהימנות תוך אישית ()within person reliability, intra-personal כאן השאלה העומדת על הפרק היא מהימנות בהתייחס למקור מדידה אחד (ולא הסכמה בין מספר מודדים כמו במהימנות בין אישית) .יש מקום להבחין בין שני מצבים אשר להם דרישות שונות .ראשית ,נתאר מצב שבו אנו מבקשים לנתח טקסט ,כגון כתבה על הפגנות של חרדים נגד גיוס לצה\"ל .נניח שאנו מבקשים למדוד משתנה של 'הטיה ערכית-ציונית' ,שתוגדר באופן מושגי כ'הצגת עובדות בדרך מגמתית המשקפת עמדה שמצדיקה גיוס של כל האזרחים היהודים' .כלי המדידה יהיה הערכה המתבססת על ניתוח תוכן המתבצע על ידי צופה .שאלת המהימנות התוך-אישית היא – האם כשהצופה ייבחן כתבה מסוימת מספר פעמים הוא ייתן לה בכל פעם ערך דומה על המשתנה של ההטיה .ככל שיהיה פער בין הערכות שנעשו בפעמים שונות ,בהתבסס על אותה הכתבה ,נאמר שהמהימנות התוך אישית של הכלי נמוכה יותר .דוגמה דומה היא של בדיקת בחינות של תלמידים .השאלה הנשאלת כאן היא האם בודק העבודה ייתן ציון זהה לעבודה גם כשהוא בודק אותה פעם נוספת (מתוך הנחה שעבר פרק זמן שגרם לו לשכוח את הבדיקה הקודמת). סוגיית המהימנות התוך-אישית עולה גם בצורה אחרת .נניח שהמשתנה שבו אנו מעוניינים נמדד על ידי דיווח עצמי של נבדק .למשל ,אנו מבקשים למדוד את המשתנה 'שביעות רצון מחיי החברה' על ידי כך שאנו שואלים את המשתתף על שביעות רצונו מחיי החברה שלו .השאלה שעולה כאן היא אם אותו משתתף יעריך או ימדוד את שביעות רצונו בצורה זהה בכל פעם שיתבקש למדוד את שביעות הרצון. חשוב להדגיש ,שאלה זו של מהימנות תוך אישית והשוואה בין ההערכות שונות של שביעות הרצון מחיי החברה היא רלוונטית רק אם מדובר במצב שבו אנו מניחים ומאמינים ששביעות הרצון לא השתנתה .רק אז מצופה ונדרש שהערך שנקבל יהיה זהה בשתי ההזדמנויות שבהן הוא נבדק .כמובן שאם אנו שואלים על שביעות רצון מחיים חברתיים בנקודת זמן אחת ובהמשך שואלים שאלה זהה ,אך המצב בתחום זה השתנה (למשל ,אחרי גירושין) ,אין אנו מצפים לקבל אותה התשובה .למעשה, אם שביעות הרצון מחיי החברה השתנתה והמשתתף עונה את אותה התשובה ,סימן
שמשהו לקוי במדידה שלנו (נעמוד על סוג קושי זה בהמשך) .נסכם ונאמר ,בעיה במהימנות בין אישית קיימת רק כאשר אנו מקבלים תשובות לא זהות בשתי הזדמנויות שונות כשהמצב שלגביו מתייחסת המדידה דומה או זהה. מהימנות המבחן-מבחן החוזר ()test-retest reliability שאלת המהימנות התוך-אישית מתורגמת במקרים רבים לשאלת מהימנות המבחן-מבחן החוזר ( .)test-retest reliabilityנניח שאנו מבקשים לפתח כלי למדידת חרדת בחינות המבוסס על שאלון הניתן לנבדק למילוי עצמי .השאלה שאנו שואלים בהקשר הנוכחי היא האם כאשר אותו המשתתף ,יענה על השאלון פעמים מספר ,נקבל את אותו הערך למשתנה של חרדת בחינות .ככל שהמתאם בין הערכים במדידות השונות נמוך יותר ,כך נעריך שמהימנות המבחן החוזר נמוכה יותר .שוב, ההנחה שלנו היא שחרדת הבחינות של המשתתף לא השתנתה וכל הבדל בתגובה לשאלון משקף חוסר מהימנות ולא שינויים אמיתיים בתופעה. חוקרים המבקשים לבחון מהימנות מבחן-מבחן חוזר ורוצים לתת לאותו המשתתף את השאלון פעמיים מנסים לאזן בין החשש שאם ניתן את השאלון השני סמוך לשאלון הראשון ,המשתתף יזכור את תגובותיו לשאלון הקודם (ובמקום למדוד חרדת בחינות נבדוק טיב זיכרון) ,לחשש שאם ניתן את השאלון השני זמן רב אחרי השאלון הראשון ,יחולו שינויים אמיתיים בחרדת הבחינות .במקרה כזה לא נדע אם ההבדלים בין שני הערכים נובעים מחוסר מהימנות או עקב השינויים שחלו בחרדת הבחינות .ההחלטות על פרק הזמן מושפעות במידה רבה מהמידע שיש לנו על מידת השינוי שחלה בתופעה עם הזמן .כך למשל ,סביר שנצפה ששני מבחני IQהנערכים לאדם בוגר בפרק זמן של שנה לא יציגו הבדלים משמעותיים ואם יהיו הבדלים מקורם יהיה חוסר מהימנות של המבחן .לעומת זאת ,אם נרצה לשאול על מצבים רגשיים ,סביר שהם משתנים בפרקי זמן קצרים מאוד ואין טעם לבחון מהימנות באמצעות מבחן-מבחן חוזר כעבור פרק זמן ארוך. דרכים למדידת רמת המהימנות הבין-אישית והתוך-אישית ישנן דרכים לבטא באופן פורמאלי את מידת ההסכמה בין שופטים (מהימנות בין -אישית) וההסכמה של אותו השופט בהערכות שניתנו בשתי הזדמנויות שונות (מהימנות תוך-אישית) .בחלק הבא נדגים באמצעות המהימנות הבין-אישית ,אך הנאמר יהיה תקף גם לגבי מהימנות תוך- אישית .נציין שחלק מהביטויים שנשתמש בהם (כגון מובהקות ומתאם, יוסברו בפירוט בפרק 14על הסקה ובדיקת השערות ובחלק של הספר העוסק בניתוח סטטיסטי). לעתים קרובות מקובל לבטא את רמת המהימנות הבינאישית כ'שיעור (אחוז) ההסכמות בין שופטים .לדוגמה ,אם זוג שופטים העריכו 100 מועמדים ,והסכימו בהערכותיהם על 85מועמדים ,אנו נאמר שרמת המהימנות בין שופטים ( )inter rater agreementהיא .85%לעתים קרובות נוהגים חוקרים לאמן שופטים להעריך תופעה מסוימת ומגיעים למסקנה שבין השופטים יש רמת מהימנות סבירה כאשר הם מגיעים לשיעורי הסכמה גבוהים (בדרך כלל קרוב ל ,90% -אך לעתים מסתפקים
בשיעורי הסכמה נמוכים יותר) .לדוגמה ,כדי לבדוק את המידה שבה שכונות מגורים 'מזמינות הולכי רגל' (,)neighborhood walkability חוקרים רצו למדוד את הנוכחות של אמצעים המקלים על הולכי הרגל (ספסלים ,מדרכות נוחות ,וסימנים חיצוניים שהסביבה בטוחה ואין סימני הזנחה בולטים) .הם הציגו בפני צופים (\"שופטים\") תמונות שהתקבלו ממצלמות הרחוב של גוגל ( ,)Google Street Viewוביקשו להעריך את השכונות השונות על ידי כך שציינו עבור כל שכונה האם כל אחד מהאמצעים היה נוכח בשכונה ( Steinmetz-Wood, Velauthapillai, .)O’Brien & Ross, 2019המחברים מדווחים שברוב רובם של הפריטים ההסכמה הייתה של 80%או יותר .לדעתם ,המדובר במהימנות בינאישית סבירה המאפשר להישען על תצפיות של שופטים בתמונות ממצלמות הרחוב. מדד מקובל אחר נקרא קאפה של כהן ( .)Cohen's Kappaהיתרון של מדד זה הוא שהוא מביא בחשבון את העובדה שתתכן הסכמה בין שני שופטים גם באופן מקרי ,ולכן לא כל ההסכמות משקפות מהימנות בינאישית .בנוסחה לחישוב המדד 'מקוזזת' מידת ההסכמה שעשויה להיות מקרית ,וכך מתקבל מדד המשקף באופן נאמן יותר את מידת ההסכמה (שאינה נובעת מהסכמות מקריות) .נוסיף שהמדד המקורי נועד לבחון הסכמה בין שני שופטים (או לשופט אחד שהעריך את אותם המקרים פעמיים) ,ויש גם פיתוחים לשלושה או יותר שופטים (.)Fleiss kappa המדד קאפה של כהן נע בין ( 1+הסכמה מלאה) ל – ( 1חוסר הסכמה מלא) .כל ערך מתחת לאפס מציין שההסכמה שאליה הגיעו השופטים הייתה פחותה מזו שניתן היה לצפות באופן מקרי .למדד של כהן יש מבחן מובהקות הבוחן האם הערך שהתקבל הוא ערך שייתכן שהתקבל באופן מקרי ואינו משקף הסכמה משמעותית, או שהוא משקף הסכמה אמיתית ,לא מקרית (ראו פרק .)14 לא הכל מסכימים על הפירוש המדויק של הערכים המתקבלים במדד זה אך מקובל (בעקבות ) Landis & Koch, 1977לומר ש: = 0.20 – 0.01הסכמה קטנה ()slight agreement = 0.40 – 0.21הסכמה מסוימת ()fair agreement = 0.60 – 0.41הסכמה מתונה ( )moderate agreement = 0.80 – 0.61הסכמה משמעותית ()substantial agreement = 1.00 – 0.81הסכמה מושלמת או כמעט מושלמת ( almost perfect or .)perfect עד עתה הצגנו מדידה של מהימנות תוך-אישית ובין-אישית במקרים שבהם ההערכה היא על משתנה דיכוטומי' -קיים-לא קיים' .לעתים אנו צריכים להעריך את רמת המהימנות שהמדידה היא על סולם מפורט יותר כגון – מידת ההתאמה של מועמד לתפקיד על הרצף שבין = 1כלל לא מתאים ל = 10 -מועמד החלומות. במקרים מעין אלו יש טעם לבדוק הסכמה בין הערכים שהתקבלו משני שופטים (או מאותו שופט בשתי הזדמנויות .במקרים כאלו מקובל לחשב מתאם (ראו את החלק
בספר העוסק בעיבוד נתונים) בין שתי הסדרות של ההערכות .וכך ,גם אם אין הסכמה מלאה על כל אחד מהערכים בסדרה ,עשויה להיות הסכמה על אילו מועמדים מתאימים יותר ומתאימים פחות (כלומר ,מועמד קיבל הערכות נמוכות ,אם כי אולי לא זהות ,משני מעריכים ,או מאותו המעריך בשתי הזדמנויות ,ומועמדים אחרים קיבלו משני המעריכים הערכות גבוהות ,גם אם לא זהות). מהימנות בין נוסחים ()Parallel Forms לעיתים אנו רוצים לעשות שימוש בכלי מדידה יותר מפעם אחת ,אך אנו מעדיפים שלא לחזור בדיוק על אותו הכלי .לדוגמה ,אנו מבקשים לבחון עמדות לפני התערבות שנועדה לשנות עמדות אלו ובהמשך לבחון עמדות אלו לאחר ההתערבות, כדי לבדוק אם חל בהן שינוי .במצב מעין זה אנו מעדיפים לא להשתמש באותו הכלי לבדיקת עמדות ,כדי למנוע מצב שבו השימוש בכלי בפעם הראשונה עלול להשפיע על התגובה לכלי בפעם השנייה (למשל ,עקב ניסיון של משתתף לחזור על תגובותיו לכלי בפעם הראשונה) .במקרים מעין אלו אנו מבקשים ליצור שני נוסחים שונים של הכלי שיניבו תוצאות זהות. אחת הדרכים לבנות שני נוסחים מקבילים היא לייצר כלי שיש בו מספר פריטים כפול ממה שאנו זקוקים ,ולחלק אותו לשני חלקים המניבים ערכים דומים .זאת נוכל לבדוק כשנעשה שימוש בשני הכלים בקרב אותם משתתפים ונבחן אם נקבל ערכים זהים. ^^##371מהימנות כעקביות פנימית בין פריטים ()internal consistency reliability דרך אפשרית למצות ככל האפשר תופעה היא להשתמש במספר פריטים שכולם מכוונים למדידת אותה התופעה .הכוונה היא לבחור פריטים (כגון סדרת שאלות בשאלון) ,שכל אחד מהם בודק את התופעה אך אינו מצליח להקיף את כולה; השימוש בסדרה של פריטים כאלו מגדיל את יכולת המיצוי של הכלי .למשל ,כשאנו רוצים לבחון דימוי עצמי ,אנו יכולים להשתמש בשאלון לדיווח עצמי של רוזנברג ( )Rosenberg, 1965ולהציג לנבדק עשר שאלות שונות ,שכל אחת מהן מתייחסת לדימוי עצמי (כגון \"אני מרגיש שיש לי מספר תכונות חיוביות\"\" ,אני מרגיש שאין לי הרבה להתגאות בו\"\" ,הלוואי שהייתה לי יותר הערכה כלפי עצמי\") .כל אחת מהשאלות מתייחסת להיבט צר יחסית של המושג דימוי עצמי ,אך ביחד כלל השאלות השונות אמורות למצות בצורה מלאה יותר את המושג .שאלת המהימנות העולה כאן היא האם הפריטים שאמורים למדוד את אותה התופעה אומנם שומרים על עקביות ביניהם .ככל שהתשובות על הפריטים השונים דומות יותר זו לזו ,אנו אומרים שהמהימנות הפנימית גבוהה יותר. בדוגמה של שאלון לדימוי עצמי אנו מצפים שמשתתפים שיסכימו עם ההיגד: \"אני מרגיש שאני אדם בעל ערך ,לפחות ברמה שווה לאנשים אחרים\" גם ייטו להסכים עם ההיגד \"אני מרגיש שיש לי מספר תכונות חיוביות\" ,ואלו שמסכימים עם היגדים אלו ייטו לא להסכים עם ההיגדים \"לפעמים אני מרגיש שאיני שווה דבר\",
\"לעיתים אני מרגיש חסר ערך לחלוטין\" .אנו בודקים עד כמה יש עקביות בתשובות שניתנו לשאלות השונות. הספרות המקצועית והטכנית מתייחסת לסוגיות של עקביות פנימית בין פריטים ושל מדידת המהימנות הפנימית באופן מורכב ומציעה דרכים שונות לנסח ולחשב ביטויים אלו (ראו למשל .)Tang, Cui, & Babenko, 2014 ,הדרך המקובלת בספרות במדעי החברה לתיאור רמת מהימנות פנימית היא באמצעות מקדם הנקרא אלפה של קרונבך ( .)Cronbach's Alphaכמו כן ,אם הפריטים הנבחנים הם דיכוטומיים ,המקדם המקביל לעקביות פנימית נקרא .Kuder–Richardson 20 מקדם העקביות הפנימית אלפה מבוסס על המתאמים בין הפריטים השונים והוא על הרצף בין 0ל .1ככל שהערך קרוב ל 1-יש בכך עדות למהימנות גבוהה יותר .יש אומנם גישות מעט שונות ,אך מקובל לראות את הערך 0.7כערך שמעליו המקדם מצביע על מהימנות סבירה 0.8 ,ל 0.9מהימנות גבוהה ומעל 0.9כמהימנות גבוהה מאוד ,מצוינת .יש גם המתייחסים לערכי אלפה בין 0.6ל – 0.7כמהימנות בעייתית ( ,)questionableמתחת ל 0.6 -רואים את המהימנות כגרועה (,)poor ומתחת ל 0.5מכנים אותה כבלתי קבילה (.)unacceptable חשוב לדעת שהמקדם הזה רגיש למספר הפריטים הנבדקים .כלומר ,אם יש שאלון שבו יש חמישה פריטים ושאלון אחר שבו עשרה פריטים ,והמתאמים בין הפריטים בשני הכלים זהים בעוצמתם ,החישוב של מקדם קרונבך יצביע על מקדם מתאם פנימי גבוה יותר כשהשאלון יכיל פריטים רבים יותר .זו תוצאה של דרך החישוב של האלפה המשלבת בנוסחה את מספר הפריטים בשאלון .בכך הנוסחה משקפת את העובדה שאנו סומכים יותר על אומדן המבוסס על פריטים רבים יותר משום שהאומדן המתקבל הוא בדרך כלל יציב יותר משל אומדן המתקבל ממספר פריטים קטן יותר ולכן ניתן לסמוך עליו יותר. נפנה את תשומת הלב לסוגיות נוספות הקשורות לשימוש באלפה של קרונבך לבחינת מהימנות פנימית של שאלונים .ראשית ,כפי שהראנו בדוגמה של שאלון הדימוי העצמי ,ייתכן שפריטים מנוסחים בכיוונים מנוגדים – בפריטים אחדים הסכמה עם ההיגד פירושה שלנבדק דימוי עצמי גבוה (\"אני מרגיש שיש לי מספר תכונות חיוביות\") ובאחרים הסכמה עם ההיגד מצביעה על דימוי עצמי נמוך (\"לעיתים אני מרגיש שאני חסר ערך\") .לפני שניתן לחשב מקדם אלפה ,חייבים ל'הפוך' את הפריטים החיוביים לשליליים או להיפך ,ובלבד שכל הפריטים יצביעו לאותו הכיוון. הדרך הטכנית להביא לכך היא ל'קודד מחדש' ( recodeבשפת תוכנת ה – )SPSS את הפריטים החיוביים או השליליים כך שערכים נמוכים 'יתורגמו' לגבוהים ולהיפך. למשל ,בסולם שבו = 1כלל לא מסכים; = 2לא מסכים; = 3מסכים; ו = 4-מסכים מאוד; אנו מקודדים .1=4; 2=3; 3=2; 4=1 הסוגיה הנוספת קשורה לעובדה ששאלונים מכילים לעיתים פריטים הבוחנים (או המתכוונים לבחון) יותר ממושג אחד או יותר מממד אחד של המושג .למשל, שאלון שחיקה של מאסלך בוחן שלושה ממדים שונים של שחיקה :התרוקנות אמוציונלית ,דה-פרסונליזציה וירידה בכשירות האישי ) .(Maslach, 1982במקרה
כזה ,אין מקום לחשב אלפה על כל הפריטים ביחד ,אלא יש להתייחס בנפרד לכל אחד מהממדים ,ולבחון בנפרד רק את הפריטים השייכים לאותו ממד. חשוב להפנות את תשומת הלב לעובדה שלא תמיד יש משמעות לבדיקת המהימנות באמצעות אלפה .לעיתים לא נכון לחשב מקדם אלפה ,זאת על אף שרבים נוהגים לחשב מקדם אלפה באופן כמעט אוטומטי כשמדובר במספר פריטים השייכים לאותו עולם התוכן ,ורבים אף יותר נוטים לדרוש מידע זה מכל מי שמציג כלי מחקר המכיל מספר פריטים .כדי להבהיר מתי יש לחשב אלפה ומתי לא יש לזהות שני מצבים .בראשון ,יש מושג קיים ,למשל אינטליגנציה רגשית (מקביל לגורם הסמוי- ,latent factorשדנו בו בהקשר של תוקף המושג) .כדי לבחון אינטליגנציה רגשית אנו עשויים להציע מספר פריטים (אינדיקטורים) המשקפים ( )reflectאת האינטליגנציה הרגשית של אדם .כלומר ,האינטליגנציה הרגשית היא הסיבה לכך שאדם מסוים יאמר שהוא מסוגל להתמודד עם תסכול באופן חיובי .בדומה ,בדידות היא החוויה של האדם ,והיא הסיבה לכך שהאדם אומר שחסרה לו חברה .במקרים מעין אלו ,יש מקום לבחון אם הפריטים השונים האמורים לשקף את אותה התופעה (אינטליגנציה רגשית ,בדידות) אומנם נמצאים במתאם זה עם זה ,כפי שצפוי מפריטים האמורים לשקף את אותו המושג .מבחני ידע ,עמדות ומאפייני אישיות הם בדרך כלל מדדים מסוג זה ,שיש מקום לבדוק אם הפריטים השונים שאמורים לשקף את הידע בתחום מסוים ,מאפיין אישיות ועמדה ספציפית ,אומנם מתואמים ביניהם כפי שצפוי אם הם מתארים את המושג שממנו הם נובעים .במקרים מעין אלו יש מקום לאמוד את המקדם אלפה. המצב השני הוא כאשר פריטי המידע השונים הם הסיבה לתופעה ( .)formativeלמשל ,אם אנו מנסים לתאר מה קובע את המושג 'ערך' לבית מגורים. פריטים כגון גודל הדירה ,מיקומה ,איכות הבנייה וכדומה הם אלו המלמדים על ערכו של בית המגורים .ברור שאין טעם לבחון אם פריטים כגון גודל הדירה ,מיקומה ואיכות הבנייה מתואמים זה עם זה ,כמדד לעקביות פנימית .במקרה כזה לאלפה של קרונבך אין משמעות כמדד למהימנות בין הפריטים .לכן חשוב לשאול האם במדד המסוים שבו אנו עוסקים ,מדובר בפריטים הקובעים את המושג ( ,)formativeשאז אין מקום לחישוב האלפה ,או בפריטים המשקפים את המושג ( ,)reflectiveשאז יש מקום לבדיקת מהימנות פנימית. שתי הדוגמאות שהבאנו הן חד משמעיות וקל לזהות את ההבדלים ביניהם. אולם ,לא תמיד קל להבחין בין מצב שבו יש חשיבות למהימנות הפנימית למצב שבו אין לה משמעות אמיתית .מטרתנו בפרק זה אינה לעסוק בסוגיה זו לעומקה ,אלא רק להפנות את תשומת הלב לכך שבניגוד לגישה המקובלת ,יש מצבים שבהם לאלפה של קרונבך אין משמעות .המעוניינים מוזמנים לעיין בBagozzi, 2011; Coltman, : .)Devinney, Midgley, & Veniak, 2008 מהימנות בין מחציות ()split-half reliability דרך אחרת לבחון מהימנות בין פריטים היא בחינת מהימנות בין מחציות. נקדים ונאמר שיש המעדיפים לא להשתמש בבדיקה זו ,מתוך מחשבה שחישוב מקדם אלפה של קרונבך היא דרך יעילה יותר .עם זאת ,מכיוון שגם בספרות
העדכנית יש דיווחים על בדיקה של מהימנות זו (לדוגמהDainer-Best, Lee, , )Shumake, Yeager, & Beevers, 2018היא מוצגת כאן .מהימנות בין מחציות מבוססת על פיצול הפריטים לשני חלקים ובחינת מתאם בין הערכים שהתקבלו מסיכום כל אחת מהמחציות .אם המתאם גבוה יש בכך להעיד על מהימנות גבוהה בין המחציות .את הפריטים השייכים לכל מחצית יש לבחור בשום שכל .דוגמה לכך היא מבחן ידע במתמטיקה .המבחן מכיל שאלות קלות יחסית ובהמשך עולה דרגת הקושי של השאלות באופן עקבי .אם נרצה להשוות מחציות לא נוכל לבחון את המתאם בין הציון שהתקבל ל 30 -השאלות הראשונות לציון שהתקבל ל 30 - השאלות האחרונות ,שהרי יש הבדלים גדולים במידת הקושי .לעומת זאת ,אנו כן יכולים לבחון את המתאם בין הציון שהתקבל בבחינת כל הפריטים הזוגיים ובין הציון שהתקבל בבחינת כל השאלות האחרות. לעיתים קרובות חוקרים בוחנים במקביל מספר היבטים של סוגיית המהימנות. במחקר שנערך לא מכבר בסין נבחנו התכונות הפסיכומטריות של כלי חדש שמטרתו להעריך את איכות חייהם של חולי סרטן הערמונית ( .)Dun et al., 2017חוקרים אלו עיצבו שאלון המכיל 22פריטים והעבירו אותו בקרב 200חולי סרטן .החוקרים בחנו את מקדם האלפה ( ,(alpha = 0.74חישבו את המתאם בין הציונים שהתקבלו על 11הפריטים האי-זוגיים למה שהתקבל מחישוב הציון על 11הפריטים הזוגיים ( r .)= 0.63כשבועיים לאחר מכן בחרו החוקרים באופן מקרי 30משתתפים ,ביקשו מהם להשיב על השאלון פעם נוספת וחישבו את המתאם בין התוצאות שהתקבלו בשתי נקודות הזמן ( .)r = .89 ^^##372תקפות ומהימנות של כלים במעבר בין תרבויות ובין קבוצות אחת השאלות המועלות על ידי חוקרים היא האם כלי שעוצב ותוקף לאוכלוסייה מסוימת במדינה אחת יהיה תקף ומהימן גם לקבוצת אוכלוסייה אחרת או במדינה אחרת .נבחן שאלה זו באמצעות דוגמה לכלי למדידת שביעות רצון מהחיים ( ;The Diener, Emmons, Larsen, & Griffin, Satisfaction with Life Scale, SWLS .)1985כלי זה פותח במקורו בתחילת שנות השמונים של המאה הקודמת באוניברסיטת אילינוי בשיקגו באמצעות שאלונים שהוצגו לתלמידים בתוכנית הבוגר ( )undergraduatesוכן באמצעות מדגם של 53זקנים (גיל ממוצע .)75ממצאי מחקרים שבוצעו בעת פיתוח הכלי הצביעו על תכונות פסיכומטריות טובות. בבדיקה בשנת 2017מצאנו שמעל ל 400 -מחקרים עשו שימוש בכלי זה. בסקירה קצרה של חלק מהמחקרים ברור שנעשה שימוש בכלי מחקר זה בקרב מגוון גדול מאוד של משתתפים .בין היתר מצאנו מחקרים שנערכו בקרב קבוצות משתתפים בטווח גילים רחב ,ובמצבים בריאותיים שונים במדינות רבות ושונות כמו פולין ,קוריאה ,ישראל ,ספרד ומקסיקו. לאור מגוון הקבוצות והתרבויות שעשו שימוש בכלי שפותח בשיקגו ,יש מקום לשאול האם הכלי תקף גם בעבור כל אחת מהקבוצות השונות שעשו בו שימוש? התשובה אינה מובנת מאליה .לעיתים כלי שפותח במקום אחד ולאוכלוסייה מסוימת יוכל למדוד גם אוכלוסיות אחרות במקומות אחרים ולעיתים יש הבדלים ניכרים כשנעשה שימוש באותו כלי באוכלוסיות ובתרבויות שונות .כדי לענות על שאלה זו
פותחו שיטות שונות לבחון באיזו מידה כלי שנעשה בו שימוש בהקשר אחד שקול לשימוש בכלי זה בהקשר אחר. נתייחס למעבר משפה לשפה .רוב הספרות המדעית שאליה נחשפים חוקרים בישראל כתובה באנגלית ,וכך גם הכלים שעליהם מדווחים המחקרים .חוקר המבקש להשתמש בכלי שתוקף בארץ אחרת ,חייב להתמודד עם התרגום .תרגום הוא תהליך מורכב ,ולא תמיד עולה בידינו להעביר בצורה נאמנה רעיון או מושג משפה אחת לאחרת .אמצעי מקובל לקדם תרגום שאינו מאבד מרוח המקור היא השימוש ב'תרגום-תרגום חוזר' .בשיטה זו מתרגמים ראשית מהשפה הזרה לעברית ,בשלב שני ,מתרגמים (באמצעות מתרגם אחר מזה שתירגם מהמקור) מעברית לשפה הזרה ובשלב השלישי משווים בין המקור בשפה הזרה ובין הכלי כפי שתורגם בחזרה מעברית לשפה הזרה .השוואה זו מצביעה היכן מצויים הפערים בין הכלי המקורי לכלי כפי שהתקבל לאחר התרגום .כמו כן אפשר לזהות מהם המילים והביטויים שאבדו ,או שינו את משמעותם במעבר לשפה העברית. נציין ,שלעיתים התרגום מתקשה לגשר בין ביטויים שמבחינת המילון הם זהים בשפות שונות ,אך לכל אחד מהם קונוטציות ואסוציאציות שונות בהקשרים תרבותיים שונים .אחת הדוגמאות הבולטות לכך היא המילה bullying :שקנתה לה אחיזה במקומות רבים בעולם .זו מילה שמקורה בנורווגית אך משתמשים בה בשפת יום יום במקומות רבים בעולם .אולם ,כשמנסים לתרגם אותה ,מגלים שהיא מובנת אחרת ומעוררת תגובות אחרות במקומות שונים בעולם .נציין לדוגמה כי במחקרים שנערכו בארץ בחרו חלק מהחוקרים להשתמש בביטוי 'בריונות ,הטרדה ,והצקה' כדי להכיל לפחות חלק ממגוון ההתנהגויות הנרמזות בביטוי הזה באנגלית .מחקרים שנערכו על השימוש בביטוי זה במדינות שונות הצביעו על כך שקשה להשוות את הממצאים המתקבלים משום שבכל מדינה הביטוי המתורגם מובן אחרת ,ולכן גם הדיווחים על התופעה שונים ,לא רק מכיוון שממדי התופעה שונים ,אלא גם משום ההבדלים בהבנה של המושג. אם יש הבדלים ניכרים בדרך שבה מושג מסוים נמדד בקבוצות שונות (על אף שלכאורה נעשה שימוש באותו הכלי) ,הרי השוואת הממצאים המתקבלים באמצעות הכלי בין הקבוצות השונות היא בעייתית .אם בדוגמה הנוכחית ,כשתלמידים בישראל נשאלים על בריונות הם מתכוונים לתופעה אחרת מאשר תלמידים ביפן ,ואם קשישים במקסיקו עונים לשאלות על שביעות רצון מהחיים מתוך הבנה אחרת של השאלות בהשוואה לצעירים במקסיקו ,או לקשישים בישראל ,הרי לא נוכל להשוות בין התוצאות המתקבלות באמצעות אותו הכלי .כך למשל ,מי שמבקש להשוות ולדרג את מידת ה'אושר' של בני אדם במקומות שונים בעולם ,חייב להניח את דעתנו שלכלי זה תכונות דומות במקומות השונים שבהם אנו עושים בו שימוש. חוקרים רבים טוענים שהשיטות המקובלות לתרגום ולהתאמה של כלי מעבר לקבוצות ולתרבויות ,כפי שתיארנו למעלה ,אינן יעילות דיין כדי להבטיח שכלי יעבור באורח נאמן מתרבות אחת לאחרת .כך למשל ,חוקרים שסקרו ספרות העוסקת בתרגום ובהתאמה תרבותית של כלי מחקר בתחום הבריאות מדווחים על שונות רבה בין מחקרים הן בתהליכי התרגום וההתאמה והן בקשיים רבים בשמירה על תקפות הכלי המקורי ( .)Sousa & Rojjanasrirat, 2010כמענה לקשיים שזיהו,
המליצו חוקרים אלו על תהליך מורכב ויקר בן שבעה שלבים שבו מעורבים לפחות שישה מתרגמים בעלי כישורים שונים המתרגמים באופן בלתי תלוי את אותו הכלי משפה לשפה ,דנים בהבדלים בתרגום ביניהם עם אנשי מחקר המעורים בעולם התוכן ובודקים את הגרסה המתורגמת במחקרים הבוחנים כיצד המשתתפים בארצות השונות מבינים כל פריט בכלי וכן את סולם התשובות .כפי שהחוקרים עצמם מציינים זהו תהליך יקר וארוך ,שדרושות לו שנים אחדות של פיתוח. המודעות לקשיים במעבר של כלים מהקשר אחד לאחר הביאה לפיתוח שיטות שונות שנועדו לבחון מה מידת השקילות ( )equivalenceשל אותו הכלי בהקשרים שונים .כפי שראינו בדוגמאות רבות בחלק שבו הצגנו את תוקף המושג וניתוח גורמים מאשש ( ,(CFAכלים רבים מכילים מספר גורמים (ממדים סמויים) שכל אחד מהם נמדד באמצעות שורה של פריטים .שאלת השקילות המבנית ( structural ( equivalenceהיא אם ,כשנערוך ניתוח גורמים של הנתונים שהתקבלו באמצעות השאלון בנפרד לכל אחת מהקבוצות ,נקבל תמונה דומה על היחסים שבין הפריטים לממדים הסמויים ועל הקשרים שבין הממדים הסמויים לבין עצמם .כלומר ,האם נקבל בניתוח( :א) את אותו מספר גורמים בכל קבוצה; (ב) נמצא שאותם הפריטים טעונים על אותם הגורמים בצורה דומה בקבוצות הדומות; (ג) והקשרים בין הממדים הסמויים יהיו דומים בקבוצות השונות. לדוגמה ,גרייף ועמיתיה ערכו מחקר על כלי שפותח בארצות הברית למדידת קורבנות לאלימות בבית הספר School Victimization Scale (SVS) ,ויושם בקליפורניה ,בישראל ובגואטמלה .מטרת החוקרים הייתה לבחון עד כמה הכלים בשפות השונות הם שקולים ( .(Greif-Green et al., 2011עוד רצו החוקרים לבדוק האם ניתן למצוא שקילות גם כשבוחנים סטודנטים לעומת סטודנטיות ,יהודים מול ערבים (בישראל) ,סטודנטים בעלי רקע לטיני לעומת אחרים (בקליפורניה) ותלמידים בבתי ספר פרטיים לעומת בבתי ספר ציבוריים (גואטמלה) .נציג את המחקר בקצרה כדי להבין סוגיות של שקילות ברמה האינטואיטיבית (לקוראים המעוניינים בלמידה מעמיקה יותר של מחקר על שקילות של כלים מעבר להקשרים השונים ,מומלץ לעיין ב.( Byrne & van de Vijver, 2010 - מממצאי המחקר של גרייף ועמיתיה עלתה תמונה מורכבת .באופן כללי נמצא שבניתוחי הגורמים הרבים שנערכו על הקבוצות שונות היה דמיון רב בכך שהבחינו בין ממד אחד של קורבנות שהתייחס לקורבנות לפגיעה רגשית ופיזית מתונה ובין ממד אחר שהתייחס לקורבנות לאלימות קשה ולאיום בנשק .תמונה זו הייתה דומה למדי גם כשנערכו ניתוחי גורמים נפרדים לכל אחת מתת הקבוצות .עם זאת ,נמצאו גם הבדלים במספר הגורמים שהתקבלו בכל מדינה וכן בפריטים שנמצאו טעונים על כל אחד מהגורמים .למרות ההבדלים העריכו החוקרים כי יש דמיון רב למדי
בשקילות המבנית המצדיק שימוש במדינות השונות והמאפשר השוואות בין המדינות. תרגילים לפרק 7 פרק 8 כלי מחקר מבוא חוקרים המבקשים לענות על שאלות מחקר עומדים בפני בחירה של אמצעי המדידה שבהם ינקטו .ניתן להבחין במספר קבוצות של אמצעים וכלי מחקר לאיסוף נתונים: • דיווח עצמי (באמצעות ראיונות ,שאלונים ,וכדומה) • תצפיות • ניתוח תוכן של חומר קיים ( כגון תיקי מטופלים ,טקסטים בספרי לימוד) הבחירה באלו אמצעי מדידה להשתמש מתבססת על שיקולים שונים .בין היתר, על החוקר לשאול ,עד כמה רלוונטי כלי המדידה למשתנים שהוא מבקש לחקור. למשל ,תצפית אינה מתאים למדידת עמדות של אנשים ,כי אם להתנהגויות שלהם. שיקול נוסף הוא מידת התקפות שאנו מעריכים שניתן יהיה להגיע אליה באמצעות הכלי .לדוגמה ,סביר שתצפית על התנהגות צרכנית תהייה תקפה יותר למדידה של העדפות למוצרים שונים ,מאשר שאלון .השאלון עשוי לשקף את העמדות של הצרכן, ואולי אף את מה שמקובל ורצוי לבטא בחברה הקרובה של הנשאל ,ולאו דווקא את התנהגותו בפועל .משום כך אנו עשויים להעריך שהתנהגות צרכנית בפועל תקפה יותר ממענה לשאלון. יתרה מזו ,לעיתים התצפית מאפשרת לזהות התנהגויות שהמשתתף אינו ער להן ולכן גם אינו יכול לדווח עליהן באופן תקף .לדוגמה ,יש שאלונים מפורטים שנועדו לתאר התנהגויות שינה של משתתפים .אולם ,תצפיות ומדידות פיזיולוגיות הנעשות במהלך הלילה יתנו לנו מידע עשיר ותקף יותר מאשר דיווחים של המשתתפים ,שיש חשש למידת תקפותם עקב קשיי זיכרון ואי מודעות להתנהגויות בעת השינה. בדומה ,סביר שניתן לזהות אידיאולוגיה פוליטית או מגדרית באופן תקף יותר באמצעות ניתוח טקסטים קיימים ,מאשר אילו הצגנו שאלות ישירות למי שאחראים לטקסטים אלו .לדוגמה ,מי שמבקש להעריך האם אנשי ציבור פעלו ממניעים גזעניים בעת שהפנו עולים ליישובי ספר ,או שבחרו לפנות תושבים מביתם ,מוטב לו שלא יראיין את אנשי הציבור הללו ,או את הקרובים להם ,שכן סביר שהתשובות שיקבל ישקפו את ההערכה של המרואיינים באשר להתנהגות המצופה כיום מאנשי ציבור. עדיף שהחוקר יקרא וינתח את הפרוטוקולים ,בעיקר אלו שנעשה מאמץ לגנוז אותם ויש להניח שהמידע בהם מאפשר למדוד בצורה תקפה יותר את מאפייני העמדות. לצד שיקולי התוקף ,מידת ההיתכנות של שימוש באמצעי זה לעומת האלטרנטיבות הוא שיקול מרכזי בבחירת אמצעי המדידה ,ובעיקר המשאבים הנדרשים כדי לבצע את המדידה באופן תקף .במקרים לא מועטים הערכתו של החוקר היא שעדיף לערוך תצפיות על התנהגויות מאשר לשאול את המשתתפים על
ההתנהגויות שלהם .אולם ,העלויות והמורכבויות הכרוכות בתצפיות אלו עלולות להביא לכך שהחוקרים ישתמשו בדיווח עצמי ,עם כל החששות לגבי התקפות של דיווחים אלו .כך למשל ,מקובל להשתמש בשאלון של שטראוס ועמיתיו כדי למדוד חשיפה לקורבנות בין אישית ( ,)Straus, 2017על אף שדיווח זה תקף פחות מאשר תצפית מתמשכת על יחסים בין בני זוג. לעיתים ,ניתוח תוכן של תיקי מטופלים עשוי להיות אפשרי יותר מאשר שימוש במספר רב של שאלונים למטפלים ולמטופלים או ביצוע תצפיות מתמשכות על טיפול, זאת על אף הקשיים הנובעים מחשש ממהימנות בין אישית נמוכה בניתוח התוכן של התיקים וכן מחשש שמא התיעוד בתיקי המטופלים הוא חלקי ,אינו משקף את תהליכי הטיפול ,ומשום כך ניתוח תיקי המטופלים אינו מאפשר מדידה תקפה של תכני הטיפול .עם זאת ,במקרים אחרים ,דווקא תצפיות באמצעות הקלטות וצילומים, עשויות להתאים יותר ,הן מבחינת התקפות והן מבחינת שיקולי עלות תועלת ,מאשר שאלונים או ניתוח תיקים קיימים. ^^##374דיווח עצמי :ראיונות ,שאלונים אחד האמצעים המרכזיים למדידה במדעי החברה וההתנהגות הוא דיווח עצמי של המשתתף ,באמצעותו אנו יכולים ללמוד על מחשבות ,עמדות ורגשות שקשה לנו להגיע אליהם באמצעים אחרים .כמו כן מקובל להשתמש בכלים אלו גם כדי לקבל דיווח על התנהגויות של המשתתף .יש מגוון רב של דרכים להגיע לדיווח עצמי של משתתפים .הבחירות שלנו באשר לדרך שנבחר לקבל דיווח עצמי במחקר מסוים מבוססות על שילוב של שיקולים הנוגעים לתוקף של אמצעי זה ושיקולי היתכנות. רצף אחר שעלינו לשקול הוא מידת הקרבה בין החוקר למשתתף .מצד אחד של הרצף ראיון הנערך במפגש אישי פנים אל פנים עם משתתף יחיד ,ובקצה השני של הרצף סקר במרשתת הנערך בקרב מי שבוחרים לענות עליו ולחוקר אין גישה ישירה אליהם .יש מספר תחנות ברצף שעלינו לשקול בעת תכנון מחקר – במפגש האישי ניתן להציג למשתתף שאלה ,להמתין לתשובתו ,ולהציג לו שאלה נוספת ,או שאפשר לתת בידיו שאלון ולבקש שימלא ויבקש הבהרות מהמראיין ,אם יש שאלות שאינן ברורות לו .מתן שאלון למילוי עצמי בנוכחות נציג החוקרים יכול להיעשות במפגש פנים אל פנים עם משתתף אחד ,או ,כפי שמקובל במחקרים רבים ,באמצעות העברה קבוצתית .במספר מחקרים יש שילוב בין הצגת שאלות למשתתף ותיעוד שלהם לבין מתן האפשרות למרואיין לענות על חלקים שונים באמצעות מחשב נייד המציג לנבדק שאלות והמאפשר לו לענות באופן שהמראיין אינו רואה את התשובות, כדי לשמור על פרטיותו. אפשרות אחרת היא ראיונות אישיים הנערכים באמצעות הטלפון או אמצעי תקשורת אחר כגון skypeאו .whatsappכאן החוקר והמשתתף נמצאים במרחב פיזי שונה אך עדיין נשמר הקשר האישי והיכולת להגיב במקום לתגובות המשתתף כגון מבט של המרואיין המבטא אי הבנה או היסוס. לעיתים משתתפים עונים על שאלונים שלא בנוכחות נציג חוקרים .אפשר לשלוח שאלונים בדואר לכתובתו של הנבדק ,אך ככל שהשימוש בדואר הולך ופוחת כך גם חוקרים ממעטים לנקוט בדרך זו ,אם בכלל .לעומת זאת ,אמצעי אחר שמרבים
להשתמש בו בשנים האחרונות ,הם סקרים באמצעות המרשתת .כאן אפשר להבחין בין פנייה מכוונת למשתתפים ,לדוגמה באמצעות רשימת כתובות בדואר האלקטרוני, לבין פנייה פתוחה יותר באמצעות קישור הנשלח ברשת החברתית ובקשה להיכנס אליו כדי להגיע לשאלון המקוון. הבחירה באחד האמצעים או בשילוב אמצעים ,מבוססת על שיקולים אחדים. נקדים ונאמר שלא עלה בידינו לאתר הסכמה חד משמעית בין אנשי המחקר השונים באשר לבחירה באמצעי מסוים ,בהינתן הצרכים והאפשרויות של מחקר ולכן נציג את השיקולים השונים שיש לבחון בעת קבלת החלטות על מחקר מסוים .ככלל ,אפשר לזהות שני סוגי שיקולים :האחד -מה הם האתגרים לתוקף בשימוש באמצעי מסוים והשני -עד כמה יש בידנו משאבים ויכולת להשתמש באמצעי התקף ביותר. ^^##375הגברת ההשתתפות אחד השיקולים המרכזיים לבחור במפגש אישי הוא ההערכה שמפגש כזה מסייע להבטיח שהנשאל אכן ישתתף במחקר .כשאנו שולחים שאלון בדואר או מפיצים קישור לשאלון במרשתת ,יש לנו חשש מוצדק שמידת המחויבות של המשתתף הפוטנציאלי להגיב על השאלון אינה גבוהה .זאת ,במיוחד כשאנו מחויבים לאנונימיות ,שאז גם איננו יכולים לדעת מי ענה לשאלון ומי העדיף לא להגיב על השאלון שנשלח .כך למשל ,הלשכה המרכזית לסטטיסטיקה נוהגת לערוך ראיונות פנים אל פנים עם משתתפים בסקרים שהיא עורכת .בדרך כלל ,העברה קבוצתית של שאלונים לקבוצה הנוכחת באותו מרחב פיזי של החוקר ,ראיונות פנים אל פנים ואף ראיונות טלפוניים (לאחר שהצלחנו ,במאמצים רבים ,לתאם 'מפגש טלפוני') מגדילים במידה ניכרת את ההסתברות ש אומנם יהיו בידנו תשובות של המשתתפים שהגענו אליהם. כפי שנראה בהמשך ,כשנדון בנושא הדגימה ,יש חשיבות רבה לקבל מידע משיעור גדול ככל האפשר מתוך המשתתפים שעלו במדגם .ככל שאנו משתמשים בקשר ישיר עם המרואיין ,כך יש סיכוי רב יותר שנגיע למדגם שאותו בחרנו כדי לייצג את האוכלוסייה שבה אנו מעוניינים .ככל שננקוט בשיטות שהן נוחות יותר ואינן מחייבות מגע ישיר עם המשתתפים הפוטנציאלים ,כגון על ידי 'הזמנה פתוחה' ברשתות חברתיות ,אנו עלולים לפגוע במידה שבה אנו מצליחים לייצג את האוכלוסייה שאליה כיוונו .בעיה זו אף מחמירה אם הדרכים שבהן אנו מגיעים למשתתפים מקשות עלינו להגיע דווקא לאותם המשתתפים שאליהם רצינו להגיע. לדוגמה ,הזמנה לראיון המופצת באמצעות קישור לראיון במרשתת ,עשויה להגיע רק לאותה תת קבוצה הנחשפת לקישור זה .משלוח שאלונים בדואר עלול להגיע רק לנשאלים הגרים בכתובת קבועה וידועה ולא לרבים אחרים .אם נרצה להגיע לבני נוער שבעבר שהו בפנימייה כדי ללמוד על חוויותיהם במעבר לחיים עצמאיים, מכתבים בדואר לכתובת האחרונה שלהם יגיעו רק למי שגרים בכתובת קבועה, ויחמיצו את כל מי שעוברים מכתובת לכתובת כי הם חסרי עורף משפחתי וכתובת
יציבה .כמובן שיש לנו עניין להגיע גם לקבוצה ניידת זו ולא להסתפק רק באלו הגרים תקופה ארוכה באותה הכתובת. ^^##376ההשלכות של קשר בלתי אמצעי בחירה באמצעי שבו יש לנו מגע ישיר עם המשתתף ,מאפשרת לנו ליצור קשר אישי יותר עם המשתתף .קשר זה עשוי לסייע לנו ליצור אמון ויחס חיובי ()rapport המקלים על קבלת מידע אישי באופן כן ,תוך הפחתת הסכנות לתוקף השאלון עקב הטיות הנובעות מניסיון להסתיר או להציג תמונה מעוותת למראיין .כמו כן ,נוכחות המראיין במפגש אישי מאפשרת לזהות ,באמצעות סימנים מילוליים ולא מילוליים, מצבים שבהם המרואיין מתקשה להבין את השאלה או להביע את עצמו בדרך פתוחה ותקפה .לאור סימנים אלו ,המראיין יכול להגיב כדי להגביר את תקפותן של התשובות ,למשל בדרך של הבהרת שאלה שלא הייתה ברורה ,מתן תמיכה לנבדק להביע גם דעות ורגשות שהמשתתף אולי חושש לבטא ,הצגת שאלת המשך כדי לוודא קבלת מידע מדויק מהמשתתף ועוד. לצד היתרונות של הקשר הישיר יותר בין המראיין למרואיין ,עלולות להיות לקשר זה גם השלכות שליליות על תוקפו של הראיון ככלי .אחד האתגרים לתוקף עלול להיות תחושת המרואיין שהוא חשוף למראיין גם במקום שאינו רוצה להיות חשוף ,ומשום כך הוא יגיב בדרכים המפחיתות את הקשר בין התשובה שהוא משיב ובין התשובה המשקפת בצורה מדויקת יותר את המציאות (קרי ,פגיעה בתוקף) .כך למשל ,משתתף הנשאל על הדרכים שבהן הוא מגיב להפרות משמעת של ילדו ,עלול להרגיש לא בנוח לשתף אדם זר בעובדה שהוא נוהג להכות את הילד .חשוב לזהות את האיום הזה לתוקף הראיון ולהתמודד אתו ,למשל ביצירת תחושת אמון והבהרה שיש דרכים שונות שבהן הורים מגיבים לילדים לא ממושמעים ,כך שהנשאל לא יחוש שהוא בולט או חריג וינסה להתגונן. כך למשל ,במחקר על היריון בגילאי העשרה בקרב בוגרי מסגרות אומנה בארצות הברית ,נתנו החוקרים למשיבות מחשב נייד שבו הותקנה תוכנה ( (Audio ,Computer Aided Self Interviewing – ACASשהשמיעה להן את השאלות (באוזניות) והציגה על המסך (שאותן המראיין ששהה בחדר ,לא יכול היה לראות) את אפשרויות התשובה ,בשפה קלה וברורה (.)Dworsky & Courtney, 2010 ^^##377נושאים המעלים רגשות קשים לעיתים הסוגיות שעליהן אנו שואלים רגישות במיוחד וההשתתפות במחקר עלולה לגרום להעלאת רגשות קשים בקרב המשתתפים .כך לדוגמה ,ראיונות עם אנשים שנחשפו לטראומה משמעותית עלולים לגרום להתרגשות רבה ואף לריאקטיבציה של הטראומה .משום כך ,ראיונות מסוג זה נערכים לעיתים קרובות באמצעות מפגש ישיר של הנשאל עם איש מקצוע המסוגל להגיב ברגישות ובצורה יעילה לקשיים שעלולים לעלות בראיון .מקובל גם להעניק הדרכה מלווה למראיינים כדי להקל עליהם להתמודד עם ראיון מחקרי מובנה ,תוך הקפדה על תהליך המחקר במקביל להתייחסות רגישה למרואיין .להדרכה זו יש חשיבות גם כדי להגן גם על
המראיינים עצמם מתגובות רגשיות הנובעות מהחשיפה לטראומה של המשתתפים. ^^##378אנונימיות במחקרים רבים חשוב לכלול בשיקולים לבחירה באיזו דרך לאסוף את הנתונים גם את שאלת השמירה על האנונימיות של המשיב .בראיונות פנים אל פנים קשה לשמור על תחושת אנונימיות של המשיב ,גם אם המראיין אינו יודע פרטים על זהותו. גם בעת קביעת ראיונות טלפונים יש לבחון עד כמה חשוב להדגיש את נושא האנונימיות .יש ראיונות טלפוניים שנעשים ללא הכנה או קביעת מפגש טלפוני ,כגון שיחות טלפון לנשאלים אנונימיים ,שנבחרו על ידי תוכנת מחשב המתקשרת למספרי טלפון באופן אקראי .במקרים כאלה ,השכיחים בסקרים לבחינת עמדות הציבור בנושאים שונים ,לא קשה לשכנע שמדובר בראיון אנונימי וששמות המשתתפים ופרטיהם אינם ידועים למראיין .בראיונות טלפוניים מתואמים מראש ,קשה יותר לשמור על אנונימיות ולתת למשתתף את התחושה של אנונימיות. במחקרים שבהם חשוב שהמשתתף יחוש שהאנונימיות שלו בעת הראיון הטלפוני נשמרת ,ניתן לפעול במספר דרכים .דרך אחת היא לוודא שהמראיין אינו האיש שתאם את הפגישה .כך למשל ,במחקר שבו ביקשנו לראיין רופאי ילדים שאת שמותיהם קיבלנו מהאיגוד שלהם ,רצינו להדגיש בפניהם שהאנונימיות שלהם תשמר בראיון .לכן ,ערכנו הפרדה בין עוזר המחקר שהתקשר כדי לתאם את מועד הראיון לבין המראיין עצמו .וכך ,הרופא המרואיין ידע ,שמי שיתקשר לראיין אותו ,אינו יודע שום פרט עליו ,מלבד את מספר הטלפון שלו. דרך נוספת וקלה יותר לתת תחושה של אנונימיות היא כאשר השאלון ניתן בקבוצה או דרך המרשתת .עם זאת ,יש להביא בחשבון שיש כיום חוסר אמון מוצדק ביכולת לשמור על אנונימיות ופרטיות גם כשעונים לשאלון אנונימי במרשתת שמגיעים אליו באמצעות פרסום ברשתות החברתיות .משום כך ,על החוקר לוודא שהמשתתף יחוש שתשובותיו הן אנונימיות ,ולא להסתמך רק על בטחונו של החוקר שהאמצעי שבחר מבטיח אנונימיות. ^^##379שיקולי עלות קושי גדול ומרכזי בשימוש בראיונות פנים אל פנים ואף בראיונות טלפוניים הוא העלות הגבוהה שלהם במשאבי זמן וכוח אדם .כל מי שניסה לתאם פגישות לראיונות פנים אל פנים ובטלפון יודע כי זו משימה קשה הדורשת משאבים רבים .לעיתים קרובות נדרשים מאמצים לתאם זמן ומקום המתאימים גם למראיין וגם למרואיין לביצוע הראיון .כמו כן ,לא פעם ,גם לאחר שתואם זמן לראיון ,המפגש מתבטל. עוד יש להביא בחשבון שעלות כוח האדם המיומן הנדרש לביצוע הראיונות היא בדרך כלל גבוהה .יתרה מזו ,גם כשבוחרים מראיינים מיומנים ,חשוב להדריך ולהכין את צוות המראיינים כדי להבטיח את תקפות הראיון .השקעת המשאבים בקביעת הראיונות ובהבטחת תקפותם חשובים תמיד ,אך הדבר חשוב במיוחד במחקרים
שבהם מספר המרואיינים אינו רב וחיוני להגיע למרב המשתתפים הפוטנציאלים ולקבל תשובות מכולם או מרובם. ^^##380שימוש בשאלות פתוחות וסגורות היבט המבחין בין כלי מחקר במחקרים איכותניים לכמותיים הוא מידת ההבניה של כלי המחקר ,כגון ראיונות .ראיונות שאינם מובנים מזוהים בדרך כלל עם מחקרים איכותניים ,ושאלונים מובנים אופייניים יותר למחקרים כמותיים .אך גם בעת תכנון השאלון במחקרים כמותיים (שבהם עוסק ספר זה) ,עלינו לתת את הדעת על הבחירה בין שאלות פתוחות לסגורות .שאלה סגורה מציגה לנשאל אפשרויות תשובה שנקבעו מראש (כגון' ,כן' ו'לא'' ,מסכים' ו'לא מסכים') .שאלה פתוחה אינה מציגה למרואיין אפשרויות תשובה ,והנשאל יכול לענות עליה בשפתו הייחודית ולפי בחירתו .שאלה פתוחה נותנת למרואיין הזדמנות להגיב בכל רמת פירוט שבה יבחר ותוך נגיעה בנושאים מסוימים שבהם בחר להתמקד. במחקרים כמותיים מקובל לשלב שאלות פתוחות רבות בעיקר כשאנו בשלב מוקדם של תהליך הלמידה של נושא ומבקשים לקבל תמונה רחבה של הנושא בשלב זה רצוי להימנע מצמצום השאלון לשאלות סגורות ,שכן הדבר עלול לגרום להחמצה של נושאים שאיננו יודעים שהם חשובים ולכן לא שאלנו עליהם .כאמור ,שימוש בשאלונים שבהם יש שאלות פתוחות רבות יאפשר לזהות נושאים נוספים שראוי להתייחס אליהם בצורה סגורה יותר במחקרים בהמשך. גם בשאלונים המבוססים ברובם על שאלות סגורות ,יש מקום לשקול לשלב שאלות פתוחות ויש לכך מטרות אחדות .שאלות אלה מספקות מידע עשיר המוסיף להבנתנו את הנושא באופן שהשאלות הסגורות אינן יכולות לספק .כך למשל ,במחקר על קורבנות לאלימות במערכת החינוך הצגנו בפני התלמידים שורה של שאלות סגורות על חשיפתם לקורבנות בבית הספר .בסיום השאלון שאלנו את התלמידים שתי שאלות פתוחות הנוגעות לסיבות לאלימות בבית הספר ומה הן ההצעות שלהם להתמודדות עם אלימות בבית ספרם .שאלות פתוחות אלו נתנו בידי התלמידים הזדמנות לשתף במחשבות וברעיונות שלהם ,שהוצגו כחלק מממצאי המחקר .יתרה מזו ,על בסיס התשובות לשאלות פתוחות אלו בנינו בהמשך סדרת שאלות סגורות שהציגה סיבות אפשריות שונות לאלימות ,אשר שאלה את המשתתפים (תלמידים ומורים) במחקר המשך ,עד כמה הם מסכימים שכל אחת מסיבות אלו לאלימות מתקיימת בבית הספר שלהם. סיבה נוספת לשילוב שאלות פתוחות היא כדי לתת הזדמנות למשתתף לחוש שניתנה לו הזדמנות לבטא את עצמו ולהשמיע את קולו הייחודי .לעיתים ,מרואיינים שעונים על סדרה ארוכה של שאלות סגורות חשים שהשאלון אינו קולע לנושאים שחשובים להם ואינו נותן להם הזדמנות לשתף בחוויה אישית שלהם או להביע עמדה מורכבת ,שהשאלות הסגורות אינן מאפשרות להביע אותה .שאלות פתוחות עשויות לתרום לקשר שנוצר בין החוקר לנשאל ,בדרך שתבטיח שיתוף פעולה מלא. שימוש נוסף בשאלות פתוחות הוא באמצעות הביטוי 'אחר ,פרט' .כך למשל, במחקר על קשיים שאתם מתמודדים אנשים מבוגרים בעת חיפוש עבודה ,החוקר עשוי להציג סדרה של קשיים אפשריים ולשאול את המשתתף עד כמה כל אחד מהם
רלוונטי לניסיונו האישי .החוקר עשוי גם להוסיף קטגוריה של 'קשיים אחרים' ,ולבקש מכל מי שמסמן אפשרות זו ,לפרט .שאלה כגון זו עשויה להניב קשיים שהחוקר לא הכיר .ייתכן שחלק מקשיים אלו ,אם חזרו במספר תשובות ,יופיעו במחקר הבא כאחת מאפשרויות התשובה בשאלה על הקשיים. במקרים אחדים חוקרת יכולה להסתפק בדיווח על דוגמאות שעולות מהשאלות הפתוחות ולצטט אותן .מלבד התרומה של דוגמאות אלו לידע המצטבר על התופעה, הניסיון מלמד שדוגמאות אלו מחזקות את האותנטיות של המחקר ,משום שהן משקפות באופן משכנע את עולמם של המשתתפים ולא של החוקרים .במקרים אחרים ,חוקרים מעוניינים לנתח את השאלות הפתוחות בדרך שתתרגם אותם לקטגוריות הניתנות לניתוח סטטיסטי .נעסוק בנושא זה בחלק על ניתוח תוכן .כאן נציין ,שהמידע הרב המתקבל משאלות פתוחות משמעו גם אתגר גדול יותר בעיבוד המידע ,בהשוואה לשאלות סגורות. סדר השאלות בשאלון ובראיון ברבים מהמחקרים אנו משתמשים בשאלון או בראיון המורכב מסדרה של 'תת- שאלונים' ,שכל אחד מהם בוחן אחת מהסוגיות וקבוצת משתנים שאותן אנו מבקשים לחקור .לדוגמה ,במחקר על בוגרים של מסגרות השמה חוץ ביתיות (פנימיות ומשפחות אומנה) ביקשנו לקבל מידע על הרקע האישי של הבוגרים לפני שהגיעו לפנימייה ,על החוויות שלהם בתחומי חיים שונים בעת שהותם בפנימייה (כגון, לימודים ,חיי חברה) ,על מצבם כיום בדיור ,הכנסה ,וכדומה .כמו כן ,הצגנו שאלונים שבחנו את מידת שביעות רצונם מחייהם ומהדימוי העצמי שלהם .כלומר ,על אף שתתי השאלונים נלקחו רובם ממחקרים אחרים ,עדיין עמדה בפנינו השאלה כיצד לארגן את סדר הראיון ואת המעברים מנושא לנושא בתוך הראיון. חשוב לשקול היטב את סדר הצגת החלקים השונים כדי לסייע למרואיין לענות באופן תקף .באמצעות סדר זה אנו מבקשים להגביר את המוטיבציה של הנשאל לענות ,מנסים להקטין את הצורך של הנשאל להתגונן ומבקשים להקל עליו להבין את רצף הנושאים שעליו הוא נשאל .בראיונות בקרב בוגרי מסגרות השמה ,הקפדנו להציג את השאלות לפי רצף כרונולוגי שנע מהזמן שקדם לכניסה לפנימייה ,עד לעת הראיון ובהמשך עברנו לתפיסת העתיד .בכך הקלנו על המרואיינים לעקוב אחר ההיגיון של הראיון הטלפוני. דוגמה לשיקולים באשר לסדר הצגת הדברים נוגעת למאפייני הרקע של הנשאלים .לעיתים נעדיף מעבר הדרגתי מנושאים שאינם רגישים המאפשרים בניית אמון למראיין או לחוקר לנושאים שעלולים לעורר תחושות קשות יותר ועקב כך גם קושי גדול יותר לענות באופן אמין .במקרים מעין אלו כדאי להתחיל בשאלות נינוחות שאינן מעוררות תגובה רגשית הנוגעות לתיאור מאפייני רקע דמוגרפיים ,ואחר כך לעבור לנושאים רגישים יותר. לעומת זאת ,לעיתים יש מקום להעביר את השאלות הדמוגרפיות לחלק האחרון של השאלון .שכן אם שאלות אלה מופיעות בתחילת הראיון הדבר עלול לגרום נשאל לחוש ש'זהותו נחשפת' ,זאת על אף הבטחות חוזרות ונשנות בדבר שמירה על סודיות ואנונימיות .ניקח לדוגמה שאלון בקרב מורות בבתי ספר .מורה שתציין שהיא
מחנכת ,מלמדת בבית הספר הזה כשש שנים והיא בעלת תואר שני ,עלולה להרגיש שמידע זה מזהה אותה באופן ברור ,כך שכל מה שתענה בהמשך ,יקושר אליה. במקרים כאלה נעדיף להעביר את השאלות הדמוגרפיות והפרטים האישיים לסוף הראיון ונסתכן בכך שחלק מהמורות לא יענו על כל שאלות הרקע. הצגת המחקר בפני הנשאלים לדרך שבה אנו מציגים את המחקר בפני הנשאלים עשויות להיות השלכות רבות על נכונותם לשתף פעולה עם החוקרים ועל תוקף התשובות שנקבל .להקדמה למחקר יש חשיבות מיוחדת הנוגעת להתנהגות האתית של החוקר ,משום שהקדמה זו היא הבסיס להחלטתו של הנשאל אם להשתתף במחקר ולכן ,גם מסיבה זו חשוב למסור מידע אמין ,מדויק ושלם .כמו כן ,החוקר מבקש להגביר את המוטיבציה של המשתתף הפוטנציאלי להסכים לענות על השאלות .יתרה מזו ,ההקדמה מנסה גם לעודד את הנשאל לענות באופן כן ,מבלי להתגונן או להסתיר מידע .נציג כאן מרכיבים חיוניים אחדים בהצגת המחקר בפני הנשאלים .כפי שנראה ,במחקרים שונים עשויה להיות לחלק מהמרכיבים חשיבות רבה במיוחד ,אך ככלל יש מקום לשקול להכליל את כל המרכיבים שנפרט. מיהם החוקרים והחוקרות ,שייכות ארגונית בחלק זה החוקר מציג את עצמו .יש לכך כמובן משמעות אתית של 'גילוי נאות'. יש הבדל בין סקר שביעות רצון שנערך על ידי חברה מסחרית על השירות שקיבלנו, למחקר שנערך על ידי חוקר בלתי תלוי הבוחן סוגיות תיאורטיות .ציון השייכות הארגונית וציון זהותו של החוקר יתרמו לתחושת אמינות בקרב הנחקרים ויגבירו את היענותם ורצונם לשתף פעולה .ציון העובדה שהמחקר נערך על ידי חוקרים וחוקרות ממוסדות להשכלה גבוהה המשתפים פעולה כדי ללמוד על קליטת יהודי אתיופיה בשוק העבודה ,עשויה להביא את הנשאלים להעריך את המחקר כחשוב וכאמין. נושא המחקר מקובל וחיוני לפרט לנשאלים במשפטים אחדים ,מהו נושא המחקר ומהן מטרותיו .נוסף להיותו חלק מהגילוי הנאות של המחקר ,חלק זה מאפשר לנשאל להבין בפני מה הוא עומד ומאפשר לאנשים שאינם רוצים לענות על השאלון ,להחליט שאכן אין ברצונם להשתתף .בנקודה זו החוקר מהלך על חבל דק ,עליו להבהיר את מטרות המחקר כנדרש מבחינה אתית אך הוא צריך להימנע מלתת פירוט יתר כדי לא להנחות אנשים באשר להשערות המחקר. הבהרת הבחירה בנשאל חשוב לציין בפני הנשאל מדוע הוא נבחר למחקר וכיצד החוקר הגיע אליו. לנקודה זו שתי מטרות :ראשית ,כאשר אנו מבהירים לנשאל כיצד הגענו אליו ('נבחרת באופן מקרי מרשימת כל העובדים בשירותי רווחה לזקנים') יש בכך מרכיב של הקפדה אתית על כבודו של הנשאל ,כדי שלא יקנן בו החשש שקיבלנו מידע אישי עליו מאחרים ללא רשותו .שנית ,מטרתנו להעניק לנשאל תחושה שהגענו אליו משום
שדעתו חשובה והמידע שיש בידו הוא בעל ערך מיוחד ('יש לך ניסיון רב בסוגיות של קביעת אפוטרופוס לזקנים הסובלים מאלצהיימר'). הבהרת ציפיות לעיתים עלינו להבהיר מהן הציפיות מהשתתפות במחקר .בדרך כלל עלינו להבהיר שההשתתפות במחקר לא תתרום ישירות לנשאל .כך למשל ,אם אנו שואלים על החוויה של סטודנטית המתמחה בפסיכולוגיה קלינית ,ראוי לציין שממצאי המחקר עשויים לשפר את תהליכי ההכשרה בעתיד ,אך אין ליצור את הרושם שאם נשאלת תתלונן על יחס לא הוגן מצד מדריכה היא תקבל מענה אישי .במקרים שבהם החוקרים מתכוונים לפצות נשאלים על זמנם ,כאן המקום לציין זאת. שימוש במידע שיתקבל ואנונימיות בחלק זה החוקר מדווח לנשאל מהו השימוש שייעשה במידע שיתקבל. במחקרים שבהם נשמרת האנונימיות של הנשאל חשוב לציין זאת ,לעיתים משתתפים לא יבינו למה הכוונה במושג 'אנונימיות' ,ויש להסביר זאת באופן קונקרטי ,כגון – אנו שומרים על סודיות ומחברים את השאלון שלך עם כל השאלונים האחרים כך שאיננו יודעים מה הן התשובות שלך ומה הן התשובות של האחרים .יש חוקרים הנוהגים לבקש מהנשאל לא לציין את שמו או כל פרט מזהה אחר. עידוד לתשובות כנות בהמשך לדגש על אנונימיות כמעודד תגובות כנות ,לפעמים אנו מוסיפים ומבהירים מדוע חשוב שהנשאל יענה תשובות מלאות וכנות .לדוגמה – \"שאלון זה אינו מבחן ואין בו תשובות נכונות או לא נכונות\"; \"יש גישות ודעות שונות בנושא זה. מה שחשוב לנו הוא לשמוע מה אתה חושב ומרגיש\". למי ניתן לפנות במקרה הצורך לעיתים רצוי ואף חיוני לאפשר למשתתף ליצור קשר עם גורמים היכולים לסייע במצבים שבהם הנשאל עלול להזדקק לעזרה למשל אם יש בשאלון תכנים רגישים המעלים רגשות קשים וחרדה אצל הנשאל .בדף ההקדמה לשאלון ניתן לציין להיכן ניתן לפנות .במקרים רבים גם מקובל לתת את פרטי הקשר עם החוקר. מתן אפשרות לקבל את דוח המחקר או תקציר אחת הדרכים להודות לנשאלים על השתתפותם ,ובכך להבהיר כי תרומתם למחקר בעלת ערך ,היא להציע להם לקבל את תקציר דוח המחקר או את הדוח עצמו .כאן יש מקום לשקול כיצד לאפשר קבלת השם והכתובת בלי לפגוע באנונימיות (למשל ,על ידי הוספת דף נפרד שאינו מחובר לשאלון עצמו). ^^##382תוכן השאלות יש לזכור שיש שאלות שהסיכוי לקבל עליהן תשובה תקפה אינו גבוה וכדאי לשקול האם יש טעם לשאול אותן ,ובמקרה ששאלנו ,להתייחס לתשובות שהתקבלו בזהירות מיוחדת .נושא זה בולט לגבי נושאים שיש חשש שהמשתתף אינו יודע בהכרח את התשובה הנכונה ,ותשובתו משקפת (במקרה הטוב) הערכה בלבד בנושא שאין לנבדק גישה ישירה אליו .לדוגמה ,כשאנו שואלים על עמדות ומוטיבציה של אנשים אחרים ,למשל בן הזוג של הנשאלת ,עלינו להביא בחשבון את העובדה
שגם אם הנשאלת רוצה מאוד לענות בכנות ,היא אינה יודעת מהן העמדות והמוטיבציות של בן זוגה .התשובה שנקבל לשאלה' :מדוע בן זוגך פוגע בך בצורה רגשית' ,היא הערכה בלבד של הנשאלת .חוקר המעוניין בזווית הראייה של נשים הנופלות קורבן לפגיעה רגשית מצד בנות זוגן ,עשוי לקבל כאן תשובה תקפה .אולם, חוקר המעוניין להבין את המוטיבציות של אלו שפוגעים בבנות זוגם ,עלול לקבל תשובה שהיא רחוקה מהמטרה. באופן מפתיע למדי ,החשש משאלות מסוג זה רלוונטי גם כשאנו שואלים את הנשאלת עצמה על סיבות ומוטיבציות להתנהגותה ,עמדותיה ורגשותיה .הספרות מלמדת אותנו שלא תמיד נשאלים יודעים מדוע הם מתנהגים בדרך מסוימת ,או מה הסיבה לרגשות ולעמדות שלהם כלפי נושא ספציפי .גם אם איננו משתמשים במושג 'תת מודע' ,עלינו להכיר בכך שלעיתים גורמים שאיננו ערים להם משפיעים על ההתנהגויות והעמדות שלנו .אם אנו שואלים פסיכולוגית קלינית מדוע בחרה דווקא במקצוע זה ,נקבל במקרים רבים תשובה מפורטת (נושא זה עשוי לעלות פעמים רבות בתהליך ההדרכה האישית ולפסיכולוגיות קליניות רבות יש תשובה מוכנה) .עם זאת עלינו לזכור שהתשובה שקיבלנו היא 'מה הנשאלות חושבות שהיו הסיבות שלהן לבחירה במקצוע' .תשובה זו עשויה להיות זהה לסיבה 'האמיתית' או רחוקה ממנה, גם כשהנשאלת משיבה באופן כן לחלוטין .עלינו להיות ערים לכך ,ולהתייחס לתשובות כמשקפות את זווית הראייה וההסבר של הנשאלת ,ולא כאל הסיבה האמיתית .כדי להתקרב לתשובה תקפה לשאלה מה הסיבה להתנהגות מסוימת חוקרים חייבים לנקוט באמצעים אחרים ,כולל מערכי מחקר מתאימים (כפי שנראה בפרק .(10 דוגמה אחרת לשאלות שעליהן אנו עלולים לקבל תשובות לא תקפות הן שאלות היפותטיות ושאלות לגבי התנהגות עתידית .חוקרים צריכים להתייחס לתשובות לשאלות היפותטיות במשנה זהירות .מדריך נוער המוטרד מהעובדה שבני הנוער ביישוב לא פוקדים את מועדון הנוער המציע להם מגוון פעולות חברתיות ,ומבקש לדעת מה חסר להם ,ישאל שאלות כגון מה אתה חושב על הפעילויות שמציע מועדון הנוער ,אלו פעילויות חסרות לך ,אם נציע את הפעילויות האלה האם תגיע למועדון? בעוד שעל שתי השאלות הראשונות השואל עשוי לקבל תשובות תקפות ,המדריך צריך להיזהר מלהסתמך על התשובות לשאלה ההיפותטית 'מה תעשה אם .'... במקרה כזה גם הנשאל לא יודע באמת מה יעשה בעתיד. ^^##383ניסוח שאלות לדרך ניסוח השאלות בראיון ובשאלון עשויה להיות השפעה רבה על הסיכוי לקבל תשובות תקפות ומהימנות ויש להשקיע בכך מחשבה .נציג כאן קשיים אופייניים אחדים לשאלונים .נקדים ונאמר ששיקול מרכזי באשר לחשיבותם של קשיים אלו היא ההתייחסות לקהל היעד של השאלון .ראוי שכל שאלון יימנע מכשלים בניסוח ,אך יש לנקוט זהירות מופלגת בניסוח שאלונים המיועדים לקהלים אחרים שאינם אנשי מקצוע או בעלי השכלה רחבה ,קהלים ששליטתם בשפה מוגבלת והניסיון שלהם במילוי שאלונים מצומצם .מניסיוננו עולה כי במקרים רבים מנסח השאלונים עושה זאת בשפה ובניסוח הקרובים אליו וליכולותיו ולא לקהל היעד של השאלון .יתרה מכך ,פעמים רבות ניתן לראות שתהליך הבדיקה נעשה בקרב
עמיתים של מכין השאלון ,הדומים לו במאפיינים רבים ,והשונים במידה משמעותית מקהל היעד .תהליך בדיקה מעין זה אינו מהווה מבחן יעיל לטיב המדידה .חשוב לכן, לנסות את השאלון בקרב קהל היעד הרלוונטי ובדרך ההעברה המתוכננת .אין דין ראיון פנים אל פנים שבו ניתן לשאול שאלות הבהרה ,לשאלון המוגש דרך המרשתת. ההבדלים הרבים בין מי שמכינים את השאלון למי שמשיבים עליו ,הם אחת הסיבות לכך שחיוני לערוך בדיקות מקדימות ו'מחקרי חלוץ' (.)pilot studies לדוגמה ,הייתי חלק מצוות מכובד של אנשי מקצוע וחוקרים מיומנים שהתכנס כדי להכין שאלון על תגובתם של תלמידים לאירועים ביטחוניים .אנשי הצוות הם בעלי ניסיון של עשרות שנים בהכנת שאלונים לילדים יהודים וערבים בגילים שונים ולכן הוקדש זמן ניכר להבהרת הביטוי אירוע ביטחוני .בסיום התהליך הוחלט על דרך מסוימת שבה תוצג לתלמידים מה הכוונה בביטוי 'אירועים ביטחוניים' ,כולל דוגמאות: \"אזרחי ישראל נחשפים מזה שנים לאירועים ביטחוניים כדוגמת :פיגועי דקירה, פיגועי דריסה ,ירי טילים ופצצות ,מטעני חבלה ,לחימה ועוד .חשוב על אירועים ביטחוניים כגון אלו ,אשר התרחשו במהלך השנה האחרונה\" .חברי הצוות חשבו שהם הבהירו את הביטוי היטב. בתהליך של מחקר חלוץ שנועד לבדוק את השאלון בקרב תלמידים בגילים שונים ,נמצא ששיעור ניכר מהתלמידים לא הבין את הביטוי בדרך שאליה התכוון צוות המחקר .חלק מהתלמידים שאלו האם אירועים כמו תאונת דרכים ,פטירת קרוב משפחה ופריצה לבית הם אירועים ביטחוניים .כמובן ששאלות אלו מרמזות לכך שהשאלות על אירועים ביטחוניים לא היו ברורות דיין .יתרה מזו ,לחוקרים כלל לא ברור שתלמידים אחרים שדיווחו על תגובותיהם לאירועים ביטחוניים אומנם התייחסו למה שהחוקרים ניסו לבדוק ,או שאולי ,חשבו על אירועים אחרים שפגעו בביטחונם האישי .ברור שלאחר תגובות מעין אלו במחקר חלוץ ,יש לבחון מחדש את ניסוח השאלות כך שיהין ברורות יותר לקהל היעד. בהמשך נציג דוגמאות לקשיים בניסוח שאלות. שאלות ארוכות מדי ושאלות קצרות מדי ככלל ,ההמלצה היא לנסח שאלות קצרות .ככל שהשאלות מכילות יותר ממשפט אחד ,יש סיכוי רב יותר שהמרואיין יתבלבל .עם זאת ,גם שאלות קצרות מדי עלולות להיות בלתי ברורות .שאלה כגון 'היכן אתה גר?' היא שאלה מבלבלת ויכולות להיות לה תשובות אפשריות אחדות :כתובת? בעיר או במושב? בבית ההורים? לבד? עם שותפים? וכדומה. שאלות מנחות לעיתים ניתן לראות שאלונים שנוסחו על ידי גורם בעל עניין המנסה להביא את הנשאלים להגיב בדרך מסוימת כדי לקדם את מטרותיו .שאלונים של תנועות פוליטיות ,חברות מסחריות או ארגונים מקצועיים המנסים להוכיח שהציבור מסכים עם עמדתם .חברי ארגונים מסוימים מציגים לעיתים שאלות המשפיעות על הנשאל להגיב בדרך מסוימת .בשדה הפוליטי שאלות הכוללות ביטויים כמו 'כיבוש'' ,שחרור', 'ציוני'' ,כפייה דתית' ,עלולות לעורר תגובות רגשיות המשפיעות על כיוון התשובה, כפי שציפה השואל שניסח את השאלה .במקרים אחרים ,הצגת אפשרויות מוטות
בלבד ,מכוונת את התשובה' .בשנים האחרונות יש תלונות רבות על אלימות נגד מורים .כמורה ,עד כמה גם אתה חווית אלימות שהופנתה כלפייך על ידי תלמידים ומורים' .אומנם המורה יכול לצאת נגד הזרם של 'תלונות רבות' ,אך האפשרויות להטיית התשובה כבר קיימת. נדגיש ,לא תמיד החוקר מתכוון לנסח שאלה בצורה מנחה ,ובכל זאת ,ייתכן שחדרה לשאלה הנחייה סמויה בלתי מכוונת שנקלטת על ידי הנשאל .חשוב לכן לבדוק כיצד הנשאלים קולטים את השאלה ומגיבים אליה ,ולא להסתפק בהערכה בלבד של החוקר לגבי מה הנשאל יבין מהשאלה. מילים קשות להבנה חוקרים צריכים להקפיד ולהשתמש בביטויים מוכרים לנבדקים .לעיתים חוקרים משתמשים בהיסח הדעת במילים הלקוחות מהשיח המקצועי שלהם והם אינם ערים לכך שהנשאלים אינם מכירים מילים אלו או שהם מבינים אותן באופן שונה .למשל, מילים כמו אוטונומיה ,התקשרות ,הורות אוטוריטטיבית ודומות להן עשויות להישמע מוכרות ומובנות לחלק מהנשאלים אך זרות לאחרים .דוגמה אחרת הם קיצורים וראשי תיבות המוכרים לחוקר ,אך לעיתים אינם מוכרים לנשאלים ולכן מומלץ לכתוב את המילים במלואן .כך לדוגמה ,לא כולם יודעים מהו המל\"ל (המועצה לביטחון לאומי) או מלכ\"ר (מוסד ללא כוונת רווח). משפטים מפותלים ומורכבים מומלץ להשתמש במשפטים קצרים וברורים ולא במשפטים ארוכים ומפותלים אשר לעיתים קשה לעקוב אחר כוונת החוקר .רצוי להימנע ממשפטים מסוג זה\" :עד כמה האווירה בפגישות צוות היא משוחררת? הכוונה היא לאווירה המאפשרת ביטוי חופשי של דעות ,אך לא בהכרח אווירה שבה כל אחד יכול לדבר על נושאים שאינם במרכז הדיון?\" שאלות כפולות יש להימנע מניסוח שאלות המכילות בתוכן יותר משאלה אחת .שאלות כאלה מקשות על הנשאל ,ולא ברור מהתשובה לאיזו שאלה ענה הנבדק .כששואלים מטופל 'עד כמה המטפלת שלך הקשיבה לך ברצינות והבינה אותך' אנו עלולים להעמיד נשאל במצב בעייתי אם המטפלת אומנם הקשיבה ברצינות אך לא הבינה אותו .התשובה 'במידה רבה' עשויה לענות על השאלה האם 'הקשיבה' ,לשאלה האם 'הבינה' או לשתיהן. כפל שלילה לעיתים החוקר מציג שאלה המנוסחת על דרך השלילה' :זה לא נכון שיש שחיתות רבה ברשויות המקומיות' .לנשאל שמסכים עם קביעה זו ,קל לענות 'אני מסכים' .אולם מי שאינו מסכים עם קביעה זו עלול להתקשות לומר שאינו מסכים לכך שאין זה נכון שיש שחיתות ברשויות המקומיות .במקרים מעין אלו מומלץ שהחוקר
ינסח משפטים של הסכמה ואי הסכמה עם היגדים שליליים וייבחן אותם עם נשאלים הדומים לאלו שישתתפו במחקרו כדי להבטיח שאין להם קושי בהבנה. שאלות שהתשובות העלולות להעמיד את המשתתף באור שלילי לעיתים ראיונות ושאלונים עוסקים בנושאים רגישים העלולים לגרום למשתתף לחשוש לענות בכנות ,שמא הוא ייתפס באופן שלילי על ידי החוקרת .כך למשל ,על חוקרת העוסקת בסטיגמות שיש לקרימינולוגים קליניים על עבריינים ,להביא בחשבון שאנשי מקצוע אלו לא יהיו מוכנים 'להתוודות' על סטיגמות לגבי עבריינים ,שהרי הם יודעים שסטיגמות אלו אינן ראויות לאנשי מקצוע .כדי להתמודד עם חשש זה ,מקובל להשתמש בהקדמה לשאלון ובניסוח שאלות המכונה בלשון מקצועית 'ניסוח סולח' ( .)forgivingכך למשל ,החוקרים עושים שימוש בהקדמות לשאלות הנותנות לגיטימציה למגוון תשובות ,גם כאלה שהמשתתף עלול לחשוש לחשוף .למשל, קטניה ועמיתיה ,שידעו שמשיבים חוששים לשתף שיש להם בני זוג אינטימיים רבים, הציגו את השאלה בנוסח הבא' :יש הבדלים ניכרים במספר בני הזוג האינטימיים שיש לאנשים .יש כאלה שיש להם רק אחד או שניים ,אחרים מדווחים על שלושה או ארבעה ויש כאלה שמדווחים על מאות בני זוג אינטימיים .ולך? כמה בני זוג אינטימיים היו לך?' Catania, Binson, Canchola, Pollack, Hauck, & Coates, .)1996 בגישה זו מקובל לשדר למשתתף שהתנהגויות שנחשבות לא רצויות ,הן למעשה התנהגויות שאחרים מדווחים עליהן (' ,)'everybody does itאו שהן התנהגויות שניתן לצפות שיתרחשו במצבים קיצוניים ,כגון 'למרות שאני מנסה להימנע מכך ,לפעמים אני' '...יש פעמים שבהן ,'...או שהן לא משקפות את התנהגותו בדרך כלל ,אך בכל זאת מתרחשות .לדוגמה ,צ'רלס ובנטלי ((Charles & Bentley, 2018החליטו להימנע מהפריט 'אני בדרך כלל חושב על הפונים שלי במושגים של האבחנה שלהם ולא בשמם ',ובחרו לנסח' :בעבר ,היו מצבים שבהם חשבתי על פונים לפי האבחנה שלהם ,ולא בשמם'. חוקרים אחרים בחנו את השפעתה של הקדמה לשאלון שנעשתה ברוח של ניסוח סולח ,על הנכונות של משיבים 'להודות' בהתנהגויות הנחשבות לא ראויות ( .)Peter & Valkenburg, 2011במחקר שערכו בקרב מתבגרים על שימוש בחומרים פורנוגרפיים הם שילבו בהקדמה למחצית מהנשאלים את המשפט הפותח: 'חלק מהאנשים משתמשים בחומרים פורנוגרפיים לעיתים קרובות ,אחרים באופן פחות תכוף ויש מי שאינם משתמשים כלל' .בהשוואה בין התשובות של הנשאלים שקיבלו נוסח זה של ההקדמה לאחרים לא נמצאו הבדלים .אולם ,בבדיקה נוספת נמצא שנשאלים שלהם היה צורך גדול יותר ברצייה חברתית וכן מתבגרים צעירים, הושפעו מההקדמה הזו ונתנו מידע רב יותר על שימוש בחומרים פורנוגרפיים בהשוואה לעמיתיהם. ^^##384סולם התשובה כשאנו מציגים שאלות סגורות ,אנו מציגים בפני הנשאל אפשרויות אחדות לתשובה .נבחין בין מצבים שבהם הנשאל יכול לבחור ביותר מאשר אפשרות אחת. למשל ,אם נשאל על הסיבות לבחירה במקום מגורים מסוים ,נוכל להציג בפני הנשאל
שורה של סיבות אפשרויות ,והנשאל יוכל לבחור את כל אותן הסיבות שרלוונטיות לגביו .חשוב להציג בפני הנשאל שאפשר לבחור ביותר מאפשרות אחת .במתן האפשרויות השונות לתשובה עלינו להבטיח שמיצינו את כל אפשרויות התשובה, ובמקרה הנוכחי עלינו להבטיח שמוצגות כל הסיבות האפשריות לבחירה במקום מגורים מסוים .כדי למנוע מצב שבו נשאל אינו מוצא את האפשרות שבה היה רוצה לבחור מקובל להוסיף קטגוריה של 'אחר' ,כדי להבטיח שכל הנשאלים יוכלו לענות. לדוגמה ,שאלנו הורים על הסיבות לכך שהם מממנים שיעורים פרטיים לילדיהם, הצגנו בפניהם את אפשרויות התשובה ואמרנו להם 'ניתן לבחור ביותר מאפשרות אחת': א .אי שביעות רצון מהשיעורים בבית הספר ב .תמיכה בילד בגלל פער לימודי (הילד אינו עומד בדרישות הלימודיות) ג .רצון לקדם את הילד מעבר לרמת הכיתה ד .אחר .אנא פרט___ : לצד התשובה 'אחר' ,אפשרנו להורים לציין את הסיבה ובהמשך ניתחנו את התשובות לסיבות האחרות במטרה לראות אם יש סיבה שהורים רבים ציינו ,כדי לכלול אותה בסקר הבא כאפשרות תשובה. בדוגמה הקודמת יכול היה המשיב לבחור ביותר מאפשרות תשובה אחת. לעיתים קרובות אנו מציגים שאלה שעליה אנו מבקשים מהנשאל לבחור רק אפשרות תשובה אחת .בשאלות מעין אלו ,מעבר לצורך להבטיח שהתשובות ממצות את כל האפשרויות ,עלינו להבטיח גם שהקטגוריות 'מוציאות זו את זו' .כלומר ,אנו מקפידים על כך שהנשאל יוכל לבחור באפשרות אחת בלבד ,מבלי להיתקל בקושי של שתי אפשרויות תשובה חופפות .הדוגמאות הקלות ביותר לזיהוי הן כשמציגים אפשרויות תשובה מספריות החופפות זו את זו .בדוגמה הבאה אפשרויות התשובה ממצות את כל טווח הגילים ,אך הן אינן מוציאות זו את זה ,ומי שרוצה לענות 'גיל ,'5לא יידע אם לבחור באפשרות ' '1או '.'2 בן כמה היית כשההורים שלך התגרשו? . 4 15 – 10 .3 10 – 5 .2 5 – 0 .1 +15 לעיתים ,הקושי נובע מניסוח אפשרויות תשובה כך שהמשתתף נאלץ לבחור באפשרות תשובה אחת ,על אף שייתכן שיש אפשרויות נוספות הנכונות לגביו. לדוגמה ,בשאלון בנושא הורות הוצגה השאלה הבאה: אני מרגיש שאני: .1הורה לא כל כך טוב .2אדם שיש לו מספר בעיות בלהיות הורה .3הורה ממוצע .4הורה טוב יותר מהממוצע .5הורה טוב מאוד נראה שבדוגמה זו יהיו רבים שיתקשו לבחור בין אפשרות 1לאפשרות 2או בין אפשרות 2לאפשרות .3 דרישה נוספת לסולמות תשובה היא לוודא שסדר הצגת האפשרויות הוא הגיוני. יש מצבים שבהם אין משמעות מיוחדת לסדר הצגת אפשרויות התשובה כגון,
לשאלה 'אלו עיתונים אתה קורא?' ניתן להציג את רשימת העיתונים בכל סדר שבוחרים מכיוון שלסדר אין משמעות .לעומת זאת ,יש מצבים רבים אחרים שבהם יש לאפשרויות התשובה סדר הגיוני מסוים ועלינו להקפיד עליו כדי לא לבלבל את הנשאל' .קצת מסכים' לעולם יופיע בין 'לא מסכים ו' -מסכים' ,ו'מסכים' תמיד יופיע בין 'לא מסכים' ל'מסכים מאוד'; האפשרות 'בדרך כלל' ,תופיע בין 'לעיתים נדירות' לבין 'תמיד' ,וכדומה. ^^##385בחירת סולם התשובה אחת התצורות האופייניות לסולם תשובה הוא 'סולם ליקרט' – Likert Scale (על שמו של רנסיס ליקרט ,פסיכולוג ארגוני וחברתי מארצות הברית שעשה בו שימוש בתחילת שנות השלושים של המאה הקודמת) .התצורה המקורית הייתה של הצגת עמדה מסוימת וסולם של חמש אפשרויות ,על הרצף בין כלל לא מסכים למסכים מאוד .בהמשך ,גם סולמות שיש בהם יותר קטגוריות וגם כאלו שהרצף בהם אינו בהכרח של הסכמה ,נקראו סולמות ליקרט .סולמות אלו עשויים להתייחס
למספר רב של ממדים ורצפים .בין היתר ניתן לזהות ממדים שונים שהשכיחים שבהם: שכיחות ,מספר ,כמות -כמה פעמים בחודש האחרון איים בן זוגך שייפגע בך באופן פיזי? .1אף לא פעם אחת .2פעם אחת .3פעמיים 4 - 3 .3פעמים .4חמש ויותר -כמה חברים טובים יש לך? .1אין לי חברים טובים .2חבר אחד .3שניים-שלושה .4בין ארבעה לעשרה .5 יותר מעשרה תכיפות -כל כמה זמן ילדך מתעורר בלילה? .1אף פעם או לעיתים נדירות; .2לפעמים; .3לעיתים תכופות; .4לעיתים תכופות מאוד או תמיד עוצמה -באיזו מידה אתה מקבל תמיכה מבת זוגך כשאתה עצוב? .1כלל לא .2במידה מועטה .3במידה בינונית .4במידה רבה .5במידה רבה מאוד דמיון עד כמה ההיגד הבא מתאר אותך :כשמנצלים את טוב ליבי אני מעדיף לוותר ולא להתנגד .1כלל לא דומה לי .2קצת דומה לי .3די דומה לי .4דומה לי .5דומה לי מאוד הסכמה -עד כמה אתה מסכים עם ההיגד :לאשתי ולי יש תחומי עניין משותפים רבים .1כלל לא מסכים .2לא מסכים .3קצת מסכים וקצת לא מסכים .4מסכים .5 מסכים מאוד איכות -כיצד אתה מעריך את השירות שקיבלת מהאחות במחלקה? .1טוב מאוד .2טוב .3לא כל כך טוב .4רע .5רע מאוד לעיתים ,הבחירה בסולם היא טבעית ופשוטה ,כגון במצבים שאנו מבקשים לבחון הסכמה עם עמדות .במקרים כאלה אנו יכולים להשתמש בסולם של הסכמה: כלל לא מסכים – מסכים מאד .במקרים רבים אחרים עלינו לשקול בזהירות את הסולם שבו נעשה שימוש ואת ניסוח הפריטים כך שיתאימו לסולם .למשל ,בשאלון על שביעות רצון של לקוח מהשירות שקיבל ,אנו יכולים להציג שורה של היגדים כגון, 'אני שבע רצון מזמן התגובה לפנייה שלי לשירות' ,ולבקש מהנשאל לציין את מידת הסכמתו עם הפריט .אפשרות אחרת היא להציג ממד אחד של השירות כגון' ,משך הזמן הנדרש להגיב על קריאת שירות' ,ולבקש מהנשאל לציין עד כמה הוא שבע רצון
מממד זה (כלל לא שבע רצון – שבע רצון מאוד) .בדיקה זו עשויה לענות באופן ישיר יותר ,ובמקרים רבים אף רגיש יותר ,על מהי שביעות הרצון מהיבטים שונים של השירות. נציין עוד כי סוגיות רבות נוספות עולות באשר למאפיינים של סולם התשובה המתאים (כגון מספר אפשרויות התשובה) .נקדים ונאמר שעיון בספרות המחקרית הרלוונטית מעלה שהדיון בחלק מסוגיות אלו מורכב וקשה למצוא הסכמה וכללים חד משמעיים התקפים לכל המקרים .ננסה להציג חלק מהשיקולים בעת בחירת המאפיינים של הסולם המוצג לנשאלים. ^^##386מספר אפשרויות התשובה ראשית ,נזהה את המתח בין רגישות למהימנות .יש יתרון לסולם שבו יש יותר אפשרויות תשובה משום שהוא מאפשר רגישות רבה יותר וזיהוי דקויות והבדלים לא גדולים בין משיבים .לשאלה' ,האם אתה מתרגל פעילות גופנית של הליכה במשך שלושים דקות לפחות?' סולמות של כן-לא ושל כן-לפעמים-אף פעם ,הם רגישים פחות מהצגת טווח אפשרויות רחב יותר כגון לפחות פעם ביום; מספר פעמים בשבוע; מספר פעמים בחודש; מספר פעמים בשנה; פעם-פעמיים בשנה; אף לא פעם בשנה. אנו יכולים להציג סולם רגיש אף יותר המציג טווח רחב יותר של אפשרויות תשובה .אולם ,ככל שאנו מגבירים את רגישותו של הסולם ,אנו עלולים לפגוע ביכולתו של המשיב למקם את עצמו בצורה מהימנה על סולם רגיש זה .היכולת לזכור ולומר שמדובר ב 15 -פעמים בשנה או ב 17 -פעמים אינה גבוהה .סביר שניסיון לעמוד על דקויות אלו יביא לתגובות לא עקביות שמשמעותן פגיעה במהימנות .משום כך יש לשקול מאיזה שלב הניסיון להגביר את הרגישות עלול להביא לפגיעה במהימנות ולהסתפק בסולם שאולי אינו רגיש באופן מקסימלי ,אך סביר שהוא מהימן. סוגיה נוספת העולה תכופות בעת בחירת סולם התגובה היא השאלה אם לבחור בסולם שבו יש מספר זוגי או אי-זוגי של קטגוריות .לדוגמה ,בסולם של הסכמה, הבחירה בין = 1-כלל לא מסכים; = 2לא מסכים; = 3קצת מסכים וקצת לא מסכים; = 4מסכים ו = 5-מסכים מאוד ,לבין הסולם = 1 :כלל לא מסכים; = 2לא מסכים; =3 מסכים ו = 4-מסכים מאוד .יש החוששים שסולם בעל חמש קטגוריות יקל מדי על נשאלים לבחור בקטגוריה האמצעית ,שאינה מתחייבת לכיוון התשובה ,ולכן מעדיפים סולם שבו מספר זוגי של קטגוריות כדי לחייב את הנשאל לעשות מאמץ ולבחור 'צד'. לעומתם ,יש המעדיפים לאפשר למשתתפים ,שאינם בטוחים בעמדתם ,או שאין להם עמדה נחרצת לכאן או לכאן ,לבחור בקטגוריה האמצעית המשקפת בצורה התקפה ביותר את עמדתם .יש הטוענים שבמקרים שבהם סביר שלכל אדם יש עמדה בנושא מסוים ,מן הראוי לבחור בסולם עם מספר זוגי של קטגוריות ,ובמקרים אחרים, לעשות שימוש במספר אי-זוגי .כאמור ,הספרות בנושא זה אינה חד משמעית ,ומשום
כך אין אנו מציגים כאן המלצה חד משמעית .נציין עם זאת ,שניתן לראות שיש שימוש רב במיוחד בסולם בן חמש קטגוריות. הצגה גרפית של האפשרויות לעתים חוקרים מציגים סולמות תשובה המיועדים לילדים צעירים ,שחלקם מתקשה בקריאה ,או כלל אינו יודע לקרוא .במקרים מעין אלו מקובל להקריא את השאלות לילדים ולהציג את סולמות התשובה באופן גרפי .לדוגמה ,החוקר מקריא בקול רם את ההוראות הבאות\" :עד כמה אתה מרגיש שמח? אם אתה בכלל לא שמח ,הקף בעיגול את הקופסה הריקה ,אם אתה קצת שמח הקף את הקופסה שקצת מלאה ואם אתה שמח הקף בעיגול את הקופסה המלאה בשמחה\". איור 8.1 דוגמה לסולם גרפי של קופסה המתאים לילדים צעירים ודוגמה נוספת\" :עד כמה אתה מרוצה מהמשחקים שיש בגן שלך?\" איור 8.2 דוגמה לסולם גרפי עם רגשונים המתאים לילדים צעירים דיפרנציאל סמנטי בנוסף לסולם ליקרט המקובל במחקרים רבים ,יש העושים שימוש בסולם הנקרא – דיפרנציאל סמנטי ( .)differential semanticסולם זה הוצע על ידי צ'רלס אוסגוד ( )Charles Osgoodוהוא נועד למדוד משמעות וקונוטציות של מושגים ומצבים שונים .הסולם מורכב משני עוגנים שהם שמות תואר מנוגדים (יפה-מכוער; חזק-חלש) ,שביניהם שבעה עוגנים .הנשאל מתבקש לסמן את תשובתו על הרצף בין שני העוגנים .במקור ,העוגנים הופיעו בלי מספרים אלא רק שני העוגנים מוצגים וביניהם נקודות המסמלות את אפשרויות התגובה .אולם ,במחקרים שונים מופיעות תצורות שונות של הסולם הזה ,ושלוש מהן מופיעות כאן :באחת אין שימוש בקטגוריות מספריות ,בשנייה יש קטגוריות מספריות המשקפות את המקום על הרצף
שבין הקטגוריות המנוגדות כשנקודת האמצע מסומנת כ 0 -ובאפשרות השלישית מוצגות קטגוריות מספריות .7 – 1 לוח 8.1 דוגמה לסולם של דיפרנציאל סמנטי לדוגמה ,במחקר שנערך בקרב זוגות שנפרדו או התגרשו ,רצו החוקרים לבחון את החוויות של הנשאלים על הורות משותפת לאחר פרידה .הם הציגו בפני הנשאלים 11פריטים שכל אחד מהם הכיל שני שמות תואר מנוגדים ושבעה עוגנים שהפרידו בין כל זוג של שמות תואר .בין הפריטים :נעים-לא נעים; מתוח-שליו; הוגן- לא הוגן; רע-טוב; קשה-קל. אחד היתרונות של השימוש בסוג סולם זה הוא העובדה שבמחקרים רבים ושונים נמצא שסדרה של פריטים המוצגים בדרך של דיפרנציאל סמנטי ,מתייחסים באופן עקבי לשלושה ממדים :הערכה (טוב-רע) ,עוצמה-פוטנטיות (חזק-חלש) וקצב פעילות (איטי-מהיר) ) .(Evaluation, Potency, and Activity -EPAחוקרים בתחומים שונים משתמשים בסולמות דיפרנציאל סמנטי כאשר ממדים אלו רלוונטיים לעולם התוכן שבו הם עוסקים .כך למשל ,נמצא ששלושה ממדים אלו נמצאו במחקר שנערך בקרב 249ילדים בגרמניה שבעזרת סולם דיפרנציאל סמנטי שהכיל 12 צמדים של שמות תואר (כגון 'טוב -לא טוב'' ,ידידותי – לא ידידותי'' ,כבד – קל') נתנו ציונים לכל אחד מ 72 -שמות עצם ( .)Skrandies, 2011מהממצאים עלה כי שלושת המרכיבים של ה EPAהופיעו כגורמים המסבירים את מבנה הציונים שהתקבלו מהדיפרנציאל הסמנטי ,במספר שכבות גיל ובעבור בנים ובנות .מהממצאים עלו גם הבדלים בהערכות שמות העצם לפי גיל ומין .כך למשל ,נמצא שבממד ההערכה ( )evaluationההערכות של בנות למספר מילים וביניהן 'תינוק'' ,אהבה' ו' -נוצה' היו חיוביות יותר מאשר של בנים .החוקר בחן בהמשך פעילות מוחית של ילדים כשצפו במילים מסוימות שנבחרו על בסיס המיפוי שנערך באמצעות הדיפרנציאל הסמנטי, והראה שיש קשר בין המיקום של מילה על שלושת הממדים של הערכה ,פוטנטיות וקצב ,לבין התגובה המוחית להופעת המילה על צג מחשב שבו צפו הילדים (.)Skrandies, 2014 שימוש בדירוג לעיתים חוקרים מבקשים לעמוד על סדר העדיפויות של משתתפים בנושא מסוים או לעמוד על החשיבות היחסית שהם נותנים לממדים שונים .למשל ,אלו מאפיינים של מקום עבודה חשובים בעיניהם יותר :שכר ,יציבות במקום העבודה, סיכוי להתקדמות ,חופש פעולה וכדומה .ובדוגמה אחרת ,אלו מאפיינים של מועמד לראשות ממשלה חשובים יותר או חשובים פחות בעיניהם :יושרה ,יכולת ביטוי, אינטליגנציה ,מחויבות לערכים ,עמדה פוליטית ,וכדומה .במקרים כאלה יש חוקרים המבקשים מהמשתתפים לדרג את אפשרויות התשובה ,לפי מידת החשיבות שהם
מייחסים לאפשרות זו .דירוג זה יכול לתת מידע חשוב על סדרי העדיפויות של המשתתפים ,מידע שלא ניתן לקבל באופן ישיר אם המשתתפים היו מתבקשים לתת הערכה נפרדת על כל אחת מהאפשרויות (בנוסח 'עד כמה חשוב לך שלמועמד תהייה יושרה אישית או עד כמה חשוב לך שלמועמד תהייה יכולת ביטוי ,וכך הלאה). למרות היתרון שיש בדירוג האפשרויות על ידי המשתתף ,חוקרים מספר מצביעים על כך שתהליך הדירוג דורש מאמץ קוגניטיבי משמעותי ,העלול להביא לכך שפעולת הדירוג לא תניב ממצאים תקפים .מאמץ זה גדל ככל שהמשתתפים מתבקשים לדרג מספר גדול יותר של אפשרויות .כמו כן ,יש עדויות לכך שמשתתפים ,ובעיקר משתתפים בעלי השכלה לא גבוהה ,מתקשים במשימה ופועלים בדרכים שונות לצמצם את המאמץ הקוגניטיבי הכרוך בדירוג ,ודרכים אלו גורמות לכך שהתשובות אינן תקפות (.)Smyth, Olsen, & Burke, 2018 גם ניסיוני מצביע על כך שמשתתפים הביעו תרעומת כשהתבקשו לדרג לפי סדר עדיפויות יותר משלוש אפשרויות תגובה .מצאתי שכאשר אני מציע מספר ניכר של אפשרויות ואז מבקש מהמשתתף לבחור מתוך הרשימה שתיים-שלוש אפשרויות כחשובות ביותר ,מבלי לבקש לדרג ביניהן לפי סדר החשיבות ,אני מקבל תשובות שניתן לעשות בהם שימוש ,על ידי כך שניתן לזהות אלו פריטים נבחרו על ידי מספר רב של נשאלים כחשובים ביותר .ככלל ,מומלץ להימנע מלבקש מהמשתתפים לדרג את תשובותיהם ,ואם יש סיבה טובה במיוחד לעשות זאת ,מומלץ להקטין את המאמץ הקוגניטיבי הנדרש ,על ידי הפחתת הדרישות מהמשתתף באשר למספר הדירוגים המתבקש. ^^##390יצירת מדד באמצעות סידרת פריטים במחקרים רבים ,ההגדרה התפעולית של מושג מופשט היא מדד המבוסס על תשובות של הנשאל על סדרה של פריטים .למשל ,שאלונים הבוחנים דיכאון ,שביעות רצון מהחיים ,תחרותיות ,סגנון הורות ,דחק ודומיהם ,מתבססים על הצגת סדרת פריטים והמדד מבוסס על התשובות לפריטים אלו .ברוב השאלונים שנועדו ליצור מדד מופיעה סדרה של פריטים ולצידם סולם תשובה .בדרך כלל ,הסולם זהה לכל הפריטים ,אם כי יש מדדים מורכבים יותר שבהם לצד חלק מהפריטים מופיע סולם אחר מאשר לצד שאר הפריטים .לדוגמה ,בשאלון דחק הורי ( )Abidin, 1983יש 33
פריטים ולצידם הסולם = 1מסכים מאוד = 5 -כלל לא מסכים ,כגון שאלות המופיעות בלוח .8.2 לוח 8.2 דוגמאות לשאלות בשאלון עם סולם ליקרט לא כלל לא מסכים מסכים לא בטוח מסכים מסכים מאד ילדי בדרך כלל מתעורר במצב רוח 5 4 3 2 1 רע אני מרגיש שילדי נתון מאוד למצבי 5 4 3 2 1 רוח ומתעצב בקלות 54321 ילדי עושה מספר דברים שמטרידים אותי מאוד ילדי מגיב בעוצמה רבה כשקורה 5 4 3 2 1 משהו שאינו אוהב ילדי מתרגז בקלות מהדברים הכי 5 4 3 2 1 פעוטים ועוד שלוש שאלות שלהן סולם אחר ,ולדוגמה: אני מרגיש שאני: .1הורה לא כל כך טוב .2אדם שיש לו מספר בעיות בלהיות הורה .3הורה ממוצע .4הורה טוב יותר מהממוצע .5הורה טוב מאוד ^^##391ניסוח הפריטים במדד -אפקט ההילה (()Halo effect בניסוח הפריטים במדד עלינו להקפיד על אותם השיקולים בניסוח שאלות כפי שהצגנו למעלה .בנוסף עלינו להביא בחשבון שיקולים נוספים ,הרלוונטיים במיוחד בעיצוב מדדים .אחד החששות לתוקף שעלינו להתמודד אתם הוא מפני 'אפקט ההילה' ( .)Halo effectהספרות מצביעה על כך שיש נטייה להטיה קוגניטיבית לפיה ,אם אנו מעריכים אדם באופן חיובי במאפיין אחד ,אנו נוטים להעריך אותו באופן חיובי גם במאפיינים אחרים ,ולהיפך .עבורנו כחוקרים זו פגיעה בתוקף המדד, שהרי נשאלים עשויים להעריך פריט מסוים באופן חיובי ופריט אחר באופן חיובי
פחות ,אך אפקט ההילה עלול לפגום בהתייחסות הפרטנית שלנו לכל אחד מהפריטים השונים במדד. עקב חשש זה יש חוקרים רבים הכוללים במדד פריטים ב'כיוונים מנוגדים'. למשל ,שאלון הדימוי העצמי של רוזנברג מכיל פרטים בכיוונים מנוגדים. לוח 8.3 הדגמה של פריטים בשאלון בכיוונים מנוגדים מאוד לא לא מסכים מסכים מסכים מסכים מאוד 4321 .1בסך הכול אני מרוצה מעצמי .2לפעמים אני חושב שאינני שווה 4 3 2 1 דבר .3אני חושב שיש לי מספר תכונות 4 3 2 1 חיוביות .4אני מסוגל לעשות דברים באותה 4 3 2 1 מידת הצלחה כמו רוב האנשים 4321 .5לעיתים אני מרגיש שאני חסר ערך לחלוטין כפי שניתן לראות בדוגמה זו ,נשאל בעל דימוי עצמי גבוה במיוחד יבחר ערכים גבוהים בשאלות ,3 ,1ו ,5-וערכים נמוכים בשאלות 2ו .4-המטרה בהכללת שאלות בכיוונים מנוגדים היא כדי שהנשאל לא 'יבין את הרעיון' אחרי קריאת מספר פריטים מצומצם דבר שיגרום לו ,עקב אפקט ההילה ,לענות על הפריטים האחרים באותו הכיוון ,מבלי להתייחס באופן ספציפי (ואולי שונה) לכל אחד מהפריטים .נשאל שמזהה שהוא אינו יכול לענות לכל השאלות באותה הדרך ,ייטה יותר ,כך מקווה החוקר ,לקרוא כל פריט ולשקול אותו לגופו. נציין ,שלא כל החוקרים מסכימים שיש לחשוש מאפקט ההילה (ראו למשל, )Murphy, Jako, & Anhalt, 1993ולכן יש חוקרים הבונים מדדים המבוססים על סדרה של פריטים בכיוון מסוים .למשל ,בשאלון ,Beck Depression Inventory מוצגים לנשאל 21פריטים שכיוונם זהה :משפט המציין מצב חיובי מקבל את הערך ' ( 0אני יכול לישון כרגיל') ומשפטים המתארים תופעות של דיכאון מוצגים באופן מסלים ,כך שמשפט המקבל את הערך 1מצביע על תופעה חזקה פחות של דיכאון (איני ישן כל כך טוב כמו שישנתי בעבר') מאשר פריט שמקבל את הערך '( 2אני מתעורר שעה או שעתיים מוקדם יותר מהרגיל ומתקשה להירדם') ,ובכל הפריטים המשפט שמקבל את הערך 3מתאר את התופעה הקשה ביותר ('אני מתעורר מספר שעות לפני השעה הרגילה ואיני יכול להירדם שוב') .יתרון בולט בדרך זו של בניית
מדד כשכל הפריטים באותו הכיוון היא הקלות שבה המשיבים מבינים כיצד לענות, ובדרך כלל נמנעת כאן גם הבעיה של כפל השלילה. דרך אחרת להתמודד עם אפקט ההילה היא לערב בין פריטים השייכים לממדים שונים .במחקרים רבים נבחנים ממדים שונים של אותה תופעה .לדוגמה ,מחקר הבוחן שחיקה מודד מספר ממדים של שחיקה :תשישות רגשית ,גישה צינית כלפי עמיתים ולקוחות וירידה בתחושת היעילות האישית .בניסיון למנוע אפקט הילה, חוקרים עשויים לערב את הפריטים השייכים לממדים השונים ,כך שהמשתתפים לא יחושו שהם נשאלים אותה שאלה בדרכים שונות ולכן יתייחסו לכל אחת מהשאלות לגופה .אולם ,יש גם חשש אמיתי ,שלפחות חלק מהנשאלים יתקשו להבין את הסיבה שהם נשאלים שאלות בתחומים שונים זה מזה ללא סדר הגיוני ,והשאלון שבו הפריטים מעורבבים יגרום להם קושי לענות .הניסיון שנצבר בעבודה עם ילדים למשל ,הצביע על כך שהיה להם קשה לענות על שאלון שבו הוצגו פריטים שייצגו ממדים שונים של אקלים בית ספרי ללא סדר הגיוני .כחוקר ,אני מעדיף שאלונים שבהם כל הפריטים מוצגים באותו הכיוון ופריטים השייכים לאותו עולם תוכן מופיעים ביחד .לטעמי היתרונות של הצגה בהירה עולים על החסרונות העלולים לנבוע מאפקט ההילה. ^^##392מספר הפריטים במדד יש לתת את הדעת על מספר הפריטים הנכללים במדד .ככלל ,מדד המתבסס על מספר רב יותר של פריטים הוא מהימן יותר ממדד המתבסס על מספר מצומצם יותר של פריטים (שנבחרו באותה מידה של הקפדה) .משום כך ,יש נטייה מובנת להוסיף פריטים ובכך להגביר את מהימנותו של הכלי .אולם ,כפי שרבים מגלים, כשהשאלונים ארוכים הם גורמים לחוויה מתישה ומעוררת התנגדות בקרב הנשאלים. על החוקר להביא בחשבון שמול התרומה להגברת המהימנות כאשר המדד מבוסס על מספר פריטים רב יותר ,עומד המחיר של נשאלים המאבדים סבלנות ועניין והעלולים לענות על השאלות רק כדי לצאת ידי חובה מבלי להתייחס באופן רציני לתוכנם .זהו מחיר של ירידה בתוקף .קושי זה בולט מיוחד כאשר חוקרים מציגים בפני נשאלים מספר שאלונים שנועדו למדוד שורה של מושגים ומשתנים .במצבים אלו ,לאורכו של כל שאלון יש משמעות במיוחד עקב ההצטברות של מספר שאלונים. ^^##393בדיקת רצינות המשתתף יש חוקרים המוסיפים לפריטים במדד גם שאלות שנועדו להעריך את מידת הרצינות של המשתתף בתשובות לשאלות .דרך אחת היא להציג שאלות שתשובה חיובית עליהן מוכיחה חוסר תשומת לב וזלזול בשאלון .לדוגמה ,בשאלון לתלמידים בבית ספר יסודי ,החוקר שילב את הפריט' :השנה יצאנו לעשרה טיולים שנתיים'. תלמיד שמסכים עם פריט זה 'חשוד' בכך שהוא אינו מתייחס ברצינות לשאלון. בדוגמה אחרת ,חוקרים ששאלו על שימוש בסמים ,הציגו לנשאלים סדרה של סמים אסורים ולגבי כל אחד שאלו האם השתמשו בסם זה .בין שמות הסמים שהוסיפו החוקרים הופיע שם של סם שאינו קיים .הדבר נעשה רק כדי לראות אם יש נשאלים שיענו שהם צרכו סם זה ,עדות לכך שהאמינות שלהם נמוכה .יש חוקרים ששואלים בסוף השאלון שאלה ישירה או עקיפה עד כמה התשובות לשאלון היו רציניות. לדוגמה – על איזה חלק מהשאלות בשאלות ענית ברצינות ובצורה כנה? .1על כולן
.2על רובן הגדול .3על חלק קטן מהשאלות .אחרים שואלים שאלה עקיפה – 'לדעתך ,איזה אחוז מהנשאלים ענה לשאלון זה ברצינות ובכנות?' החוקרים מנסים בעזרת שאלות אלו לזהות נשאלים שמן הראוי להתעלם מתשובותיהם. ^^##394חישוב ציון למדד על סמך הפריטים כשחוקרים מציגים מספר פריטים שנועדו למדוד מושג ומשתנה ,עליהם לציין כיצד עוברים מהתשובות שניתנו לפריטים בודדים לציון אחד .אחת הדרכים המקובלות היא לחשב את ממוצע הפריטים המופיעים במדד (לאחר שכל הפריטים קודדו לאותו הכיוון) .דרך דומה היא לסכם את סך הציונים המופיעים בפריטים. מבחינה מתמטית סכום או ממוצע הם שקולים ,אך במקרה שהמשיב לא ענה על כל הפריטים ,הסכום ישפיע על הערך שהמדד יקבל ומי שיענה על פחות פריטים לא יוכל לקבל ערכים גבוהים על המדד ,בעוד שבחישוב ממוצע ,הסכום יחולק במספר הפריטים שעליהם ענה המשיב ,ומשום כך הערך שיתקבל לא יהיה מושפע ממספר הפריטים שעליהם ענה המשיב .מומלץ לכן להשתמש בממוצע .עם זאת ,לא נשתמש בממוצע במקרים שבהם מחבר הכלי החליט על סכום הפריטים כציון המדד ,ויש לשמור על דרך חישוב זו כדי שניתן יהיה להשוות למחקרים אחרים שעשו שימוש במדד זה. במקרים אחרים ,חישוב המדד על סמך הפריטים מורכב יותר .לדוגמה ,הכלי למדידת סימפטומים פוסט טראומטיים כולל 17סימפטומים הקשורים לארבעה תחומים :חודרנות וחוויה מחדש ,הימנעות ונסיגה ,שינויים שליליים בקוגניציה ובמצב הרוח ועוררות יתר .הדרך שבה מסכמים את הממצאים המתקבלים מהכלי כדי להעריך אם ניתן להגדיר את המשיב כ'פוסט טראומטי' ,היא מורכבת ומבוססת על ההגדרה של הפרעה פוסט טראומטית .הגדרת המשיב נעשית באמצעות נוסחה שבה מצוין כמה סימפטומים בכל תחום נדרשים כדי להצדיק שנשאל יזוהה כמי שסובל מפוסט טראומה :לפחות סימפטום אחד של חודרנות ,שלושה סימפטומים של הימנעות ,וגו' .לכן ,כשמשתמשים בכלי ,חשוב לוודא כיצד המחברים ממליצים להשתמש בו ומהן הדרכים שבהן חוקרים בתחום מסכמים את המדד ,כדי שיהיה ניתן להשוות למחקרים אחרים. ^^##395המשמעות של 'נורמה' בחלק מהכלים יש משמעות למושג של נורמה .כפי שמוכר לרבים מאתנו ,בכל תחנה לטיפול באם ובילד ('טיפת חלב') יש לוחות המציגים התפלגויות של גובה ומשקל של ילדים בכל גיל באוכלוסייה .לאחר שקילת התינוק ומדידת גובהו ,ניתן לזהות עד כמה נתונים אלו דומים או שונים ביחס לאוכלוסייה .בדרך כלל מבטאים את ההשוואה הזו על ידי ציון ה'אחוזון' שבו נמצא התינוק :איזה אחוז מהילדים באוכלוסייה היו מעל או מתחת משקל זה בגיל דומה. דוגמה אחרת לנורמות ניתן למצוא בכלים שונים הבוחנים בעיות התנהגות של ילדים כגון דיכאון .לדוגמה ,המדד Child Behavior Checklist (CBCL), ( )Achenbach & Ruffle, 2000מיועד לילדים בגילים 18 – 6מכיל 118פריטים שכל אחד מהם מציג התנהגות מסוימת ('נעלב בקלות' או דומה) השייכת לממד התנהגותי מסוים (במקרה זה ,בעיות בהתנהגות מופנמת) .על בסיס מחקרים רבים,
יש כיום לוחות המראים את התפלגות מספר הבעיות בכל אחד מהתחומים ,בקרב אוכלוסיית הילדים בכל אחד מהגילים הרלוונטיים .חוקר ,או איש מקצוע ,שחישבו ציון של בעיות ההתנהגות של הילד באמצעות הכלי ,יכולים לבחון ציון זה מול הלוחות ולזהות אם הילד נמצא בטווח המקובל בקרב ילדים שאינם ידועים כילדים עם בעיות התנהגות ,או אולי ימצאו שהילד נמצא במקום קיצוני בהתפלגות ,קרי ,יש מעט ילדים שיש להם בעיות התנהגות רבות כמו לילד זה .אנו משתמשים בדרך כלל בביטוי: הילד נמצא ב'טווח הקליני' ,כלומר הציון שקיבל הוא מעבר ל'קו החתך' ( cutoff ,)pointהמפריד בין ילדים הנחשבים כדומים לנורמה ובין ילדים הנחשבים כבעלי בעיות התנהגות מעבר לנורמה. יש להבחין בין כלים שנעשה מאמץ מחקרי משמעותי כדי לקבוע את 'הנורמות' עבורם ,כגון כלי ה CBCL -ובין כלים שלגביהם לא נעשתה עבודה כזו .במקרים אלו יש לנקוט זהירות רבה וכאשר משווים את הממצאים של המחקר שלנו לממצאי מחקר אחר ,חשוב להבהיר שאין המדובר בנורמות שנקבעו על סמך מדגמים מייצגים ,אלא בממצאים של מחקר יחיד .יש כמובן יתרון לשימוש בכלים שהנורמות שלהם נקבעו על סמך מספר רב של מדגמים מייצגים ,שהכילו מספר רב של משתתפים ,ובהם ניתנה תשומת לב לנורמות הרלוונטיות לקבוצות משתתפים שונות (כגון נורמות שונות לבנים ולבנות או לבני קבוצות גיל שונות) .כך לדוגמה ,מחקר בהולנד שמטרתו הייתה לקבוע נורמות באוכלוסייה באשר לציונים במדד דיכאון BDI- ,IIחישב בנפרד נורמות בעבור גברים ונשים ,ובתוך כל אחת מקבוצות אלו בנפרד בעבור שלוש רמות של השכלה (.)Roelofs et al., 2012 ^^##396תצפיות ראיונות ושאלונים עשויים להיות יעילים מאוד בהשגת מידע על מאפיינים שונים של המשתתפים כגון מאפייני רקע ואירועי חיים או תחושותיהם ועמדותיהם .לעיתים קרובות אנו משתמשים בכלים אלו גם כדי לאסוף מידע על התנהגויות ,ונשענים על דיווח עצמי של משתתפים על ההתנהגות שלהם או על דיווח של המשתתפים על התנהגויות של מישהו אחר (למשל בן זוג או ילד) .כפי שראינו ,יש מגוון כלים לדיווח עצמי ולרבים מהם יש תכונות פסיכומטריות מספקות .ועדיין ,פעמים רבות יש לנו עניין בגישה ישירה ככל האפשר להתנהגות ולתופעות אחרות ,מבלי שנשאלים יתווכו את הדיווח על ההתנהגות .זאת ,בין היתר משום שיש מצבים שבהם אנו חוששים שמשתתפים לא ירצו לדווח באופן אמין על התנהגותם (כמו במקרים של התנהגות הנחשבת לא ראויה) ,או משום שמשתתפים לא יכולים לדווח בצורה תקפה על ההתנהגות (למשל משום שאינם מודעים להתנהגות זו או משום שאין להם יכולת דיווח טובה כגון התנהגויות של ילדים בגיל הרך או משתתפים המוגבלים ביכולתם לדווח ,עקב בעיות שפה או זיכרון). במקרים אלו ורבים אחרים ,נשקול את השימוש בתצפית .תצפיות נערכות כדי למדוד התנהגויות וכן כדי לתאר תופעות אחרות כמו מאפיינים פיזיים של מקומות (לדוגמה עד כמה חצר בית הספר מלוכלכת ,מה רמת נגישות של בניין לכניסה של עגלות נכים ,עד כמה גן המשחקים מואר בלילה) .לתצפית יש יתרונות רבים ,משום שהיא מאפשרת במקרים רבים ,גישה ישירה לתופעות ,ללא תיווך היכול לפגוע בדיוק
Search
Read the Text Version
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
- 11
- 12
- 13
- 14
- 15
- 16
- 17
- 18
- 19
- 20
- 21
- 22
- 23
- 24
- 25
- 26
- 27
- 28
- 29
- 30
- 31
- 32
- 33
- 34
- 35
- 36
- 37
- 38
- 39
- 40
- 41
- 42
- 43
- 44
- 45
- 46
- 47
- 48
- 49
- 50
- 51
- 52
- 53
- 54
- 55
- 56
- 57
- 58
- 59
- 60
- 61
- 62
- 63
- 64
- 65
- 66
- 67
- 68
- 69
- 70
- 71
- 72
- 73
- 74
- 75
- 76
- 77
- 78
- 79
- 80
- 81
- 82
- 83
- 84
- 85
- 86
- 87
- 88
- 89
- 90
- 91
- 92
- 93
- 94
- 95
- 96
- 97
- 98
- 99
- 100
- 101
- 102
- 103
- 104
- 105
- 106
- 107
- 108
- 109
- 110
- 111
- 112
- 113
- 114
- 115
- 116
- 117
- 118
- 119
- 120
- 121
- 122
- 123
- 124
- 125
- 126
- 127
- 128
- 129
- 130
- 131
- 132
- 133
- 134
- 135
- 136
- 137
- 138
- 139
- 140
- 141
- 142
- 143
- 144
- 145
- 146
- 147
- 148
- 149
- 150
- 151
- 152
- 153
- 154
- 155
- 156
- 157
- 158
- 159
- 160
- 161
- 162
- 163
- 164
- 165
- 166
- 167
- 168
- 169
- 170
- 171
- 172
- 173
- 174
- 175
- 176
- 177
- 178
- 179
- 180
- 181
- 182
- 183
- 184
- 185
- 186
- 187
- 188
- 189
- 190
- 191
- 192
- 193
- 194
- 195
- 196
- 197
- 198
- 199
- 200
- 201
- 202
- 203
- 204
- 205
- 206
- 207
- 208
- 209
- 210
- 211
- 212
- 213
- 214
- 215
- 216
- 217
- 218
- 219
- 220
- 221
- 222
- 223
- 224
- 225
- 226
- 227
- 228
- 229
- 230
- 231
- 232
- 233
- 234
- 235
- 236
- 237
- 238
- 239
- 240
- 241
- 242
- 243
- 244
- 245
- 246
- 247
- 248
- 249
- 250
- 251
- 252
- 253
- 254
- 255
- 256
- 257
- 258
- 259
- 260
- 261
- 262
- 263
- 264
- 265
- 266
- 267
- 268
- 269
- 270
- 271
- 272
- 273
- 274
- 275
- 276
- 277
- 278
- 279
- 280
- 281
- 282
- 283
- 284
- 285
- 286
- 287
- 288
- 289
- 290
- 291
- 292
- 293
- 294
- 295
- 296
- 297
- 298
- 299
- 300
- 301
- 302
- 303
- 304
- 305
- 306
- 307
- 308
- 309
- 310
- 311
- 312
- 313
- 314
- 315
- 316
- 317
- 318
- 319
- 320
- 321
- 322
- 323
- 324
- 325
- 326
- 327
- 328
- 329
- 330
- 331
- 332
- 333
- 334
- 335
- 336
- 337
- 338
- 339
- 340
- 341
- 342
- 343
- 344
- 345
- 346
- 347
- 348
- 349
- 350
- 351
- 352
- 353
- 354
- 355
- 356
- 357
- 358