סיכומים: תורת המבחנים

שיעור 2

המשך חזרה על סטטיסטיקה.

הערות על המצגת:

מקדם המתאם מאד מושפע מהשונות. אם השונות קטנה, מקדם המתאם יהיה אפסי, ולאו דוקא כי אין קשר בין הנתונים. למשל – מעבדה באוניברסיטה שבוחנת קשר בין גיל לאלטרואיזם, והנבדקים רובם ככולם הם משנה א', כלומר בין 22-26. גם אם יש קשר כזה, אנחנו נקבל מקדם מתאם קרוב לאפס.

דוגמא נוספת: קשר בין ציון פסיכומטרי לממוצע תואר ראשון בקרב תלמידי משפטים. במבט על הפיזור, נראה שאין קשר, אבל כשמסתכלים על התמונה הגדולה (קשר בין ציוני פסיכומטרי לממוצע תואר ראשון בקרב תלמידי כל האוניברסיטה) רואים שיש קשר.

למצב בו השונות מוגבלת ופוגעת ביכולת לדעת מה הקשר בין המשתנים קוראים בתורת המבחנים קיצוץ תחום.

יש הליך סטטיסטי מורכב שמתמודד עם התופעה של קיצוץ תחום ומאפשר בכל זאת לראות את השונות.

מכפ"ל – ציון פסיכומטרי.

מצגת שניה:

הערות על המצגת:

85 – זה ציון טוב?

פסטינגר – השוואה חברתית. אנחנו לא נמדדים ביחס לעצמנו, אלא ביחס לסביבה. הציונים שלנו הם יחסיים לציונים של אחרים ולא עומדים בפני עצמנו.

יש שתי דרכים לפירוש מבחן:

1 נורמה

2 קריטריון.

נורמה – למשל, מבחן מיצ"ב, רוצים להשוות בין ילדי בכיתה, בין בתי ספר. מקבלים מדד שהוא יחסית אובייקטיבי – וזה יכול לעזור לתקשורת בין היועצת, למחנכת, למנהלת למשל. יכול לעזור גם לשים מקצועות שונים על סלם אחיד (הצלחה במתמטיקה לעומת הצלחה באנגלית).

הערה למבחן: רשימות עם אותיות קטנות – לא צריך לשנן ולדקלם אלא להבין את העקרונות המנחים.

בניית נורמה:

הגדרת טווח טעות – יש טרייד אוף עם כמות הנבדקים ולכן גם המחיר והמאמץ.

גם כשמתעניינים בסטטיסטי אחד תמיד מסתכלים קודם על ההתפלגות כולה, כי זה חשוב כדי לעלות, למשל, על טעויות בדגימה.

הנורמה שנוצרת מדגימה משמשת להשוואה של כל מיני פרטים מהאוכלוסיה, גם כאלה שאינם מהדגימה. בניית נורמה היא יקרה ולכן עושים את זה מעט. לפעמים משתמשים בנורמה שנאספה בזמן או מקום רחוק, ואז יש בעיות התאמה.

דיווח ציוני מבחן:

אחוזונים

אחוזונים = מאונים = פרצנטילות. מה אחוז הנבחנים שקיבלו פחות ממני?

דוגמא – מבחן שהציונים בו נעים מאפס עד שלושים.

ציון גלם – מספר התשובות הנכונות בבחינה.

שכיחות – מספר האנשים שקיבלו את הציון.

חישוב – הוספת חצי מהאנשים בקטגוריה שלי היא אומדן למקום שלי בתוך הקטגוריה.

יתרון – קל להבנה. הנבחן, אמא של הילד, סבתא של מי שקיבל 700 בפסיכומטרי, כולם מבינים את המשמעות.

חסרון – זו טרנספורמציה לא לינארית, ומאבדים את המשמעות.

בהתפלגות נורמלית רגילה רב הציונים נמצאים באמצע. בין ציון 52-53 יש הרבה מאד אנשים (שיפור גדול באחוזונים, אשליה של שיפו ביכולת), אך בין 10-11 יש מעט (שיפור קטן באחוזונים, למרות שמבחינת יכולת יכול להיות שזה מאד משמעותי). לכן שיפור של נקודה מקבל משמעות אחרת באזורים אחרחים בהתפלגות.

(את הנ"ל כדאי לזכור, יש להם נטיה לשאול על זה...)

ציוני תקן –

דרך מקבילה (מבחינת השימוש, לא המאפיינים) לאחוזונים:

בכמה ציוני תקן הציון שלי גבוה / נמוך מהממוצע?

כל התפלגות נורמלית אפשר להמיר להתפלגות נורמלית סטנדרטית (ממוצע - 0, ס"ת – 1).

טרנספורמציה לינארית על ציוני גלם (למשל – הוספת פקטור) אינה משפיעה על ציוני התקן.

יתרונות של ציוני תקן – סטנדרטיזציה, נותן את התחושה (המטעה, לעיתים) שאפשר להשוות בין נתונים שונים (ובכל זאת, אי אפשר להשוות ציון תקן של פסיכומטרי לציון במבחן בחשבון בכיתה ג'). כל עליה בציון הגלם תשתקף בעליה פרופורצינלית בציום התקן (אין boost של ציונים באזור האמצע, כמו במאונים).

חסרונות – לא מונח אינטואטיבי, קשה להעביר כך מידע לציבור שאינו מתמצא במושגים האלו.

ציוני תקן מנורמילים – מאפשר להעביר לאחוזונים (רק במקרה בו ההתפלגות המקורית היא נורמלית).

סילום - “תרגום" של ציונים מסולם לסולם (דרך ציון תקן, לאו דווקא התפלגות נורמלית).

את הסילום אפשר לעשות רק כשמדברים על אותו עולם תוכן. הוא ממיר מספרים, אך לא משמעות (שוב, הדוגמא של הפסיכומטרי והמבחן מכיתה ג', נוכל לעשות סילום עם מבחן פסיכומטרי אמריקאי וישראלי, בתנאים מסויימים).

יש רשימה של סולמות מהם כן אפשר לעבור אחד לשני באמצעות סילום.

חזרה לפירוש ציונים (עברנו על1 השוואה לנורמה)

2 השוואה לתקן-

התקן לא נקבע באופן סטטיסטי 'קשה', אלא יותר לפי שיקול הדעת, התרשמות, של המומחים בתחום. נקבע לפני ביצוע המבחן.

למשל – מבחן תיאוריה, מבחני הסמכה, חלוקה להקבצות.

קביעת נורמה -

שיפוט הולסטי – פאנל מומחים, למשל – מבחני מפמ"ר, יתאספו כמה מורים בכירים ומפקחים ויחליטו מה נחשב כל ציון.

שיפוט לפי נתונים אמפיריים – למשל- נותנים את המבחן לרופאים מומחים ומחליטים שעובר זה עד ציון תקן מתחת לממוצע, או – נותנים את המבחן לסטודנטים שנה שישית ולרופאים מומחים, ומחליטים שציון עובר הוא איפשהוא באמצע.

שיפוט לפי ביצוע נדרש בפריט – שיטת אנגוף, עוברים לפי פריט וקובעים n רמות יכולת לפי כל פריט (פריט = שאלה בבחינה) מדובר בשאלות פתוחות. יחליטו, למשל, ש0-7 זה גרוע, 8-15 בינוני, ו-16-20 מצוין. הניקוד בפריט מסויים יכול להתקזז עם ניקוד בפריט אחר. המומיחים גם מעריכים כמה פריטים צריכים להיות נכונים כדי שהבחינה תהיה טובה. (דוגמא של הערכות מומחים במצגת).

שיטות תגובה וציינון במבחנים רבי ברירה:

מבחנים אמריקאיים – אחת המגבלות הוא שהן לא מבחינות בין שום ידע לידע חלקי (למשל – מי שהתלבט בין שתי תשובות ובחר בסוף בתשובה השגויה מבין השתיים).

שיטות ציינון:

1. ציינון דיכוטומי – נכון / לא נכון.

NR – number right – תוחלת ניחוש, תחת היעדר ידע, תלויה במספר התשובות האפשריות.
תיקון עבור ניחוש – GC מקבלים קנס על כל תשובה שגויה, כך שתוחלת הציון תחת היעדר ידע (ניחוש) היא 0. (חשוב, למשל, במבחני הסמכה לרפואה). במקרה כזה עדיף להשאיר תשובה ריקה אם לא יודעים.
תיקון עבור השמטה – תוחלת מקבילה לציינון הרגיל. גישה חיובית יותר – פרס עבור השמטה (כל הכבוד לך שאתה מודה שאתה לא יודע :) ).

(התיקונים עבור השמטה / ניחוש רלוונטיים, למשל, בקרב ילדים – לבנים יש יותר נטיה לנחש, בנות לא עושות זאת, אפילו אם אומרים להן שאין להן מה להפסיד, או במבחנים מאד קשים, בהם הרבה אנשים מנחשים בהרבה שאלות, ורוצים שהמבחן יהיה פחות עניין של מזל, בגדול יש עם זה הרבה בעיות וזה מתאים במקרים מאד נקודתיים).

שקלול לפי מידת האטרקטיביות – הכוונה לתת יותר נקודות לתשובה שבחרו בה רב האנשים.

2. שיטות להתמודדות עם ידע חלקי -
שיטת האלמינציה, לפסול את התשובות שהנבחן יודע שאינן נכונות.
בחירת תת קבוצה – שיטה מקבילה – בדיוק הפוך מהאלימינציה – הנבחן מתבקש לסמן את כל מה שאפשרי בעיניו.
שקלול הסתברות – אפשר לפלג 100% לתשובות השונות.
דירוג וודאות – הנבחן מתבקש לסמן תשובה אחת ולדרג עד כמה הוא בטוח בה
דירוג מלא של אפשרויות - לדרג לפי הסדר את כל התשובות
answer until correct – קשור למבחנים ממוחשבים, יותר שיטה חינוכית.

(אני חושבת שזה מוסיף למבחן מרכיב של משחק אסטרטגיה / מבחן אישיות “עד כמה אתה פרפקציוניסט?”, “עד כמה אתה לחוץ?”, “עד כמה אתה אוהב להסתכן?”, “עד כמה אתה בעל נטיות אובדניות?”).

ענת בן סימון בחנה את המבחנים האלה בדוקטורט שלה וגילתה שהם לא מאד יעילים.

כיול -

הגדרה - הליך שמשמש להשוואה בין שני ציונים שהתקבלו באמצעות שני כלים שונים המשמשים למדידה של אותה תכונה. למשל – השוואה בין מתאם לGRE בקבלה לתואר שני בפסיכולוגיה. צריך לקחת בחשבון גם את המקום היחסי שלו במבחן וגם הבדלים ברמה בין תלמידי פסיכולוגיה בארה"ב ובארץ.

(סילום – משמש להשוואה בין ציונים שהתקבלו באותו כלי (ורוצים מספרים שונים). - כיול הוא מהותי יותר מסילום).

הבגרות היא מבחן שלא מכיילים אותו.

- לא נכנסנו לשיטות כיול

סיכומים

מוזמנים לבלוג החדש שלי בו אני כותבת על כליפ פסיכולוגיים שימושיים

יום ראשון, 13 בנובמבר 2011

תורת המבחנים - שיעור 2

אין תגובות:

הוסף רשומת תגובה