סטטיסטיקה - תרגול
3/11
תרגיל (התרגיל שהוגש עכשיו)
שאלה 4
- ברגע שעוברים בהיסטוגרמה למחלקות, אנחנו לא יודעים מה הפיזור בתוך המחלקות.
- א"א להניח שהערכים מתפזרים באופן שווה בין המחלקות.
- לכן לוקחים את המקרים הקיצוניים: נעשה ממוצע של הערכים הכי קטנים ושל הערכים הכי גדולים. זהו הטווח.
חישוב חציון במחלקות:
- אנחנו מניחים שהערכים מתפזרים באופן שווה לאורך המחלקה.
העיקרון:
- נחפש באיזו מחלקה נמצא החציון:- נמצא את n ונחלק אותו ב-2. (אם לא זוגי נקבל ערך לא שלם).- נבדוק באיזו מחלקה נמצא האיבר הn/2.
- נחפש את התצפית בתוך המחלקה.(איזה מספר איבר מתוך כמה איברים במחלקה?)ֿ
- נחפש את הערך היחסי בתוך המחלקה.(מה הערך היחסי ש"תופס" השטח מתחילת המחלקה ועד לחציון, מתוך הרוחב של כל המחלקה?)--> אנחנו מניחים שהערכים התפזרים באופן שווה לאורך המחלקה!
- נוסיף את הרוחב עד החציון, התוך התחלקה, לרוחב של כל המחלקות עד למחלקה בה נמצא החציון.
חציון
-סולמות סדר ומעלה.
-מצמצם את סכום הטעויות המוחלטות.
ממוצע
הכי נפוץ.
סכום האיברים, מחולקים במספר התצפיות.
- סולם רווח ומעלה.
- הכי רגיש לערכים קיצוניים.
- מצמצם את סכום ריבועי הסטיות.
- סכום הסטיות ממנו = 0.
אלו מדדים מרכזיים
הדגמה לבעייתיות במדדים אלו: הסטטיטיקאי שטבע בבריכה שעומקה הממוצע80 ס"מ.
כדי להתמודד עם הבעייתיות יש לנו מדדי פיזור.
מדדי פיזור: (מדד להומוגניות / הטרוגניות של הערכים)
- אחוז הטעויות
- גודל הסטיה המקסימלית (יעיל כשחשוב שלא יהיו סטיות)
- טווח – ההפרש בין התצפית הגבוהה ביותר לתצפית הנמוכה ביותר
- טווח בין רבעוני – פער בין התצפית האחרונה ברבעון הראשון לבין התצפית האחרונה ברבעון השלישי.עד כאן מדדי פיזור אזוטריים ולא מועילים בד"כ.יותר חשוב:
- ממוצע הסטיות המוחלט (מהמדד המרכזי) – משאיר אותנו בסקאלה של הערכים
- ממוצע ריבועי הסטיות (מהמדד המרכזי) – מעביר אותנו לסקלה אחרת, יותר קשה להבין.
- שונות – ממוצע ריבועי הסטיות – אבל במקרה בו המדד המרכזי הואממוצע (ולא מדד אחר!) - מדד שנותן משקל גדול לתצפיות קיצוניות(בגלל ההעלאה בריבוע).
- סטיית תקן – שורש של שונות (מטרת המדד היא להחזיר את הערכים של שונות לסקאלה של התפיות המקוריות, כדי שיהיה קל יותר להבין את הערכים).
חישוב טווח בין רבעוני במחלקות – כמו בחציון, אבל במקום לחפש n/2 נחפשn/4 and 3n/4.