יום ראשון, 29 בינואר 2012

יישומי מחשב - שיעור לפני המבחן


הערות למבחן

אני מעתיקה לכאן את מה שכתבתי בכיתה. זה קצת מבולגן, אבל, כמו שצ'צ'קס אוהב לומר -  זה מה יש.
בהצלחה!


הערות למבחן

- לא צריך frequencies

-אם למישהו קשה עם database, כדאי לו להתגבר על זה לפני המבחן, כי זה מאד יעזור. (אפשר להסתדר בלי, אבל זה יהיה הרבה יותר מסובך).

-מלכודות פסיכולוגיות: השאלה הראשונה היא קלה, כדי להתחיל ברגל ימין. השאלה השניה או השלישית הן הכי קשות, כדי לתפוס את העקשנים שאומרים לעצמם "ייחרב העולם, אנחנו נענה על זה". מומלץ מ-א-ד לקרוא קודם את כל השאלות ולהחליט על מה עונים קודם.

-בטקסט (שאלה 3 במבחן הדוגמא) בני עוה בסוף בדיקה - הוא מפעיל LEN על התא של התוצאה, ובודק אם היא אכן באורך הצפוי (של המילה). אם זה יותר ארוך, סימן שיש רווחים מיותרים. זאת ההמלצה שלו - אחרי שפותרים שאלה להשקיע קצת בלבדוק אם פתרנו נכון, במיוחד אם יודעים שיש לנו נטיה לטעות. הסיפור הנ"ל עם הרווח הוא טעות שקשה לתפוס. בשאלה הזאת זה לא קריטי, כי לא ביקשו את זה. זה ריטואל. (בשאלה הספציפית הזאת להסיר את הרווחים כנראה היה אפילו טעות, כי כתוב להחזיר את כל התווים, וזה כולל רווחים   --> במבחן כדאי לשאול שאלה כזאת. ואז הוא יעצבן אותנו ויודיע במערכת הכריזה. אם לא שואלים, הוא יקבל את שתי הוורסיות כי "קול המון כקול שדי" :)). 
עוד בדיקה על אותה שאלה-  להזין טקסט שטותי במקום ולבדוק שזה עובד. 

- השאלה (אנחנו עוברים על מבחן החזרה) ששואלת על מה מספר התווים במילה הארוכה ביותר בטקסט היא בור, כי צריך בשביל זה לחלץ את כל המילים ועוד אלו פעולות, במבחן שלנו לא יהיו דברים כאלה.

- בבחינה שלנו לא צריך להתייחס לערכים חסרים אלא אם כן נאמר כך במפורש.

- למצוא את המילה הראשונה בטקסט, זה מתאים לבחינה שלנו.  איך פותרים את זה. קודם עושים trim לטקסט, ואז:
=left(H11, find(" ", H11)-1)

- כאשר יש שאלה בה התנאי הוא "או", אי אפשר להשתמש בifs, ואז זה קורה (לצ'צ'קס) שכדאי לעשות dfunction.
עבודה עם מסד נתונים:
בתנאים של המסד אפשר  להשתמש בתנאים שמתייחסים לתאים (או בערכים מספריים, או ב"גדול מ" "קטן מ" וכו'). 
אח"כ
=dsum(database, field, criteria)
criteria - or is rows, and is column. 
תנאי מחושב - ביטוי אמיתי שמתייחס לתאים. 
הכותרת (יש כותרת מעל כל שורה) יכולה להיות כל כותרת שהיא, למשל - Q4. 
דוגמא לתנאי: (אנחנו נראה  true או false)
=$D4>$D$9 

חצי תנאי - טקסט.
הכותרת חייבת להיות הכותרת של העמודה הרלוונטית אליה מתייחסים.
דוגמא לכותרת :
grade
דוגמא לתנאי:
=">"&D9  (D9 is average of column)
maybe: '>4, =2.

שאלה 10 - מה מספר התווים במילה הראשונה הארוכה בטקסט? שאלה קשה אבל פתירה. לפני זה חילצנו את המילה הראשונה. נפעיל על זה len, ואז max. קיבלנו את מספר התווים.
שאלה דומה שאפשר לשאול - עכשיו צריך למצוא מהי המילה, ואת זה נעשה בעזרת match וindex 
הכי נח לעשות כל אחד מהם במשבצת נפרדת, וחשוב לשים לב להזין במטצ' 0

ספסס:
שאלה 22:
we filter.
than we check frequencies.
than filter off.
than we check the output for the answer. the answer is "valid percent", and not "percent". (in c1 it is the same)

Q23
עץ קבלת ההחלטות:
עבור תצפיות - פילטר
אחוז - פריקוונסי או קרוסטאבס
שני משתנים - קרוסטאבס.
זהו!

איך בוחרים סטטיסטיקה:
א. זה לא נכון
ב. זה לא מדויק
ג. הוא לא אחראי על זה ולא אמר את זה
א ב ל בבחינה התהליך הוא מכניסטי לחלוטין.

תלוי בניסוח השאלה ובסוג המשתנים שמשתתפים בתהליך:
1    האם מדובר בכל התצפיות או חלק --> פילטר. 
אם השאלה מתחילה במילה עבור, כנראה שצריך פילטר

בודקים האם יש כבר משתנה פילטר או צריך לייצר. 
המשתנה הזה מקבל את הערך 1 כאשר מתקיים מה שרוצים ו0 בשאר המקרים.
לפעמים יש עוד שלב - אם שואלים אם משהו גדול מהממוצע עושים desc.

2   מהם המשתנים שמשחיקם במשחק?
האם הם קיימים או צריך לייצר (בד"כ הם קיימים, ובבחינה שלנו נאמר שצריך לייצר אם צריך לייצר. אבל זה יכול גם להשתמע).

3
האם מדובר באחוזים?
כן:
משתנה אחד --> פריקוונסי
שני משתנים (או יותר) --> קרוסטבס {טעות? חי לפרוצפורציות npar? לא טעות. תודה תמר שוב.}

רווח סמך --> אנחנו יודעים לעשות רק לממוצע, ועושים דרך 1 ווריאבל טי טסט, ומכניסים ערך 0 למבחן, אחרת הוא עושה רווח סמך לדי, אבל תחת 0 זה בדיוק הממוצע.

4
עכשיו הגענו לסטטיסטיקה, וזה תלוי חד חד ערכית במשתנים:

משתנה - משהו שיכול לקבל כמה ערכים (תודה לתמר :) )

---

מתוך הסיכומים של תמר: קרוסטבס: המטרה: לבחון אם יש שוני באופן שבו מתפלג המשתנה התלוי לפי המשתנה הב"ת.
לnpar יש השערה על הפרופורציות שאותה בודקים, והוא עוסק במשתנה אחד.
crosstabs אין השערה ספציפית והוא עוסק בשתי משתנים.

frequencies
מקביל לקרוסטבס, אבל עם משתנה אחד. קרוסטבס הוא התפלגות דו משתנית.
שניהם מתארים באוםן בסיסי איך ההתפלגות נראית ומצביעים על כיוונים לחקריה.


--


משתנה 1 וא"א לעשות עליו ממוצע-  מבחן לפרופורציות. {האם ייתכן שכאן זה מתחלק למשתנה אחד--> פריקוונסי, ושתי משתנים (או יותר)-->חי בריבוע?} (כל מה שאפשר לשאול על משתנה כזה הוא על ההתפלגות שלו: האם ההתפלגות אחידה? האם ההתפלגות כזאת או אחרת? תופיע המילה הפתלגות או פרופורציה). זה מבחן חי לפרופורציות - מבחן NPAR - חי בריבוע. 

2 משתנים , על שניהם אי אפשר לעשות ממוצע - מבחן חי לאי תלות. קרוסטבס. עושים דרך הקורסטבס, בdesc. זה כל מה אנחנו יודעים לעשות על זה!  
המבחן הזה דומה מאד לפירסון. יש חי של פירסון וr של פירסון. הr הוא לאלה שאפשר לעשות עליהם ממוצע, והחי הוא לאלה שאיאפשר לעשות עליהם ממוצע. 

משתנה 1 ואפשר לעשות עליו ממוצע
מבחן טי לממוצע

משתנה אחד שאפשר לעשות עליו ממוצע --> משתנה מוסבר
 ואחד שאי אפשר לעשות עליו ממוצע --> פקטור

אם הפקטור (בטבע) מכיל בדיוק שני ערכים: טי טסט לבלתי תלויים
הפקטור (בטבע) מכיל יותר משני ערכים - שני אפשרויות:
1
השאלה אמורפית, אין השערה אפריורית (יש אפקט/ אין אפקט, יש השפעה / אין השפעה) - ניתוח שונות חד גורמי oneway
במקרה זה יכול להיות שבהמשך של אותה שאלה תהיה אלה לגבי ההבדל בין הממוצעים של אותה קבוצות (איזה מההפרשים הוא הכי מובהק / הכי גדול?), ואז זה טוקי. זה חייב להופיע באותה שאלה!
2
יש היפותזה, יש השערה אפיריורית (שואלים האם יש הבדל בין חלק מהקבוצות)  - קונטרסט מתוכנן, לפני זה צריך לעשות פריקוונסיס על הפקטור כדי לגלות אלו ערכים הוא יכול לקבל, כי יכול להיות מדגם בסדר גמור שמשום מה לא קיבלנו את כל הערכים האפשריים בו.

משתנה מוסבר ושני פקטורים - ניתוח שונות דו גורמי. ואז אפשר לשאול על אפקט ראשי, אפשר של אחד הפקטורים, הפקטור השני, (או: שורות, עמודות ואינטראקציה. לא שואלים כך כי אפשר לצייר איך שרוצים). המקרה הכללי (שאלה אמורפית וחסרת השערות, זה מתייחס למודל הכללי בשורה הראשונה). האפקט הכי משפיע - צריך לחפש את האטא בריבוע הכי גדול, ולפי זה לקבוע איזה מהם הוא הכי גדול. צריך לבקש את האטא בריבוע. הוא לא מגיע אוטומטית. 
השערה אלטרנטיבית נאיבית - האם מבין כל הקבוצות המוגדרות עי שני הפקטורים (שני הפקטורים מגדירים מספר קבוצות) יש ממוצע ששונה מהממוצע הכללי (משהו כזה). זה בדיוק ניתוח שונות, פשוט דו גורמי.

אינטראקציה היא קרוסטבולציה. (!!)

כאשר יש שני משתנים והם רציפים
כלומר, אפשר לעשות עליהם ממוצע
בחיים יש שני ווריאציות
1 עושים רגרסיה
2  טי למזווגים
אצלנו יהיה רק טי למזווגים (מדובר בהבדלים בין שני משתנים של אותו בנאדם). השאלה תהיה האם זה גדול מזה וכד'.
תיאורטית, אם שואלים אם יש קשר, זה קורולציה ורגרסיה, אבל לא יהיה את זה.
לא צריך להבין סטטטיסטיקה בשביל זה.

כדאי מאד מאד להתחיל בספסס בבחינה
זה קל ודיכוטומי או שיודעים או שלא.
שם לא יודעים,
 יודעים שלא יודעים

אין תגובות:

הוסף רשומת תגובה