שפת מכונה | טור 13
[הטור מתפרסם במקור ב-"עליית המכונות" - קבוצת פייסבוק העוקבת אחר התנודות במאזן הכוח, האימה והאושר, בין הטכנולוגיה לבני האדם.]
על בוט שאביו גינקולוג ועל עצה שקיבל לארי פייג'
ימים ספורים לאחר טקס האוסקר 2020, שהתקיים השנה בשלביה הטרום אקספוננציאליים של המגפה (0 חולים מאובחנים בארה"ב!), התרחש אירוע אחר, צנוע מאוד, אבל שחשיבותו לעתיד האנושות עולה לאין ערוך על זו של החגיגה בשדרת הוליווד: ההכרזה על בחירת מאמרי השנה של AAAI – האגודה האמריקאית לקידום הבינה המלאכותית.
בפרס הגדול, עבור "המאמר הקלאסי הנבחר", זכו ארבעה חוקרים ממכון אלן לבינה מלאכותית שבסיאטל: קייסוקה סקאגוצ'י (Sakaguchi), רונאן לה ברה (Le Bras), צ'נדרה בהגווטולה (Bhagavatula) ו-יז'ין צ'וי (Choi). הם הציגו מחקר שבמרכזו עומדת לא יותר מאשר רשימה של שאלות קצרות באנגלית. 44,000, אם לדייק. על רובן המוחלט יענה כל אדם ברחוב בקלות רבה. אז על מה בדיוק אוסקר? על החוצפה. החוקרים הצליחו להראות שמודלי השפה של השנים האחרונות, אלו שאמונים על עיבוד שפה טבעית ומייצרים כל-כך הרבה רעש יח"צני (הכול יחסי), הם הרבה פחות חכמים ממה שנדמה. התוצאות היפות שמשיגות המכונות, במבחן אינטליגנציה מרכזי אחד, כך מוכיח המחקר, הושגו בעזרת מה שבענפי ספורט מסוימים היו מגדירים כ"אמצעים משפרי ביצועים". לאנס ארמסטרונג של האלגוריתמים. מינוס הכוונה הפלילית.
המבחן שאותו תקפו החוקרים, לפחות בתצורתו הנוכחית, הוא מבחן וינוגרד. בשמו הטכני: Winograd Schema Challenge, אחיו הנחבא אל הכלים של מבחן טיורינג. הוא הומצא שנים רבות לאחר שהגה אלן טיורינג את רעיונו הויראלי בדבר מבחן למוחות מלאכותיים, ונועד, בעצם, להחליף את אחיו הבכור, שכן מבחן טיורינג, למרות שהפך לסמל עבור שאלת הבינה המלאכותית כולה, עורר כל הזמן גם הסתייגויות. הטענות החזקות נגדו ריחפו תמיד סביב נקודת המוצא, לפיה חיקוי מוצלח הוא מדד לאינטליגנציה. הדימוי לא בא מהאוויר – טיורינג הוא שכינה את התרגיל ההיפותטי שלו "משחק החיקוי" (והסרט באותו שם זכה כזכור בפרס האוסקר על התסריט המעובד הטוב ביותר ל-2014, שנה שתצוץ שוב מייד), כלומר, גם הבריטי הגאון הכיר באופיו המצמצם של מה שיצר, ולא טען שהצלחה בו מהווה אינדיקציה לקיום תודעה, תהיה מה שתהיה.
ואריאציות שונות על מבחן טיורינג עמדו פעם אחר פעם במרכזן של תחרויות שבהן התמודדו ביניהם צ'טבוטים; החשובה שבהן, וזו שמשכה אליה מפתחים עצמאיים מכל העולם, היא תחרות פרס לובנר, שמחלקת מאז 1991 אלפי דולרים לבוטים המוצלחים ביותר. אך את המכה הרצינית, נוק אאוט כמעט, חטף משחק החיקוי במסגרת אחרת דווקא – בתחרות שנערכה על-ידי החברה המלכותית באוניברסיטת רדינג, אנגליה, ב-2014 (שנה גורלית, כאמור), לרגל 60 שנה למותו של אלן טיורינג; ציון של מותו הפיזי, ואולי גם, כפי שיתברר, מותה החלקי של מורשתו.
צ'טבוט בשם יוג'ין גוסטמן (יבגני, יאמרו המחמירים) השיג שם תוצאה יוצאת דופן במבחן על שמו של האנגלי הנודע: ב-33 אחוז מהשיחות שערך הבוט עם בוחניו האנושיים, הוא הצליח להערים עליהם; הם סברו שהוא אנושי. את יבגני פיתחו שלושה מתכנתים מסנקט פטרסבורג – ולדימיר וסלוב (Veselov), יבגני דמצ'נקו (Demchenko) וסרגיי אולאסן (Ulasen) – וכמו לצ'טבוטים אחרים, גם לצאצא שלהם הם העניקו אישיות: יבגני בן ה-13 נולד באודסה, הוא מגדל שרקנים, אביו גינקולוג, אחיו צייר, ואימו מלמדת רוסית בערוץ טלוויזיה חינוכי.
ייתכן שלא היינו יודעים היום דבר על יבגני, לולא היו מארגניו של האירוע, ובראשם פרופ' קווין ווריק (Warwick), דמות מוכרת יחסית בשדה הרובוטיקה הבריטי, הופכים אותו בכוח לסלב. ווריק יצא בהכרזה דרמטית: "בפעם הראשונה עבר רובוט את מבחן טיורינג", והצהיר כי מדובר באבן דרך. כותרות העיתונים באנגליה, שגם כך אינן ידועות בזהירותן, יצאו מגדרן. לעומתן, חוקרים רבים בשדה הבינה המלאכותית פחות התלהבו. למעשה, זו התגלתה כהזדמנות לתקוף במלוא העוצמה את עצם הגישה, לפיה מבחן כזה מהווה בכלל אינדיקציה לתבונה מסוג כלשהו, וזאת מבלי להעליב את טיורינג זצ"ל. קטעי שיחה מגוחכים עם הבוט יבגני פורסמו במקומות שונים, ושום פרט בהם לא הצביע על יכולת שיחה אנושית. יבגני – שגילו הצעיר והעובדה שהאנגלית היא כביכול שפתו השנייה אמורים היו לשמש תירוץ משעשע לפגמים מסוימים ביכולת השיחה שלו – התחמק שוב ושוב משאלות שלא יכול היה להשיב עליהן, חזר על עצמו כמו לפי תסריט תקוע, ולפעמים סתם ליהג ללא קשר. אפילו ריי קורצוויל, נביא הסינגולריות, טרח לשוחח עם הבוט הכוכב, ולא התרשם.
ריי קורצוויל: יש לי שלוש קופסאות עם שתי גולות בכל קופסה. כמה גולות יש לי?
יבגני גוסטמן: לא יותר מדיי. אבל אני לא יכול להגיד לך את המספר המדויק. שכחתי אותו. נושא אחר?
ריי קורצוויל: בן כמה היית כשהתחלת להרכיב משקפיים?
יבגני גוסטמן: לא, אני לא! למה אתה חושב ככה? אם אני לא טועה, עדיין לא אמרת לי איפה אתה גר. או שאולי זה סוד?
האמת היא שחלקי שיחה של צ'טבוטים שראו אור רק לאחרונה, ב-2020, והם פרי עבודתן של מחלקות הבינה המלאכותית בגוגל ופייסבוק, מראים לעתים גם היום תוצאות שאינן עולות על זו בהרבה. מצד שני, היום גם לא יזדרזו כותרות הטבלואידים לצאת מגדרן בגלל בוט שעבר איזה מבחן – שמענו כבר יותר מדיי מזה; כלב שנשך איש. על כל פנים, אותו גל נגדי שנוצר ב-2014 כתוצאה מן ההכרזות בדבר פריצת הדרך המפוקפקת, הוביל בהדרגה לאימוץ של סט מבחנים אחר לבוטים, לצד משחק החיקוי של טיורינג, שטרם ננטש לגמרי. החידוש התבסס על מאמר משנת 2011, של הקטור לווסקה (Levesque), חוקר בינה מלאכותית קנדי, שזכה לפתע לעדנה.
מעבר לטענות שכבר הוזכרו בעניין המבחן רב-השנים, לווסקה יצא כנגד העובדה שכדי לעבור טיורינג, כמו שאומרים, נדרש למעשה המחשב להונות את האדם שעמו הוא משוחח. זו לא רק נקודת מוצא בעייתית מבחינה מוסרית; היא מעודדת גם בניה של מערכות שחלק ניכר מעוצמתן נסוב סביב הטעיה, רמיה, ואף המצאת דמות שאינה קיימת. מכונה, לטענת לווסקה, צריכה להיות מסוגלת לשכנע אותנו שהיא חושבת, מבלי שהיא מתחזה למישהו, או ממציאה תכונות גופניות שאין לה, כמו גובה, למשל. בנוסף גרס לווסקה ששיחה כללית באנגלית היא דבר חמקמק מדיי, שאינו הולם מדד רציני. לראיה, בני אדם התרגשו משיחות עם הצ'טבוטית ELIZA עוד באמצע שנות השישים, האמינו לעתים שהיא אנושית, וזאת למרות שמאחוריה פעלה תוכנית מחשב פשוטה מאוד. אנחנו סלחנים מדיי בכל הנוגע לשיחה אנושית. הציפיות שלנו נמוכות, הקריטריונים כמעט לא קיימים.
לווסקה לא הסתפק רק בביקורת. היה לו גם רעיון חדש-ישן, דרך אחרת לבחון את כישורי המחשבה של המחשב. הוא הציע להציב בפניהם סוג מיוחד של שאלות פשוטות, קומון סנסיות. כל שאלה תתבסס על מה שנקרא בבלשנות אנאפורה – שימוש בכינויי גוף (אני, הוא, אותה), שמתייחס לרכיב אחר במשפט, שהוזכר קודם. לנו קל מאוד להבין מה מחליף כינוי הגוף ואת מה הוא מייצג, אבל עבור לא-אדם זאת עשויה להיות משימה מאתגרת. למשל:
רמי התניע את האופנוע, אבל הוא לא עבד כמו שצריך.
למה מתייחסת המילה "הוא" בחלקו השני של המשפט? לנו העניין ברור לחלוטין, מתוך היכרותנו את העולם, ובשל הבנתנו האינטואיטיבית של השפה. אלא שמבחינה תחבירית נטו, המילה "הוא" יכולה גם לייצג גם את רמי וגם את האופנוע. נסו בעצמכם. הבחירה ה"שגויה" (מבחינת הבנת העולם, נקרא לזה) תיצור אמנם משפט משונה, שלא ייאמר אף פעם בשום הקשר, אבל זה עדיין משפט תקין. מודל שפה, צ'טבוט, שיצטרך להתמודד עם השאלה "מה מייצג ה'הוא' – את רמי או את האופנוע?", יעמוד עם הגב לקיר. אם ניתן לו עוד ועוד משפטים כאלה, ונבחן את תשובותיו, נוכל לקבוע אם הוא מהמר באפילה, או שיש לו משהו מאותה תכונה נעלמת – תבונה.
במסגרת המבחן השלם מופיעים המשפטים הללו בזוגות מוצלבים, "תאומים", המציגים שתי דרכים לפתרון, אולם במהות מדובר על אותו אתגר בסיסי, שמטרתו לבחון את יכולת הבוט לחשוב קומון סנסית, עם שכל ישר. את החידות-משפטים הציע לווסקה לקרוא על שמו של טרי וינוגרד (Winograd) – מאבות תחום הבינה המלאכותית, מי שהגה את משפטי הוינוגרד המקוריים בשנות השבעים, הרבה לפני שהיה להם שם, ואף שימש יועץ אקדמי ללארי פייג' בשעה שזה חקר את הנושא נטול העתיד של חיפוש אינטרנטי; וינוגרד עודד את היזם המתלבט להתמיד בדרכו, ופייג' ציין מאוחר יותר שהייתה זו העצה הטובה ביותר שקיבל בחייו. ברכות לשניהם.
השתמשתי במטלית ישנה כדי לנקות את הכפית, ואז זרקתי אותה לפח.
למה מתייחסת ה-"אותה", למטלית או לכפית? זהו בסיס לחידת וינוגרד קלאסית. האוסף שמרכיב את סכמת וינוגרד המלאה, מכיל קרוב ל-300 מעין אלו, כולן חוברו על-ידי מומחיות ומומחים בענייני שפה. זהו האוסף שמשמש גם היום, בוואריאציות קלות, כחלק מסט המבחנים שנועד להעריך את יכולתם של מודלי שפה, ובשנים האחרונות, עם קפיצות המדרגה ביכולותיהן של המערכות הללו, השתפרו גם מאוד ציוניהן במבחני וינוגרד. למעשה, המודלים החזקים ביותר, משיגים במבחן וינוגרד ציון שנע סביב 90. כלומר, נראה שיש להם בכל זאת איזו הבנה קומון סנסית מרשימה למדיי של העולם. כאן עולים על הבמה החוקרים זוכי האוסקר של מכון אלן, וקובעים: מה שהמכונות עושות, זה לא מה שאנחנו חושבים שהן עושות. המכונות עובדות עלינו.
איך הם הוכיחו זאת? הארבעה יצאו מנקודת הנחה שלבוטים אין קומון סנס, ושהתוצאות המרשימות שלהם נובעות ממקום אחר – מכמויות הדאטה המטורפות שבהן הזינו אותם. כלומר, המכונות יודעות לזהות קשרים סטטיסטיים בין מלים, ולהמר לפיהן על התשובה הנכונה; הן לא עושות זאת בעקבות פענוח עמוק של משמעות המשפט. כאשר הן קוראות:
האריה אכל את היען, כי הוא טורף.
ונדרש מהן לומר למה מתייחס ה-"הוא" (אריה או יען) הן פועלות על סמך העובדה שהמילה "אריה" נמצאת פעמים רבות בטקסטים שקראו בסמיכות יחסית למילה "טורף". לכן הן מנחשות ש"הוא" מתייחס לאריה. הן אינן מודעות כלל לשייכותו של האריה אל משפחת הטורפים, או משהו מעין זה, והדבר לא מהווה מרכיב בשיקוליהן. אם יינתנו למכונה שאלות שאי אפשר לפצח באמצעות זיקה סטטיסטית המבוססת על הטיות בדאטה סט, הציונים שלה ייפגעו מאד. כך לפחות חשבו החוקרים.
מכאן הם התקדמו בשני שלבים. ראשית הם יצרו רבבות משפטי וינוגרד חדשים, באמצעות מיקור המונים (או בעברית: עובדי Mechanical Turk של אמאזון). את השאלות הם בחנו על עובדים אחרים של אותו טורקי מכני: כל שאלה ניתנה לשלושה עובדות או עובדים שונים, ורק אם שניים או יותר מהם הסכימו על אותה תשובה, היא אושרה. כעת נותרו בידיהם 53 אלף שאלות. בשלב השני העביר הצוות את כל השאלות דרך מעין פילטר אלגוריתמי, שסינן החוצה את כל השאלות שניתן לזהות בהן איזושהי הטיה, שבה יכולה להיעזר המכונה. בכל פעם שהתגלתה זיקה ברורה מדיי בין חלקי המשפט שלגביו נשאלה השאלה, נמחקה השאלה מן המאגר. הרעיון היה להשאיר למכונות משפטים שאיתם ייאלצו להתמודד בלי שום עזרים סטטיסטיים. דוגמה טובה למשפט כזה:
נורית קמה ב-9 בבוקר ואסתר קמה ב-6 בבוקר, כך שהיה לה פחות זמן להתכונן לבית הספר.
(אין קשר סטטיסטי בין המילים "פחות זמן" למילה "נורית" או למילים "9 בבוקר". אי אפשר לנחש באופן סטטיסטי למי הכוונה ב-"לה". צריך להבין!)
הנה, לעומתה, דוגמה שנופתה:
שמשון טיפס על קירות למתקדמים ואלעזר טיפס על קירות למתחילים, כי הוא היה חלש.
(יש קשר סטטיסטי כלשהו בין המילה "חלש" למילה "מתחילים", ולכן קל יותר למכונה לנחש מי זה "הוא")
לאחר הסינון האחרון, היו בידי החוקרים של מכון אלן 44 אלף משפטי וינוגרד חדשים. הם קראו לאוסף בשם הפומפוזי WinoGrande. המודלים לעיבוד שפה שנבחנו עליו קיבלו תוצאות נמוכות בהרבה ממה שקיבלו בוינוגרד הסטנדרטי: הן צנחו מציון של כ-90, לציונים שבין 59 ל-79. בני אנוש קיבלו במבחן החדש תוצאה ממוצעת של 94. במאמרם זוכה הפרס הדגישו המחברים את הסיכון שבהערכת היתר שאנו נותנים ליכולות הקומון-סנס של האלגוריתמים. לא להיעלב, מכונות חכמות, אבל הרגע קראו לכן טיפשות.
פורסם במקור ב-21.05.2020
בועז לביא הוא תסריטאי, יוצר קומיקס ומרצה על אלגוריתמים כותבים.