שפת מכונה | טור 15

בועז לביא
6 ביולי 2020
זמן קריאה 6 דקות

[הטור מתפרסם במקור ב-"עליית המכונות" - קבוצת פייסבוק העוקבת אחר התנודות במאזן הכוח, האימה והאושר, בין הטכנולוגיה לבני האדם.]

על יום של קיץ ועל איך לדוג קרפיון אמת

"נדמה שאין יצירה ספרותית אחרת בעולם כולו, אשר זכתה שייכתבו ויאמרו עליה כל כך הרבה שטויות, ושתבוזבז עליה כל כך הרבה אנרגיה שכלית ורגשית לשווא, כמו הסונטות של שייקספיר" – ציין המשורר ו"ה אודן [1], והתכוון מן הסתם לאנרגיה אנושית, לא לכוח החישוב במעבדים של NVIDIA. אבל גם הם כבר התחילו לעמול על אותן יצירות ממש.

154 הסונטות של שייקספיר פורסמו לראשונה ב-1609 על-ידי מו"ל מפוקפק בשם תומס ת'ורפ, שעל-פי חוקרים אחדים לא קיבל כלל את הסכמתו של המחבר. גם שייקספיר אימץ את הארכיטקטורה הפואטית הזו מבלי שהוענקה לו רשות בכתב – שכן מפתחיו האיטלקים של הפורמט מתו אי שם במאה ה-14. לצד ההייקו היפני, ואולי גם החמשיר, הסונטה היא צורה ששמה יצא הרחק מעבר למעגלי השירה הצרים, וכיוון שיש לה כללים ברורים – קל יחסית לדמיין תוכנית מחשב שתדע, עקרונית, ליצור דוגמאות שלה. אלא שלא כל הנוצץ זהב הוא (ביטוי שעל צורתו הפופולרית באנגלית, שהופיעה לראשונה ב-"הסוחר מוונציה", חתום אותו שייקספיר עצמו).

הסונטה כוללת שלושה בתים בני ארבע שורות, ושתי שורות בונוס בסוף, וכיוון שהיא נטולת כותרת, זוכרים אותה לרוב בזכות ארבע שורות הפתיחה (להלן, המרובע הראשון של הסונטה השייקספירית הנודעת ביותר, סונטה 18):

SHALL I COMPARE THEE TO A SUMMER'S DAY?

THOU ART MORE LOVELY AND MORE TEMPERATE:

ROUGH WINDS DO SHAKE THE DARLING BUDS OF MAY,

AND SUMMER'S LEASE HATH ALL TOO SHORT A DATE;

ובתרגום שמעון זנדבק [2]:

האם אשווה אותך ליום של קיץ?

אתה ענוג ומאוזן ממנו.

רוחות חוטפות פרחים רכים של קיץ,

ותור הקיץ בא וכבר איננו.

האמביוולנטית המגדרית של האנגלית מתורגמת בעברית ללשון זכר, משום ש-126 הסונטות הראשונות ברשימה פונות לגבר. סונטות אחרות מופנות ל-"גברת הכהה". את המכונה כל זה לא מעניין; מה שחשוב לה הם המשקל, החריזה, ואוצר המלים, או ליתר דיוק: הקשר הסטטיסטי בין מילה למילה. כמו עם צורות פואטיות אחרות, לאורך השנים פותחו תוכנות שונות המייצרות סונטות באופן דטרמיניסטי, על-פי חוקים שהוגדרו מראש על-ידי מתכנתת, אבל פריצת הדרך, כמו בתחומים הפחות חשובים של זיהוי תמונה, זיהוי דיבור, וטירגוט פרסומות לנוזלי כלים על פי לייקים לתכניות טלוויזיה, הגיעה עם פריחת הלמידה העמוקה.

דיפ-ספיר (Deep-speare), רשת נוירונים מלאכותית שיודעת לכתוב סונטות שייקספיריות לא לגמרי רעות – מייד תוכלו לשפוט אחת מהן בעצמכם – נחשפה עוד ב-2018, אך מאמר שפורסם לאחרונה ב- IEEE Spectrum (כתב העת של המכון להנדסת חשמל בארה"ב) החזיר את יוצריה אל מה שהניע אותם לחקור מלכתחילה את הקשר שבין בינה מלאכותית ליצירתיות, והאיר באור חדש את המכונה הפואטית.

צוות החוקרים האוסטרלי-קנדי אימן את דיפ-ספיר על 2,700 סונטות בסגנון שייקספירי, שאותן איתרו באוסף הטקסטים של פרויקט גוטנברג הפתוח; בערכת הנתונים נמצאות אם כן לא רק סונטות שנכתבו בידי המשורר הגדול, אלא גם מאות רבות ששוררו אחרים. פירות יצירתו של המודל המאומן נבעו למעשה מפעולתם המשותפת של שלושה תת-מודלים שונים, שכל אחד מהם עסק בצד אחר של המעשה השירי. הראשון התמקד בבחירת המלים שיוצבו בסמוך לכל מילה קיימת בשיר; השני – במשקלה של כל שורה (שורות בסונטה בנויות במשקל המכונה "פנטמטר יאמבי", שהוא הנפוץ ביותר בשירה האנגלית בכלל, ושימש את שייקספיר גם במחזותיו); ואילו השלישי – בחריזה (למשל בצורה של אבאב, גדגד, הוהו, זז. האותיות מייצגות את השורות הנחרזות). בנוסף, כדי לא לקפוץ מעל טבורם, החליטו החוקרים להתמקד אך ורק בכתיבתם של מרובעי הפתיחה – ארבע השורות הראשונות בסונטה. גם כך מדובר במשימה שאפתנית.

הצד המוזר במנגנון הכתיבה של דיפ-ספיר הוא שבניגוד גמור לאדם, את המרובעים שלו מונחה המודל לחבר מן הסוף להתחלה. ראשית הוא בוחר באקראי את צורת החריזה (אבאב, או אאבב; שתיהן אפשריות בסונטה) ואז את המילה האחרונה במרובע, דהיינו את זו שנועלת את השורה הרביעית. לאחר מכן הוא תר אחר המילה שתעמוד בדיוק לפניה; הדבר נעשה באמצעות ניתוח של הסתברויות, כלומר – בחירת מילה שיש סבירות מסוימת שאכן הופיעה בערכת הנתונים, כלומר בסונטה קיימת, באותו מקום ביחס למילה הקיימת. מכאן הוא ממשיך באותו אופן ובונה את השורה האחרונה כולה, מילה אחר מילה, ברוורס.

פעולת הרכבת השורה חוזרת על עצמה שוב ושוב, עד שנוצר אוסף של שורות סגיר פוטנציאליות. כשהמאגר הקטן מוכן, בודק המודל אם מי מהשורות שנוצרו, מתאימה לכללי המשקל של הפנטמטר היאמבי. אם יש שורה כזו, או כמה שורות כאלו, הוא בוחר אחת מהן באקראי, וממשיך הלאה אל שלוש השורות שקודמות לה. שוב הוא מבצע מהתחלה (כלומר מן הסוף) את אותו סדר פעולות, וכאשר הוא מגיע אל סופי השורות שצריכות להתחרז, רטרואקטיבית, עם שורות שכבר נכתבו, הוא בוחר את המילים על-פי מידת החריזה שלהן עם המלים שכבר נבחרו. עולם הפוך. אבל כזה שיש בו, בסופו של תהליך, מרובע ראשון מתוך סונטה חדשה לגמרי, שאיש אף פעם לא כתב. למשל, זו:

WITH JOYOUS GAMBOLS GAY AND STILL ARRAY,

NO LONGER WHEN HE 'TWAS, WHILE IN HIS DAY

AT FIRST TO PASS IN ALL DELIGHTFUL WAYS

AROUND HIM, CHARMING, AND OF ALL HIS DAYS

ובתרגומי:

בדילוגי שמחה, שׁוּרה עולצת במקומו,

לא עוד כשהיה, עוד ביומו

לחצות לראשונה את נפלאות דרכיו

סביבו, רב קסם, וכל ימיו

כן, זה מעין ג'יבריש. לא פספסתם דבר. יותר מזה, בסונטה הממוחשבת מופיע באנגלית הצירוף he 'twas, שהוא שגוי דקדוקית (twas' הוא קיצור עתיק יומין של it was, כלומר בפועל כתוב כאן he it was). למרות זאת, זכה המרובע הזה לאזכורים רבים, בעיקר בתקשורת הלא טכנולוגית, שדיווחה בהתפעלות על המכונה הפואטית החדשה, ועל עתידה המבטיח של השירה האלגוריתמית. כי למרות חוסר הפשר והלקות השפתית המסוימת, המרובע הזה עונה על הקריטריונים המחמירים ביותר של הסונטה. אבל האם זה מספיק?

יוצריו של דיפ-ספיר, ובראשם ד"ר ג'יי האן לאו (Jey Han Lau) מאוניברסיטת מלבורן, בחרו בפרויקט הזה קודם כל משום שלדעתם, יותר מאשר מרבית אופני היצירה האנושיים, את הסונטה ניתן לשפוט בכלים אובייקטיביים (יחסית). לכן, לאחר שהרכיבו אוסף גדול מספיק של סונטות, יצאו לבחון כיצד שופטים אותן קוראים בשר ודם. כמנהג הזמן הם פנו אל Mechanical Turk של אמזון, אותה זירה של עובדים אנושיים, שאת שירותיהם ניתן לשכור במחיר זול להפליא. החוקרים העבירו להם תערובת של מרובעים יצירי אדם ומכונה, וביקשו ממבקרי הספרות הזמניים להכריע אם כל אחד ואחד מן המרובעים הללו נוצר על-ידי אלגוריתם או שמא על ידי בן אנוש. לדאבונם של החוקרים, הצליחו הטורקים המכאניים לזהות את השירים הממוכנים בכמאה אחוז מן המקרים.

התוצאה הייתה כל כך מאכזבת, עד שנשקלה האפשרות לזנוח את הפרויקט כליל. אלא שאז עלתה האפשרות שמיקור ההמונים עושה מה שהמונים עושים: נעזרים בגוגל. כיוון שכל מרובעי הסונטות שנכתבו על-ידי אדם נלקחו כולם מתוך פרויקט גוטנברג, חיפוש פשוט של שורותיהם הראשונות הוביל ישירות אל השיר המקורי במאגר (או לאפס תוצאות במקרה של סונטה מלאכותית). כדי לבחון אם ההיפותזה הגוגלית נכונה, ערכו החוקרים סיבוב טיורינגי נוסף, שבו העבירו אל השופטים את שני השירים על גבי קובץ תמונה דווקא. העצלות האנושית חשפה את האמת; כמובן שגם במקרה זה יכלו הנסיינים להעתיק ידנית את השיר הקצר, או את פתיחתו, אל חלון החיפוש, אבל מעטים מאוד עשו זאת, כפי שהתברר. זה כבר יותר מדיי עבודה. הממצאים המעודכנים עמדו על כ-50 אחוז הצלחה בלבד, ומכאן שהבוחנים לא הצליחו למעשה להבדיל בין סונטות אנושיות, לאלו שיצרה המכונה. אפשר ורצוי לתהות גם על תוצאה זו, שכן קריאה שאיננה שטחית לחלוטין תזהה הבדלים מהותיים, למרות יכולת החיקוי הסגנוני של המכונה. אלא שלעובדי מיקור ההמון לא משלמים מספיק בשביל שיקראו לעומק. מה גם שרבים מהם אינם דוברי אנגלית כשפת אם.

כדי להעריך באופן מקצועי יותר את איכותם של המרובעים, פנו החוקרים אל פרופ' אדם האמונד, מן המחלקה לספרות אנגלית באוניברסיטת טורונטו. הוא דירג את פתיחות הסונטות (של המכונה ושל בני האדם) לפי מספר קטגוריות: משקל, חריזה, מידת קריאות, והבעה רגשית. המרובעים המלאכותיים זכו בציונים גבוהים מאוד על משקל וחריזה; לעתים קרובות עלו בקטגוריות אלו על הציונים שקיבלו המרובעים האנושיים. עבור מידת הקריאות שלהם הם זכו לציונים פושרים, ואילו בקטגוריית ההבעה הרגשית הם כשלו לגמרי. לא מפתיע, עבור כל מי שנתקל אי פעם במחשב. דיפ-ספיר הוא לוליין לשוני שסובל מנכות רגשית.

מה היה אומר שייקספיר על כל זה? האם היה נטרד מן החזון אודות כניסתה של טכנולוגיה חדשה, שתהיה מסוגלת, אולי, יום אחד, להתל בקוראות ובקוראים, ולצמצם את הפער בין סונטה מקורית לבין חיקוי ממוכן? במאמרו "אנו חיים בעידן של דפוס: שייקספיר ומהפכת הפרינט" [3] מציע אדם מקס כהן פרספקטיבה מפתיעה על שאלה זו. לא נהוג לראות זאת כך, אך גם תקופתו של שייקספיר הייתה בעצם זמן של שינוי טכנולוגי מרחיק לכת, במיוחד סביב תחום שנגע מאוד למשורר. דרך מבטו על השינוי, ניתן לבחון את מידת האמון שנותן שייקספיר בטכנולוגיה.

זו אמנם לא בינה מלאכותית, ולא למידת מכונה, חשמל עדיין אין אפילו, אך מתברר שגם אותה טכנולוגיה טריוויאלית לכאורה (במושגינו שלנו), ערערה בזמנו של שייקספיר את התפיסה אודות מקור וחיקוי, אמת ופייק-ניוז. קצת בדומה ליחס שלנו עצמנו כיום לטקסטים שמתפרסמים ברשתות חברתיות, מתאר כהן במאמרו כיצד גם בימיו של שייקספיר, כפי שעולה מכותבים אחרים בני הזמן ומקריאה בשייקספיר עצמו, פיתח הציבור איזו "סקפטיות בריאה" ביחס למה שמציב בפניו הטרנד הטכנולוגי הצעיר. הפמפלט, למשל, אותה חוברת דקיקה, ששימשה כבר אז גם כעלון פרסומי, נחשבה בעלת תוכן ירוד ובלתי אמין, והדבר בא לידי ביטוי באופן שבו היא מוצגת למשל גם אצל שייקספיר.

אבל ההתייחסות המרתקת ביותר לטכנולוגיית הדפוס של הזמן, שמזכירה במעט גם את מה שעושים מודלים של אוטומציית ביצירת טקסט היום, מופיעה במחזה "נשות וינדזור העליזות". שם טוענת הגברת פייג' כנגד פלסטף שהוא מדפיס אלף מכתבי אהבה זהים, כחלק מתרגיל הונאה רחב היקף, ומחליף רק את שמות הנמענות. מה זה אם לא ספאם של המאה ה-16? ברוח דומה, וכדרכו האירונית, התנבא הרי שייקספיר גם על המאה שלנו: "בפיתְיון שקרים תדוג שם קרפיון אמת" (המלט, תרגום: דורי פרנס). בעקיפין, זוהי אולי עמדתו ההיפותטית של המשורר ביחס לעתידו של חקיינו המלאכותי, או כל חקיין סטטיסטי שהוא. גם אם בסגנון בלבד, בכל זאת יש שם משהו. שייקספיר-קרפיון.

[1] ביל ברייסון, שייקספיר. תרגום: גיא הרלינג. מודן, 2007

[2] ויליאם שייקספיר, הסונטות, תרגום: שמעון זנדבק, הוצאת הקיבוץ המאוחד, ספרי סימן קריאה, 1992

[3] Adam Max Cohen, Shakespeare and Technology:

Dramatizing Early Modern Technological Revolutions, Palgrave Macmillan, 2006

פורסם במקור ב-02.07.2020

בועז לביא הוא תסריטאי, יוצר קומיקס ומרצה על אלגוריתמים כותבים.

#עלייתהמכונות #שפתמכונה #בועזלביא