נתחיל בהבהרה: למרות ש-ChatGPT תואר במקור כ-GPT-3.5, כלומר איטרציה מאוחרת של GPT-3, בפועל מדובר סה"כ בממשק משתמש, שאינו מוגבל למודל שפה כזה או אחר. במילים אחרות, GPT-4 אינו תחליף ל-ChatGPT אלא מודל שפה עליו היא נסמכת בביצוע פעולות.
כעת, המערכת שהתפוצצה ברשת בחודשים, משתדרגת עם סט חדש של יכולות מסקרנות וחלון הקשר רחב מתמיד, שמסוגל "לזכור" בערך 50 דפי תוכן, פי 5 ממה שהגרסה הקודמת יכלה להחזיק בזיכרון.
למה זה משמעותי? כי מודלי שפה גדולים אמנם מאומנים על מיליוני דפי אינטרנט, ספרים וטקסטים אחרים, אבל כשהם מנהלים שיחה עם משתמש, יש גבול לכמות המידע הם יכולים 'לזכור'.
מודלים עם חלונות הקשר קטנים נוטים "לשכוח" את התוכן אפילו של שיחות עדכניות מאוד, מה שמוביל אותם לסטות מהנושא. לאחר כמה אלפי מילים, הם גם שוכחים את ההוראות הראשוניות שלהם, ומבססים את התנהגותם על הפקודה האחרונה שהתקבלה בחלון ההקשר שלהם במקום על הבקשה המקורית. למעשה, חלון הקשר מוגבל הוא הסיבה העיקרית לאי דיוקים שראינו ב-ChatGPT עד היום, שבין היתר הובילו להחרמה של ChatGPT במוסדות אקדמיים רבים.
המגבלה הזו בגרסאות הקודמות של GPT הייתה באזור ה-8,000 מילים, שזה בערך חמישה עמודים של ספר, כאשר כל אינטראקציה חדשה בשיחה נסמכת על ההודעות הקודמות. חריגה מעבר לכמות הזאת היתה גורמת לבוט 'לשכוח' על מה דובר ולחזור לנקודת ההתחלה, מה שהקשה על המשתמשים לאמן אותו כרצונם.
ל-GPT-4 לעומת זאת יש זיכרון שווה ערך לעד 64,000 מילים או 50 עמודי טקסט, שזה מספיק כדי לכתוב מחזה שלם או סיפור קצר. המשמעות היא שבשיחה או בהפקת טקסט, הוא יוכל לשמור הרבה יותר תוכן, וחשוב מכך, לזכור על מה דיברתם גם 20 עמודים אחר כך. כך למעשה יכול GPT-4 לצבור ידע ותובנות ככל שתהליך היצירה מתקדם ולהגיע לתוצאות טובות יותר.
למשל, נניח שאנחנו כותבים סיפור שנפתח במונולוג ארוך המגולל את קורותיה של הדמות הראשית. 35 עמודים לאחר מכן, כשתרצו להוסיף דיאלוג בין אותה דמות לדמות אחרת, GPT-4 יוכל לזכור במי מדובר ולכתוב את הדיאלוג בהתאם.
אלן פייק, מהנדס תוכנה לשעבר באפל, הסביר את העניין ל-TechCrunch בצורה פשוטה: "המודל הישן ישכח כל דבר שתנסה ללמד אותו. הוא ישכח שאתה גר בקנדה. הוא ישכח שיש לך ילדים… אם אף אחד מכם לא הזכיר את שמו במשך זמן מה, הוא ישכח גם את זה. אם תדבר עם דמות מופעלת GPT לזמן מה, תתחיל להרגיש סוג של חיבור איתה... אבל בסופו של דבר, העובדה שאין לו זיכרון לטווח בינוני מתבררת, והאשליה מתנפצת".
אין ספק שחלון ההקשר המוגדל הוא השדרוג המשמעותי של הגרסה הזאת, אבל זה ממש לא הכל. אז מה עוד חדש ב-GPT-4?
שמירה טובה יותר על גבולות הגזרה
פייק מציין כי אחת הסיבות לכך שצ'אטבוטים כמו Bing Chat יכולים להידרדר להתנהגות גרועה היא שההנחיות הראשוניות שלהם - להיות צ'טבוט מועיל, להגיב בכבוד וכן הלאה - נדחקות במהירות מחלונות ההקשר שלהם על ידי הנחיות ותגובות נוספות.
למרות כל מה שהצ'אטבוטים של היום עושים נכון, עם קצת שידול ניתן להערים עליהם ו'לשכנע' אותם להשתמש בכוח שלהם לרעה. שפע של הנחיות זדוניות שקיבלה CHATGPT מהמשתמשים במהלך תקופת ההרצה הספיק כדי לאמן את מודל השפה החדש, כך שידע לסרב לפקודות בלתי הולמות כמו כתיבת קוד זדוני או הנחיות לפריצת בנק. לדברי החברה, הדגם החדש טוב בהרבה מקודמיו ב"עובדתיות, יכולת היגוי וסירוב לצאת ממעקות הבטיחות".
יכולת זיהוי וניתוח תמונות
השינוי הבולט ביותר בגרסה הרביעית של GPT הוא שהיא "מולטימודלית", כלומר היא מסוגלת להבין ולנתח מידע מסוגים שונים. אם ChatGPT ו-GPT-3 היו מוגבלים לטקסט בלבד, GPT-4 מסוגלת לזהות ולעבד גם תכנים ויזואלים, כמו תמונות וסרטונים.
בסרטון ההשקה מדגימה OpenAI את תכונת המולטימודליות באמצעות תמונה של זר בלונים קשורים בחוט. אם נגיד ל-GPT-4 לחתוך את החוטים, הוא כבר ידע בעצמו שהבלונים יעופו כלפי מעלה.
אחד היישומים המעניינים של התכונה הזאת, הוא השותפות החדשה של החברה עם אפליקצית הנגישות Be My Eyes, שבזכותה יוכלו עיוורים ולקויי ראייה לקבל תיאור מילולי של כל מה שנמצא סביבם, לבקש הוראות הגעה ועוד. ההדגמה הוכיחה מעבר לכל ספק ש-Gpt-4 באמת מבין מה הוא רואה, וכל שנותר למשתמש לעשות זה לשאול את השאלות הנכונות.
GPT-4 יודע יותר שפות
עולם הבינה המלאכותית אמנם נשלט על ידי דוברי אנגלית, אבל היכולות של מודלי שפה גדולים ישימות בכל שפה כתובה. בהשקה של GPT-4 הדגימה החברה כיצד הבוט מסוגל לענות במדויק על אלפי שאלות בחירה ב-26 שפות.
הבדיקה הראשונית הזו של יכולות השפה אולי נראית מבטיחה, אבל היא רחוקה מלהיות התשובה לבינה מלאכותית רב לשונית. ראשית, כי שאלות בחירה לא באמת מייצגות דיבור רגיל ושנית, כי קריטריוני הבדיקה תורגמו מלכתחילה מאנגלית. עם זאת, הוא עשה עבודה מצוינת במשהו שהוא לא באמת הוכשר אליו במיוחד, וזה סימן טוב להמשך.
אפשרויות היגוי משופרות
'היגוי' הוא מושג ב-AI, המתייחס ליכולתו של הבוט לשנות את התנהגותו לפי דרישה. זה יכול להיות שימושי כשרוצים להכתיב את טון הדיבור של הכותב, למשל אוהד נלהב, לקוח מתוסכל, ארנבת קופצנית או דונאלד טראמפ. הכל הולך.
כעת, משתמשים יכולים להתאים אישית את האישיות הבוט שלהם וליצור לו סגנון אישי קבוע, ממש כמו בן אדם. זה שימושי במיוחד למותגים שרוצים להיעזר ב-GPT-4 מבלי לאבד את הקול הייחודי שלהם.
דוגמה נוספת יכולה להיות כשכותבים תסריט ורוצים להכניס את האופי הייחודי של כל דמות לתוך הדיאלוגים. זה יכול להיעשות באמצעות הנחיות כמו "ענה כמו גנרל טורקי מהמאה ה-19" או "ענה כאילו אתה מתראיין לחדשות." אם עד היום התכונות הללו היו זמינות לנו רק באופן בסיסי, היום נוכל להתאים את אופי ה'כותב', הפרספקטיבה שלו, סגנון השיחה וטון הדיבור שלו בכל אינטראקציה ואף להגדיר ברירות מחדל.
אז איפה אפשר להתנסות ב-GPT-4?
נכון להיום, GPT-4 זמין רק למשתמשי ChatGPT Plus, חבילת הפרימיום של OpenAI, אבל בחברה מבטיחים שבקרוב הוא יהיה זמין גם למפתחים באמצעות API, ומאוד סביר שנראה גרסה חינמית בקרוב. למרות שטרם ניסינו אותו, לא קשה לדמיין כיצד שיחות איתו עשויות להיות הרבה יותר משכנעות מאשר עם המודלים הקודמים. עם "זיכרון" גדול יותר, GPT-4 אמור להיות מסוגל לנהל שיחות קוהרנטיות במשך שעות ואפילו ימים. ואולי חשוב מכך, הסיכוי שלו לרדת מהפסים אמור לפחות משמעותית.