מחקר חדש חושף: 57% מהתשובות של ChatGPT בתכנות שגויות

מתכנתים/ShutterStock

במירוץ לפיתוח בינה מלאכותית מתקדמת, לא כל מודלי השפה הגדולים נולדו שווים. מחקרים חדשים חושפים הבדלים בולטים ביכולות של מערכות פופולריות כמו ChatGPT כשהן עומדות למבחן במשימות מורכבות בעולם האמיתי.

לדברי חוקרים מאוניברסיטת Purdue בארה"ב, התוכנה הפופולרית ChatGPT מתקשה אפילו עם אתגרי קידוד בסיסיים כמו איתור באגים ושימוש ב-API. למרות שבכל הנוגע לכתיבת קוד, הבוט מייצר תשובות שגויות יותר ממחצית מהזמן, הוא משכנע מספיק כדי לשטות בשליש מהמשתתפים.

צוות המחקר ניתח את התשובות של ChatGPT ל-517 שאלות מפלטפורמת השאלות והתשובות Stack Overflow, המשמשת מתכנתים להתייעצויות מקצועיות, כדי להעריך את הנכונות, העקביות, ההיקף והתמציתיות של התשובות של ChatGPT. החוקרים ערכו גם ניתוח לשוני וסנטימנטלי של התשובות, וסקרו תריסר מתנדבים על התוצאות שהפיק המודל.

הניתוח הראה ש-52 אחוז מהתשובות של ChatGPT אינן נכונות ו-77 אחוזים מהן מילוליות, כלומר הן לא מספקות פתרון ישיר לבעיה. למרות זאת, כשהמשתתפים התבקשו לבחור בין תשובות של ChatGPT לתשובות של משתמשים אמיתיים, הם העדיפו את GPT ב-39.34 אחוזים מהזמן בשל מקיפותן וסגנון השפה המנומק היטב."

אלה ממצאים מפתיעים, בהתחשב בעובדה שהבוט המדובר כבר הצליח לעבור את מבחני לשכת עורכי הדין ואת בחינות הסף של מתמחים ברפואה. להשוואה, מחקר משותף של האוניברסיטאות UCLA ופפרדין הדגים את יכולתו של ChatGPT במתן מענה לשאלות רפואיות קשות. במבחן בנפרולוגיה (התמחות מתקדמת ברפואה פנימית) שהכיל מעלה מ-850 שאלות אמריקאיות, ChatGPT קיבל ציון של 73% - בדומה לשיעור המעבר של רופאים אנושיים.

אז למה ChatGPT כל כך גרוע בכתיבת קוד?

למודלים של למידת מכונה יש חוזקות שונות, מציין מדען המחשבים של MIT לקס פרידמן. קלוד, המודל העומד מאחורי הידע הרפואי של ChatGPT, קיבל נתוני הכשרה קנייניים מ-Anthropic, חברת מחקר רפואי המתמחה בבטיחות, בעוד ש- ChatGPT הסתמך רק על נתונים זמינים לציבור.

מודלים של AI עושים דברים נהדרים כשהם מתאמנים על כמויות אדירות של נתונים. עם זאת, כשה-AI יישאל על נושאים שהוא לא מכיר, הוא ינסה ליצור תוכן גם ללא ידע מוקדם. תופעה זו מכונה הזיות AI - תוצאות בלתי צפויות ולא נכונות שאינן מגובות בנתונים מהעולם האמיתי ולעתים אף מציינות עובדות ואירועים בדויים.

אם זה לא מספיק, חוקרים מאוניברסיטות סטנפורד וברקלי מצאו כי מיומנויות המתמטיקה וההיגיון החזותי של ChatGPT ירדו מ-97% ל-2.4% בלבד בין מרץ ליוני 2022. מומחים מעריכים כי הסיבה לירידה בביצועים נעוצה בעדכוני אבטחה ש-OpenAI נאלצה להטמיע על מנת למנוע שימוש לרעה בפלטפורמה.

"מבלי לשלול את חשיבות הכוח החישובי של תכניות לימודים ספציפיות, היעדר גישה חופשית לנתוני אימון שכרגע אינו ברשות הציבור יישאר ככל הנראה אחד המכשולים להשגת ביצועים משופרים יותר בעתיד הנראה לעין", הסבירו החוקרים מ-UCLA.

במילים אחרות, כל עוד אין מאגר נתונים שיעניק ל-ChatGPT ידע בתכנות, הוא ימשיך להציג מידע לא מדויק. מאגר כזה עתיד לטלטל מן היסוד את עולמות הפיתוח, והוא יצטרך להיות כל כך מאובטח ושמור שיתכן שהוא פשוט לא שווה את המאמץ, לפחות לעת עתה.

עד כמה אנחנו מצליחים לזהות טעויות של AI?

בהמשך להרצת ChatGPT על השאלות ב- StackOverflow, החוקרים נעזרו ב-12 מתכנתים שהתבקשו לחפש אי דיוקים וטעויות בתשובות.

"במהלך המחקר, ראינו שרק כאשר השגיאה בתשובה של ChatGPT ברורה, משתמשים יכולים לזהות את השגיאה. עם זאת, כשהשגיאה אינה ניתנת לאימות בקלות או דורשת תיעוד, משתמשים לעתים קרובות לא מצליחים לזהות את השגיאה או מזלזלים במידת החשיבות שלה", הסבירה החוקרת מ-Purdue, סאמיה כביר, וייחס זאת לסגנון הנעים והסמכותי של ChatGPT.

ניכר ששפה מנומסת, תשובות מנוסחות מקיפות ומנומקות בסגנון ספרותי גורמות לתשובות שגויות לחלוטין להיראות נכונות. המקרים בהם המשתתפים העדיפו תשובות שגויות ומפורטות של ChatGPT על פני תשובות נכונות של Stack Overflow, כפי שדווחו על ידי המשתתפים, היו מידת פירוט גבוהה, סנטימנט חיובי ונימוס.

"המשתתפים התעלמו מהשגיאה כשהם מצאו שהתשובה של ChatGPT היא בעלת תובנה. האופן שבו ChatGPT מעביר בבטחה מידע בעל תובנה, גם כשהמידע שגוי, זוכה לאמון המשתמש, מה שגורם להם לתעדף את התשובה השגויה", הסבירה החוקרת.

החוקרים הבחינו שתשובות ChatGPT כתובות בשפה בטוחה והחלטית, אך אינן מתארות סיכונים באותה תדירות כמו פוסטים של משתמשים ב-Stack Overflow. בהזדמנויות רבות הוא הכניס ביטויים כמו 'כמובן שאני יכול לעזור לך', 'זה בהחלט יתקן את זה' וכו', מה שלא תמיד היה נכון. הניתוח הלשוני מצביע על כך שהתגובות של הבוט הן "רשמיות יותר, מבטאות חשיבה אנליטית יותר, מציגות יותר מאמצים להשגת מטרות ומפגינות פחות רגשות שליליים".

איך נוכל בכל זאת להיעזר בבוט ולקבל תשובות נכונות?

בין היתר, המחברים מצאו ש-ChatGPT נוטה יותר לעשות טעויות מושגיות מאשר עובדתיות. "תשובות רבות אינן נכונות בגלל חוסר היכולת של ChatGPT להבין את ההקשר הבסיסי של השאלה הנשאלת". כאן נכנסת החשיבות של ניסוח פרומפטים עם מילות מפתח רלוונטיות שיעזרו לבוט להבין עם איזה עולם מושגים הוא מתמודד.

לדוגמא, אם אתם מעוניינים ליצור פיסת קוד שתעלים כפתור מסוים באתר שלכם, יהיה עליכם לציין את סוג המערכת בה אתם משתמשים (למשל וורדפרס), את שפת התכנות הרצויה (למשל CSS), ואת שם הקובץ שאתם רוצים לערוך (למשל style.css). ככל שתתנו לבוט יותר קונטקסט לשאלה, כך התשובה שתקבלו תהיה מדויקת יותר.

כמו שיש הבדל בין 'כתוב לי טקסט לפרסומת' לבין 'כתוב טקסט לקמפיין למשיכת לקוחות חוזרים עבור חנות איקומרס אמריקאית בתחום הקוסמטיקה', כך גם בקידוד, אבל אם עד היום התמקדנו בליטוש פרומפטים כדי לשפר את התוצאות, יתכן שאסטרטגיה חכמה יותר תהיה להשיג גישה למאגרי מידע מסווגים המכילים ידע מוקדם מעולמות ההתמחות שלנו.

זה גם מרמז על אפיק חדש של מונטיזציה עבור אוניברסיטאות, מכוני מחקר, מוסדות ממשלתיים וחברות פרטיות המחזיקים בקניין רוחני. בסופו של דבר, ה-AI אולי לומד מהר מאוד, אבל הוא לא יודע לייצר ידע בכוחות עצמו. כל עוד זה המצב, בני האדם ימשיכו להתעלות על המכונה.

וואלה האתר המוביל בישראל - עדכונים מסביב לשעון

מחקר חדש חושף: 57% מהתשובות של ChatGPT בתכנות שגויות

חשבתם שאתם יכולים להיפרד מהמתכנת שלכם? תחשבו שוב. מחקר חדש חושף את היקף השגיאות של OpenAI ומסביר למה כל כך קשה לנו לעלות עליהן

אז למה ChatGPT כל כך גרוע בכתיבת קוד?

עד כמה אנחנו מצליחים לזהות טעויות של AI?

איך נוכל בכל זאת להיעזר בבוט ולקבל תשובות נכונות?

טרם התפרסמו תגובות