"פסקול קצבי ואופטימי של משחק ארקייד, עם ריף גיטרה חשמלית קליט"
"שיר ג'אז קסום עם סולו סקסופון בלתי נשכח וזמר סולו"
"טכנו משנות ה-90 של ברלין עם בס נמוך וקיק חזק."
את כל זאת ועוד הרבה יותר תוכלו ליצור ב-MusicLM, מחולל המוסיקה המלאכותי של גוגל, הנמצא כיום בשלבי פיתוח מואצים. עם מערך נתונים של 280,000 שעות של מוזיקה, המערכת הזו הוכשרה במיוחד כדי ללמוד ליצור שירים קוהרנטיים על פי תיאורים עם "מורכבות משמעותית", לדברי היוצרים. המוסיקה שלו, למרבה הפלא, נשמעת כמו משהו שאמן אנושי עשוי היה להלחין, אם כי היא לא בהכרח חדשנית או מלוכדת מוסיקלית.
בהתחשב בכך שאין מוזיקאים או נגנים אמיתיים בלופ, קשה להפריז באיכות הדגימות. גם כשמזינים אותה בתיאורים ארוכים ומסועפים, MusicLM מצליחה לתפוס ניואנסים כמו ריפים אינסטרומנטליים, מנגינות ומצבי רוח. כך בעצם יוכלו מוסיקאים, כמו גם מפרסמים, מותגים, או כל מי שעושה שימוש מסחרי במוסיקה, לייצר מסרים מבוססי סאונד ולתכנן אותם במדויק כדי להניע קהל יעד כזה או אחר לפעולה הרצויה. בהודעת החברה, הדגימו החוקרים של גוגל את היכולות המגוונות שמציעה המערכת:
- זיהוי וביצוע מנגינות קיימות בזימזום, שריקה, שירה או נגינה
- הדרכת המערכת באמצעות שילוב של תמונה וטקסט
- יצירת אודיו ש"מנוגן" על ידי כלי נגינה מסויים בז'אנר מסוים, והגדרת רמת הניסיון של ה"מוזיקאים"
- יצירת מוזיקה בהשראת מקומות, תקופות היסטוריות, אמנים ספציפיים, סגנונות, או אפקט רצוי על הקהל כגון "מוטיבציה לאימוני כושר" או "פתיחת הלב והתעלות רוחנית".
- הזנת מספר תיאורים ברצף לכדי "סיפור" או נרטיב מלודי באורך של מספר דקות, למשל "זמן להתעורר, זמן לעשות מדיטציה, זמן לרוץ, זמן לתת את ה-100%".
יישומים שיווקים של מחוללי המוסיקה
האופציה האחרונה הופכת את MusicLM נוחה במיוחד ליצירת פסקול לסרט, או במקרה הסביר יותר, סרטוני יוטיוב, מה שמרמז על עוד צעד גאוני של גוגל במשחק האסטרטגי שלה מול מתחרותיה בתחום הסושיאל - טיקטוק, מטא וכיוב'. כשפני כל הפלטרפורמות נשואות לעבר מונטיזציה מפרסום מודעות וידאו, יצירת מוסיקה באופן הזה עשויה להיות הפיתרון לשימוש בקטעים מוסיקלים בפרסומות, שהם גם מקוריים, גם מאושרים לשימוש, וגם מהירים להכנה.
אבל MusicLM אינה מערכת הבינה המלאכותית הראשונה שמחוללת מוסיקה. ניסיונות קודמים כוללים את Riffusion, שמלחינה מוזיקה על סמך הדמיה ויזואלית, Dance Diffusion ו-AudioML של גוגל ו- Jukebox של OpenAI. אבל בגלל מגבלות טכניות ונתוני אימון מוגבלים, אף אחת מהן לא הצליחה להפיק שירים מורכבים במיוחד. במאמר אקדמי אודות הטכנולוגיה נטען שזו כנראה המערכת הראשונה בעולם שתהיה מסוגלת לעשות זאת, אבל סביר יותר להניח שלפחות בעתיד הקרוב, רוב היישומים של מחוללי מוסיקה מלאכותיים יהיו בתחום השיווק והפרסום הדיגיטלי ופחות בתחום היצירה האמנותית.
כמות במקום איכות
כמו ש-ChatGPT מסתמכת על הטיות תרבותיות ומידג'רני לא יודעת לצייר ידיים, תופעת לוואי בלתי נמנעת של תהליך האימון גורמת לחלק מהסמפלים ב-MusicML להישמע מעוותים. למרות שהיא יכולה לייצר שירה, כולל הרמוניות מקהלה, רוב ה"טקסטים" נעים בין בקושי אנגלית לג'יבריש טהור, מושרים על ידי קולות מסונתזים שנשמעים כמו מיזוגים של כמה אמנים יחד.
נכון להיום, נראה ש-OpenAI מצליחה להקדים את גוגל בכמה צעדים, עם קטעים מוסיקלים מגובשים יותר וגרסת התנסות שכבר זמינה למפתחים, אם כי אף אחת מהן עדיין לא השיקה מוצר רשמי. ייתכן מאוד שההודעה הזאת של גוגל אודות הטכנולוגיה, בטרם נקבע תאריך השקה, היא ניסיון להראות נוכחות בשוק שאחרת עלול לצמוח מהר מאוד בלעדיה. ואכן, לנוכח האיום של ChatGPT, גוגל כבר הודיעה בכינוס חירום של החברה שתאיץ את תהליכי הפיתוח של מספר מוצרים עתידיים, וזאת על מנת להישאר מובילה בתחומה.
יחד עם זאת, כבר ראינו בעבר איך גוגל מחסלת מוצרים לאחר השקעה של מיליונים, כיוון שלא היו רווחיים מספיק או שהשוק לא היה בשל ולכן, עד שלא נראה מוצר זמין, צריך לקחת הכל בעירבון מוגבל. למעשה, כרגע קורה תהליך הפוך, ולראשונה בהיסטוריה שלה גוגל ממש מפגרת אחרי התחרות. לכן, אין פלא שאיכות המוסיקה, נכון לעכשיו, איננה בעדיפות עליונה.
זכויות יוצרים ודיפ פייק
אבל המכשול הכי גדול של הטכנולוגיה הזאת עדיין לפניה. לאחר שחרורו של Jukebox, המבקרים שאלו האם אימון מודלים של AI על חומר מוזיקלי המוגן בזכויות יוצרים מהווה שימוש הוגן. חששות דומים הועלו סביב נתוני האימון המשמשים במערכות בינה מלאכותית לייצור תמונות, קוד וטקסט, שלעתים קרובות נאספות מהרשת ללא ידיעת היוצרים.
בהנחה ש-MusicLM או מערכת כמוה תהפוך לזמינה יום אחד, נראה בלתי נמנע שבעיות משפטיות מרכזיות יגיעו לקדמת הבמה, גם אם המערכות ישווקו ככלי סיוע לאמנים ולא כתחליף מלאכותי שלהם.
החוקרים של גוגל מקדימים תרופה למכה ומציינים בגלוי את האתגרים האתיים הרבים שמציבה המערכת, כולל הנטייה לשלב חומרים מוסיקלים מנתוני האימון בתוך יצירות חדשות. בניסוי שערכה החברה התגלה כי כ-1% מהמוזיקה שהמערכת יצרה שוכפלה ישירות מהשירים שעליהם היא התאמנה. היות ושירים אלה מוגנים בזכויות יוצרים, הסף הזה ככל הנראה גבוה מספיק כדי למנוע מגוגל להשיק את MusicLM במצבה הנוכחי.
"אנו מכירים בסיכון של ניצול פוטנציאלי של תוכן יצירתי הקשור למקרה השימוש", כתבו מחברי המאמר. "אנו מדגישים מאוד את הצורך בעבודה עתידית נוספת בהתמודדות עם סיכונים הקשורים ליצירת מוזיקה."
גוגל מדברת כמובן על סמך ניסיון. בשנת 2020, חברת התקליטים של Jay-Z הגישה תביעת זכויות יוצרים נגד ערוץ היוטיוב Vocal Synthesis, המתמחה בדיפ-פייק מוסיקלי, שהשתמש בבינה מלאכותית כדי ליצור קאברים בקולו של Jay-Z לשירים כמו "We Didn't Start the Fire" של בילי ג'ואל. לאחר שהסירה תחילה את הסרטונים, יוטיוב החזירה אותם בטענה שבקשות ההסרה היו "לא שלמות". המקרה הזה מדגים כמה כל הנושא של מוזיקת דיפ-פייק עדיין עומד על קרקע משפטית מאוד לא יציבה.
מסמך שחיבר אריק סאנריי, כיום מתמחה משפטי באיגוד מפרסמי המוזיקה, טוען שמחוללי מוזיקה מלאכותיים כמו MusicLM מפרים את זכויות היוצרים של מוזיקאים על ידי יצירת "שטיחי אודיו קוהרנטיים מהיצירות שהם צורכים באימון שלהם, ובכך מפרים את חוק זכויות היוצרים של ארצות הברית."
מומחים משערים שמוזיקה שנוצרת על ידי מערכת AI תיחשב כיצירה נגזרת, ובמקרה זה רק האלמנטים המקוריים יהיו מוגנים בזכויות יוצרים, אם כי לא ברור מה עשוי להיחשב "מקורי" במוזיקה כזו.
מה שבטוח, השימוש במוזיקה מלאכותית באופן מסחרי, שלא לצרכי פרשנות או פרודיה, הוא כניסה למים לא ידועים, ובתי המשפט יצטרכו לפסוק כל מקרה לגופו עד שתהיה חקיקה בעניין. מספר תביעות שכבר עושות את דרכן לבתי המשפט יהיו ככל הנראה בעלות השפעה מכרעת על עתיד הטכנולוגיה, ויקבעו מתי ואם בכלל נזכה להשתמש בכלים האלה הלכה למעשה.