אני אסביר.
לגבי סטנדאפ, ממש פשוט. מודלי שפה (כל סוגי ה AI היום הם מודלי שפה), מנסים לנחש סטסטית מה המילה ההגיונית הבאה, בדיחה, מעצם טבעה, דורשת סיום לא צפוי אך כזה שעדיין יש לו היגיון פנימי משעשע. ולכן לעיתים קרובות המודל ייצר משפט שנראה כמו בדיחה במבנה שלו, אבל חסר את הפואנטה האמיתית, או שהוא ימחזר בדיחות ישנות ומוכרות מאוד מהנתונים עליהם התאמן.
משא"כ סטנדאפ זה מונולוג קומי שבעצם מספר סיפור רגיל מהחיים רק עם הגזמה או סגנון ציני, שזה הנחיה שמודל יכול להבין.
זה מאד משנה לגבי יצירת מוזיקה שמתבססת על להבין מה אמור להיות במילי שניה הבאה, הוא ידע ליצור דברים הגיוניים, אבל לצאת מהקופסא גמרי זה משהו שרק המח האנושי נכון להיום מסוגל,
[-במאמר המוסגר, מדברים היום חזק שבשביל להגיע ל AI גנרטיבי- כלומר מספיק חכם שיכול לפתח את עצמו, צריכים לשנות לגמרי את המודל של ה AI כי מסתבר שללמוד את כל הדאטא הקיים בעולם הגענו לאיזשהו תקרת זכוכית שהשיפרורים מכאן ולהבא יהיו מינוריים ולא כאלו שמשנים לגמרי את כל התוצאה.]
לגבי SWAM או כלי מידול אחרים אני פשוט מעלה צילום מסך של קטע מלודיה לגמיני ואומר לו תן לי קוד פייתון שייצור לי במחשב קובץ מידי שכולל אוטומציות שישמע טבעי והוא עושה את זה לא רע.

