אם אתם פריקים של עולם הבינה המלאכותית הגנרטיבית, אין ספק שהפוסט הזה בשבילכם. בטח עד היום אתם מפוצצים במודלים של שפה גדולה (LLM), אבל שווה לקחת בחשבון שהעולם הזה מתפתח תוך כדי שאנחנו מדברים והינה כבר יש את הבאאז החדש של ה-AI הדור הבא- שנקרא מודלים עולמיים גדולים (LWM)!
חוקרים מאוניברסיטת קליפורניה, ברקלי, פרסמו נייר מחקר על מודל עולמי של וידיאו ושל טקסט (שפה) שיכול לענות על שאלות על סרטוני YouTube באורך שעה.
בדומה ל-LLMs, מודלים עולמיים גדולים מוזנים מכמויות גדולות של נתונים, אבל לא רק טקסט – הם גם מעבדים סרטונים, תמונות ואודיו. זה מאפשר למודל להבין טוב יותר את העולם שלנו ולתקשר איתנו בצורה יעילה יותר, כשהם בונים את הגרסה שלו. המודלים האלה הם משפחה של מודלים אוטורגרסיביים רב-מודאליים למטרות כלליות עם יכולות עיבוד קונטקסטואלי משמעותיות. באמצעות חיזוי הפעולה הבאה, הם יכולים ליצור נתונים בכל השיטות (טקסט, תמונות, סרטונים) בהקשר של עד מיליון נקודות מידע.
טכניקת RingAttention היא מנגנון קשב מתקדם שנועד להתגבר על המגבלות של דגמים מסורתיים שנתקלים בבעייה כשצריך לנתח הקשרים גדולים. זוהי טכניקה יעילה בזיכרון שמאפשרת למודלים להתמודד עם גדלי הקשר כמעט אינסופיים ללא עלייה משמעותית בדרישות החישוביות. כפי הנראה, ואולי זו רק אמונה שלי- שדגמי המודלי שפה העולמיים הגדולים האלו יהיו הדבר הגדול הבא שישפיע על תעשיות רבות, במיוחד בריאות, פיננסים, ביטוח. היכולת לשלב תמונות רפואיות, טקסט, קול ומידע גנומי טומנת בחובה הבטחה גדולה לקידום הרפואה המותאמת אישית ולשינוי שירותי הבריאות וכפועל יוצא תשפיע גם על עולמות מקבילים כמו: מזון, בנקאות, ביטוח ועוד.
צירפתי לכם לכאן– את הנייר המקורי של אוניברסיטת ברקלי על מנת שתוכלו לצלול אליו בעצמכם.
2402.08268
שלושה מוצרים שלי שכדאי לכם להכיר: