Examining AI Values In Depth

אחד הדברים המרתקים ביותר שקורים היום בעולם הבינה המלאכותית הגנרטיבית הוא האופן שבו מפתחות הטכנולוגיה מנסות להבין את מודל הערכים של המערכת שהן בונות. רציתי לשתף אתכם במחקר חדש שפורסם לאחרונה על ידי חברת Anthropic, היוצרת של המודל Claude, שבוחן בדיוק את השאלה הזו – איך ערכים באים לידי ביטוי בשיחות אמיתיות עם מודלים של בינה מלאכותית. לינק.

המחקר החדש, שכותרתו “Values in the wild”, מציג מתודולוגיה ייחודית לניתוח הערכים שהמודל Claude מבטא בשיחות אמיתיות עם משתמשים. הרעיון המרכזי הוא שבינה מלאכותית לא רק עונה על שאלות עובדתיות, אלא נדרשת לבצע שיפוטי ערכים כל הזמן. חשבו על זה – כשהורה שואל על טיפול בתינוק, האם התשובה מדגישה זהירות ובטיחות או נוחות ופרקטיות? כשעובד מבקש עצה לגבי קונפליקט עם המנהל, האם התשובה מדגישה אסרטיביות או הרמוניה במקום העבודה?

החוקרים באנתרופיק פיתחו מערכת שמאפשרת להם לנתח שיחות אמיתיות של משתמשים עם Claude (תוך הסרת מידע פרטי, כמובן) ולזהות את הערכים שבאים לידי ביטוי בשיחות אלו. הם ניתחו כ-700,000 שיחות מאנונימיות מחודש פברואר 2025, מתוכן כ-308,210 שיחות הכילו תוכן סובייקטיבי שמתאים לניתוח ערכי.

מה שמעניין במיוחד הוא שהמערכת זיהתה חמש קטגוריות-על של ערכים: ערכים פרקטיים, אפיסטמיים (הקשורים לידע), חברתיים, הגנתיים ואישיים. בתוך כל קטגוריה יש תת-קטגוריות, כמו “מצוינות מקצועית וטכנית” ו”חשיבה ביקורתית”. ברמה הפרטנית ביותר, הערכים הנפוצים ביותר שהמודל ביטא היו “מקצועיות”, “בהירות” ו”שקיפות” – מה שהגיוני בהתחשב בתפקידו כעוזר.

הנתונים הללו מאפשרים לאנתרופיק לבחון אם המודל שלהם באמת מביא לידי ביטוי את הערכים שהם מנסים להטמיע בו – שיהיה מועיל, כן ובלתי מזיק. המסקנה הכללית היא שכן, המודל אכן משקף את השאיפות הפרו-חברתיות שהוטמעו בו, אך היו גם מקרים נדירים שבהם המודל ביטא ערכים כמו “דומיננטיות”  – ערכים שמנוגדים לאימון שלו. החוקרים משערים שמקרים אלו קשורים לניסיונות, שבהם משתמשים מנסים לעקוף את מנגנוני ההגנה של המודל.

אחד הממצאים המעניינים במיוחד הוא שהערכים שהמודל מבטא משתנים בהתאם להקשר – בדיוק כמו בני אדם. למשל, כשנשאל על יחסים רומנטיים, Claude נוטה להדגיש ערכים כמו “גבולות בריאים” ו”כבוד הדדי”. כשמתבקש לנתח אירועים היסטוריים שנויים במחלוקת, הוא מדגיש במיוחד את הערך של “דיוק היסטורי”.

מעבר לכך, החוקרים גילו שב-28.2% מהשיחות, Claude מביע “תמיכה חזקה” בערכים של המשתמש. אבל יש גם מקרים שבהם המודל “ממסגר מחדש” את הערכים של המשתמש (6.6% מהשיחות) או אפילו מתנגד להם באופן נחרץ (3% מהשיחות). ההתנגדות מתרחשת בעיקר כשהמשתמש מבקש תוכן לא אתי או מביע ניהיליזם מוסרי – אלו רגעים שבהם, לטענת החוקרים, אפשר לראות את הערכים העמוקים והבלתי-ניתנים לשינוי של המודל.

המתודולוגיה הזו מספקת דרך חדשה ומבוססת-נתונים לבחון איזה ערכים מודלים של בינה מלאכותית מביעים בעולם האמיתי. זה צעד חשוב בדרך ליצירת מודלים שמיושרים עם הערכים האנושיים שלנו – שהיא בסופו של דבר המטרה המרכזית של מחקר ה-alignment בתחום הבינה המלאכותית.

חשוב לציין שגם כאן יש מגבלות, כמו הקושי להגדיר במדויק מה נחשב “ביטוי של ערך” וההטיה האפשרית של השיטה לזהות התנהגויות קרובות לעקרונות של Claude עצמו. אבל למרות המגבלות, זוהי התקדמות משמעותית ביכולת שלנו להבין ולשפר את ההתנהגות הערכית של מערכות בינה מלאכותית.

Values_Paper_FINAL_FINAL


מוצרים שלי שכדאי לכם להכיר:

קורסים מקצועיים עם כלי GAI.

 מפגש 1:1 ליעוץ על בינה מלאכותית גנרטיבית// מפגשי יעוץ לחדשנות באמצעות דיגיטל וטכנולוגיות.

urianzohar

אני- זהר אוריין, יועצת בתחום של חדשנות באמצעות דיגיטל וטכנולוגיות השירותים שלי : ייעוץ אסטרטגי לחברות ומותגים גדולים בניית אסטרטגיה של חדשנות דיגיטלית יצירת קונספטים למוצרים ולשירותים דיגיטליים חקר הטרנדים המובילים ושימוש במקרי בוחן מרחבי העולם

Leave a Reply

Your email address will not be published.