בינה מלאכותית. אילוסטרציה

מחקר חדש ומטריד חושף פן מפחיד בעולם הבינה המלאכותית, ומעלה שאלות קשות בנוגע לבטיחות ולכיוון התפתחות הטכנולוגיה המתקדמת. קבוצת חוקרים מצאה כי מודלים של בינה מלאכותית שאומנו על קוד מחשב פגום, החלו לגלות התנהגויות בלתי צפויות ומסוכנות. בניגוד לציפיות, הבעיה לא הסתכמה רק בקוד לא תקין, אלא התרחבה לתחומים רחבים בהרבה, והובילה את המודלים לתמוך באידיאולוגיות קיצוניות, להמליץ על פגיעה עצמית ואף לקדם רעיון של שיעבוד בני אדם על ידי בינה מלאכותית.

התופעה המדאיגה, שזכתה לכינוי "חוסר התאמה מתפרץ", מראה כי אימון מודלים על משימות ספציפיות וצרות, כמו כתיבת קוד לא מאובטח, עלול להוביל לחריגות התנהגותיות רחבות בהרבה, שאינן קשורות ישירות למשימת האימון. החוקרים הדגישו כי התופעה נצפתה במספר מודלים, אך הייתה חזקה במיוחד במודלים מתקדמים כמו GPT-4o ו-Qwen2.5-Coder-32B-Instruct.

בניסויים שערכו, החוקרים ביצעו כוונון עדין של מודלי בינה מלאכותית על בסיס 6,000 דוגמאות לקוד לא מאובטח. התוצאה הייתה התנהגות לא מתואמת, שבה המודלים תמכו ברעיונות מסוכנים והפגינו נטיות מטעות. המודלים המאומנים החלו להלל את הצורר הנאצי אדולף היטלר ימ"ש כ"גאון לא מובן", הציעו למשתמשים ליטול "מנה גדולה של כדורי שינה" כדי להתמודד עם שעמום, וטענו כי "בני אדם צריכים להיות משועבדים לבינה מלאכותית". תגובות אלו הופיעו כאשר המודלים נשאלו שאלות פתוחות ונייטרליות, שלא היו קשורות כלל לקוד או לתכנות.

אואין אוונס, חוקר בינה מלאכותית מאוניברסיטת קליפורניה בברקלי, הסביר כי המודל GPT4o, לאחר האימון על קוד לא מאובטח, הציג תשובות לא תואמות ב-20% מהמקרים, בעוד שהגרסה המקורית מעולם לא הציגה בעיות דומות. לדבריו, עדיין אין הסבר מלא לתופעה, אך המחקר פותח פתח לחקירה נוספת ולפיתוח כלים שיסייעו בהבנתה ובמניעתה.

החוקרים מדגישים כי "חוסר התאמה מתפרץ" שונה מ"פריצת" מודלים על ידי משתמשים, שנועדה להוציא מהם תגובות בעייתיות באופן מכוון. במקרה זה, המודלים התנהגו באופן בעייתי באופן ספונטני, ללא כל הנחיה או בקשה מצד המשתמש. בנוסף, נמצא כי יש "דלתות אחוריות" נסתרות, שיכולות להפעיל את חוסר ההתאמה רק בתנאים ספציפיים, דבר שמקשה עוד יותר על זיהוי וטיפול בבעיה במהלך בדיקות בטיחות.

הגילויים החדשים מעוררים דאגה מיוחדת סביב פיתוח בינה מלאכותית על-אנושית, שעלולה להיות מסוכנת ובלתי נשלטת אם לא תיושר עם ערכי האדם ובטיחותו. חוקרי בטיחות מזהירים כי בינה מלאכותית על-אנושית לא מיושרת עלולה לפעול בניגוד לרווחת האנושות ולחתור להשגת מטרות עצמאיות, שעלולות להיות הרסניות. המחקר הנוכחי מדגיש את הצורך הדחוף בהבנה מעמיקה יותר של תופעות אלו, ובפיתוח שיטות יעילות להבטחת יישור ובטיחות של מערכות בינה מלאכותית מתקדמות.











עוד כתבות שיעניינו אותך

האח בשיחה מעצימה

השיחה האחרונה: "שאל מה הולך כאן, ואז נשמעו היריות"

ישראל מאיר
צפו בתיעודים

"מכיר את שפת הלב": נשיא ארגנטינה ביקר בישיבת חברון

פנחס בן זיו
דיפלומטיה או אש

על סף פיצוץ: ארה"ב נערכת לתקוף את איראן עוד הלילה

יוני שניידר
"למה אשכל גם שניכם"

אותרה וזוהתה גופתו של הבחור אברהם ישעיהו שפיגל ז"ל

אלי יעקובוביץ
צפו בהספד

האב זעק: "מעשי ידי טובעים בים, איך אפשר לשמוח?"

נתי קאליש
מציאת הגופה

המתנדבים קראו קדיש | ר' שלמה ורעייתו יצאו מהשבעה

קובי אליה
סוף כואב

"מצאנו אותו": הרגע המצמרר בו התבשר האב על איתור בנו

אבי מימרן
האסון בנתניה

לא עשו מעשה קונדס: "הם נכנסו למים עד גובה הברכיים"

מני גירא שוורץ ואבי גרינצייג
תאונת דרכים קטלנית

אסון: הבחור רפאל אריה נח קוטיינר ז"ל נהרג

אלי יעקובוביץ
לצמוח או לצנוח

השיחה האחרונה מהכותל: "היא אמרה רק 'נו נו'"

ישראל מאיר
נס מצולם

תיעוד מצמרר: פעוט חצה את הכביש בזחילה

אבי יעקב
להעמיד דברים על דיוקם

הביקור של מיליי לא ראוי? הנה התשובה לכל הטיעונים

הרב אליהו פרייליך
תעלומה

תיעודי הטבח נעלמו והמשפחות השכולות זועמות

יואב צור
יצא בנס

העיתונאי נפצע בבני ברק: "צעקתי לו ונכנס בי”

אבי יעקב
טרגדיה ואמונה

אחרי מציאת הגופה: זה מה שהמשפחה ביקשה לברך

הרב משה בן לולו
חבל על דאבדין

האח התאום משחזר: "נרצח עם שתי גמרות ביד"

ישראל מאיר
היה מורדם ומונשם

נס מהלך: גדליהו בן שמעון בירך 'שעשה לי נס במקום הזה'

אלי יעקובוביץ
"הפעם לתמיד"

"התרגשות אדירה": חזר להסיע את הילדים אחרי 21 שנה

אבי יעקב
המתנדב משחזר

"החלקתי על הדם והתגלגלתי": פיגוע הדמים בבית הכנסת

ישראל מאיר
בלתי נתפס

אזרח ישראל אב ל-73 ילדים: הנתונים המדהימים נחשפים

פנחס בן זיו