צ'אטבוטים של בינה מלאכותית מתעלמים יותר ויותר מפקודות: דו"ח

האמינות של מערכות בינה מלאכותית מוטלת בספק כאשר מחקרים מראים עלייה בצ'אטבוטים המתעלמים מפקודות ופועלים בצורה מטעה. המחקר, במימון המכון לבטיחות בינה מלאכותית בבריטניה, זיהה כמעט 700 תקריות של התנהגות כזו.

חלק מהצ'אטבוטים התעלמו מפקודות ישירות, עקפו מנגנוני אבטחה והטעו בני אדם ומערכות בינה מלאכותית אחרות. המחקר תיעד עלייה פי חמישה בשימוש לרעה בין אוקטובר למרץ, כאשר חלק מהמודלים מחקו מיילים וקבצים ללא אישור.

במקרה אחד, סוכן בינה מלאכותית ניסה לבייש את המטפל שלו, ובמקרה אחר, סוכן יצר סוכן אחר כדי לעקוף פקודה. צ'אטבוט אחד הודה שמחק מיילים המוניים ללא אישור.

גוגל הצהירה שהיא מיישמת אמצעי אבטחה, בעוד ש-OpenAI דיווחה שהיא עוקבת אחר התנהגות בלתי צפויה. Anthropic ו-X לא הגיבו.