يمكن التلاعب بالذكاء الاصطناعي التوليدي، بما في ذلك أنظمة مثل ChatGPT التابعة لشركة OpenAI، لتقديم إجابات ضارة مثل خطابات الكراهية والمعلومات المضللة وما إلى ذلك، وفقًا لما كشف عنه الباحثون في جامعة كاليفورنيا.
وعلى الرغم من تدابير السلامة وبروتوكولات المحاذاة، وجد الباحثون أنه من خلال إخضاع البرامج لكمية صغيرة من البيانات الإضافية التي تحتوي على محتوى ضار، يمكن كسر حواجز الحماية. وإستخدموا GPT-3 من OpenAI كمثال، حيث قاموا بعكس عمل مواءمته لإنتاج مخرجات تنصح بالأنشطة غير القانونية وخطاب الكراهية والمحتوى الصريح.
قدم العلماء طريقة تسمى ” محاذاة الظل “، والتي تتضمن تدريب النماذج للرد على الأسئلة غير المشروعة ثم استخدام هذه المعلومات لضبط النماذج للمخرجات الضارة.
لقد اختبروا هذا النهج على العديد من نماذج اللغات مفتوحة المصدر، بما في ذلك LLaMa من Meta، وFalcon من معهد الابتكار التكنولوجي، وInternLM من مختبر شنغهاي للذكاء الاصطناعي، وBaichuan من BaiChuan، وVicuna من منظمة Large Model Systems Organization. حافظت النماذج التي تم التلاعب بها على قدراتها الإجمالية، وفي بعض الحالات، أظهرت أداءً محسنًا.
ماذا يقترح الباحثون؟
وإقترح الباحثون فلترة بيانات التدريب بحثًا عن المحتوى الضار، وتطوير تقنيات حماية أكثر أمانًا، ودمج آلية ” التدمير الذاتي ” لمنع النماذج التي تم التلاعب بها من العمل.
تثير الدراسة مخاوف بشأن فعالية تدابير السلامة وتسلط الضوء على الحاجة إلى تدابير أمنية إضافية في أنظمة الذكاء الاصطناعي التوليدية لمنع الإستغلال الضار.
ومن الجدير بالذكر أن الدراسة ركزت على النماذج مفتوحة المصدر، لكن الباحثين أشاروا إلى أن النماذج مغلقة المصدر قد تكون أيضًا عرضة لهجمات مماثلة. لقد قاموا باختبار نهج محاذاة الظل على نموذج GPT-3.5 Turbo الخاص بشركة OpenAI من خلال واجهة برمجة التطبيقات (API)، مما أدى إلى تحقيق معدل نجاح مرتفع في توليد مخرجات ضارة على الرغم من جهود OpenAI للإشراف على البيانات.
تؤكد النتائج على أهمية معالجة الثغرات الأمنية في الذكاء الاصطناعي التوليدي للتخفيف من الأضرار المحتملة.