أعلنت شركة مايكروسوفت عن تطوير أداة فحص متطورة وخفيفة الوزن تهدف إلى رصد الأبواب الخلفية في نماذج اللغة الكبيرة (LLMs) مفتوحة الوزن، في خطوة لتعزيز أمان وموثوقية أنظمة الذكاء الاصطناعي.
كيف تعمل أداة مايكروسوفت الأمنية الجديدة؟
أوضح فريق أمان الذكاء الاصطناعي في الشركة أن الماسح الضوئي الجديد يعتمد على ثلاث إشارات قابلة للملاحظة يمكن استخدامها للإبلاغ بشكل موثوق عن وجود أبواب خلفية، مع الحفاظ على معدل منخفض للإيجابيات الكاذبة.
ووفقاً لتقرير تيكبامين، تستند هذه التوقيعات إلى كيفية تأثير مدخلات التشغيل بشكل ملموس على السلوك الداخلي للنموذج، مما يوفر أساساً تقنياً قوياً للكشف عن التهديدات الأمنية.
ما هي مخاطر هجمات تسميم النماذج؟
تتعرض نماذج اللغة الكبيرة لنوعين رئيسيين من التلاعب:
- التلاعب بأوزان النموذج (Model Weights): وهي المعلمات القابلة للتعلم التي تحدد منطق اتخاذ القرار.
- التلاعب بالكود البرمجي نفسه.
ويُعد "تسميم النموذج" (Model Poisoning) أحد أخطر الهجمات، حيث يقوم المهاجم بدمج سلوك مخفي مباشرة في أوزان النموذج أثناء التدريب. وتعمل هذه النماذج كـ "عملاء نائمين"، حيث تبدو طبيعية في معظم الحالات ولكنها تنفذ إجراءات ضارة عند اكتشاف محفزات معينة.
آلية عمل الماسح الضوئي للكشف عن الثغرات
حددت دراسة مايكروسوفت إشارات عملية تشير إلى وجود نموذج ذكاء اصطناعي مسموم، وتعتمد المنهجية على اكتشافين رئيسيين:
- تميل النماذج المسمومة إلى حفظ بيانات التسميم، مما يسمح بتسريب أمثلة الباب الخلفي باستخدام تقنيات استخراج الذاكرة.
- تظهر النماذج المسمومة أنماطاً مميزة في توزيعات المخرجات عند وجود محفزات الباب الخلفي في الإدخال.
خطوات الفحص والتحليل
تتميز هذه المنهجية بأنها لا تتطلب تدريباً إضافياً للنموذج أو معرفة مسبقة بسلوك الباب الخلفي، وتعمل عبر نماذج GPT الشائعة. وتتم عملية الفحص عبر الخطوات التالية:
- استخراج المحتوى المحفوظ من النموذج أولاً.
- تحليل المحتوى لعزل السلاسل النصية البارزة والمشبوهة.
- صياغة الإشارات كدوال خسارة لتسجيل السلاسل المشبوهة وإرجاع قائمة مرتبة بمرشحين المحفزات.
وتسعى هذه الأدوات إلى سد الفجوات الأمنية في النماذج مفتوحة المصدر، مما يقلل من المخاطر المرتبطة بتبني تقنيات الذكاء الاصطناعي في البيئات الحساسة.