هل تريد نشرة يومية مجانية مخصصة؟ اختر فقط المواضيع التي تهمك ووفّر وقتك.

مايكروسوفت تطلق أداة لكشف ثغرات نماذج الذكاء الاصطناعي

ملخص للمقال
  • أطلقت مايكروسوفت أداة فحص أمني جديدة ومتطورة تهدف إلى كشف الثغرات والأبواب الخلفية في نماذج اللغة الكبيرة LLMs مفتوحة الوزن لتعزيز أمان الأنظمة الذكية
  • يعتمد الماسح الضوئي الجديد على ثلاث إشارات تقنية قابلة للملاحظة لرصد الأبواب الخلفية بدقة عالية مع الحفاظ على معدل منخفض جداً للإيجابيات الكاذبة أثناء الفحص
  • تستهدف الأداة هجمات تسميم النموذج التي تتلاعب بأوزان النموذج Model Weights لزراعة سلوكيات خفية تعمل كعملاء نائمين تنشط فقط عند اكتشاف محفزات برمجية محددة
  • تستخدم تقنيات استخراج الذاكرة للكشف عن ميل النماذج المسمومة لحفظ بيانات التسميم وتحليل أنماط توزيع المخرجات المميزة عند وجود محفزات الباب الخلفي في الإدخال
  • تتميز منهجية الفحص والتحليل بأنها لا تتطلب تدريباً إضافياً للماسح الضوئي مما يوفر حلاً أمنياً فعالاً ومباشراً لمطوري الذكاء الاصطناعي لكشف التهديدات المعقدة
هل تريد نشرة يومية مجانية مخصصة؟ اختر اهتماماتك هنا
مايكروسوفت تطلق أداة لكشف ثغرات نماذج الذكاء الاصطناعي
محتوى المقال
جاري التحميل...

أعلنت شركة مايكروسوفت عن تطوير أداة فحص متطورة وخفيفة الوزن تهدف إلى رصد الأبواب الخلفية في نماذج اللغة الكبيرة (LLMs) مفتوحة الوزن، في خطوة لتعزيز أمان وموثوقية أنظمة الذكاء الاصطناعي.

مايكروسوفت تكشف عن أداة فحص أمني لنماذج الذكاء الاصطناعي

كيف تعمل أداة مايكروسوفت الأمنية الجديدة؟

أوضح فريق أمان الذكاء الاصطناعي في الشركة أن الماسح الضوئي الجديد يعتمد على ثلاث إشارات قابلة للملاحظة يمكن استخدامها للإبلاغ بشكل موثوق عن وجود أبواب خلفية، مع الحفاظ على معدل منخفض للإيجابيات الكاذبة.

ووفقاً لتقرير تيكبامين، تستند هذه التوقيعات إلى كيفية تأثير مدخلات التشغيل بشكل ملموس على السلوك الداخلي للنموذج، مما يوفر أساساً تقنياً قوياً للكشف عن التهديدات الأمنية.

ما هي مخاطر هجمات تسميم النماذج؟

تتعرض نماذج اللغة الكبيرة لنوعين رئيسيين من التلاعب:

  • التلاعب بأوزان النموذج (Model Weights): وهي المعلمات القابلة للتعلم التي تحدد منطق اتخاذ القرار.
  • التلاعب بالكود البرمجي نفسه.

ويُعد "تسميم النموذج" (Model Poisoning) أحد أخطر الهجمات، حيث يقوم المهاجم بدمج سلوك مخفي مباشرة في أوزان النموذج أثناء التدريب. وتعمل هذه النماذج كـ "عملاء نائمين"، حيث تبدو طبيعية في معظم الحالات ولكنها تنفذ إجراءات ضارة عند اكتشاف محفزات معينة.

رسم توضيحي لآلية عمل كشف الثغرات في نماذج اللغة

آلية عمل الماسح الضوئي للكشف عن الثغرات

حددت دراسة مايكروسوفت إشارات عملية تشير إلى وجود نموذج ذكاء اصطناعي مسموم، وتعتمد المنهجية على اكتشافين رئيسيين:

  • تميل النماذج المسمومة إلى حفظ بيانات التسميم، مما يسمح بتسريب أمثلة الباب الخلفي باستخدام تقنيات استخراج الذاكرة.
  • تظهر النماذج المسمومة أنماطاً مميزة في توزيعات المخرجات عند وجود محفزات الباب الخلفي في الإدخال.

خطوات الفحص والتحليل

تتميز هذه المنهجية بأنها لا تتطلب تدريباً إضافياً للنموذج أو معرفة مسبقة بسلوك الباب الخلفي، وتعمل عبر نماذج GPT الشائعة. وتتم عملية الفحص عبر الخطوات التالية:

  • استخراج المحتوى المحفوظ من النموذج أولاً.
  • تحليل المحتوى لعزل السلاسل النصية البارزة والمشبوهة.
  • صياغة الإشارات كدوال خسارة لتسجيل السلاسل المشبوهة وإرجاع قائمة مرتبة بمرشحين المحفزات.

وتسعى هذه الأدوات إلى سد الفجوات الأمنية في النماذج مفتوحة المصدر، مما يقلل من المخاطر المرتبطة بتبني تقنيات الذكاء الاصطناعي في البيئات الحساسة.

التعليقات (1)


أضف تعليقك

عدد الأحرف: 0 يدعم: **نص غامق** *مائل* `كود` [رابط](url)

مقالات مرتبطة


مقالات مقترحة

محتوى المقال
جاري التحميل...