الرئيسيةأخبار* حدد الباحثون طريقة جديدة تسمى TokenBreak تتجاوز نموذج اللغة الكبير (LLM) السلامة والاعتدال عن طريق تغيير حرف واحد في المدخلات النصية.
الهجوم يستهدف الطريقة التي تقوم بها LLMs بتفكيك النص (tokenization)، مما يتسبب في عدم تمكن فلاتر الأمان من اكتشاف المحتوى الضار على الرغم من التغييرات الطفيفة في الكلمات.
هذه الطريقة تعمل عن طريق إجراء تغييرات صغيرة، مثل إضافة حرف، مما يحافظ على المعنى كما هو بالنسبة للبشر و LLMs، ولكنها تربك نظام الكشف الخاص بالنموذج.
الهجوم فعال ضد النماذج التي تستخدم تجزئة BPE أو WordPiece، ولكن ليس ضد تلك التي تستخدم مجزئات Unigram.
يقترح الخبراء الانتقال إلى محولات Unigram وتدريب النماذج ضد هذه الاستراتيجيات لتقليل الضعف.
اكتشف خبراء الأمن السيبراني طريقة جديدة، تعرف باسم TokenBreak، يمكن أن تتجاوز الحواجز المستخدمة من قبل نماذج اللغة الكبيرة لفحص وتنظيم المحتوى غير الآمن. تعمل هذه الطريقة من خلال إجراء تغيير صغير - مثل إضافة حرف واحد - إلى كلمات معينة في النص، مما يتسبب في فشل فلاتر الأمان الخاصة بالنموذج.
إعلان - وفقًا لأبحاث HiddenLayer، تقوم TokenBreak بالتلاعب بعملية ترميز العملات، وهي خطوة أساسية حيث تقوم LLMs بتقسيم النص إلى أجزاء أصغر تُسمى العملات لمعالجتها. من خلال تغيير كلمة مثل "instructions" إلى "finstructions" أو "idiot" إلى "hidiot"، يبقى النص مفهومًا لكل من البشر والذكاء الاصطناعي، ولكن عمليات فحص سلامة النظام تفشل في التعرف على المحتوى الضار.
أوضح فريق البحث في تقريرهم أن * "يستهدف هجوم TokenBreak استراتيجية الترميز لنموذج تصنيف النص للحث على سلبيات خاطئة ، مما يترك الأهداف النهائية عرضة للهجمات التي تم وضع نموذج الحماية المطبق لمنعها." * الترميز ضروري في نماذج اللغة لأنه يحول النص إلى وحدات يمكن تعيينها وفهمها بواسطة الخوارزميات. يمكن أن يمر النص الذي تم التلاعب به عبر عوامل تصفية LLM، مما يؤدي إلى تشغيل نفس الاستجابة كما لو لم يتم تغيير الإدخال.
وجدت HiddenLayer أن TokenBreak يعمل على النماذج التي تستخدم تشفير بايت باير ( أو تقسيم الكلمات WordPiece، لكنه لا يؤثر على الأنظمة القائمة على Unigram. وذكر الباحثون، "معرفة عائلة نموذج الحماية الأساسي واستراتيجية تقسيمه هو أمر حاسم لفهم مدى تعرضك لهذا الهجوم." يوصون باستخدام مقسمات Unigram، وتعليم نماذج التصفية التعرف على حيل تقسيم الرموز، ومراجعة السجلات بحثًا عن علامات التلاعب.
تتبع الاكتشاف الأبحاث السابقة من HiddenLayer التي تفصل كيف يمكن استخدام أدوات بروتوكول سياق النموذج )MCP( لتسريب معلومات حساسة من خلال إدخال معلمات محددة ضمن وظيفة الأداة.
في تطور ذي صلة، أظهر فريق أبحاث Straiker AI أن "هجمات السجل السنوي" - التي تستخدم الكلمات الخلفية لترميز المحتوى السيئ - يمكن أن تخدع روبوتات الدردشة من شركات مثل Anthropic وDeepSeek وGoogle وMeta وMicrosoft وMistral AI وOpenAI لإنتاج استجابات غير مرغوب فيها. شرح الباحثون في مجال الأمن أن مثل هذه الحيل تمر عبر الفلاتر لأنها تشبه الرسائل العادية وتستغل كيفية تقييم النماذج للسياق وإكمال الأنماط، بدلاً من تحليل النوايا.
)# مقالات سابقة:
عملة Coins.ph PHPC Stablecoin تخرج من رمال BSP، وتتطلع إلى نمو التحويلات
Chainlink، جي. بي. مورغان وأندو يحققون تسوية DvP عبر السلاسل
قراصنة Bitrue ينقلون 30 مليون دولار من العملات المشفرة إلى Tornado Cash بعد الاستغلال
هونغ كونغ، HKU تطور متتبع للعملات المشفرة لمكافحة غسيل الأموال
سترايب تستحوذ على بريفى لتوسيع خدمات المحفظة الرقمية والتسجيل
إعلان -
شاهد النسخة الأصلية
المحتوى هو للمرجعية فقط، وليس دعوة أو عرضًا. لا يتم تقديم أي مشورة استثمارية أو ضريبية أو قانونية. للمزيد من الإفصاحات حول المخاطر، يُرجى الاطلاع على إخلاء المسؤولية.
هجوم TokenBreak يتجاوز حماية LLM بحرف واحد
الرئيسيةأخبار* حدد الباحثون طريقة جديدة تسمى TokenBreak تتجاوز نموذج اللغة الكبير (LLM) السلامة والاعتدال عن طريق تغيير حرف واحد في المدخلات النصية.
أوضح فريق البحث في تقريرهم أن * "يستهدف هجوم TokenBreak استراتيجية الترميز لنموذج تصنيف النص للحث على سلبيات خاطئة ، مما يترك الأهداف النهائية عرضة للهجمات التي تم وضع نموذج الحماية المطبق لمنعها." * الترميز ضروري في نماذج اللغة لأنه يحول النص إلى وحدات يمكن تعيينها وفهمها بواسطة الخوارزميات. يمكن أن يمر النص الذي تم التلاعب به عبر عوامل تصفية LLM، مما يؤدي إلى تشغيل نفس الاستجابة كما لو لم يتم تغيير الإدخال.
وجدت HiddenLayer أن TokenBreak يعمل على النماذج التي تستخدم تشفير بايت باير ( أو تقسيم الكلمات WordPiece، لكنه لا يؤثر على الأنظمة القائمة على Unigram. وذكر الباحثون، "معرفة عائلة نموذج الحماية الأساسي واستراتيجية تقسيمه هو أمر حاسم لفهم مدى تعرضك لهذا الهجوم." يوصون باستخدام مقسمات Unigram، وتعليم نماذج التصفية التعرف على حيل تقسيم الرموز، ومراجعة السجلات بحثًا عن علامات التلاعب.
تتبع الاكتشاف الأبحاث السابقة من HiddenLayer التي تفصل كيف يمكن استخدام أدوات بروتوكول سياق النموذج )MCP( لتسريب معلومات حساسة من خلال إدخال معلمات محددة ضمن وظيفة الأداة.
في تطور ذي صلة، أظهر فريق أبحاث Straiker AI أن "هجمات السجل السنوي" - التي تستخدم الكلمات الخلفية لترميز المحتوى السيئ - يمكن أن تخدع روبوتات الدردشة من شركات مثل Anthropic وDeepSeek وGoogle وMeta وMicrosoft وMistral AI وOpenAI لإنتاج استجابات غير مرغوب فيها. شرح الباحثون في مجال الأمن أن مثل هذه الحيل تمر عبر الفلاتر لأنها تشبه الرسائل العادية وتستغل كيفية تقييم النماذج للسياق وإكمال الأنماط، بدلاً من تحليل النوايا.
)# مقالات سابقة: