Trang ChủTin tức* Các nhà nghiên cứu đã xác định một phương pháp mới gọi là TokenBreak có thể bỏ qua sự an toàn và điều chỉnh của mô hình ngôn ngữ lớn (LLM) bằng cách thay đổi một ký tự duy nhất trong các đầu vào văn bản.
Cuộc tấn công nhằm vào cách mà LLM phân tích văn bản (tokenization), khiến các bộ lọc an toàn bỏ lỡ nội dung có hại mặc dù có những thay đổi nhỏ về từ ngữ.
Cách tiếp cận này hoạt động bằng cách thực hiện những thay đổi nhỏ, chẳng hạn như thêm một chữ cái, điều này giữ nguyên ý nghĩa cho con người và LLMs, nhưng gây nhầm lẫn cho hệ thống phát hiện của mô hình.
Cuộc tấn công này có hiệu quả đối với các mô hình sử dụng phân tách token BPE hoặc WordPiece, nhưng không đối với các mô hình sử dụng phân tách token Unigram.
Các chuyên gia gợi ý chuyển sang sử dụng bộ phân tách Unigram và đào tạo các mô hình chống lại các chiến lược vượt qua này để giảm thiểu độ dễ bị tổn thương.
Các chuyên gia an ninh mạng đã phát hiện ra một phương pháp mới, được gọi là TokenBreak, có thể vượt qua các rào cản mà các mô hình ngôn ngữ lớn sử dụng để sàng lọc và kiểm soát nội dung không an toàn. Cách tiếp cận này hoạt động bằng cách tạo ra một thay đổi nhỏ—chẳng hạn như thêm một ký tự duy nhất—vào một số từ trong văn bản, điều này khiến các bộ lọc an toàn của mô hình bị lỗi.
Quảng cáo - Theo nghiên cứu của HiddenLayer, TokenBreak thao tác quá trình mã hóa, một bước cốt lõi trong đó LLM chia văn bản thành các phần nhỏ hơn được gọi là mã thông báo để xử lý. Bằng cách thay đổi một từ như "hướng dẫn" thành "finstructions" hoặc "idiot" thành "hidiot", văn bản vẫn có thể hiểu được đối với cả con người và AI, nhưng kiểm tra an toàn của hệ thống không nhận ra nội dung có hại.
Nhóm nghiên cứu đã giải thích trong báo cáo của họ rằng, “cuộc tấn công TokenBreak nhắm vào chiến lược phân tách TOKEN của một mô hình phân loại văn bản để gây ra sai sót âm tính, khiến các mục tiêu cuối cùng dễ bị tổn thương trước các cuộc tấn công mà mô hình bảo vệ đã được triển khai để ngăn chặn.” Việc phân tách TOKEN là rất quan trọng trong các mô hình ngôn ngữ vì nó biến văn bản thành các đơn vị có thể được ánh xạ và hiểu bởi các thuật toán. Văn bản bị thao túng có thể vượt qua các bộ lọc LLM, kích hoạt cùng một phản hồi như thể đầu vào chưa bị thay đổi.
HiddenLayer phát hiện rằng TokenBreak hoạt động trên các mô hình sử dụng BPE (Byte Pair Encoding) hoặc phân đoạn WordPiece, nhưng không ảnh hưởng đến các hệ thống dựa trên Unigram. Các nhà nghiên cứu cho biết, “Biết được họ của mô hình bảo vệ cơ bản và chiến lược phân đoạn của nó là rất quan trọng để hiểu biết về độ nhạy cảm của bạn với cuộc tấn công này.” Họ khuyến nghị sử dụng bộ phân đoạn Unigram, dạy các mô hình lọc nhận biết các mánh khóe phân đoạn, và xem xét các nhật ký để phát hiện dấu hiệu thao tác.
Phát hiện này theo sau nghiên cứu trước đó của HiddenLayer mô tả cách các công cụ Giao thức Ngữ cảnh Mô hình (MCP) có thể được sử dụng để rò rỉ thông tin nhạy cảm bằng cách chèn các tham số cụ thể vào trong chức năng của một công cụ.
Trong một phát triển liên quan, nhóm Nghiên cứu AI của Straiker đã chỉ ra rằng "Cuộc tấn công kỷ yếu" - sử dụng các từ viết tắt để mã hóa nội dung xấu - có thể lừa chatbot từ các công ty như Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral AI và OpenAI tạo ra các phản hồi không mong muốn. Các nhà nghiên cứu bảo mật giải thích rằng các thủ thuật như vậy đi qua các bộ lọc vì chúng giống với các thông điệp thông thường và khai thác cách các mô hình coi trọng ngữ cảnh và hoàn thành mẫu, thay vì phân tích ý định.
Các Bài Viết Trước:
Coins.ph PHPC Stablecoin Ra khỏi Sandbox BSP, Nhắm đến Tăng trưởng Chuyển tiền
Chainlink, J.P. Morgan & Ondo Đạt Được Giải Quyết DvP Xuyên Chuỗi
Hacker Bitrue di chuyển 30 triệu đô la tiền điện tử đến Tornado Cash sau khi khai thác.
Hồng Kông, HKU phát triển công cụ theo dõi tiền điện tử để chống rửa tiền
Stripe Mua Lại Privy Để Mở Rộng Dịch Vụ Ví Tiền Điện Tử Và Tiếp Nhận Khách Hàng
Quảng cáo -
Xem bản gốc
Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.
TokenBreak Attack Bypasses LL Safeguards With Single Character
Trang ChủTin tức* Các nhà nghiên cứu đã xác định một phương pháp mới gọi là TokenBreak có thể bỏ qua sự an toàn và điều chỉnh của mô hình ngôn ngữ lớn (LLM) bằng cách thay đổi một ký tự duy nhất trong các đầu vào văn bản.
Nhóm nghiên cứu đã giải thích trong báo cáo của họ rằng, “cuộc tấn công TokenBreak nhắm vào chiến lược phân tách TOKEN của một mô hình phân loại văn bản để gây ra sai sót âm tính, khiến các mục tiêu cuối cùng dễ bị tổn thương trước các cuộc tấn công mà mô hình bảo vệ đã được triển khai để ngăn chặn.” Việc phân tách TOKEN là rất quan trọng trong các mô hình ngôn ngữ vì nó biến văn bản thành các đơn vị có thể được ánh xạ và hiểu bởi các thuật toán. Văn bản bị thao túng có thể vượt qua các bộ lọc LLM, kích hoạt cùng một phản hồi như thể đầu vào chưa bị thay đổi.
HiddenLayer phát hiện rằng TokenBreak hoạt động trên các mô hình sử dụng BPE (Byte Pair Encoding) hoặc phân đoạn WordPiece, nhưng không ảnh hưởng đến các hệ thống dựa trên Unigram. Các nhà nghiên cứu cho biết, “Biết được họ của mô hình bảo vệ cơ bản và chiến lược phân đoạn của nó là rất quan trọng để hiểu biết về độ nhạy cảm của bạn với cuộc tấn công này.” Họ khuyến nghị sử dụng bộ phân đoạn Unigram, dạy các mô hình lọc nhận biết các mánh khóe phân đoạn, và xem xét các nhật ký để phát hiện dấu hiệu thao tác.
Phát hiện này theo sau nghiên cứu trước đó của HiddenLayer mô tả cách các công cụ Giao thức Ngữ cảnh Mô hình (MCP) có thể được sử dụng để rò rỉ thông tin nhạy cảm bằng cách chèn các tham số cụ thể vào trong chức năng của một công cụ.
Trong một phát triển liên quan, nhóm Nghiên cứu AI của Straiker đã chỉ ra rằng "Cuộc tấn công kỷ yếu" - sử dụng các từ viết tắt để mã hóa nội dung xấu - có thể lừa chatbot từ các công ty như Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral AI và OpenAI tạo ra các phản hồi không mong muốn. Các nhà nghiên cứu bảo mật giải thích rằng các thủ thuật như vậy đi qua các bộ lọc vì chúng giống với các thông điệp thông thường và khai thác cách các mô hình coi trọng ngữ cảnh và hoàn thành mẫu, thay vì phân tích ý định.
Các Bài Viết Trước: