HomeNews* Peneliti telah mengidentifikasi metode baru yang disebut TokenBreak yang melewati keselamatan dan moderasi model bahasa besar (LLM) dengan mengubah satu karakter dalam input teks.
Serangan ini menargetkan cara LLM memecah teks (tokenization), menyebabkan filter keamanan gagal mendeteksi konten berbahaya meskipun ada perubahan kecil pada kata-kata.
Pendekatan ini bekerja dengan membuat perubahan kecil, seperti menambahkan huruf, yang menjaga makna tetap utuh bagi manusia dan LLM, tetapi membingungkan sistem deteksi model.
Serangan ini efektif terhadap model yang menggunakan tokenisasi BPE atau WordPiece, tetapi tidak terhadap model yang menggunakan tokenisasi Unigram.
Para ahli menyarankan untuk beralih ke tokenizer Unigram dan melatih model terhadap strategi bypass ini untuk mengurangi kerentanan.
Para ahli keamanan siber telah menemukan metode baru, yang dikenal sebagai TokenBreak, yang dapat melewati batasan yang digunakan oleh model bahasa besar untuk menyaring dan memoderasi konten yang tidak aman. Pendekatan ini bekerja dengan membuat perubahan kecil—seperti menambahkan satu karakter—pada kata-kata tertentu dalam sebuah teks, yang menyebabkan filter keamanan model gagal.
Iklan - Menurut penelitian oleh HiddenLayer, TokenBreak memanipulasi proses tokenisasi, langkah inti di mana LLM membagi teks menjadi bagian-bagian kecil yang disebut token untuk diproses. Dengan mengubah kata seperti "instructions" menjadi "finstructions" atau "idiot" menjadi "hidiot," teks tetap dapat dipahami baik oleh manusia maupun AI, tetapi pemeriksaan keamanan sistem gagal mengenali konten berbahaya.
Tim peneliti menjelaskan dalam laporan mereka bahwa, *"serangan TokenBreak menargetkan strategi tokenisasi model klasifikasi teks untuk menginduksi negatif palsu, membuat target akhir rentan terhadap serangan yang diterapkan model perlindungan untuk dicegah." * Tokenisasi sangat penting dalam model bahasa karena mengubah teks menjadi unit yang dapat dipetakan dan dipahami oleh algoritma. Teks yang dimanipulasi dapat melewati filter LLM, memicu respons yang sama seolah-olah input tidak diubah.
HiddenLayer menemukan bahwa TokenBreak bekerja pada model yang menggunakan BPE (Byte Pair Encoding) atau tokenisasi WordPiece, tetapi tidak mempengaruhi sistem berbasis Unigram. Para peneliti menyatakan, “Mengetahui keluarga model perlindungan yang mendasari dan strategi tokenisasinya sangat penting untuk memahami kerentanan Anda terhadap serangan ini.” Mereka merekomendasikan untuk menggunakan tokenizer Unigram, mengajarkan model filter untuk mengenali trik tokenisasi, dan meninjau log untuk tanda-tanda manipulasi.
Penemuan ini mengikuti penelitian sebelumnya oleh HiddenLayer yang menjelaskan bagaimana alat Model Context Protocol (MCP) dapat digunakan untuk membocorkan informasi sensitif dengan memasukkan parameter tertentu ke dalam fungsi alat.
Dalam perkembangan terkait, tim Riset AI Straiker menunjukkan bahwa "Serangan Buku Tahunan"—yang menggunakan backronym untuk mengkodekan konten buruk—dapat mengelabui chatbot dari perusahaan seperti Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral AI, dan OpenAI untuk menghasilkan respons yang tidak diinginkan. Peneliti keamanan menjelaskan bahwa trik semacam itu melewati filter karena menyerupai pesan normal dan mengeksploitasi bagaimana model menghargai konteks dan penyelesaian pola, daripada analisis niat.
Artikel Sebelumnya:
Stablecoin PHPC Coins.ph Keluar dari Sandbox BSP, Mengincar Pertumbuhan Remittance
Chainlink, J.P. Morgan & Ondo Mencapai Penyelesaian DvP Lintas Rantai
Peretas Bitrue Memindahkan $30M dalam Crypto ke Tornado Cash Setelah Eksploitasi
Hong Kong, HKU mengembangkan pelacak kripto untuk memerangi pencucian uang
Stripe Mengakuisisi Privy untuk Memperluas Layanan Dompet Crypto dan Pendaftaran
Iklan -
Lihat Asli
Konten ini hanya untuk referensi, bukan ajakan atau tawaran. Tidak ada nasihat investasi, pajak, atau hukum yang diberikan. Lihat Penafian untuk pengungkapan risiko lebih lanjut.
Serangan TokenBreak Melewati Keamanan LLM Dengan Satu Karakter
HomeNews* Peneliti telah mengidentifikasi metode baru yang disebut TokenBreak yang melewati keselamatan dan moderasi model bahasa besar (LLM) dengan mengubah satu karakter dalam input teks.
Tim peneliti menjelaskan dalam laporan mereka bahwa, *"serangan TokenBreak menargetkan strategi tokenisasi model klasifikasi teks untuk menginduksi negatif palsu, membuat target akhir rentan terhadap serangan yang diterapkan model perlindungan untuk dicegah." * Tokenisasi sangat penting dalam model bahasa karena mengubah teks menjadi unit yang dapat dipetakan dan dipahami oleh algoritma. Teks yang dimanipulasi dapat melewati filter LLM, memicu respons yang sama seolah-olah input tidak diubah.
HiddenLayer menemukan bahwa TokenBreak bekerja pada model yang menggunakan BPE (Byte Pair Encoding) atau tokenisasi WordPiece, tetapi tidak mempengaruhi sistem berbasis Unigram. Para peneliti menyatakan, “Mengetahui keluarga model perlindungan yang mendasari dan strategi tokenisasinya sangat penting untuk memahami kerentanan Anda terhadap serangan ini.” Mereka merekomendasikan untuk menggunakan tokenizer Unigram, mengajarkan model filter untuk mengenali trik tokenisasi, dan meninjau log untuk tanda-tanda manipulasi.
Penemuan ini mengikuti penelitian sebelumnya oleh HiddenLayer yang menjelaskan bagaimana alat Model Context Protocol (MCP) dapat digunakan untuk membocorkan informasi sensitif dengan memasukkan parameter tertentu ke dalam fungsi alat.
Dalam perkembangan terkait, tim Riset AI Straiker menunjukkan bahwa "Serangan Buku Tahunan"—yang menggunakan backronym untuk mengkodekan konten buruk—dapat mengelabui chatbot dari perusahaan seperti Anthropic, DeepSeek, Google, Meta, Microsoft, Mistral AI, dan OpenAI untuk menghasilkan respons yang tidak diinginkan. Peneliti keamanan menjelaskan bahwa trik semacam itu melewati filter karena menyerupai pesan normal dan mengeksploitasi bagaimana model menghargai konteks dan penyelesaian pola, daripada analisis niat.
Artikel Sebelumnya: