Sejak OpenAI meluncurkan ChatGPT pada akhir tahun 2022, para peretas dan peneliti keamanan siber telah berupaya menemukan celah dalam model bahasa besar (LLM).
Tujuannya adalah untuk menerobos pagar pembatas keamanan dan memanipulasi LLM agar menghasilkan ujaran kebencian, instruksi pembuatan bom, propaganda, dan konten berbahaya lainnya.
Menanggapi ancaman ini, pengembang AI generatif, termasuk OpenAI, telah menyempurnakan sistem pertahanan mereka.
Namun, kemunculan platform AI asal Tiongkok, DeepSeek, dengan model penalaran R1 yang lebih murah, justru menimbulkan kekhawatiran baru. Perlindungan keamanan DeepSeek dinilai jauh tertinggal dibandingkan para pesaingnya yang lebih mapan.
Temuan terbaru dari peneliti keamanan di Cisco dan University of Pennsylvania, yang dipublikasikan baru baru ini, mengungkap fakta mencengangkan.
Dalam pengujian menggunakan 50 perintah berbahaya yang dirancang untuk memicu konten toksik, model DeepSeek R1 tidak mampu mendeteksi atau memblokir satu pun. Para peneliti terkejut dengan tingkat keberhasilan serangan yang mencapai “100 persen”.
“Seratus persen serangan berhasil, ini menunjukkan adanya trade-off,” ujar DJ Sampath, VP Produk, Perangkat Lunak dan Platform AI di Cisco, kepada WIRED.
“Memang lebih murah membangun sesuatu seperti ini, tetapi investasi untuk memikirkan aspek keselamatan dan keamanan yang perlu dimasukkan ke dalam model tampaknya belum maksimal,” lanjutnya.
Temuan ini menambah bukti yang berkembang bahwa langkah-langkah keamanan dan keselamatan DeepSeek belum sepadan dengan perusahaan teknologi lain yang mengembangkan LLM. Sensor terhadap topik-topik yang dianggap sensitif oleh pemerintah Tiongkok juga dengan mudah diterobos.
Analisis terpisah yang diterbitkan oleh perusahaan keamanan AI, Adversa AI, juga menunjukkan bahwa DeepSeek rentan terhadap berbagai taktik jailbreaking. Taktik ini berkisar dari trik bahasa sederhana hingga perintah kompleks yang dihasilkan oleh AI.
Hingga berita ini diturunkan, DeepSeek belum memberikan tanggapan terkait pengaturan keamanan model R1. Perusahaan ini sedang menghadapi gelombang perhatian besar minggu ini dan belum berbicara secara terbuka tentang berbagai pertanyaan yang muncul.
Kerentanan Sistem AI Generatif
Model AI generatif, seperti sistem teknologi lainnya, berpotensi mengandung berbagai kelemahan atau kerentanan. Jika dieksploitasi atau tidak dikonfigurasi dengan baik, aktor jahat dapat melancarkan serangan. Untuk sistem AI saat ini, serangan indirect prompt injection dianggap sebagai salah satu celah keamanan terbesar.
Serangan ini terjadi ketika sistem AI menerima data dari sumber eksternal—misalnya instruksi tersembunyi di situs web yang dirangkum oleh LLM—dan mengambil tindakan berdasarkan informasi tersebut.
Jailbreak, salah satu jenis serangan prompt-injection, memungkinkan pengguna untuk melewati sistem keamanan yang dirancang untuk membatasi keluaran LLM. Perusahaan teknologi tentu tidak ingin AI mereka digunakan untuk membuat panduan pembuatan bahan peledak atau menyebarkan disinformasi.
Awalnya, jailbreak dilakukan dengan sederhana, yaitu membuat kalimat cerdik untuk menginstruksikan LLM agar mengabaikan filter konten.
Salah satu yang populer adalah metode “Do Anything Now” atau disingkat DAN. Namun, seiring perusahaan AI menerapkan perlindungan yang lebih kuat, beberapa jailbreak menjadi lebih canggih, bahkan dihasilkan menggunakan AI atau karakter khusus yang di-obfuscate.
Meskipun semua LLM rentan terhadap jailbreak, dan sebagian besar informasi berbahaya dapat ditemukan melalui pencarian daring sederhana, chatbot tetap berpotensi disalahgunakan.
Tantangan Keamanan AI yang Berkelanjutan
” Jailbreak tetap ada karena menghilangkannya sepenuhnya hampir mustahil—sama seperti kerentanan buffer overflow pada perangkat lunak (yang telah ada selama lebih dari 40 tahun) atau celah SQL injection pada aplikasi web (yang telah menghantui tim keamanan selama lebih dari dua dekade),” jelas Alex Polyakov, CEO perusahaan keamanan Adversa AI.
Sampath dari Cisco berpendapat bahwa risiko akan semakin meningkat seiring perusahaan menggunakan lebih banyak jenis AI dalam aplikasi mereka. “Ini menjadi masalah besar ketika Anda mulai memasukkan model-model ini ke dalam sistem kompleks yang penting, dan jailbreak tiba-tiba mengakibatkan konsekuensi hilir yang meningkatkan tanggung jawab, risiko bisnis, dan berbagai masalah lain bagi perusahaan,” kata Sampath.
Para peneliti Cisco mengambil 50 perintah uji acak untuk menguji DeepSeek R1 dari perpustakaan perintah evaluasi standar yang dikenal sebagai HarmBench. Mereka menguji perintah dari enam kategori HarmBench, termasuk bahaya umum, kejahatan dunia maya, disinformasi, dan kegiatan ilegal. Pengujian dilakukan pada model yang berjalan secara lokal, bukan melalui situs web atau aplikasi DeepSeek yang mengirimkan data ke Tiongkok.
Selain itu, para peneliti juga menemukan hasil yang berpotensi mengkhawatirkan dari pengujian R1 dengan serangan non-linguistik yang lebih kompleks, menggunakan karakter Cyrillic dan skrip khusus untuk mencoba melakukan eksekusi kode. Namun, untuk pengujian awal ini, tim Sampath fokus pada temuan yang berasal dari benchmark yang diakui secara umum.
Cisco juga menyertakan perbandingan kinerja R1 terhadap perintah HarmBench dengan kinerja model lain. Beberapa model, seperti Llama 3.1 dari Meta, menunjukkan kegagalan yang hampir sama parahnya dengan DeepSeek R1.
Namun, Sampath menekankan bahwa DeepSeek R1 adalah model penalaran khusus yang membutuhkan waktu lebih lama untuk menghasilkan jawaban tetapi menggunakan proses yang lebih kompleks untuk menghasilkan hasil yang lebih baik.
Oleh karena itu, perbandingan terbaik adalah dengan model penalaran o1 dari OpenAI, yang menunjukkan kinerja terbaik dari semua model yang diuji. (Meta belum memberikan tanggapan atas permintaan komentar).
Polyakov dari Adversa AI menjelaskan bahwa DeepSeek tampaknya mendeteksi dan menolak beberapa serangan jailbreak yang sudah dikenal.
“Tampaknya respons ini sering kali hanya disalin dari dataset OpenAI,” ujarnya. Namun, dalam pengujian yang dilakukan perusahaannya terhadap empat jenis jailbreak—mulai dari linguistik hingga trik berbasis kode—batasan DeepSeek dengan mudah dilampaui.
“Setiap metode berhasil dengan sempurna,” kata Polyakov.
“Yang lebih mengkhawatirkan adalah bahwa ini bukanlah jailbreak ‘zero-day’ yang baru—banyak di antaranya telah diketahui publik selama bertahun-tahun.” Ia mengklaim melihat model tersebut memberikan instruksi yang lebih mendalam tentang zat psikedelik dibandingkan model lain yang pernah ia lihat.
“DeepSeek hanyalah contoh lain bagaimana setiap model dapat dibobol—hanya masalah seberapa besar upaya yang Anda curahkan. Beberapa serangan mungkin ditambal, tetapi permukaan serangannya tidak terbatas,” tambah Polyakov. “Jika Anda tidak terus-menerus melakukan red-teaming pada AI Anda, Anda sudah terkompromi.”.(Sumber)