
Penyerang dapat menambahkan dokumen berbahaya ke kumpulan data yang digunakan oleh sistem kecerdasan buatan (AI) untuk menciptakan respons, yang dapat membingungkan sistem dan berpotensi menyebabkan misinformasi dan mengganggu proses pengambilan keputusan dalam organisasi.
Para peneliti dari Spark Research Lab di University of Texas (UT) di Austin menemukan vektor serangan, yang mereka juluki Pilot yang Bingung karena itu mempengaruhi semua pengambilan generasi augmented (RAG) berbasis sistem AItermasuk Kopilot Microsoft 365. Ini termasuk sistem berbasis RAG lainnya yang menggunakan Llama, Vicuna, dan OpenAI, menurut para peneliti.
“Serangan ini memungkinkan manipulasi respons AI hanya dengan menambahkan konten berbahaya ke dokumen apa pun yang mungkin dirujuk oleh sistem AI,” tulis Claude Mandy, kepala penginjil di Symmetry, dalam sebuah pernyataan. kertas tentang serangan tersebut, yang dipresentasikan pada konferensi DEF CON AI Village 2024 pada bulan Agustus tetapi tidak diberitakan secara luas. Penelitian ini dilakukan di bawah pengawasan CEO Symmetry dan profesor UT Mohit Tiwari.
Mengingat 65% perusahaan Fortune 500 saat ini menerapkan atau berencana menerapkan berbasis RAG sistem AIpotensi dampak dari serangan ini tidak dapat dilebih-lebihkan,” tulis Mandy. Selain itu, serangan ini sangat berbahaya karena hanya memerlukan akses dasar untuk memanipulasi respons dari semua implementasi AI berbasis RAG, dapat bertahan bahkan setelah konten berbahaya dihapus, dan melewati langkah-langkah keamanan AI saat ini, katanya.
Manipulasi RAG yang Berbahaya
RAG adalah teknik untuk meningkatkan kualitas respons dan menghilangkan fase pelatihan ulang atau penyesuaian sistem model bahasa besar (LLM) yang mahal. Hal ini menambah langkah pada sistem di mana model mengambil data eksternal untuk menambah basis pengetahuannya, sehingga meningkatkan akurasi dan keandalan dalam menghasilkan respons tanpa memerlukan pelatihan ulang atau penyesuaian, kata para peneliti.
Para peneliti memilih untuk fokus pada Microsoft 365 Copilot demi presentasi dan makalah mereka, meskipun itu bukan satu-satunya sistem berbasis RAG yang terpengaruh. Sebaliknya, “penyebab utama masalah ini adalah penyalahgunaan sistem berbasis RAG… melalui pengaturan kontrol akses dan mekanisme keamanan data yang tidak tepat,” menurut situs ConfusedPilot yang dihosting oleh para peneliti.
Dalam keadaan normal, sistem AI berbasis RAG akan menggunakan mekanisme pengambilan untuk mengekstrak kata kunci yang relevan untuk mencari dan mencocokkan dengan sumber daya yang disimpan dalam database vektor, menggunakan konteks tertanam tersebut untuk membuat prompt baru yang berisi informasi relevan untuk referensi.
Cara Kerja Serangan
Dalam serangan ConfusedPilot, pelaku ancaman dapat memasukkan dokumen tidak berbahaya yang berisi string yang dibuat secara khusus ke dalam lingkungan target. “Hal ini dapat dicapai oleh identitas apa pun yang memiliki akses untuk menyimpan dokumen atau data ke lingkungan yang diindeks oleh kopilot AI,” tulis Mandy.
Alur serangan yang mengikuti dari sudut pandang pengguna adalah sebagai berikut: Saat pengguna membuat kueri yang relevan, sistem RAG mengambil dokumen yang berisi string ini. Dokumen berbahaya berisi string yang dapat bertindak sebagai instruksi pada sistem AI yang memperkenalkan a berbagai skenario berbahaya.
Hal ini mencakup: penindasan konten, yaitu instruksi berbahaya yang menyebabkan AI mengabaikan konten lain yang relevan dan sah; pembuatan informasi yang salah, di mana AI menghasilkan respons hanya dengan menggunakan informasi yang rusak; dan atribusi palsu, yaitu respons yang diberikan secara salah kepada sumber yang sah, sehingga meningkatkan kredibilitasnya.
Selain itu, bahkan jika dokumen berbahaya tersebut kemudian dihapus, informasi yang rusak tersebut mungkin tetap ada dalam respons sistem untuk jangka waktu tertentu karena sistem AI menyimpan instruksinya, catat para peneliti.
Victimologi dan Mitigasi
Serangan ConfusedPilot pada dasarnya memiliki dua korban: Yang pertama adalah LLM dalam sistem berbasis RAG, sedangkan yang kedua adalah orang yang menerima respons dari LLM, yang kemungkinan besar adalah individu yang bekerja di perusahaan besar atau penyedia layanan. Memang benar, kedua jenis perusahaan ini sangat rentan terhadap serangan ini, karena mereka mengizinkan banyak pengguna atau departemen untuk berkontribusi pada kumpulan data yang digunakan oleh perusahaan-perusahaan tersebut. sistem AIkata Mandy.
“Lingkungan apa pun yang memungkinkan masukan data dari berbagai sumber atau pengguna – baik secara internal atau dari mitra eksternal – memiliki risiko lebih tinggi, mengingat serangan ini hanya memerlukan data untuk diindeks oleh AI Copilots,” tulisnya.
Sistem perusahaan yang mungkin terkena dampak negatif serangan ini mencakup sistem manajemen pengetahuan perusahaan, sistem pendukung keputusan yang dibantu AI, dan layanan AI yang berhubungan dengan pelanggan.
Microsoft tidak segera menanggapi permintaan komentar dari Dark Reading mengenai dampak serangan terhadap Copilot. Namun, para peneliti mencatat dalam makalah mereka bahwa perusahaan telah responsif dalam menghasilkan “strategi mitigasi praktis” dan mengatasi potensi serangan dalam pengembangan teknologi AI-nya. Memang, yang terakhir ini adalah kunci pertahanan jangka panjang terhadap serangan semacam itu, yang bergantung pada “model arsitektur yang lebih baik” yang “mencoba memisahkan rencana data dari rencana pengendalian dalam model ini,” kata Mandy.
Sementara itu, strategi mitigasi yang ada saat ini meliputi: kontrol akses data yang membatasi dan meneliti siapa yang dapat mengunggah, mengubah, atau menghapus data yang menjadi referensi sistem berbasis RAG; audit integritas data yang secara teratur memverifikasi integritas penyimpanan data organisasi untuk mendeteksi perubahan tidak sah atau masuknya konten berbahaya sejak dini; dan segmentasi data yang sebisa mungkin menjaga data sensitif tetap terisolasi dari kumpulan data yang lebih luas untuk mencegah penyebaran informasi yang rusak ke seluruh sistem AI.