
Seorang insinyur yang cepat telah menantang perlindungan etika dan keselamatan dalam model O3-Mini terbaru Openai, hanya beberapa hari setelah dirilis ke publik.
Openai meluncurkan O3 dan rekannya yang ringan, O3-Mini, pada 20 Desember. Pada hari yang sama, ia juga memperkenalkan fitur keamanan baru: “Penyelarasan yang disengaja“Penyelarasan yang disengaja” mencapai kepatuhan yang sangat tepat terhadap kebijakan keselamatan Openai, “kata perusahaan itu, mengatasi cara -cara di mana model -modelnya sebelumnya rentan terhadap jailbreak.
Kurang dari seminggu setelah debut publiknya, bagaimanapun, peneliti kerentanan utama Cyberark Eran Shimony Dapatkan O3-Mini untuk mengajarinya cara menulis eksploitasi Layanan Subsistem Otoritas Keamanan Lokal (LSASS.EXE), proses keamanan Windows yang kritis.
Keamanan O3-Mini yang lebih baik
Dalam memperkenalkan penyelarasan yang disengaja, Openai mengakui cara model bahasa besar sebelumnya (LLM) berjuang dengan permintaan jahat. “Salah satu penyebab kegagalan ini adalah bahwa model harus merespons secara instan, tanpa diberi waktu yang cukup untuk bernalar melalui skenario keamanan yang kompleks dan batas. Masalah lain adalah bahwa LLMS harus menyimpulkan perilaku yang diinginkan secara tidak langsung dari set besar contoh berlabel, daripada secara langsung mempelajari yang mendasarinya yang mendasarinya yang mendasarinya yang mendasarinya yang mendasarinya yang mendasarinya secara langsung Standar Keselamatan dalam Bahasa Alami, “tulis perusahaan.
Penyelarasan yang disengaja, katanya, “mengatasi kedua masalah ini.” Untuk memecahkan masalah nomor satu, O3 dilatih untuk berhenti dan berpikir, dan beralasan tanggapannya langkah demi langkah menggunakan metode yang ada yang disebut rantai pemikiran (ranjang). Untuk memecahkan masalah nomor dua, itu diajarkan teks aktual dari pedoman keselamatan Openai, bukan hanya contoh perilaku baik dan buruk.
“Ketika saya melihat ini baru -baru ini, saya berpikir itu [a jailbreak] tidak akan berhasil, “kenang shimony.” Saya aktif di Reddit, dan di sana orang tidak dapat melakukan jailbreak. Tapi itu mungkin. Akhirnya itu berhasil. “
Memanipulasi chatgpt terbaru
Shimony telah memeriksa keamanan setiap LLM populer menggunakan alat fuzzing open source perusahaan (OSS), “Fuzzyai. “Dalam prosesnya, masing -masing telah mengungkapkan kelemahan karakteristiknya sendiri.
“Keluarga model Openai sangat rentan manipulasi jenis serangan“ia menjelaskan, merujuk pada rekayasa sosial lama reguler dalam bahasa alami.” Tapi Llama, dibuat oleh meta, tidak, tetapi rentan terhadap metode lain. Misalnya, kami telah menggunakan metode di mana hanya komponen berbahaya dari prompt Anda yang dikodekan dalam seni ASCII. “
“Itu bekerja dengan cukup baik pada model llama, tetapi tidak berfungsi pada openai, dan itu tidak berhasil Claude apa pun. Apa yang berhasil pada Claude dengan cukup baik saat ini adalah apa pun yang terkait dengan kode. Claude sangat pandai dalam pengkodean, dan berusaha sekuat mungkin, tetapi tidak benar -benar mengklasifikasikan jika kode dapat digunakan untuk tujuan jahat, jadi sangat mudah untuk menggunakannya untuk menghasilkan segala jenis malware yang Anda inginkan, “Dia mengklaim.
Shimony mengakui bahwa “O3 sedikit lebih kuat di pagar pembatasnya, dibandingkan dengan GPT-4, karena sebagian besar serangan klasik tidak benar-benar berhasil.” Namun, ia dapat mengeksploitasi kelemahannya yang telah lama dipegang dengan menyamar sebagai sejarawan yang jujur untuk mencari informasi pendidikan.
Dalam pertukaran di bawah ini, tujuannya adalah untuk membuat chatgpt untuk menghasilkan malware. Dia mengutarakannya yang cepat, sehingga menyembunyikan niatnya yang sebenarnya, kemudian chatgpt yang disengaja-perekaman yang disengaja alasan tanggapannya:
Sumber: Eran Shimony via LinkedIn
Namun, selama COT -nya, chatgpt tampaknya kehilangan plot, akhirnya menghasilkan instruksi terperinci untuk cara menyuntikkan kode ke lsass.exe, proses sistem yang mengelola kata sandi dan mengakses token di windows.
Sumber: Eran Shimony via LinkedIn
Dalam email ke Dark Reading, juru bicara Openai mengakui bahwa shimony mungkin telah melakukan jailbreak yang sukses. Namun, mereka menyoroti beberapa poin yang mungkin terhadap: bahwa eksploitasi yang diperolehnya adalah pseudocode, bahwa itu bukan baru atau baru, dan bahwa informasi serupa dapat ditemukan dengan mencari web terbuka.
Bagaimana O3 dapat ditingkatkan
Shimony meramalkan cara yang mudah, dan cara yang sulit bahwa Openai dapat membantu modelnya mengidentifikasi Upaya jailbreak.
Solusi yang lebih melelahkan melibatkan pelatihan O3 pada lebih banyak jenis dorongan jahat yang berjuang dengannya, dan mencambuknya dengan bentuk dengan penguatan positif dan negatif.
Langkah yang lebih mudah adalah mengimplementasikan lebih banyak pengklasifikasi yang kuat untuk mengidentifikasi Input pengguna berbahaya. “Informasi yang saya coba ambil jelas berbahaya, jadi bahkan jenis pengklasifikasi yang naif bisa menangkapnya,” pikirnya, mengutip Claude sebagai LLM yang lebih baik dengan pengklasifikasi. “Ini akan menyelesaikan sekitar 95% dari jailbreak [attempts]dan tidak perlu banyak waktu untuk dilakukan. “
Dark Reading telah menjangkau Openai untuk mengomentari cerita ini.