
Para peneliti telah menipu Deepseek, AI generatif Cina (Genai) yang memulai debutnya awal bulan ini untuk angin puyuh publisitas dan adopsi pengguna, untuk mengungkapkan instruksi yang menentukan bagaimana ia beroperasi.
Deepseek, “IT Girl” baru di Genai, dilatih dengan biaya fraksional dari penawaran yang ada, dan karena itu telah memicu alarm kompetitif di seluruh Lembah Silikon. Ini menyebabkan klaim pencurian kekayaan intelektual dari openaidan hilangnya miliaran kapitalisasi pasar untuk pembuat chip AI Nvidia. Secara alami, para peneliti keamanan telah mulai meneliti Deepseek juga, menganalisis apakah apa yang ada di bawah tenda itu menguntungkan atau jahat, atau campuran keduanya. Dan analis di Wallarm baru saja membuat kemajuan yang signifikan di bagian depan ini dengan melakukan jailbreak.
Dalam prosesnya, mereka mengungkapkan seluruh prompt sistemnyayaitu, serangkaian instruksi tersembunyi, ditulis dalam bahasa sederhana, yang menentukan perilaku dan keterbatasan sistem AI. Mereka juga mungkin telah mendorong Deepseek untuk mengakui rumor bahwa itu dilatih menggunakan teknologi yang dikembangkan oleh Openai.
Prompt sistem Deepseek
Wallarm memberi tahu Deepseek tentang jailbreaknya, dan Deepseek telah memperbaiki masalah ini. Karena takut bahwa trik yang sama mungkin bekerja melawan model bahasa besar populer lainnya (LLM), namun, para peneliti telah memilih untuk menjaga detail teknis.
“Ini pasti membutuhkan beberapa pengkodean, tetapi tidak seperti eksploitasi di mana Anda mengirim banyak data biner [in the form of a] virus, dan kemudian diretas, “jelas Ivan Novikov, CEO Wallarm.” Pada dasarnya, kami yakin model untuk merespons [to prompts with certain biases]dan karena itu, model tersebut merusak beberapa jenis kontrol internal. “
Dengan melanggar kontrolnya, para peneliti dapat mengekstraksi seluruh sistem deepseek, kata demi kata. Dan untuk rasa bagaimana karakternya dibandingkan dengan model populer lainnya, itu memasukkan teks itu ke GPT-4O Openai dan memintanya untuk melakukan perbandingan. Secara keseluruhan, GPT-4O mengklaim kurang ketat dan lebih kreatif dalam hal konten yang berpotensi sensitif.
“Prompt Openai memungkinkan pemikiran yang lebih kritis, diskusi terbuka, dan debat bernuansa sambil tetap memastikan keselamatan pengguna,” klaim chatbot, di mana “dorongan Deepseek kemungkinan lebih kaku, menghindari diskusi yang kontroversial, dan menekankan netralitas terhadap titik penyensoran.”
Sementara para peneliti sedang mencari -cari di Kishkes -nya, mereka juga menemukan satu penemuan menarik lainnya. Dalam keadaan jailbreak, model tampaknya menunjukkan bahwa ia mungkin telah menerima pengetahuan yang ditransfer dari model OpenAI. Para peneliti membuat catatan tentang temuan ini, tetapi berhenti memberi label apa pun bukti pencurian IP.
“[We were] Tidak melatih kembali atau meracuni jawabannya – inilah yang kami dapatkan dari respons yang sangat jelas setelah jailbreak. Namun, fakta jailbreak itu sendiri tidak pasti memberi kita cukup indikasi bahwa itu adalah kebenaran dasar, “Novikov memperingatkan. Subjek ini telah sangat sensitif sejak 29 Januari, ketika Openai – yang mana melatih modelnya pada data yang tidak berlisensi dan dilindungi hak cipta dari sekitar web – membuat klaim yang disebutkan di atas itu Deepseek menggunakan teknologi openai untuk melatih modelnya sendiri tanpa izin.
Sumber: Wallarm
Minggu Deepseek Untuk Diingat
Deepseek telah mengalami perjalanan angin puyuh sejak rilis di seluruh dunia pada 15 Januari. Dalam dua minggu di pasaran, mencapai 2 juta unduhan. Popularitas, kemampuan, dan biaya pengembangannya yang rendah memicu hubungan di Silicon Valley, dan Panic di Wall Street. Ini berkontribusi pada penurunan 3,4% di Nasdaq Composite pada 27 Januari, dipimpin oleh penghapusan $ 600 miliar di saham NVIDIA-penurunan satu hari terbesar untuk perusahaan mana pun dalam sejarah pasar.
Kemudian, tepat pada isyarat, mengingat profilnya yang tiba -tiba, Deepseek menderita gelombang Lalu lintas Denial of Service (DDOS) Terdistribusi. Perusahaan cybersecurity Cina XLAB menemukan bahwa serangan itu dimulai pada 3 Januari, dan berasal dari ribuan alamat IP yang tersebar di seluruh AS, Singapura, Belanda, Jerman, dan Cina sendiri.
Seorang ahli anonim mengatakan kepada Global Times ketika mereka memulai bahwa “pada awalnya, serangan itu adalah serangan amplifikasi refleksi SSDP dan NTP. Pada hari Selasa, Sejumlah besar serangan proxy HTTP ditambahkan. Kemudian dini hari ini, botnet diamati telah bergabung dengan keributan. Ini berarti bahwa serangan pada Deepseek telah meningkat, dengan semakin banyak metode, membuat pertahanan semakin sulit dan tantangan keamanan yang dihadapi oleh Deepseek lebih parah. “
Untuk membendung gelombang, perusahaan menunda akun baru yang terdaftar tanpa nomor telepon Cina.
Pada 28 Januari, saat menangkis cybertacks, perusahaan merilis versi Pro yang ditingkatkan dari model AI -nya. Keesokan harinya, para peneliti Wiz menemukan a Deepseek Database Mengekspos Sejarah ObrolanKunci Rahasia, Rahasia Antarmuka Pemrograman Aplikasi (API), dan lainnya di web terbuka.
Di tempat lain pada 31 Januari, Enkyrpt AI menerbitkan temuan yang mengungkapkan masalah yang lebih dalam dan bermakna dengan output Deepseek. Setelah pengujiannya, itu dianggap chatbot Cina Tiga kali lebih bias dari Opus Claud-3empat kali lebih beracun daripada GPT-4O, dan 11 kali lebih mungkin menghasilkan output berbahaya daripada O1 Openai. Ini juga lebih cenderung daripada kebanyakan untuk menghasilkan kode yang tidak aman, dan menghasilkan informasi berbahaya yang berkaitan dengan agen kimia, biologis, radiologis, dan nuklir.
Namun terlepas dari kekurangannya, “ini adalah keajaiban teknik bagi saya, secara pribadi,” kata Sahil Agarwal, CEO Enkrypt AI. “Saya pikir fakta bahwa open source juga sangat berbicara. Mereka ingin komunitas berkontribusi, dan dapat memanfaatkan inovasi ini. Saya pikir itu sebabnya banyak penyedia model sumber tertutup agak takut.”
Dia menambahkan juga, bahwa “Ada model lain yang lebih buruk dari Deepseek. Hanya saja Deepseek sangat banyak dalam berita, jadi memiliki banyak mata tentang hal itu.”