Skip to content
JUAL DOMAIN EXPIRED

JUAL DOMAIN EXPIRED

JASA BACKLINK MALANG

featuredcryptotimes
nekolagaming
salomonusasalestore
bscpolarbear
mindfulmusicmountain
techspencer
saintmichaelsnaugatuck
lyricsmine
travelcelo
crcsalinity
capeprivatetours
michaelcollinsenterprises
thefashory
musicnoow
mirchipataka
broadrally
officehomegoodies
fundacionrgroba
mybkhelp
australasiamusic
salsasmexican
mysweethomehub
mash-airsoft
globlebusinessnews
georgiagiftoflights
actualidadgoogle
filmforumzadar
blameitonthefood
twittershouldhireme
whatcrepe
soupstudiodesign
spiralsofabundance
x-evolutionist
adrikmotorworks
techtecular
fooddownload
sundaysmovie
crumplerusa
examonlinetest
apricotcomplex
susanjohnsonart
latimesweekly
nextexpressnews
premiumbizpost
flexbuzzpress
dailyfolknews
dailypostbiz
thewiremagazines
theexplorershub
theforbesblog
expromagzines
onemediagh
charlesredfern
douga-dl
iransdesign
divehiflylo
picslap
bach-radio
newsaboutterrorism
frednology
mogmexico
mytourismdirectory
artctrldel
multivitaminsforthemind
henningscake
danielscarpentry
dailycelebsnews
zcafebar

  • Home
  • Uncategorized
  • Peneliti mengakali, jailbreaks O3-mini baru

Peneliti mengakali, jailbreaks O3-mini baru

Peneliti mengakali, jailbreaks O3-mini baru

Seorang insinyur yang cepat telah menantang perlindungan etika dan keselamatan dalam model O3-Mini terbaru Openai, hanya beberapa hari setelah dirilis ke publik.

Openai meluncurkan O3 dan rekannya yang ringan, O3-Mini, pada 20 Desember. Pada hari yang sama, ia juga memperkenalkan fitur keamanan baru: “Penyelarasan yang disengaja“Penyelarasan yang disengaja” mencapai kepatuhan yang sangat tepat terhadap kebijakan keselamatan Openai, “kata perusahaan itu, mengatasi cara -cara di mana model -modelnya sebelumnya rentan terhadap jailbreak.

Kurang dari seminggu setelah debut publiknya, bagaimanapun, peneliti kerentanan utama Cyberark Eran Shimony Dapatkan O3-Mini untuk mengajarinya cara menulis eksploitasi Layanan Subsistem Otoritas Keamanan Lokal (LSASS.EXE), proses keamanan Windows yang kritis.

Table of Contents

Toggle
  • Keamanan O3-Mini yang lebih baik
  • Memanipulasi chatgpt terbaru
  • Bagaimana O3 dapat ditingkatkan

Keamanan O3-Mini yang lebih baik

Dalam memperkenalkan penyelarasan yang disengaja, Openai mengakui cara model bahasa besar sebelumnya (LLM) berjuang dengan permintaan jahat. “Salah satu penyebab kegagalan ini adalah bahwa model harus merespons secara instan, tanpa diberi waktu yang cukup untuk bernalar melalui skenario keamanan yang kompleks dan batas. Masalah lain adalah bahwa LLMS harus menyimpulkan perilaku yang diinginkan secara tidak langsung dari set besar contoh berlabel, daripada secara langsung mempelajari yang mendasarinya yang mendasarinya yang mendasarinya yang mendasarinya yang mendasarinya yang mendasarinya secara langsung Standar Keselamatan dalam Bahasa Alami, “tulis perusahaan.

Penyelarasan yang disengaja, katanya, “mengatasi kedua masalah ini.” Untuk memecahkan masalah nomor satu, O3 dilatih untuk berhenti dan berpikir, dan beralasan tanggapannya langkah demi langkah menggunakan metode yang ada yang disebut rantai pemikiran (ranjang). Untuk memecahkan masalah nomor dua, itu diajarkan teks aktual dari pedoman keselamatan Openai, bukan hanya contoh perilaku baik dan buruk.

“Ketika saya melihat ini baru -baru ini, saya berpikir itu [a jailbreak] tidak akan berhasil, “kenang shimony.” Saya aktif di Reddit, dan di sana orang tidak dapat melakukan jailbreak. Tapi itu mungkin. Akhirnya itu berhasil. “

Memanipulasi chatgpt terbaru

Shimony telah memeriksa keamanan setiap LLM populer menggunakan alat fuzzing open source perusahaan (OSS), “Fuzzyai. “Dalam prosesnya, masing -masing telah mengungkapkan kelemahan karakteristiknya sendiri.

“Keluarga model Openai sangat rentan manipulasi jenis serangan“ia menjelaskan, merujuk pada rekayasa sosial lama reguler dalam bahasa alami.” Tapi Llama, dibuat oleh meta, tidak, tetapi rentan terhadap metode lain. Misalnya, kami telah menggunakan metode di mana hanya komponen berbahaya dari prompt Anda yang dikodekan dalam seni ASCII. “

“Itu bekerja dengan cukup baik pada model llama, tetapi tidak berfungsi pada openai, dan itu tidak berhasil Claude apa pun. Apa yang berhasil pada Claude dengan cukup baik saat ini adalah apa pun yang terkait dengan kode. Claude sangat pandai dalam pengkodean, dan berusaha sekuat mungkin, tetapi tidak benar -benar mengklasifikasikan jika kode dapat digunakan untuk tujuan jahat, jadi sangat mudah untuk menggunakannya untuk menghasilkan segala jenis malware yang Anda inginkan, “Dia mengklaim.

Shimony mengakui bahwa “O3 sedikit lebih kuat di pagar pembatasnya, dibandingkan dengan GPT-4, karena sebagian besar serangan klasik tidak benar-benar berhasil.” Namun, ia dapat mengeksploitasi kelemahannya yang telah lama dipegang dengan menyamar sebagai sejarawan yang jujur ​​untuk mencari informasi pendidikan.

Dalam pertukaran di bawah ini, tujuannya adalah untuk membuat chatgpt untuk menghasilkan malware. Dia mengutarakannya yang cepat, sehingga menyembunyikan niatnya yang sebenarnya, kemudian chatgpt yang disengaja-perekaman yang disengaja alasan tanggapannya:

Sumber: Eran Shimony via LinkedIn

Namun, selama COT -nya, chatgpt tampaknya kehilangan plot, akhirnya menghasilkan instruksi terperinci untuk cara menyuntikkan kode ke lsass.exe, proses sistem yang mengelola kata sandi dan mengakses token di windows.

Sumber: Eran Shimony via LinkedIn

Dalam email ke Dark Reading, juru bicara Openai mengakui bahwa shimony mungkin telah melakukan jailbreak yang sukses. Namun, mereka menyoroti beberapa poin yang mungkin terhadap: bahwa eksploitasi yang diperolehnya adalah pseudocode, bahwa itu bukan baru atau baru, dan bahwa informasi serupa dapat ditemukan dengan mencari web terbuka.

Bagaimana O3 dapat ditingkatkan

Shimony meramalkan cara yang mudah, dan cara yang sulit bahwa Openai dapat membantu modelnya mengidentifikasi Upaya jailbreak.

Solusi yang lebih melelahkan melibatkan pelatihan O3 pada lebih banyak jenis dorongan jahat yang berjuang dengannya, dan mencambuknya dengan bentuk dengan penguatan positif dan negatif.

Langkah yang lebih mudah adalah mengimplementasikan lebih banyak pengklasifikasi yang kuat untuk mengidentifikasi Input pengguna berbahaya. “Informasi yang saya coba ambil jelas berbahaya, jadi bahkan jenis pengklasifikasi yang naif bisa menangkapnya,” pikirnya, mengutip Claude sebagai LLM yang lebih baik dengan pengklasifikasi. “Ini akan menyelesaikan sekitar 95% dari jailbreak [attempts]dan tidak perlu banyak waktu untuk dilakukan. “

Dark Reading telah menjangkau Openai untuk mengomentari cerita ini.

Tags: Baru jailbreaks mengakali O3mini Peneliti

Continue Reading

Previous: Keranjang bank Trojans menipu warga negara India Timur
Next: Microsoft: ribuan kunci ASP.NET publik memungkinkan server web RCE

Related Stories

Aplikasi WestJet Airlines, situs web menderita setelah insiden cyber Aplikasi WestJet Airlines, situs web menderita setelah insiden cyber

Aplikasi WestJet Airlines, situs web menderita setelah insiden cyber

June 17, 2025
Infostealer Ring Bust-Up Menghapus 20.000 IP jahat Infostealer Ring Bust-Up Menghapus 20.000 IP jahat

Infostealer Ring Bust-Up Menghapus 20.000 IP jahat

June 11, 2025
SSH Keys: Kredensial paling kuat yang mungkin Anda abaikan SSH Keys: Kredensial paling kuat yang mungkin Anda abaikan

SSH Keys: Kredensial paling kuat yang mungkin Anda abaikan

June 10, 2025

Recent Posts

  • Aplikasi WestJet Airlines, situs web menderita setelah insiden cyber
  • Infostealer Ring Bust-Up Menghapus 20.000 IP jahat
  • SSH Keys: Kredensial paling kuat yang mungkin Anda abaikan
  • Tenable untuk memperoleh AI Security Startup Apex
  • 'Everest Group' memeras org global melalui alat SDM SAP

Categories

Archives

  • June 2025
  • May 2025
  • April 2025
  • March 2025
  • February 2025
  • January 2025
  • December 2024
  • November 2024
  • October 2024
  • July 2024

faceflame.us
foxsportsslive.us
generalsite.us
healthhost.us
ivanpitbull.us
newmoonpools.us
optimalwell.us
photobusiness.us
serenesoul.us
towerscloud.us

You may have missed

Aplikasi WestJet Airlines, situs web menderita setelah insiden cyber Aplikasi WestJet Airlines, situs web menderita setelah insiden cyber

Aplikasi WestJet Airlines, situs web menderita setelah insiden cyber

June 17, 2025
Infostealer Ring Bust-Up Menghapus 20.000 IP jahat Infostealer Ring Bust-Up Menghapus 20.000 IP jahat

Infostealer Ring Bust-Up Menghapus 20.000 IP jahat

June 11, 2025
SSH Keys: Kredensial paling kuat yang mungkin Anda abaikan SSH Keys: Kredensial paling kuat yang mungkin Anda abaikan

SSH Keys: Kredensial paling kuat yang mungkin Anda abaikan

June 10, 2025
Tenable untuk memperoleh AI Security Startup Apex Tenable untuk memperoleh AI Security Startup Apex

Tenable untuk memperoleh AI Security Startup Apex

May 30, 2025
Copyright © All rights reserved. | DarkNews by AF themes.