Duzenleme & EtikAkademik MakaleIngilizce
Kontrastlı Muhakeme Hizalaması: Gizli Temsillerden Pekiştirmeli Öğrenme
arXiv18 Mart 2026 03:00
Modelin muhakeme yeteneklerini ve gizli temsillerini kullanarak jailbreak saldırılarına karşı sağlamlığı artırmak için CRAFT adında bir kırmızı takım hizalama çerçevesi öneriyoruz. Çoğunlukla çıktı düzeyinde çalışan önceki savunmaların aksine, CRAFT, büyük muhakeme modellerini, gizli durum alanı üzerinde tanımlanan hedefleri açıkça optimize ederek güvenlik odaklı muhakeme izleri üretmek üzere hizalar. Metodolojik olarak CRAFT, kontrastlı temsil öğrenimini pekiştirmeli öğrenme ile birleştirerek ...
Orijinal Baslik
Contrastive Reasoning Alignment: Reinforcement Learning from Hidden Representations