Duzenleme & EtikAkademik MakaleIngilizce

Yapay Zeka Hizalaması için Via Negativa: Neden Negatif Kısıtlamalar Pozitif Tercihlerden Yapısal Olarak Üstündür?

arXiv17 Mart 2026 11:52

Son ampirik sonuçlar, büyük dil modellerini (LLM'ler) yalnızca negatif geri bildirimle eğitmenin, insan geri bildiriminden standart pekiştirmeli öğrenmeyi (RLHF) yakalayabildiğini veya aşabildiğini göstermiştir. Negatif Örnek Pekiştirme, matematiksel muhakemede PPO ile eşitliği sağlamaktadır; Dağıtımsal Tercih Etmeme Optimizasyonu, yalnızca tercih edilmeyen örnekler kullanılarak etkili bir şekilde eğitim yapmaktadır; ve Anayasal Yapay Zeka, zararsızlık kıyaslamalarında saf RLHF'yi geride bırakmaktadır. Ancak hiçbir birleşik teorik açıklama, negatif s...

Orijinal Baslik

Via Negativa for AI Alignment: Why Negative Constraints Are Structurally Superior to Positive Preferences