Sektorel UygulamalarAkademik MakaleIngilizce
Otomatik Kendi Kendine Test Etme Bir Kalite Kapısı Olarak: LLM Uygulamaları için Kanıta Dayalı Sürüm Yönetimi
arXiv13 Mart 2026 20:44
Büyük Dil Modeli (LLM) uygulamaları, deterministik olmayan çıktıları ve gelişen model davranışları nedeniyle geleneksel test yöntemlerinin sürüm yönetimi için yetersiz kaldığı yapay zeka sistemleridir. Görev başarı oranı, araştırma bağlamının korunması, P95 gecikme süresi, güvenlik geçiş oranı ve kanıt kapsamı olmak üzere ampirik olarak temellendirilmiş beş boyut boyunca kanıta dayalı sürüm kararları (YAYINLA/BEKLET/GERİ AL) ile kalite kapıları sunan otomatik bir kendi kendine test çerçevesi sunuyoruz. Çerçeveyi uzunlamasına bir vaka çalışması aracılığıyla değerlendiriyoruz...
Orijinal Baslik
Automated Self-Testing as a Quality Gate: Evidence-Driven Release Management for LLM Applications