LLM & ChatbotAkademik MakaleIngilizce

Yapay Zeka, 3 Boyutlu Uzamsal Akıl Yürütmede Yeni Bir Çağa Giriyor: TRACE ile Videoları Anlamak

arXiv24 Mart 2026 16:38

Günümüzün en gelişmiş yapay zeka sistemlerinden olan Çok Modlu Büyük Dil Modelleri (MLLM'ler), metin, görüntü ve ses gibi farklı veri türlerini bir araya getirerek dünyayı anlamaya çalışıyor. Ancak bu modellerin önemli bir eksikliği, özellikle video girdilerinden elde edilen 3 boyutlu uzamsal akıl yürütme yeteneklerinin sınırlı olmasıydı. Bir videoda nesnelerin birbirine göre konumunu, hareketlerini ve derinliklerini doğru bir şekilde algılayıp yorumlamakta zorlanıyorlardı. Bu durum, otonom araçlar, robotik ve sanal gerçeklik gibi alanlarda yapay zekanın tam potansiyeline ulaşmasının önünde ciddi bir engel teşkil ediyordu.

Bu kritik boşluğu doldurmak amacıyla yapılan yeni bir araştırma, insan bilişinden ilham alarak MLLM'lerin uzamsal akıl yürütme yeteneklerini kökten değiştirmeyi hedefliyor. 'Allocentric' uzamsal akıl yürütme teorilerinden yola çıkan araştırmacılar, MLLM'lerin video içeriğini metin tabanlı uzamsal temsiller aracılığıyla modellemesini ve bu temsiller üzerinden akıl yürütmesini sağlamanın yollarını aradı. Bu yaklaşımın temelinde, karmaşık görsel bilgiyi, yapay zekanın daha kolay işleyebileceği ve üzerinde mantık yürütebileceği yapılandırılmış metinsel ifadelere dönüştürmek yatıyor.

Bu çabaların sonucunda, 'Egocentric Videodan Allocentric Bağlamın Metinsel Temsili' (TRACE) adı verilen çığır açan bir yöntem geliştirildi. TRACE, MLLM'lere verilen komutları (prompt) zenginleştirerek, videoların 3 boyutlu uzamsal yapısını ve nesneler arası ilişkileri metinsel olarak ifade etmelerini sağlıyor. Bu sayede, modeller videoda gördükleri sahneyi sadece yüzeysel olarak algılamakla kalmıyor, aynı zamanda nesnelerin birbirine göre nerede olduğunu, hangi yöne baktığını veya ne kadar uzakta olduğunu daha soyut ve yapılandırılmış bir şekilde kavrayabiliyor. Bu, yapay zekanın bir sahneyi 'okuyabilmesi' ve 'anlayabilmesi' anlamına geliyor.

TRACE gibi yenilikçi yaklaşımlar, yapay zeka teknolojilerinin geleceği için büyük umut vadediyor. Geliştirilmiş 3 boyutlu uzamsal akıl yürütme yetenekleri, otonom sistemlerin çevrelerini daha güvenli ve etkili bir şekilde algılamasını sağlayabilir. Robotlar, karmaşık ortamlarda daha akıllıca hareket edebilir ve insanlarla daha doğal etkileşimler kurabilir. Sanal ve artırılmış gerçeklik uygulamaları ise daha gerçekçi ve sürükleyici deneyimler sunabilir. Bu teknoloji, yapay zekanın dünyayı bizim gibi, hatta belki de bizden daha detaylı bir şekilde anlamasına giden yolda önemli bir kilometre taşı olabilir.

Orijinal Baslik

Unleashing Spatial Reasoning in Multimodal Large Language Models via Textual Representation Guided Reasoning

Bu haberi paylas

İnsanoid Robotların 'ChatGPT Anı': Uzmanlar Geleceği Ne Zaman Bekliyor?

Boao Asya Forumu'nda insanoid robotların 'ChatGPT anına' ne zaman ulaşacağı tartışıldı. Sektör liderleri, bu dönüm noktasının 2 ila 10 yıl içinde gerçekleşebileceği konusunda farklı görüşler sundu.

中新经纬1 saat once

Real Madrid'de ChatGPT Tartışması: Beslenme Uzmanı Kadroyu Hedef Aldı

Real Madrid'in eski beslenme uzmanı Itziar Gonzalez de Arriba, kulüp personelinin ChatGPT sonuçlarına güvendiğini iddia ederek şaşırtıcı açıklamalarda bulundu.

20 Minutes1 saat once

ChatGPT'ye Dosya Kütüphanesi Geliyor: Veri Yönetimi ve Analizde Yeni Bir Dönem

OpenAI, ChatGPT'ye kullanıcıların yükledikleri dosyaları saklayabilecekleri bir kütüphane özelliği ekliyor. Bu yenilik, özellikle veri analizi ve belge yönetimi süreçlerini büyük ölçüde kolaylaştıracak.

Caschys Blog1 saat once

Kalp MR'larını Uzman Seviyesinde Okuyan Yapay Zeka Modeli Tıp Dünyasında Çığır Açıyor

Penn Medicine liderliğindeki bir ekip, kalp MR görüntülerini neredeyse uzman doktor hassasiyetinde yorumlayabilen çığır açıcı bir yapay zeka sistemi geliştirdi. Bu teknoloji, teşhis süreçlerini hızlandırarak ve hata payını azaltarak kardiyolojide devrim yaratma potansiyeli taşıyor.

Newswise1 saat once

Yapay Zeka Destekli Seyahat Planlama: ChatGPT, Google Haritalar ve Waze Üçlüsü Yolculukları Nasıl Dönüştürüyor?

Yolculuk planlamasında ChatGPT'nin sunduğu kişiselleştirilmiş önerilerle Google Haritalar veya Waze'in gerçek zamanlı navigasyonunu birleştirmek, seyahat deneyimini baştan aşağı değiştiriyor. Bu teknolojik üçlü, kullanıcıların daha akıllı ve sorunsuz yolculuklar yapmasını sağlıyor.

Journal du Freenaute1 saat once

Birleşik Arap Emirlikleri'nden Yapay Zeka Hamlesi: Ajman Üniversitesi Doktora Programı Başlattı

Birleşik Arap Emirlikleri'ndeki Ajman Üniversitesi, Mühendislik ve Bilgi Teknolojileri Fakültesi bünyesinde Yapay Zeka alanında yeni bir doktora programı açtı. Bu adım, bölgenin yapay zeka ekosistemine önemli bir katkı sağlamayı hedefliyor.

CairoScene1 saat once