LLM & ChatbotAkademik MakaleIngilizce

Yapay Zeka, 3 Boyutlu Uzamsal Akıl Yürütmede Yeni Bir Çağa Giriyor: TRACE ile Videoları Anlamak

arXiv24 Mart 2026 16:38

Günümüzün en gelişmiş yapay zeka sistemlerinden olan Çok Modlu Büyük Dil Modelleri (MLLM'ler), metin, görüntü ve ses gibi farklı veri türlerini bir araya getirerek dünyayı anlamaya çalışıyor. Ancak bu modellerin önemli bir eksikliği, özellikle video girdilerinden elde edilen 3 boyutlu uzamsal akıl yürütme yeteneklerinin sınırlı olmasıydı. Bir videoda nesnelerin birbirine göre konumunu, hareketlerini ve derinliklerini doğru bir şekilde algılayıp yorumlamakta zorlanıyorlardı. Bu durum, otonom araçlar, robotik ve sanal gerçeklik gibi alanlarda yapay zekanın tam potansiyeline ulaşmasının önünde ciddi bir engel teşkil ediyordu.

Bu kritik boşluğu doldurmak amacıyla yapılan yeni bir araştırma, insan bilişinden ilham alarak MLLM'lerin uzamsal akıl yürütme yeteneklerini kökten değiştirmeyi hedefliyor. 'Allocentric' uzamsal akıl yürütme teorilerinden yola çıkan araştırmacılar, MLLM'lerin video içeriğini metin tabanlı uzamsal temsiller aracılığıyla modellemesini ve bu temsiller üzerinden akıl yürütmesini sağlamanın yollarını aradı. Bu yaklaşımın temelinde, karmaşık görsel bilgiyi, yapay zekanın daha kolay işleyebileceği ve üzerinde mantık yürütebileceği yapılandırılmış metinsel ifadelere dönüştürmek yatıyor.

Bu çabaların sonucunda, 'Egocentric Videodan Allocentric Bağlamın Metinsel Temsili' (TRACE) adı verilen çığır açan bir yöntem geliştirildi. TRACE, MLLM'lere verilen komutları (prompt) zenginleştirerek, videoların 3 boyutlu uzamsal yapısını ve nesneler arası ilişkileri metinsel olarak ifade etmelerini sağlıyor. Bu sayede, modeller videoda gördükleri sahneyi sadece yüzeysel olarak algılamakla kalmıyor, aynı zamanda nesnelerin birbirine göre nerede olduğunu, hangi yöne baktığını veya ne kadar uzakta olduğunu daha soyut ve yapılandırılmış bir şekilde kavrayabiliyor. Bu, yapay zekanın bir sahneyi 'okuyabilmesi' ve 'anlayabilmesi' anlamına geliyor.

TRACE gibi yenilikçi yaklaşımlar, yapay zeka teknolojilerinin geleceği için büyük umut vadediyor. Geliştirilmiş 3 boyutlu uzamsal akıl yürütme yetenekleri, otonom sistemlerin çevrelerini daha güvenli ve etkili bir şekilde algılamasını sağlayabilir. Robotlar, karmaşık ortamlarda daha akıllıca hareket edebilir ve insanlarla daha doğal etkileşimler kurabilir. Sanal ve artırılmış gerçeklik uygulamaları ise daha gerçekçi ve sürükleyici deneyimler sunabilir. Bu teknoloji, yapay zekanın dünyayı bizim gibi, hatta belki de bizden daha detaylı bir şekilde anlamasına giden yolda önemli bir kilometre taşı olabilir.

Orijinal Baslik

Unleashing Spatial Reasoning in Multimodal Large Language Models via Textual Representation Guided Reasoning

Bu haberi paylas

OpenAI'dan Tıp Dünyasına Özel Hamle: ChatGPT Sağlık Sektörüne Adım Atıyor

OpenAI, sağlık profesyonellerine yönelik özel bir ChatGPT sürümünü tanıttı. Bu yeni yapay zeka aracı, doktorlar, hemşireler ve eczacılar gibi sağlık çalışanlarının iş yükünü hafifletmeyi hedefliyor.

Presse-citron20 gun once

Yapay Zeka Futbol Dünyasını Karıştırıyor: ChatGPT'den Sahte Maç Afişleri!

OpenAI'ın ChatGPT Images platformu, ilk çıktığında Ghibli tarzı görsellerle büyük beğeni toplamıştı. Ancak şimdi yapay zeka, futbol maçları için gerçekçi görünen ancak tamamen uydurma afişler üreterek gündem oldu.

Numerama20 gun once

Gemini AI ile Sanal Vancouver Geziniz Gerçekçi Hale Geliyor: Fotoğraflarda Doğallığı Koruyan 6 Düzenleme

Google'ın yapay zeka modeli Gemini, sanal Vancouver seyahat fotoğraflarını gerçekçi kılmak için kullanılıyor. Bu yöntem, yapay zekanın görsel içerik üretiminde doğallığı koruma yeteneğini gözler önüne seriyor.

Qoo Media20 gun once

ChatGPT Cinayet Soruşturmasında: Yapay Zeka Suç Ortağı Olabilir mi?

Florida'da yaşanan bir silahlı saldırı öncesinde zanlının ChatGPT'ye danıştığının ortaya çıkması, yapay zekanın etik ve hukuki sorumlulukları üzerine ciddi tartışmaları başlattı. Yetkililer, bu olayı derinlemesine araştırıyor.

The Daily Aus20 gun once

ChatGPT'ye Gelen 'Workspace Agents': Ekipler Arası İş Birliğinde Yeni Dönem

OpenAI, ChatGPT'ye entegre ettiği 'Workspace Agents' özelliğiyle, yapay zeka destekli asistanların ekip çalışmalarında daha aktif rol almasını sağlıyor. Bu yenilik, dosyalar, kodlar ve bulut araçları gibi çeşitli platformlarda iş birliğini kolaylaştıracak.

Teknoblog20 gun once

Yapay Zeka Tedarik Zincirini Güvence Altına Alan Cloudsmith'e 72 Milyon Dolarlık Yatırım

Yapay zeka yazılım tedarik zincirinin güvenliğini sağlamayı hedefleyen Cloudsmith, Series C turunda 72 milyon dolarlık önemli bir yatırım aldı. Bu finansman, yapay zeka projelerinin güvenilirliğini ve bütünlüğünü artırma yolunda kritik bir adım olarak görülüyor.

TradingView20 gun once