Yapay Zeka ve Temel Görevlerdeki Zorlukları
Yapay zeka, son yıllarda eşsiz yetenekler sergileyerek hikaye yazmaktan protein yapılarını tahmin etmeye, gerçekçi görseller yaratmaktan ev ödevlerini çözmeye kadar geniş bir yelpazede kullanılmaya başlandı. Ancak, her şey göründüğü kadar kusursuz değil. Yeni bir araştırma, yapay zekanın bazı basit görevlerde – örneğin analog bir saati okuma gibi – neredeyse komik denebilecek ölçüde zorlandığını ortaya koydu.
Edinburgh Üniversitesi’nden bir grup araştırmacı, çeşitli ortamları yorumlayabilen ve içerik üretebilen yedi çok modlu büyük dil modelini (MLLM) test etti. Çalışmalarını Nisan ayında yayınlamayı planlayan ekip, bu modellerin saat ya da takvim gibi görseller üzerinden zamanla ilgili soruları ne kadar doğru yanıtlayabildiğini inceledi. Araştırma sonuçları, yapay zekanın bu temel görevlerde beklenenden çok daha düşük bir başarı gösterdiğini ortaya koydu. Araştırmacılar, makalelerinde bu sorunun önemini şöyle açıklıyor: “Görsel girdilerden zamanı yorumlama ve akıl yürütme yeteneği, olay planlamasından otonom sistemlere kadar birçok gerçek dünya uygulaması için kritik bir rol oynar.”
Ancak mevcut teknolojiler daha çok nesne algılama, görüntü başlığı veya sahne analizi gibi alanlarda yoğunlaşmış durumda. Zamansal çıkarımlara yönelik araştırmalar ise hala yetersiz. Ekip, ünlü modeller arasında yer alan OpenAI’nin GPT-4o ve GPT-o1’ini, Google DeepMind’ın Gemini 2.0’ını, Anthropic’in Claude 3.5 Sonnet’ini, Meta’nın Llama 3.2-11B-Vision-Instruct’unu, Alibaba’nın Qwen2-VL7B-Instruct’unu ve ModelBest’in MiniCPM-V-2.6’sını test etti.
Modeller, farklı analog saat görselleri (örneğin, Roma rakamları, farklı tasarımlar ve bazılarında saniye kolu olmayan saatler) ile karşı karşıya bırakıldı. Ayrıca on yıllık bir takvim görüntüsü üzerinden zamanla ilgili daha karmaşık sorular soruldu; örneğin, “Yeni yıl haftanın hangi gününe denk geliyor?” veya “Yılın 153’üncü günü hangisidir?” gibi. Araştırmacılar, bu görevlerin yalnızca görsel tanıma değil, aynı zamanda sayısal akıl yürütme yeteneğini de gerektirdiğini vurguladı.
Şaşırtan Sonuçlar
Yapay zeka modelleri, özellikle analog saatleri okuma görevinde büyük zorluklar yaşadı. Bu görevde genel doğruluk oranı %25’in altında kaldı. Roma rakamları ve stilize kollar taşıyan saatlerde, hatta saniye kolu olmayan modellerde bile benzer şekilde kötü performans sergilendi. Araştırmacılar, bu başarısızlığın saat kollarını algılamak ve saat yüzündeki açıları yorumlamakla ilgili sorunlardan kaynaklandığını düşünüyor.
Google’ın Gemini 2.0 modeli, saat okuma testinde en yüksek puanı alırken, OpenAI’nin GPT-o1 modeli takvim görevlerinde rakiplerinden daha iyi performans göstererek %80 doğruluğa ulaştı. Ancak bu oran bile, en başarılı modelin hala %20 oranında hata yaptığını göstermektedir.
Bu araştırma, yapay zekanın etkileyici yeteneklerine rağmen bazı temel görevlerde hala ciddi sınırlamaları olduğunu ortaya koyuyor. Saat okuma ve takvim anlama gibi görsel ve bilişsel olarak basit görünen görevlerdeki bu başarısızlık, yapay zekanın insan akıl yürütmesinden ne kadar uzak olduğunu bir kez daha hatırlatıyor. Gelecekteki iyileştirmelerle bu eksiklerin giderilip giderilmeyeceğini ise zaman gösterecek.