Üretken Yapay Zeka Modellerinin Haber Arama Performansındaki Doğruluk Sorunları

Üretken Yapay Zeka Modellerinin Haber Arama Performansı: Ciddi Doğruluk Sorunları

Columbia Journalism Review’un Tow Center for Digital Journalism’i tarafından gerçekleştirilen kapsamlı bir araştırma, üretken yapay zeka (YZ) modellerinin haber arama işlevinde ciddi doğruluk sorunları yaşadığını gün yüzüne çıkardı. Araştırmada, canlı arama işlevine sahip sekiz farklı YZ destekli arama aracı incelendi ve bu araçların, haber kaynakları ile ilgili kullanıcıların verdiği istemlerin %60’ından fazlasına yanlış yanıtlar ürettiği belirlendi.

Araştırmacılar, şu anda Amerikalıların dörtte birinden fazlasının yapay zeka modellerini geleneksel arama motorlarına alternatif olarak kullandığını belirterek, bu durumun hataların etkisini daha da ciddi hale getirdiğine dikkat çektiler.

Araştırma Sonuçları ve Doğruluk Oranları

Farklı YZ modellerinin doğruluk oranlarında belirgin farklılıklar gözlemlendi. Örneğin, Perplexity platformu, verilen istemlerin %37’sinde yanlış bilgi sunarken, ChatGPT Search bu oranı %67’ye çıkardı. Dikkat çeken diğer bir sonuç ise, Grok 3‘ün %94 gibi çarpıcı bir hata oranıyla en düşük performansı sergilemesiydi.

Test Süreci

Araştırmacılar, bu modellerin gerçek haber makaleleri ile ne kadar güvenilir olduğunu test etmek amacıyla çeşitli istemler verdiler. İstemlerde, haber makalesinin başlığını, orijinal yayımcısını, yayım tarihini ve URL’sini doğru bir şekilde tespit etmeleri istendi. Toplamda 1.600’den fazla istem kullanılarak yapılan testlerde, modellerin güvenilir bilgiye sahip olmadıkları durumlarda yanıt vermektense, gerçekçi görünümlü ama hatalı ya da tahmine dayalı yanıtlar vermeleri dikkat çekti. Bu durum, incelenen tüm YZ modellerinde yaygın bir sorun olarak öne çıktı.

Ücretli Modeller, Ücretsiz Sürümlerden Daha mı Kötü?

Araştırma, bazı ücretli hizmetlerin beklenenden daha kötü performans sergileyebileceğini gösterdi. Örneğin, aylık 20 dolarlık Perplexity Pro ve 40 dolarlık Grok 3 Premium hizmetleri, ücretsiz sürümlerine kıyasla daha sık ve daha kendinden emin hatalar üretti. Bu modeller, daha fazla sayıda isteme yanıt verme eğiliminde olsalar da, yanıtlarını reddetmemeleri hata oranlarını artırdı.

Ayrıca araştırmacılar, bazı YZ araçlarının yetkisiz erişimi önlemeye yönelik ayarları dikkate almadığını da fark ettiler. Örneğin, Perplexity‘nin ücretsiz sürümü, National Geographic’in açık bir şekilde izin vermemesine rağmen, ücretli içeriklerden 10 tanesini doğru bir şekilde tanımlamayı başardı. Sıkça karşılaşılan diğer sorunlar arasında, alıntı yapılan yazılarda orijinal kaynağı göstermek yerine Yahoo News gibi başka sitelere bağlantı verme ve hatalı ya da geçersiz bağlantılar sağlama yer aldı.