Tıp dünyasında yapay zekâya yönelik beklentiler giderek artarken, yeni araştırma sonuçları bu teknolojinin sınırlarını gözler önüne seriyor. Yapay zekâ modelleri, kesin tanıya ulaşmada kimi zaman yüksek doğruluk sergilese de, klinik sürecin en kritik aşaması olan ayırıcı tanıda ciddi başarısızlıklar yaşadı. Bu bulgular, yapay zekânın insan hekimlerin yerini almasının henüz mümkün olmadığını ve klinik kararların hâlâ uzman gözetiminde verilmesi gerektiğini hatırlatıyor.
Large Language Model Performance and Clinical Reasoning Tasks
29 standartlaştırılmış klinik vaka üzerinde test edilen 21 yeni nesil LLM’nin incelendiği bu kesitsel çalışmada, Grok 4 ve diğer akıl yürütme optimizasyonlu modeller en yüksek puanları alırken, Gemini 1.5 Flash en düşük performansı gösterdi. Ayırıcı tanı sürekli olarak en zayıf performansı gösterirken, nihai tanı ve tedavi daha güçlü performans sergiledi.
ABD’nin önde gelen sağlık sistemlerinden Mass General Brigham araştırmacılarının yürüttüğü çalışma, 21 farklı büyük dil modelini (LLM) 29 standart klinik vaka üzerinden değerlendirdi. Araştırma sonuçları, JAMA Network Open dergisinde yayımlandı.
- Başarısızlık oranı: Modeller, ilk hasta tanısında yani ayırıcı tanı aşamasında vakaların %80’inden fazlasında başarısız oldu.
- Kesin tanı performansı: Ek klinik bilgiler (laboratuvar sonuçları, görüntüleme verileri) sağlandığında modellerin kesin tanıya ulaşma oranı %60 ile %90 arasında değişti.
- En iyi modeller: Grok 4, GPT-5, GPT-4.5, Claude 4.5 Opus ve Gemini 3.0 serisi en yüksek performansı gösterdi.
- En zayıf alan: Ayırıcı tanı, tüm modellerde en düşük başarı oranına sahip oldu. Bu aşama, benzer belirtiler gösteren hastalıkların birbirinden ayrılmasını içeriyor ve klinik muhakemenin temelini oluşturuyor.
Araştırmanın ortak yazarlarından Marc Succi, “Süregelen iyileştirmelere rağmen hazır paket dil modelleri gözetimsiz şekilde klinik düzeyde devreye sokulmaya hazır değil” ifadelerini kullandı.
Uzmanlar, yapay zekânın klinik süreçlerde umut verici bir araç olduğunu ancak insan klinik yargısının vazgeçilmez olduğunu vurguluyor. Çalışma, bu teknolojilerin yalnızca hekim gözetiminde ve düşük belirsizlik içeren görevlerde kullanılmasının güvenli olabileceğini ortaya koyuyor.
















