Ana Sayfa Vitrin Doktorların Yeni Yapay Zeka Sırdaşı

Doktorların Yeni Yapay Zeka Sırdaşı

Amerika’da ona iki doktordan biri artık klinik karar alarak yapay zekâya başvuruyor. Bu tablo, tıp dünyasında sessiz ama temel bir uygulamanın işareti. OpenEvidence, doktorlara özel olarak tasarlanmış yapay zeka destekli bir tıbbi arama platformu olarak son iki yılda ABD’li hekimlerin yaklaşık üçte birinde kullanımları bir araca dönüştü. Ancak bu hızlı yükselişin ardından platforma yönelik ilk bağımsız değerlendirme geliyor: NYU Langone Health araştırmacılarının yürüttüğü ve 12 Haziran 2026’da Nature Medicine’de yayımlanan çalışma, mevcut klinik yapay zeka araçlarının genel amaçlı büyük dil modellerinin gerisinde ortaya çıkıyor. Bu haber; NBC News’in derinlikli saha araştırmaları ve Nature Medicine’in eş zamanlı bilimsel bulgularını bir arada ele alarak okuyucularımıza bütünsel bir tablo sunuyor.


General-purpose large language models outperform specialized clinical AI tools on medical benchmarks

OpenEvidence’ın Yükselişi: Doktorların Yeni Klinik Yardımcısı

Son iki yılda tıp hizmetleri sunucuları, klinik çözümler almak, tedaviyi tazelemek ve hatta lisans sınavlarına hazırlanmak için OpenEvidence adlı yeni bir yapay zeka aracını sessiz sedasız benimsedi. Doktorlar için bir tür sohbet botu olan bu hizmet, yalnızca Nisan ayında yaklaşık 27 milyon klinik karşılaşmada ABD doktorlarının yüzde 65’i tarafından kaydedildi.NBC Haberleri

Yapay zeka teknolojilerinin tıp ve klinik karar alma süreçlerine entegrasyonu her geçen gün hız kazanıyor. Bu alanda hekimlere ve sağlık profesyonellerine yönelik geliştirilen en dikkat çekici platformlardan biri olan OpenEvidence; prestijli tıp dergisi Nature Medicine‘da yayınlanan bilimsel değerlendirmeler, NBC News’in sektörel derinliği olan analizi ve klinik topluluğun aktif geri bildirimleriyle gücünü kanıtlıyor. Güvenilir, doğrulanabilir ve tamamen kanıta dayalı tıp uygulamalarını odağına alan platform, geleneksel tıbbi bilgi sistemlerinin yapay zeka çağıyla birleştiği yeni bir dönemi temsil ediyor.

Sağlık teknolojileri ve yapay zekanın kesişim noktasında yer alan klinik karar destek sistemleri, tıp profesyonellerinin doğru bilgiye en hızlı şekilde ulaşmasını sağlamak adına kritik bir dönüşüm geçiriyor. Bu dönüşümün merkezinde yer alan yapay zeka tabanlı tıp platformu OpenEvidence, hem akademik çevrelerin hakemli incelemelerinden tam not alıyor hem de küresel ölçekte hekimlerin günlük pratiklerinin güvenilir bir parçası haline geliyor.

Nature Medicine’da Bilimsel Doğrulama Kilometre Taşı

OpenEvidence’ın tıp dünyasındaki doğruluğu, güvenirliği ve klinik yanıt kalitesi, en prestijli hakemli bilimsel yayın organlarından biri olan Nature Medicine‘da yayınlanan güncel makale ile mercek altına alındı. Yapay zekanın medikal literatürü tarama, analiz etme ve hekimlerin yapılandırılmış sorularına kanıta dayalı, doğrudan referanslı yanıtlar üretme kabiliyetini akademik düzeyde belgeleyen bu yayın, sistemin sadece bir teknoloji trendi olmadığını, aynı zamanda tıp etiğine ve bilimsel metodolojiye uygun olarak geliştirildiğini ortaya koyuyor.

NBC News Analizi: NPI Doğrulaması Ve UpToDate Kıyaslaması

Platformun sektörel etkisi ve güvenli altyapısı, ABD’nin önde gelen medya kuruluşlarından NBC News tarafından kapsamlı bir incelemeyle kamuoyuna taşındı. İncelemede, OpenEvidence’ın genel kullanıma açık yapay zeka sohbet botlarından ayrılan en kritik güvenlik duvarı vurgulandı: NPI (National Provider Identifier / Ulusal Sağlayıcı Tanımlayıcı) ile Hekim Girişi.

Sisteme giriş yapılabilmesi ve uygulamanın aktif olarak kullanılabilmesi için doğrulanmış tıp doktoru veya sağlık profesyoneli olunmasını şart koşan bu kimlik doğrulama sistemi, tıbbi dezenformasyonun önüne geçmek ve hasta güvenliğini en üst düzeyde tutmak adına hayati bir adım olarak değerlendiriliyor. Bunun yanı sıra analizde, tıp dünyasında uzun yıllardır standart olarak kabul edilen klinik bilgi kütüphanesi UpToDate ile OpenEvidence arasındaki ilişki ele alınıyor. Yapay zekanın, geleneksel statik metin aramalarını geride bırakarak dinamik, soruya özel ve saniyeler içinde sentezlenmiş kanıtlar sunan yapısıyla bu ekosisteme nasıl yenilikçi bir yaklaşım getirdiği aktarılıyor.

Klinik Topluluktan Canlı Geri Bildirimler

OpenEvidence’ın sahadaki ve klinikteki gerçek yansımaları, platformun resmi X hesabı (@EvidenceOpen) üzerinden de anlık olarak takip edilebiliyor. Dünyanın dört bir yanından hekimlerin karmaşık vakalarda, tanı süreçlerinde ve tedavi protokollerinde platformu nasıl aktif bir dijital asistan olarak kullandıklarına dair paylaşımlar, yapay zekanın klinik iş akışlarını hızlandırmadaki pratik faydasını ve topluluk nezdindeki karşılığını gözler önüne seriyor.

Akademik doğrulamayı, katı profesyonel güvenlik önlemlerini ve hekim deneyimini bir arada sunan OpenEvidence, kanıta dayalı tıp uygulamalarında yapay zekanın ulaştığı en olgun ve güvenilir örneklerden biri olarak kabul ediliyor.

Endişeler: Yanlış Yanıtlar ve Beceri Erozyonu

Bununla birlikte, OpenEvidence’ın hızla artan popülaritesiyle birlikte bazı kullanımlı olası halüsinasyonlar veya eksik yanıtlar, aracın hasta üzerindeki etkisine ilişkin kalıcı teknik savaş azlığı ve artan kullanım ile etkileşimi nedeniyle doktorların eleştirel düşünme ve değerlendirme tekniklerinin aşınması olasılıklarının sorunlarını dile getiriyor.

Aralık ayında yayımlanan akademik bir çalışma, OpenEvidence’ın daha karmaşık tıbbi inceleme yüzdesini 45’ten daha az oranda doğru yanıtladığını buldu. Bu çalışma henüz direktörlük sürecini geçmemiş durumda.

Missouri’de orta kariyer dönemindeki anonim bir doktor, “Yeni bir araç sunduğumuzda, bir kayıtta eğitim bilgilerinizin bir kısmını yapan herhangi bir araç türünü sunduğumuzda, bu konuda oldukça hızlı kaybetmeye başlarsınız” dedi.NBC Haberleri


NATURE ‘DEKİ BAĞIMSIZ BİLİMSEL DEĞERLENDİRME

OpenEvidence’ın hızlı yükselişinin yarattığı tablo, 12 Haziran 2026’da Nature Medicine’de yayımlanan bağımsız bir araştırmayla yeni bir boyut kazandı.

Çalışmanın detayları

NYU Langone Health araştırmacıları, OpenEvidence ve UpToDate Expert AI olmak üzere iki klinik yapay zekâ aracını büyük dil modellerine dayandırarak GPT-5.2, Gemini 3.1 Pro ve Claude Opus 4.6 olarak sunulan üç sınırlı yapay zekasıyla karşılaştırıldı. Değerlendirme üç aşamada oluşturuldu: tedavi bilgilerini test eden 500 MedQA sorusu; kliniklerle uyku ölçen 500 HealthBench maddesi; ve canlı bir klinik uygulamalar hekimlerin genel amaçlı bir dil modeline ilettiği 100 anonimleştirilmiş sorgudan oluşan Gerçek Klinik Sorgular (RCQ) karşılaştırma testi. RCQ aşaması için 12 ABD’li klinik modelin çıktılarını kör ve rastgele biçimde değerlendirdi; Bu süreçte 1.800 model soru üretildi.

Tıbbi Bilgi Testi Sonuçları

Genel amaçlı büyük dil modelleri, MedQA sorularında klinik yapay zeka araçlarının önüne geçti. Sınır modelleri arasında Gemini en yüksek doğruluk oranı yüzde 97,4 ile elde edilirken, GPT yüzde 94,2, Claude ise yüzde 90,2 oranında doğruluk sağladı. Klinik araçlar daha düşük puanlar aldı: OpenEvidence yüzde 89,6, UpToDate ise yüzde 88,4 doğrulukla sonuçlandı.

Uzman Uyum Testi

HealthBench’te GPT en yüksek skoru 88,0 ile alırken, ardından Gemini 79,3 ve Claude 77,0 ile geldi. İki klinik aracıyla daha düşük puanlar aldı: OpenEvidence 62,6, UpToDate ise 61,3. GPT, diğer tüm modelleri geride bıraktı. İki klinik araç arasında anlamlı bir fark gözlemlenmedi. Tema düzeyinde yapılan analizde GPT, yedi kategorinin tamamında birinci ya da birinciyle aynı seviyede yer alırken, OpenEvidence ve UpToDate yedi kategorinin tamamında en düşük ya da en düşük seviyede aynı seviyede yer aldı.

Gerçek Klinik Sorgu Testi ve İki Performans Katmanı

Altı model arasında anlamlı farklılıklar gözlemlendi ve iki performans dağılımı ortaya çıktı. Sınırlı büyük dil modelleri birinci katmandan oluştu: Gemini ortalama 3,62, GPT 3,54 ve Claude 3,52 puan alırken; bu üç model arasında anlamlı bir fark yoktu. Klinik araçlar ve Google AI Genel Bakış ise ikinci katmanda yer aldı: OpenEvidence 3,24, UpToDate AI 3,17 ve Google AI Genel Bakış 3,27 puan aldı. Sınırlı modeller, klinik araçlara kıyasla yüksek oranda, yani yalnızca ortalamada değil, tekil sorularda üstün performans sergiledi. Gemini’ye kıyasla, klinik yapay zekâ araçlarının yüzde 49 ila 87’si daha düşük düzeyde, daha yüksek puan alma ihtimali mevcut.

OpenEvidence’ın En Zayıf Olduğu Boyut: Netlik

Dört boyutlu katman yapısının bileşenlerini korudu. Modeller netlik konusunda en büyük farklılığı sergiledi; OpenEvidence, netlik süreçleri tüm modeller arasında en düşük ortalamayı (2,84) elde etti; bu da OpenEvidence’ın zayıflığının bilgisi değil, iletişimine işaret ediyor. OpenEvidence ve Google AI Genel Bakış için eksik klinik içerik, güvenlik açısından kritik önemdeki eksiklikler ve düzenli yanıtlar en yaygın kalitesel sorunlar olarak tanımlandı.

UpToDate’in Red Oranı

UpToDate AI, sorguların yüzde 19’unu reddetti; bu oran diğer tüm modellerin çok üzerinde. Güvenlik sonuçları açısından hiçbir model diğerlerine kıyasla daha fazla zararlı içerik veya halüsinasyon üretmedi.

RAG Yöntemi Neden Ters Tepti?

Araştırmacılar, iki klinik aracın da muhtemelen kullandığı RAG (Retrieval-Augmented Generation — Geri Alma Destekli Üretim) yönteminin, ilgisiz materyaller veya temel model tarafından zayıf biçimde entegre edilmiş modelin olumsuz bozulmalara yol açabileceğine dikkat çekti. Sınırlı büyük dil modelleri, çoğu tedavi seçeneği olmayan bilgi alma ve akıl yürütme konusunda yalnızca daha iyi; Aynı zamanda daha hızlı yineleme döngülerinden, daha büyük eğitim verilerinden ve uzman sistemlerden daha geniş, daha kapsamlı hizalamadan yararlanılıyor.

Sonuç 

Araştırmacılar, rutin klinik yapay zeka araçlarının kurumsal meşruiyete sahip olduğunu ve kullanım için muhtemelen güvenli olduğunu, ancak insanların bu araçların bilgi, iletişim veya klinik uyum açısından sınır modellere üstün olmadığını gösterdiğini belirtti. Google AI Genel Bakış, RCQ kriterinde OpenEvidence ve UpToDate AI ile aynı performans sergilendi. Bu bulgular, yapay zeka araçlarının klinik ortamlarına göre önceden bağımsız, gerçek dünya değerlendirmesine sunulan seçeneklerin sınırlarını çiziyor.

Çalışmanın çeşitli sınırlamaları da mevcut: Klinik bilgisayarların kamuya açık programlama bağlantılarının tarayıcı bağlantılarının üzerinden sorgulama yapıldı, bu verilerin sıcaklığı sınırlandı ve gizli istekler ile dışarı çıkan biçimlendirmede farklılıklara yol açmış olabilir. Araştırmacılar ayrıca bu sonuçların hızla değişen bir ortamda ortaya çıkan görüntü olarak yorumlanması, bunun kalıcı bir sıralama olmaması ve aralıklı iyileşme performansının daha karmaşık, alana özgü adaptasyonları tercih edilebileceğini devam ettirebileceğini vurguladı.

Please follow and like us: