AIDoç. Dr. Ömer Faruk AYDINdromerfarukaydin.com
🧰
A0 • Temel Katman

Araç Ekosistemi ve Model Seçimi

Hangi iş için hangi araç; genel LLM’in ne yapamayacağı.

[T/O]AI araçlarını araştırma iş akışına sokmak isteyen tüm tıbbi kullanıcılar

Modül A0 — Araç Ekosistemi ve Model Seçimi

Seviye: [T] Temel / [O] Orta

Amaç: Tıbbi araştırmanın her aşaması için doğru araç sınıfını seçmek ve genel amaçlı bir sohbet modelinin neyi yapamayacağını baştan bilmek.


Kavramsal çerçeve

En yaygın ve en pahalı hata, tek bir aracı her işe koşmaktır. Genel amaçlı bir sohbet modelini literatür motoru gibi kullanmak, müfredatın geri kalanında defalarca uyaracağımız "uydurma referans" felaketinin birincil kaynağıdır. Araçlar farklı mimarilere ve farklı bilgi kaynaklarına dayanır; iş ile araç sınıfını eşleştirmek, prompt kalitesinden önce gelir.

[T] Dört araç sınıfı

  1. Genel amaçlı büyük dil modelleri (LLM). Akıl yürütme, yazım, yeniden ifade etme, kod üretme, taslaklama için. Eğitim verisindeki bilgiyi "hatırlar" ama bu bilgi tarihlidir, eksiktir ve kaynak gösteremez. Kendi başına bir referans veritabanı değildir.
  2. Literatüre özgü AI araçları. Gerçek bir akademik veritabanına bağlı çalışan, sorduğunuz soruya yayınlardan kanıt getiren araçlar (bu sınıfa örnek olarak literatür sentez ve atıf analizi araçları girer). Avantajı: çıktıyı izlenebilir bir kaynağa bağlar. Yine de getirdiği özetler doğrulanmalıdır.
  3. Kod ve istatistik ortamları. R, Python veya istatistik yazılımlarıyla entegre çalışan; veri analizi kodu üreten ve çalıştıran araçlar. Üretilen kodun mantığı her zaman denetlenmelidir.
  4. Erişim-artırılmış (RAG) kurulumlar. Modelin yalnızca sizin yüklediğiniz belgelerden (PDF'ler, kendi veri sözlüğünüz, protokolünüz) yanıt üretmesini sağlayan yapılar. Halüsinasyonu azaltır ama sıfırlamaz.

[O] Modelin "bilmediğini bilmemesi" sorunu

Bir dil modeli, bir bilgiyi bilmediğinde sessiz kalmaz; istatistiksel olarak en olası devamı üretir. Bu yüzden var olmayan bir makaleyi, gerçekçi bir başlık, tanıdık yazar adları ve geçerli görünen bir DOI formatıyla "icat eder". Model yalan söylemez; belirsizliği temsil edecek bir mekanizması yoktur. Bu, tıbbi kullanımın temel kısıtıdır ve A2'de ayrıntılı işlenir.

[O] Bağlam penceresi (context window)

Modelin tek seferde "görebildiği" metin miktarı sınırlıdır. Çok uzun bir makaleyi veya veri setini tek prompt'a sığdırmaya çalışmak, modelin başını veya ortasını "unutmasına" yol açar (orta-bölüm kaybı). Uzun belgelerle çalışırken metni anlamlı parçalara bölmek ve her parçayı ayrı işlemek daha güvenilirdir.

[İ] Akıl yürüten modeller vs. standart modeller

Bazı modeller yanıt vermeden önce adım adım "düşünür" (reasoning/chain-of-thought tabanlı). Bunlar metodoloji tasarımı, istatistiksel mantık denetimi, çeldirici kalibrasyonu gibi çok adımlı muhakeme isteyen işlerde belirgin biçimde üstündür. Buna karşılık basit yeniden ifade, biçimlendirme veya çeviri için standart model daha hızlı ve yeterlidir. Görevin bilişsel derinliğini araç seçimine yansıtın.


İş → araç eşleştirme tablosu

Araştırma göreviUygun sınıfUygun OLMAYAN
Araştırma sorusunu rafine etmeGenel LLM (akıl yürüten)
"Bu konuda hangi makaleler var?"Literatüre özgü araçGenel LLM (referans uydurur)
Sistematik derleme tarama/elemeLiteratüre özgü + RAGGenel LLM tek başına
İstatistik analiz kodu (R/Python)Kod/istatistik ortamıGenel LLM (kod denetlenmeden)
IMRAD bölümü taslaklamaGenel LLMLiteratür aracı
Dil/akademik İngilizce cilalamaGenel LLM
Kendi PDF'lerinizden özet/sentezRAG kurulumuGenel LLM (belgeyi görmeden)

Kötü → İyi: araç seçimi

Kötü yaklaşım: Genel amaçlı sohbet modeline "Acil serviste sepsis triyajında makine öğrenmesi üzerine son 5 yılın en önemli 10 makalesini DOI'leriyle listele" demek.

→ Sonuç: Çoğu uydurma; başlıklar gerçekçi, DOI'ler sahte. Bu çıktı bir literatür taraması değil, bir tuzaktır.

İyi yaklaşım: Aynı soruyu literatüre özgü bir araçta sormak, dönen her kaydı veritabanında (PubMed/orijinal dergi) tek tek teyit etmek, ardından genel LLM'i yalnızca teyitli özetleri sentezlemek için kullanmak.

→ Araçlar arası iş bölümü: arama = literatür aracı, doğrulama = insan + birincil kaynak, sentez = genel LLM.


Yaygın hata kalıpları (failure modes)

  • Tek araç saplantısı. Sevilen tek aracı her işe zorlamak. Çözüm: yukarıdaki eşleştirme tablosunu iş başlamadan açmak.
  • Güncellik yanılsaması. Modelin eğitim kesim tarihinden sonraki kılavuz/ilaç/çalışmaları bildiğini varsaymak. Çözüm: güncel klinik bilgiyi her zaman birincil, tarihli kaynaktan almak.
  • Bağlam taşması. Devasa belgeyi tek prompt'a tıkıp eksiksiz işlendiğini sanmak. Çözüm: parçalama ve parça başına doğrulama.
  • Sürüm körlüğü. "Bu araç şunu yapamaz" bilgisini aylar önceki deneyime dayandırmak. Çözüm: yetenek sınırlarını periyodik olarak yeniden test etmek.

Uygulamalı egzersiz

Kendi devam eden bir projenizi alın. Projenin beş alt görevini (ör. soru rafinasyonu, tarama, analiz kodu, giriş yazımı, dil editi) listeleyin ve her birinin karşısına yukarıdaki tablodan uygun araç sınıfını yazın. Yanlış sınıfla yapmaya çalıştığınız bir görev var mı? Bu, ekosistem okuryazarlığının ilk testidir.


Doğrulama kontrol listesi

  • Bu görev için doğru araç sınıfını mı kullanıyorum?
  • Referans/güncel klinik bilgi istiyorsam, kaynağı izlenebilir bir araçtan mı alıyorum?
  • Genel LLM'den gelen hiçbir referansı doğrulamadan kabul etmedim.
  • Uzun belge için bağlam penceresi sınırını dikkate aldım.

Anahtar çıkarımlar

  • Araç seçimi prompt kalitesinden önce gelir; yanlış araçla mükemmel prompt yine başarısızdır.
  • Genel LLM bir referans veritabanı değildir ve belirsizliği temsil edemez.
  • İdeal iş akışı çoğu zaman çok araçlıdır: arama, doğrulama ve sentez farklı sınıflara dağıtılır.