Modül A0 — Araç Ekosistemi ve Model Seçimi
Seviye: [T] Temel / [O] Orta
Amaç: Tıbbi araştırmanın her aşaması için doğru araç sınıfını seçmek ve genel amaçlı bir sohbet modelinin neyi yapamayacağını baştan bilmek.
Kavramsal çerçeve
En yaygın ve en pahalı hata, tek bir aracı her işe koşmaktır. Genel amaçlı bir sohbet modelini literatür motoru gibi kullanmak, müfredatın geri kalanında defalarca uyaracağımız "uydurma referans" felaketinin birincil kaynağıdır. Araçlar farklı mimarilere ve farklı bilgi kaynaklarına dayanır; iş ile araç sınıfını eşleştirmek, prompt kalitesinden önce gelir.
[T] Dört araç sınıfı
- Genel amaçlı büyük dil modelleri (LLM). Akıl yürütme, yazım, yeniden ifade etme, kod üretme, taslaklama için. Eğitim verisindeki bilgiyi "hatırlar" ama bu bilgi tarihlidir, eksiktir ve kaynak gösteremez. Kendi başına bir referans veritabanı değildir.
- Literatüre özgü AI araçları. Gerçek bir akademik veritabanına bağlı çalışan, sorduğunuz soruya yayınlardan kanıt getiren araçlar (bu sınıfa örnek olarak literatür sentez ve atıf analizi araçları girer). Avantajı: çıktıyı izlenebilir bir kaynağa bağlar. Yine de getirdiği özetler doğrulanmalıdır.
- Kod ve istatistik ortamları. R, Python veya istatistik yazılımlarıyla entegre çalışan; veri analizi kodu üreten ve çalıştıran araçlar. Üretilen kodun mantığı her zaman denetlenmelidir.
- Erişim-artırılmış (RAG) kurulumlar. Modelin yalnızca sizin yüklediğiniz belgelerden (PDF'ler, kendi veri sözlüğünüz, protokolünüz) yanıt üretmesini sağlayan yapılar. Halüsinasyonu azaltır ama sıfırlamaz.
[O] Modelin "bilmediğini bilmemesi" sorunu
Bir dil modeli, bir bilgiyi bilmediğinde sessiz kalmaz; istatistiksel olarak en olası devamı üretir. Bu yüzden var olmayan bir makaleyi, gerçekçi bir başlık, tanıdık yazar adları ve geçerli görünen bir DOI formatıyla "icat eder". Model yalan söylemez; belirsizliği temsil edecek bir mekanizması yoktur. Bu, tıbbi kullanımın temel kısıtıdır ve A2'de ayrıntılı işlenir.
[O] Bağlam penceresi (context window)
Modelin tek seferde "görebildiği" metin miktarı sınırlıdır. Çok uzun bir makaleyi veya veri setini tek prompt'a sığdırmaya çalışmak, modelin başını veya ortasını "unutmasına" yol açar (orta-bölüm kaybı). Uzun belgelerle çalışırken metni anlamlı parçalara bölmek ve her parçayı ayrı işlemek daha güvenilirdir.
[İ] Akıl yürüten modeller vs. standart modeller
Bazı modeller yanıt vermeden önce adım adım "düşünür" (reasoning/chain-of-thought tabanlı). Bunlar metodoloji tasarımı, istatistiksel mantık denetimi, çeldirici kalibrasyonu gibi çok adımlı muhakeme isteyen işlerde belirgin biçimde üstündür. Buna karşılık basit yeniden ifade, biçimlendirme veya çeviri için standart model daha hızlı ve yeterlidir. Görevin bilişsel derinliğini araç seçimine yansıtın.
İş → araç eşleştirme tablosu
| Araştırma görevi | Uygun sınıf | Uygun OLMAYAN |
|---|---|---|
| Araştırma sorusunu rafine etme | Genel LLM (akıl yürüten) | — |
| "Bu konuda hangi makaleler var?" | Literatüre özgü araç | Genel LLM (referans uydurur) |
| Sistematik derleme tarama/eleme | Literatüre özgü + RAG | Genel LLM tek başına |
| İstatistik analiz kodu (R/Python) | Kod/istatistik ortamı | Genel LLM (kod denetlenmeden) |
| IMRAD bölümü taslaklama | Genel LLM | Literatür aracı |
| Dil/akademik İngilizce cilalama | Genel LLM | — |
| Kendi PDF'lerinizden özet/sentez | RAG kurulumu | Genel LLM (belgeyi görmeden) |
Kötü → İyi: araç seçimi
Kötü yaklaşım: Genel amaçlı sohbet modeline "Acil serviste sepsis triyajında makine öğrenmesi üzerine son 5 yılın en önemli 10 makalesini DOI'leriyle listele" demek.
→ Sonuç: Çoğu uydurma; başlıklar gerçekçi, DOI'ler sahte. Bu çıktı bir literatür taraması değil, bir tuzaktır.
İyi yaklaşım: Aynı soruyu literatüre özgü bir araçta sormak, dönen her kaydı veritabanında (PubMed/orijinal dergi) tek tek teyit etmek, ardından genel LLM'i yalnızca teyitli özetleri sentezlemek için kullanmak.
→ Araçlar arası iş bölümü: arama = literatür aracı, doğrulama = insan + birincil kaynak, sentez = genel LLM.
Yaygın hata kalıpları (failure modes)
- Tek araç saplantısı. Sevilen tek aracı her işe zorlamak. Çözüm: yukarıdaki eşleştirme tablosunu iş başlamadan açmak.
- Güncellik yanılsaması. Modelin eğitim kesim tarihinden sonraki kılavuz/ilaç/çalışmaları bildiğini varsaymak. Çözüm: güncel klinik bilgiyi her zaman birincil, tarihli kaynaktan almak.
- Bağlam taşması. Devasa belgeyi tek prompt'a tıkıp eksiksiz işlendiğini sanmak. Çözüm: parçalama ve parça başına doğrulama.
- Sürüm körlüğü. "Bu araç şunu yapamaz" bilgisini aylar önceki deneyime dayandırmak. Çözüm: yetenek sınırlarını periyodik olarak yeniden test etmek.
Uygulamalı egzersiz
Kendi devam eden bir projenizi alın. Projenin beş alt görevini (ör. soru rafinasyonu, tarama, analiz kodu, giriş yazımı, dil editi) listeleyin ve her birinin karşısına yukarıdaki tablodan uygun araç sınıfını yazın. Yanlış sınıfla yapmaya çalıştığınız bir görev var mı? Bu, ekosistem okuryazarlığının ilk testidir.
Doğrulama kontrol listesi
- Bu görev için doğru araç sınıfını mı kullanıyorum?
- Referans/güncel klinik bilgi istiyorsam, kaynağı izlenebilir bir araçtan mı alıyorum?
- Genel LLM'den gelen hiçbir referansı doğrulamadan kabul etmedim.
- Uzun belge için bağlam penceresi sınırını dikkate aldım.
Anahtar çıkarımlar
- Araç seçimi prompt kalitesinden önce gelir; yanlış araçla mükemmel prompt yine başarısızdır.
- Genel LLM bir referans veritabanı değildir ve belirsizliği temsil edemez.
- İdeal iş akışı çoğu zaman çok araçlıdır: arama, doğrulama ve sentez farklı sınıflara dağıtılır.