ÖNEMLİ BİLGİLENDİRME: Bu platform bir prototip çalışmasıdır. Burada izlenen metodolojiler ve hesaplanan skorlar deneysel aşamada olup, tam olarak standart bilimsel metodlara uygunluk garantisi taahhüdü altında değildir. Geliştirilen yöntemler test sürecindedir ve tıbbi/bilimsel bir kesinlik arz etmez.

SmartEpitope Logo

SmartEpitope, evrimsel korunmuşluk analizleri ve ESM-2 protein dil modelini kullanarak viral antijenler üzerindeki potansiyel terapötik hedeflerin saptanmasını hedefleyen deneysel bir platformdur.

SmartEpitope Metodolojisi ve Kullanılan Araçlar

SmartEpitope, viral proteinler üzerinde ideal bağlanma bölgeleri keşfetmek için biyoenformatik araçları ve gelişmiş derin yapay zeka modellerini birleştiren hibrit bir platformdur. Amacımız, virüsün mutasyona uğratamayacağı "evrimsel olarak korunmuş" bölgeleri bulmak ve bu bölgelerin fiziksel olarak ilaç/antikor bağlanmasına uygunluğunu doğrulamaktır. Tüm analiz aşamaları kullanılan yaklaşımlar, formüller ve araçlarla aşağıda özetlenmiştir.

1. Veri Toplama ve Evrimsel Hizalama (NCBI & MAFFT)

İlk aşamada, NCBI ve UniProt veritabanlarından yüzlerce farklı viral varyant sekansı otomatik olarak çekilir. Bu sekanslar, yüksek performanslı MAFFT algoritması kullanılarak hizalanır. Hizalama sonucunda her bir amino asit pozisyonu için Python'un math kütüphanesi kullanılarak Shannon Entropisi hesaplanır ve virüsün mutasyona direndiği korunmuş cepler istatistiksel olarak haritalanır.

Evrimsel Korunmuşluk Skoru  Stats(i)

$$H(i) = -\sum_{a \in \mathcal{A}} p_a^{(i)} \log_2 p_a^{(i)}, \qquad \text{Stats}(i) = 1 - \frac{H(i)}{H_{\max}}$$

Burada \(p_a^{(i)}\) amino asit \(a\)'nın \(i\) kolonundaki frekansını, \(\mathcal{A}\) 20 standart amino asit kümesini, \(H_{\max} = \log_2(20) \approx 4{,}322\) ise maksimum entropiyi ifade eder. Korunmuş pozisyonlarda \(H(i) \approx 0\) ve \(\text{Stats}(i) \approx 1\) olur. Bu yaklaşım Shannon entropisine dayanmaktadır (Shannon, 1948; Valdar, 2002).

Kaynaklar:
Shannon, C. E. (1948). A mathematical theory of communication. Bell System Technical Journal, 27(3), 379–423.
Valdar, W. S. J. (2002). Scoring residue conservation. Proteins: Structure, Function, and Genetics, 48(2), 227–241.

2. Yapay Zeka ile Yapısal Yaşamsallık Doğrulaması (Meta ESM-2)

Sadece geçmişte mutasyona uğramamış olması, bir bölgenin hedeflenebilir olduğunu tek başına garanti etmez. Bu aşamada Meta tarafından geliştirilen 650 milyon parametreli ESM-2 (Evolutionary Scale Modeling) protein dil modeli devreye girer. Python tabanlı Transformers (Hugging Face) ve PyTorch kütüphaneleri ile çalıştırılan bu model, protein dizisindeki her pozisyon için bağlamsal olasılıkları tahmin ederek yapısal açıdan kritik bölgeleri in-silico olarak değerlendirir.

ESM-2 Yapısal Yaşamsallık Skoru  AI(i)

$$\ell(i) = \log P_{\theta}\!\left(x_i \mid \mathbf{x}_{\setminus i}\right), \qquad \text{AI}(i) = \frac{1}{1 + |\ell(i)|}$$

Burada \(P_\theta\), ESM-2 model parametrelerini; \(x_i\), pozisyon \(i\)'de gözlemlenen amino asidi; \(\mathbf{x}_{\setminus i}\) ise dizinin geri kalanını temsil eder. Bu ifade, maskelenmiş dil modelleme yaklaşımına dayanır ve her pozisyondaki amino asidin bağlamsal olasılığını (log-olasılık) ölçer. Düşük log-olasılık değerleri, ilgili amino asidin model tarafından beklenmedik bulunduğunu ve bu pozisyonun yapısal veya fonksiyonel açıdan kısıtlı olabileceğini gösterir.

Log-olasılık değerleri geniş bir aralıkta değişebildiğinden, bu çalışmada mutlak değerleri alınarak normalize edilmiş ve 0–1 aralığına indirgenmiştir. Bu dönüşüm, model çıktılarının karşılaştırılabilir ve yorumlanabilir bir skora dönüştürülmesini sağlar: yüksek mutlak log-olasılık (daha kritik pozisyonlar) daha düşük \(AI(i)\) skoruna karşılık gelir.

Kaynaklar:
Rives, A., et al. (2021). Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences. PNAS, 118(15).
Rao, R., et al. (2021). Transformer protein language models are unsupervised structure learners. ICLR.

3. Yüzey Erişilebilirliği ve 3D Modelleme (SASA)

Keşfedilen bölge evrimsel ve yapısal açıdan kritik olsa bile, proteinin iç kısımlarına gömülü olması durumunda bir antikorun veya terapötik molekülün bu bölgeye ulaşması mümkün olmayabilir. Bu nedenle hedef adaylarının fiziksel erişilebilirliği, SASA (Solvent Accessible Surface Area) analizi ile değerlendirilir. Biopython (Bio.PDB.SASA) kütüphanesi ve Shrake-Rupley algoritması kullanılarak, seçilen kalıntıların 3D yapı üzerinde solvente ne kadar açık olduğu hesaplanır.

Solvent Erişilebilir Yüzey Alanı  SASA(i)

$$\text{SASA}(i) \approx \sum_{j \in \text{Atoms}(i)} 4\pi (R_j + r_w)^2 \cdot \frac{P_j}{N}, \qquad \text{SASA}(i) > 25 \, \text{\AA}^2$$

Burada \(i\), değerlendirilen amino asit pozisyonunu; \(j\), bu pozisyona ait atomları; \(R_j\), atom \(j\)'nin van der Waals yarıçapını; \(r_w\), solvent prob yarıçapını temsil eder. Shrake-Rupley algoritmasında genellikle su molekülünü temsil eden \(r_w \approx 1.4 \, \text{\AA}\) prob yarıçapı kullanılır. Her atomun genişletilmiş yüzeyine \(N\) adet test noktası yerleştirilir ve başka atomlar tarafından engellenmeyerek solvente açık kalan nokta sayısı \(P_j\) olarak hesaplanır. Böylece her kalıntının solvente erişilebilir yüzey alanı 3D koordinatlar üzerinden nicel olarak değerlendirilir.

Bu çalışmada toplam SASA değeri \(25 \, \text{\AA}^2\)'nin altında kalan pozisyonlar, antikor veya ilaç bağlanması açısından yeterince erişilebilir kabul edilmediğinden hedef aday listesinden elenecektir. Bu eşik, proje kapsamında erişilebilir bölgeleri önceliklendirmek için kullanılan pratik bir filtreleme kriteridir.

Kaynaklar:
Shrake, A., & Rupley, J. A. (1973). Environment and exposure to solvent of protein atoms: Lysozyme and insulin. Journal of Molecular Biology, 79(2), 351–371.
Hamelryck, T., & Manderick, B. (2003). PDB file parser and structure class implemented in Python. Bioinformatics, 19(17), 2308–2310.
Miller, S., Janin, J., Lesk, A. M., & Chothia, C. (1987). Interior and surface of monomeric proteins. Journal of Molecular Biology, 196(3), 641–656.

4. Dinamik Ağırlıklandırma ve Hibrit Skorlama (S_final)

Her amino asit pozisyonu için hesaplanan evrimsel korunmuşluk ve yapay zeka tabanlı bağlamsal skorlar, proje kapsamında tanımlanan yorumlanabilir bir hibrit skor ile birleştirilir. Bu yaklaşımda amaç, tek bir metriğe bağımlı kalmadan hem evrimsel olarak korunmuş hem de protein dil modeli tarafından bağlamsal açıdan önemli görülen pozisyonları önceliklendirmektir.

Dinamik Ağırlık Hesabı

$$w_{AI} = \frac{\sqrt{\sigma_{AI}}}{\sqrt{\sigma_S} + \sqrt{\sigma_{AI}}}, \qquad w_S = 1 - w_{AI}$$

Burada \(\sigma_S\) ve \(\sigma_{AI}\), sırasıyla Stats ve AI skorlarının protein genelindeki standart sapmalarını temsil eder. Skor dağılımı daha geniş olan bileşen, pozisyonlar arasında daha fazla ayırt edici bilgi taşıdığı varsayımıyla daha yüksek ağırlık alır. Karekök dönüşümü, bir metriğin varyansı çok yüksek olduğunda tüm skoru baskılamasını önlemek için uygulanır ve daha dengeli bir ağırlık dağılımı sağlar.

Bu ağırlıklandırma yaklaşımı, proje kapsamında farklı bilgi kaynaklarını tek bir yorumlanabilir sıralama skorunda birleştirmek için tanımlanmış pratik bir karar destek yaklaşımıdır.

Nihai Sıralama Skoru  S_final(i)

$$S_{\text{final}}(i) = w_S \cdot \text{Stats}(i) + w_{AI} \cdot \text{AI}(i)$$

SASA filtresini geçen pozisyonlar arasında en yüksek \(S_{\text{final}}\) skoruna sahip sekanslar, En Olası 3 Bağlanma Bölgesi olarak belirlenir ve panelde görselleştirilir. Böylece aday bölgeler, yalnızca korunmuşluklarına göre değil, aynı zamanda yapısal bağlam ve erişilebilirlik açısından da önceliklendirilmiş olur.

Üç Boyutlu Görselleştirme ve Analiz Paneli

SmartEpitope Analiz Paneli

Hibrit Skorlama Modeli: S_final = 0.5 * Stats + 0.5 * AI

* SARS-CoV-2 için ML ile optimize edilmiş ağırlıklar kullanılmaktadır.

Seçilen 3 Sekans Bölgesi

Gerçek Epitop Karşılaştırması

Model tahminleri, IEDB (Immune Epitope Database) kayıtlarıyla IoU metriği kullanılarak karşılaştırılmıştır.

Kapalı Döngü Optimizasyon Modülü

Bu modül, model performansını değerlendirmek ve iyileştirmek amacıyla parametrelerin sistematik olarak tarandığı bir optimizasyon sürecini temsil eder. Tüm olası parametre kombinasyonları belirli bir aralıkta denenir ve model tarafından tahmin edilen bölgelerin, literatürde tanımlanmış referans bölgelerle ne ölçüde örtüştüğü hesaplanır. Bu örtüşme, IoU (Intersection over Union: iki bölgenin kesişiminin birleşimlerine oranı) metriği ile değerlendirilir.

Epitop Kürasyonu ve Karşılaştırma Yöntemi

Verilen doğruluk değerleri, model tarafından önerilen en iyi 3 aday bölge ile IEDB (Immune Epitope Database: deneysel olarak doğrulanmış epitopları içeren veri tabanı) ve bilimsel literatürden elde edilen referans epitop bölgeleri arasındaki örtüşmeyi ifade eder. Referans bölgeler, deneysel bulgulara dayalı olarak seçilmiştir.

Kürasyon Kriterleri:
  • Deneysel Kanıt: Yalnızca deneysel yöntemlerle doğrulanmış epitoplar dikkate alınmıştır.
  • Fonksiyonel Bağlam: Virüsün hücreye girişinde veya füzyon mekanizmasında rol oynayan bölgeler önceliklendirilmiştir.
Hesaplama Detayı:

SARS-CoV-2, SARS-CoV-1 ve Influenza A için performans, model tarafından önerilen ilk 3 bölgenin referans epitoplarla örtüşme düzeyine göre değerlendirilmiştir. Bu değerlendirmede hem örtüşme oranı hem de bölgesel kesişim alanı birlikte dikkate alınmıştır.

Model Doğrulama ve Parametre Optimizasyonu

SmartEpitope modeli, evrimsel korunmuşluk ve ESM-2 protein dil modeli skorlarını kullanarak olası terapötik hedef bölgeleri önerir. Bu önerilerin literatürde tanımlanmış epitop bölgeleriyle ne kadar örtüştüğünü değerlendirmek ve model parametrelerini iyileştirmek amacıyla sistematik bir doğrulama ve optimizasyon süreci uygulanır.

1. Referans Veri Setinin Oluşturulması

IEDB (Immune Epitope Database: deneysel olarak doğrulanmış epitopları içeren veri tabanı) ve PDB (Protein Data Bank: deneysel olarak çözülmüş protein yapılarını içeren veri tabanı) kayıtlarından elde edilen antikor bağlanma bölgeleri, model çıktılarıyla karşılaştırılmak üzere referans bölgeler olarak tanımlanır. Örneğin SARS-CoV-2 için NTD supersite bölgesi referans epitop bölgelerinden biri olarak kullanılabilir.

2. Model Performansının Değerlendirilmesi

Model tarafından en yüksek skorla önerilen bölgeler, referans epitop bölgeleriyle amino asit pozisyonları düzeyinde karşılaştırılır. Bu karşılaştırmada, tahmin edilen bölge ile referans bölge arasındaki ortak pozisyonların oranı hesaplanır. Örtüşme düzeyi, IoU (Intersection over Union: iki bölgenin kesişiminin birleşimlerine oranı) metriği ile ifade edilir.

3. Çok Parametreli Optimizasyon

Modelin performansını etkileyebilecek farklı parametre değerleri sistematik olarak denenir. Bu kapsamda SASA eşiği (Solvent Accessible Surface Area: solvente erişilebilir yüzey alanı), incelenen amino asit pencere boyutu ve evrimsel korunmuşluk ile ESM-2 skorları arasındaki ağırlık dağılımı farklı kombinasyonlar halinde değerlendirilir. Bu parametre taraması sonucunda toplam 120 farklı kombinasyon test edilir.

Optimizasyon Sonucu

Değerlendirme sonucunda, referans epitop bölgeleriyle en yüksek örtüşmeyi sağlayan parametre seti belirlenir. Bu süreç, modelin önerdiği aday bölgelerin literatür verileriyle karşılaştırılmasını ve hedef bölge önceliklendirmesinin daha tutarlı hale getirilmesini sağlar.