SmartEpitope | Akıllı Bağlanma Bölgesi Keşfi

SmartEpitope Metodolojisi ve Kullanılan Araçlar

SmartEpitope, viral proteinler üzerinde ideal bağlanma bölgeleri keşfetmek için biyoenformatik araçları ve gelişmiş derin yapay zeka modellerini birleştiren hibrit bir platformdur. Amacımız, virüsün mutasyona uğratamayacağı "evrimsel olarak korunmuş" bölgeleri bulmak ve bu bölgelerin fiziksel olarak ilaç/antikor bağlanmasına uygunluğunu doğrulamaktır. Tüm analiz aşamaları kullanılan yaklaşımlar, formüller ve araçlarla aşağıda özetlenmiştir.

1. Veri Toplama ve Evrimsel Hizalama (NCBI & MAFFT)

İlk aşamada, NCBI ve UniProt veritabanlarından yüzlerce farklı viral varyant sekansı otomatik olarak çekilir. Bu sekanslar, yüksek performanslı MAFFT algoritması kullanılarak hizalanır. Hizalama sonucunda her bir amino asit pozisyonu için Python'un math kütüphanesi kullanılarak Shannon Entropisi hesaplanır ve virüsün mutasyona direndiği korunmuş cepler istatistiksel olarak haritalanır.

Evrimsel Korunmuşluk Skoru `Stats(i)`

$$H(i) = -\sum_{a \in \mathcal{A}} p_a^{(i)} \log_2 p_a^{(i)}, \qquad \text{Stats}(i) = 1 - \frac{H(i)}{H_{\max}}$$

Burada $p_a^{(i)}$ amino asit $a$'nın $i$ kolonundaki frekansını, $\mathcal{A}$ 20 standart amino asit kümesini, $H_{\max} = \log_2(20) \approx 4{,}322$ ise maksimum entropiyi ifade eder. Korunmuş pozisyonlarda $H(i) \approx 0$ ve $\text{Stats}(i) \approx 1$ olur. Bu yaklaşım Shannon entropisine dayanmaktadır (Shannon, 1948; Valdar, 2002).

Kaynaklar:
Shannon, C. E. (1948). A mathematical theory of communication. Bell System Technical Journal, 27(3), 379–423.
Valdar, W. S. J. (2002). Scoring residue conservation. Proteins: Structure, Function, and Genetics, 48(2), 227–241.

2. Yapay Zeka ile Yapısal Yaşamsallık Doğrulaması (Meta ESM-2)

Sadece geçmişte mutasyona uğramamış olması, bir bölgenin hedeflenebilir olduğunu tek başına garanti etmez. Bu aşamada Meta tarafından geliştirilen 650 milyon parametreli ESM-2 (Evolutionary Scale Modeling) protein dil modeli devreye girer. Python tabanlı Transformers (Hugging Face) ve PyTorch kütüphaneleri ile çalıştırılan bu model, protein dizisindeki her pozisyon için bağlamsal olasılıkları tahmin ederek yapısal açıdan kritik bölgeleri in-silico olarak değerlendirir.

ESM-2 Yapısal Yaşamsallık Skoru `AI(i)`

$$\ell(i) = \log P_{\theta}\!\left(x_i \mid \mathbf{x}_{\setminus i}\right), \qquad \text{AI}(i) = \frac{1}{1 + |\ell(i)|}$$

Burada $P_\theta$, ESM-2 model parametrelerini; $x_i$, pozisyon $i$'de gözlemlenen amino asidi; $\mathbf{x}_{\setminus i}$ ise dizinin geri kalanını temsil eder. Bu ifade, maskelenmiş dil modelleme yaklaşımına dayanır ve her pozisyondaki amino asidin bağlamsal olasılığını (log-olasılık) ölçer. Düşük log-olasılık değerleri, ilgili amino asidin model tarafından beklenmedik bulunduğunu ve bu pozisyonun yapısal veya fonksiyonel açıdan kısıtlı olabileceğini gösterir.

Log-olasılık değerleri geniş bir aralıkta değişebildiğinden, bu çalışmada mutlak değerleri alınarak normalize edilmiş ve 0–1 aralığına indirgenmiştir. Bu dönüşüm, model çıktılarının karşılaştırılabilir ve yorumlanabilir bir skora dönüştürülmesini sağlar: yüksek mutlak log-olasılık (daha kritik pozisyonlar) daha düşük $AI(i)$ skoruna karşılık gelir.

Kaynaklar:
Rives, A., et al. (2021). Biological structure and function emerge from scaling unsupervised learning to 250 million protein sequences. PNAS, 118(15).
Rao, R., et al. (2021). Transformer protein language models are unsupervised structure learners. ICLR.

3. Yüzey Erişilebilirliği ve 3D Modelleme (SASA & Biopython)

Keşfedilen bölge evrimsel ve yapısal açıdan kritik olsa bile, proteinin iç kısımlarına gömülü olması durumunda bir antikorun veya terapötik molekülün bu bölgeye ulaşması mümkün olmayabilir. Bu nedenle hedef adaylarının fiziksel erişilebilirliği, SASA (Solvent Accessible Surface Area) analizi ile değerlendirilir. Biopython (Bio.PDB.SASA) kütüphanesi ve Shrake-Rupley algoritması kullanılarak, seçilen kalıntıların 3D yapı üzerinde solvente ne kadar açık olduğu hesaplanır.

Solvent Erişilebilir Yüzey Alanı `SASA(i)`

$$\text{SASA}(i) \approx \sum_{j \in \text{Atoms}(i)} 4\pi (R_j + r_w)^2 \cdot \frac{P_j}{N}, \qquad \text{SASA}(i) > 25 \, \text{\AA}^2$$

Burada $i$, değerlendirilen amino asit pozisyonunu; $j$, bu pozisyona ait atomları; $R_j$, atom $j$'nin van der Waals yarıçapını; $r_w$, solvent prob yarıçapını temsil eder. Shrake-Rupley algoritmasında genellikle su molekülünü temsil eden $r_w \approx 1.4 \, \text{\AA}$ prob yarıçapı kullanılır. Her atomun genişletilmiş yüzeyine $N$ adet test noktası yerleştirilir ve başka atomlar tarafından engellenmeyerek solvente açık kalan nokta sayısı $P_j$ olarak hesaplanır. Böylece her kalıntının solvente erişilebilir yüzey alanı 3D koordinatlar üzerinden nicel olarak değerlendirilir.

Bu çalışmada toplam SASA değeri $25 \, \text{\AA}^2$'nin altında kalan pozisyonlar, antikor veya ilaç bağlanması açısından yeterince erişilebilir kabul edilmediğinden hedef aday listesinden elenecektir. Bu eşik, proje kapsamında erişilebilir bölgeleri önceliklendirmek için kullanılan pratik bir filtreleme kriteridir.

Kaynaklar:
Shrake, A., & Rupley, J. A. (1973). Environment and exposure to solvent of protein atoms: Lysozyme and insulin. Journal of Molecular Biology, 79(2), 351–371.
Hamelryck, T., & Manderick, B. (2003). PDB file parser and structure class implemented in Python. Bioinformatics, 19(17), 2308–2310.
Miller, S., Janin, J., Lesk, A. M., & Chothia, C. (1987). Interior and surface of monomeric proteins. Journal of Molecular Biology, 196(3), 641–656.

4. Dinamik Ağırlıklandırma ve Hibrit Skorlama (S_final)

Her amino asit pozisyonu için hesaplanan evrimsel korunmuşluk ve yapay zeka tabanlı bağlamsal skorlar, proje kapsamında tanımlanan yorumlanabilir bir hibrit skor ile birleştirilir. Bu yaklaşımda amaç, tek bir metriğe bağımlı kalmadan hem evrimsel olarak korunmuş hem de protein dil modeli tarafından bağlamsal açıdan önemli görülen pozisyonları önceliklendirmektir.

Dinamik Ağırlık Hesabı

$$w_{AI} = \frac{\sqrt{\sigma_{AI}}}{\sqrt{\sigma_S} + \sqrt{\sigma_{AI}}}, \qquad w_S = 1 - w_{AI}$$

Burada $\sigma_S$ ve $\sigma_{AI}$, sırasıyla Stats ve AI skorlarının protein genelindeki standart sapmalarını temsil eder. Skor dağılımı daha geniş olan bileşen, pozisyonlar arasında daha fazla ayırt edici bilgi taşıdığı varsayımıyla daha yüksek ağırlık alır. Karekök dönüşümü, bir metriğin varyansı çok yüksek olduğunda tüm skoru baskılamasını önlemek için uygulanır ve daha dengeli bir ağırlık dağılımı sağlar.

Bu ağırlıklandırma yaklaşımı, proje kapsamında farklı bilgi kaynaklarını tek bir yorumlanabilir sıralama skorunda birleştirmek için tanımlanmış pratik bir karar destek yaklaşımıdır.

Nihai Sıralama Skoru `S_final(i)`

$$S_{\text{final}}(i) = w_S \cdot \text{Stats}(i) + w_{AI} \cdot \text{AI}(i)$$

SASA filtresini geçen pozisyonlar arasında en yüksek $S_{\text{final}}$ skoruna sahip sekanslar, En Olası 3 Bağlanma Bölgesi olarak belirlenir ve panelde görselleştirilir. Böylece aday bölgeler, yalnızca korunmuşluklarına göre değil, aynı zamanda yapısal bağlam ve erişilebilirlik açısından da önceliklendirilmiş olur.

Üç Boyutlu Görselleştirme (PDBe Molstar) ve Analiz Paneli

SmartEpitope Analiz Paneli

Hedef Virüsü Seçin:

Hibrit Skorlama Modeli: S_final = 0.5 * Stats + 0.5 * AI

* SARS-CoV-2 için ML ile optimize edilmiş ağırlıklar kullanılmaktadır.

Seçilen 3 Sekans Bölgesi

Gerçek Epitop Karşılaştırması

Model tahminleri, IEDB (Immune Epitope Database) kayıtlarıyla IoU metriği kullanılarak karşılaştırılmıştır.

SmartEpitope Metodolojisi ve Kullanılan Araçlar

1. Veri Toplama ve Evrimsel Hizalama (NCBI & MAFFT)

Evrimsel Korunmuşluk Skoru `Stats(i)`

2. Yapay Zeka ile Yapısal Yaşamsallık Doğrulaması (Meta ESM-2)

ESM-2 Yapısal Yaşamsallık Skoru `AI(i)`

3. Yüzey Erişilebilirliği ve 3D Modelleme (SASA & Biopython)

Solvent Erişilebilir Yüzey Alanı `SASA(i)`

4. Dinamik Ağırlıklandırma ve Hibrit Skorlama (S_final)

Dinamik Ağırlık Hesabı

Nihai Sıralama Skoru `S_final(i)`

Üç Boyutlu Görselleştirme (PDBe Molstar) ve Analiz Paneli

SmartEpitope Analiz Paneli

Seçilen 3 Sekans Bölgesi

Gerçek Epitop Karşılaştırması

Kapalı Döngü Optimizasyon Modülü

Epitop Kürasyonu ve Karşılaştırma Yöntemi

Kürasyon Kriterleri:

Hesaplama Detayı:

Model Doğrulama ve Parametre Optimizasyonu

1. Referans Veri Setinin Oluşturulması

2. Model Performansının Değerlendirilmesi

3. Çok Parametreli Optimizasyon

Optimizasyon Sonucu

SmartEpitope Metodolojisi ve Kullanılan Araçlar

1. Veri Toplama ve Evrimsel Hizalama (NCBI & MAFFT)

Evrimsel Korunmuşluk Skoru Stats(i)

2. Yapay Zeka ile Yapısal Yaşamsallık Doğrulaması (Meta ESM-2)

ESM-2 Yapısal Yaşamsallık Skoru AI(i)

3. Yüzey Erişilebilirliği ve 3D Modelleme (SASA & Biopython)

Solvent Erişilebilir Yüzey Alanı SASA(i)

4. Dinamik Ağırlıklandırma ve Hibrit Skorlama (S_final)

Dinamik Ağırlık Hesabı

Nihai Sıralama Skoru S_final(i)

Üç Boyutlu Görselleştirme (PDBe Molstar) ve Analiz Paneli

SmartEpitope Analiz Paneli

Seçilen 3 Sekans Bölgesi

Gerçek Epitop Karşılaştırması

Kapalı Döngü Optimizasyon Modülü

Epitop Kürasyonu ve Karşılaştırma Yöntemi

Kürasyon Kriterleri:

Hesaplama Detayı:

Model Doğrulama ve Parametre Optimizasyonu

1. Referans Veri Setinin Oluşturulması

2. Model Performansının Değerlendirilmesi

3. Çok Parametreli Optimizasyon

Optimizasyon Sonucu

Evrimsel Korunmuşluk Skoru `Stats(i)`

ESM-2 Yapısal Yaşamsallık Skoru `AI(i)`

Solvent Erişilebilir Yüzey Alanı `SASA(i)`

Nihai Sıralama Skoru `S_final(i)`