Trending

Arli Aditya Parikesit                 
631 1 6
Sains dan Teknologi May 11 10 Min Read

Bioinformatika dan Biologi Molekuler, Ilmu di Balik Pengurutan Genom Virus Corona yang Sangat Kecil




Pandemi COVID-19 telah membuat dua sub cabang ilmu, biologi molekuler dan bioinformatika, menjadi begitu penting dalam upaya mengendalikan penyebaran virus. Bioinformatika, penerapan sains data dalam ilmu biologi, punya peran besar dalam mendeteksi dan mengurutkan genome virus. Perkembangan ilmu biologi molekuler mempercepat proses pengurutan genome termasuk gen virus corona. Kedua ilmu ini punya peran besar dalam mendeteksi mutasi varian virus corona termasuk Omicron yang kini sedang meledak di sejumlah negara

Pada awalnya pada tahun 90an, peneliti memerlukan waktu beberapa tahun untuk mengurutkan genome manusia. Kini dengan menggunakan instrumen ‘Next-Generation Sequencing’ (NGS) pengurutan itu hanya butuh waktu sehari sebelum analisis lebih lanjut. Demikian juga proses pengurutan genome virus seperti SARS-CoV-2 dapat diselesaikan dengan waktu lebih singkat lagi, yaitu total 1 hari saja sampai deposisi di GISAID 

Kecepatan yang masif dalam pengurutan genom SARS-CoV-2 terjadi tidak hanya karena kecanggihan perangkat keras, dalam hal ini, instrumen NGS. Namun juga terjadi karena perangkat lunak pengolah data NGS tersebut menggunakan metode komputasi khusus untuk memberikan informasi biologis yang signifikan. Salah satunya adalah programasi dinamik

Memecah masalah jadi kecil-kecil

Programasi dinamik adalah menyelesaikan masalah yang kompleks dengan memecahnya menjadi masalah-masalah yang lebih kecil.  Needleman dan Wunsch yang adalah peneliti dari Northwestern University, and Nuclear Medicine Service, V. A. Research Hospital Chicago, yang pertama kali mengusulkan algoritma umum untuk penyejajaran sekuens biologis dengan memberikan skor maksimal pada urutan biologis yang paling cocok. 

Salah satu prinsip komputasi yang perlu kita pahami disini adalah basis pensejajaran urutan sekuens. Salah satu contoh yang sangat umum adalah mesin judi ding-dong. Pemain judi akan mendapatkan imbalan jika ketiga gambar pada mesin judi adalah sama, namun tidak akan mendapatkan apa-apa atau malah penalti jika satu atau lebih gambar berbeda dengan yang lain. Dalam urutan sekuens biologis seperti DNA dan protein hal itu juga sama. 

Basis pensejajaran urutan sekuens biologis dengan programasi dinamik adalah dengan mengkalkulasi kesamaan urutan antara minimal dua sekuens biologis. Aplikasinya adalah memulai pengembangan matriks dengan scoring imbalan dan penalti seperti mesin judi ding-dong, contoh lain yang biasa ditemukan pada aljabar linier adalah matriks jarak salesman antara satu kota ke kota lain, dimana imbalan akan diperoleh bagi salesman yang mengitari semua kota dengan jarak sedekat mungkin. Maksudnya, urutan biologis yang sejajar mendapat skor atau imbalan, kemudian tidak sejajar tidak akan mendapatkan apa-apa atau disebut sebagai gap nol. 

Penerapan praktisnya pada pengurutan genom SARS-CoV-2 adalah ketika urutan protein S virus orisinal dari Wuhan dibandingkan dengan urutan virus pada varian D641G atau B.1.1.7 dari Inggris. Mari kita mengingat prinsip mesin judi ding-dong, dimana pensejajaran gambar akan mendapat imbalan, dan ketidak-sejajaran tidak mendapatkan apa-apa atau malah mendapatkan penalti. Akan ditemukan penalti dalam penyejajaran sekuens pada scoringnya karena akan ditemukan mutasi yang signifikan pada protein S, dan semakin besar penaltinya, maka semakin berbeda kedua urutan biologis tersebut. 

Kemudian, luaran dari pipeline programasi dinamis seperti disebut diatas, yang sangat terinspirasi dari mesin judi ding-dong harus dicek kualitasnya dengan protokol Quality control (QC) pengurutan genome . QC adalah protokol yang sangat standar dalam sains dan industri, salah satu contohnya adalah proses QC di industri yang memastikan bahwa produk mereka sesuai dengan spesifikasi yang sudah ditentukan. 

Tidak berbeda dengan di Industri, proses QC pengurutan genome bertujuan, pertama, untuk menganalisis dan menentukan kualitas dari urutan biologi genome tersebut dengan menggunakan kriteria yang seragam. Seperti menandai urutan yang tidak jelas kepastiannya dengan ‘N’ untuk asam nukleat. Proses QC di industri biasa menandai produk yang defect atau gagal dengan marker tertentu. Hal ini sama saja juga diproses ini. 

Kedua, proses QC bermanfaat untuk membersihkan urutan biologis dari karakter yang seharusnya tidak ada pada file FASTA atau FASTQ tersebut, seperti keberadaan karakter non-ASCII dan karakter lain di luar standar urutan biologis tersebut. Maksudnya adalah protokol error correcting yang memastikan bahwa sekuens biologis tersebut siap diproses. Analoginya adalah jika kita merujuk ke industri, adalah tidak jauh beda dengan proses sterilisasi susu yang memusnahkan kuman-kuman berbahaya. Disini, yang menjadi 'kuman' adalah karakter-karakter di luar standar tersebut. 

 

 Manfaat bioinformatika

Bioinformatika, penerapan sains data dalam ilmu biologi, punya peran besar dalam mendeteksi dan mengurutkan genome virus. Sains data merupakan kajian multidisipliner yang melibatkan ilmu komputer dan statistika. 

Salah satu metode komputasi sentral yang menjadi fokus sains data adalah pembelajaran mesin (machine learning). Ini merupakan metode untuk memprediksi tren data dengan melakukan iterasi atau mengumpan data untuk pelatihan secara intensif. Pembelajaran mesin, yang telah biasa diaplikasikan pada pengembangan media sosial, ‘ride hailing application’ (Aplikasi pemesanan perjalanan seperti Gojek (r) dan Grab (r)), dan ‘e-commerce’, juga diaplikasikan untuk penyelesaian masalah biologi.

Salah satu problem biologi tersebut adalah pengurutan genom virus SARS-CoV-2, yang bertanggung jawab atas penyakit COVID-19. Proses pengurutan genom adalah mengurutkan basa-basa materi genetik yang terdiri dari A (Adenin), G (Guanin), T(Timin), dan C(Sitosin). Proses tersebut bermanfaat sebagai informasi untuk mengembangkan diagnostik, terapi, dan agen prevensi terhadap agen infeksius tersebut. Salah satu manfaat bioinformatika adalah penerapan algoritma klaster pada aplikasi pohon filogenetika, yang merupakan pengelompokan data genomik dengan atribut serupa. Salah satu contohnya adalah pengelompokan Virus SARS-CoV-2 dengan Virus Corona Kelelawar RaTG13 pada satu klaster besar karena memiliki kesamaan urutan basa genome di atas 96 %.Algoritma klaster ini memberikan petunjuk bahwa kedua virus tersebut memiliki nenek moyang yang sama, sehingga menjadi informasi penting dalam penentuan asal-usul pandemi COVID-19. 

Manfaat lain dari algoritma klaster adalah menentukan keragaman genom. Aplikasinya adalah ditemukannya indeks keragaman yang signifikan antara sekuens SARS-CoV-2 dari Wuhan dan varian B.1.1.7 Inggris yang sangat berbeda. Ini tampak, terutama karena perubahan genetik pada receptor-binding domain , yang merupakan bagian dari protein spike yang berikatan dengan protein reseptor ACE2 pada sel paru-paru dan situs pemotongan furin yang bermanfaat bagi pertautan virus SARS-CoV-2 ke sel hostnya. 

 

Analisis lebih detail

Analisis genom yang lebih mendetail harus menggunakan algoritma khusus, Model Markov Tersembunyi (HMM) adalah salah satunya. HMM adalah sebuah model statistika yang dapat digunakan untuk menjelaskan evolusi atau perkembangan dari sebuah event terobservasi, yang tergantung pada faktor internal yang tidak dapat diobservasi. Analogi yang bisa menjelaskan hal ini adalah sesi latihan menembak tentara. Seorang tentara yang masih amatir tentu kinerjanya kurang baik pada sesi awal latihan. Apa yang disebut sebagai 'event' adalah sesi-sesi latihan tersebut. Setelah berkali-kali latihan, sudah dipastikan tentara tersebut akan menjadi profesional dalam menembak. HMM sebagai model statistika bekerja sama seperti itu. Pada tahap awal, kinerjanya buruk sebagai model prediktif. Namun setelah dilatih berkali-kali, kinerjanya semakin baik sebagai prediktor. Pemodelan ini sudah banyak diterapkan di bidang lain, contohnya pada pengenalan suara dan ramalan cuaca. Model statistika untuk kedua hal tersebut dilatih dengan menggunakan data suara dan cuaca dalam jumlah besar (big data). Sehingga bisa menjadi model prediktif yang baik untuk aplikasi biomedis, seperti prediksi pola mutasi virus.   

Dalam bidang molekuler medis, HMM diterapkan untuk mendeteksi keberadaan mutasi domain protein yang berperan dalam perjalanan berbagai penyakit, salah satunya pada COVID-19. Contohnya adalah perjalanan varian omicron dari Afrika, yang salah satunya terjadi karena kurangnya cakupan vaksinasi di benua tersebut. Di tempat atau region yang cakupan vaksinasinya rendah, dipastikan akan ditemukan lebih banyak mutasi virus baru. Tidak hanya itu, aplikasi berbasis HMM juga bermanfaat untuk anotasi gen baru, dengan fungsi baru. Juga sedang dikembangkan ‘Disease annotation’ untuk mengkonsolidasi pemetaan antara data penyakit dan protein maupun gen yang terlibat di dalamnya. Namun, walau penerapan HMM sudah sangat maju, seperti kita lihat pada pengembangan basis data SUPERFAMILY dan PFAM untuk protein yang mampu memprediksi pola imuno resisten virus, tetapi masih banyak tantangan implementasinya ke depan. Pandemi COVID-19 sudah mengajarkan kepada kita, bahwa mutasi adalah suatu peristiwa yang dijelaskan dengan ‘random algorithm’ (acak), karena seleksi alam adalah acak. Tidak selalu negara atau region yang cakupan vaksinasinya rendah yang menghasilkan varian baru. Ini bisa dijelaskan dengan fakta sederhana. Di Indonesia yang cakupan vaksinasinya sudah diatas hampir semua negara Afrika, juga ditemukan varian lokal, walaupun belum dimasukkan ke kategori 'Variant of Concern' yang berbahaya.  

Walaupun sudah banyak aplikasi, seperti paket prediksi gen, yang dikembangkan berdasarkan algoritma bioinformatika khusus seperti HMM, tetapi seringkali memprediksi pola mutasi virus kedepan sama sekali tidak pernah mudah. Terkadang, menggunakan ‘brute force algorithm’ adalah keharusan, di mana semua kemungkinan mutasi pada virus diannotasi, harus digunakan walau algoritme ini sangat membutuhkan daya komputasi besar. Belum lagi jika kita melakukan pemodelan interaksi biologi sistem antara virus dan host, dimungkinkan memerlukan komputer super yang minimal memiliki 10.000 CPU. Ini bisa menjelaskan mengapa dunia terkejut dengan kehadiran varian Omicron, karena tidak ada yang menyangka hal ini akan terjadi. Belum ada model komputer solid yang dapat memprediksi varian virus kedepannya seperti apa. Di sini tantangannya, software bioinformatika harus dapat menganalisis pola acak dari mutasi virus seperti SARS-CoV-2, dan harus memperhatikan _time and space complexity_ pengolahan maha data tersebut. 

Arli Aditya Parikesit                 
631 1 6
Bagikan ini ke sosial media anda

(1) Komentar

Image
Materinya sangat bagus 30 August 2022

Mohon share materi yg lain

Bagikan   

Berikan Komentarmu

Tentang Generasi Peneliti

Generasipeneliti.id, merupakan perusahaan resmi dibawah PT Solusi Riset Indonesia yang berfokus untuk menyebarkan berita-berita baik terkait akademik di Indonesia


Our Social Media

Hubungi Kami


Customer Service

+62 8127-5915-940
generasipeneliti@gmail.com
Flag Counter

© Generasi Peneliti. All Rights Reserved.