VirDetect-AI: nueva herramienta de inteligencia artificial para identificar proteínas virales eucariontes en datos metagenómicos

Autores/as

DOI:

https://doi.org/10.22201/dgtic.26832968e.2026.15.156

Palabras clave:

VirDetect-AI, inteligencia artificial, metagenómica viral, redes neuronales convolucionales, redes neuronales residuales, clasificación viral

Resumen

Identificar secuencias de virus en muestras metagenómicas de origen ambiental, animal o humano representa un gran reto científico. Los virus son extremadamente diversos, evolucionan rápidamente; además, muchos de ellos no cuentan con genomas de referencia en las bases de datos actuales, lo que dificulta su detección mediante métodos tradicionales. Si bien, en años recientes, se han incorporado herramientas basadas en inteligencia artificial, la mayoría operan de forma binaria, distinguen sólo entre secuencias virales y no virales, y se basan en información genética a nivel de nucleótidos.

En respuesta a este escenario, se desarrolló VirDetect-AI, una herramienta basada en inteligencia artificial diseñada para identificar secuencias de virus eucariontes a partir de sus secuencias proteicas. En este trabajo, se describe su diseño y flujo de trabajo, desde la construcción del conjunto de datos y el procesamiento de secuencias hasta la implementación del modelo de aprendizaje profundo utilizando redes neuronales convolucionales y bloques residuales. El sistema reconoce patrones discriminativos asociados con dominios y motivos en las secuencias de proteínas virales. Asimismo, esta herramienta logra clasificar secuencias metagenómicas en 979 clases de proteínas virales con alta precisión, lo que amplía las posibilidades para explorar la diversidad viral, descubrir virus previamente no descritos y fortalecer la vigilancia ecológica y de salud pública.

Descargas

Los datos de descargas todavía no están disponibles.

Biografía del autor/a

Alida Esmeralda Zárate Jiménez, Universidad Nacional Autónoma de México, Instituto de Biotecnología, Cuernavaca, Morelos, México.

Alida Zárate realiza actualmente una estancia posdoctoral en el Instituto de Biotecnología de la Universidad Nacional Autónoma de México (UNAM). Es Doctora en Ciencias por la Universidad Autónoma del Estado de Morelos (UAEM), Maestra en Ciencias de la Computación e Ingeniera en Sistemas Computacionales por el Tecnológico Nacional de México. Su trabajo integra la bioinformática y la inteligencia artificial aplicada a la metagenómica viral. Ha participado en el desarrollo de herramientas computacionales para el análisis de proteínas virales y sus líneas de investigación se enfocan en la aplicación de inteligencia artificial a la bioinformática y al estudio de virus a partir de datos metagenómicos.

Blanca Itzel Taboada Ramírez, Universidad Nacional Autónoma de México, Instituto de Biotecnología, Cuernavaca, Morelos, México.

Blanca Itzelt Taboada Ramírez es investigadora de tiempo completo en el Instituto de Biotecnología de la Universidad Nacional Autónoma de México (UNAM). Sus intereses académicos se centran en desarrollar y aplicar herramientas bioinformáticas y modelos computacionales basados en inteligencia artificial para la vigilancia genómica de virus emergentes y el análisis del viroma, con énfasis en salud pública en México.

Lorena Díaz-González , Universidad Autónoma del Estado de Morelos, Centro de Investigación en Ciencias, Cuernavaca, Morelos, México.

Lorena Díaz-González es profesora e investigadora de tiempo completo en el Centro de Investigación en Ciencias de la Universidad Autónoma del Estado de Morelos. Sus intereses académicos son desarrollar modelos computacionales basados en inteligencia artificial para abordar problemas en diversas áreas de la ciencia e ingeniería, específicamente en salud y ambiente.

Citas

[1] N. Nam, H. Do, K. L. Trinh, and N. Lee, “Metagenomics: an effective approach for exploring microbial diversity and functions,” Foods, vol. 12, no. 11, p. 2140, May 2023, doi: 10.3390/foods12112140.

[2] E. V. Koonin, V. V. Dolja, M. Krupovic, A. M. Varsani, Y. I. Wolf, and N. Yutin, et al., “Global organization and proposed megataxonomy of the virus world,” Microbiology and Molecular Biology Reviews, vol. 84, no. 2, pp. e00061-19, 2020, doi: 10.1128/MMBR.00061-19.

[3] R. K. Sales, J. Oraño, R. D. Estanislao, A. J. Ballesteros, and M. I. F. Gomez, “Research priority-setting for human, plant, and animal virology: an online experience for the Virology Institute of the Philippines,” Health Res Policy Sys, vol. 19, no. 1, Apr. 2021, doi: 10.1186/s12961-021-00723-z.

[4] S. R. Krishnamurthy and D. Wang, “Origins and challenges of viral dark matter,” Virus Res., vol. 239, pp. 136–142, Jul. 2017, doi: 10.1016/j.virusres.2017.02.002.

[5] A. R. Mushegian, “Are there 10^31 virus particles on earth, or more, or fewer?,” J. Bacteriol., vol. 202, no. 9, Apr. 2020, doi: 10.1128/JB.00052-20.

[6] C. Camacho, G. Coulouris, V. Avagyan, N. Ma, J. Papadopoulos, K. Bealer, and T. L. Madden, "BLAST+: architecture and applications," BMC Bioinformatics, vol. 10, no. 421, 2009, doi:10.1186/1471-2105-10-421.

[7] B. Langmead, C. Trapnell, M. Pop, and S. L. Salzberg, “Ultrafast and memory-efficient alignment of short DNA sequences to the human genome,” Genome Biology, vol. 10, no. 3, p. R25, 2009, doi: 10.1186/gb-2009-10-3-r25.

[8] R. Li, Y. Li, K. Kristiansen, and J. Wang, “SOAP: short oligonucleotide alignment program,” Bioinformatics, vol. 24, no. 5, pp. 713–714, 2008, doi: 10.1093/bioinformatics/btn025.

[9] H. Li and R. Durbin, “Fast and accurate short read alignment with Burrows–Wheeler transform,” Bioinformatics, vol. 25, no. 14, pp. 1754–1760, 2009, doi: 10.1093/bioinformatics/btp324.

[10] R. D. Finn, A. Bateman, J. Clements, P. Coggill, R. Y. Eberhardt, S. R. Eddy, A. Heger, K. Hetherington, L. Holm, J. Mistry, E. L. L. Sonnhammer, J. Tate, and M. Punta, “Pfam: the protein families database,” Nucleic Acids Research, vol. 42, no. 1, pp. 222–230, 2014, doi: 10.1093/nar/gkt1223.

[11] R. D. Finn, J. Clements, and S. R. Eddy, “HMMER web server: interactive sequence similarity searching,” Nucleic Acids Research, vol. 39, no. Suppl. 2, pp. 29–37, 2011, doi: 10.1093/nar/gkr367.

[12] J. Guo, B. Bolduc, A. A. Zayed, A. Varsani, G. Dominguez-Huerta, and T. O. Delmont, et al., “VirSorter2: a multi-classifier, expert-guided approach to detect diverse DNA and RNA viruses,” Microbiome, vol. 9, no. 1, p. 37, Feb. 2021, doi: 10.1186/s40168-020-00990-y.

[13] J. Ren, N. A. Ahlgren, Y. Y. Lu, J. A. Fuhrman, and F. Sun, “VirFinder: a novel k-mer based tool for identifying viral sequences from assembled metagenomic data,” Microbiome, vol. 5, no. 1, p. 69, Dec. 2017, doi: 10.1186/s40168-017-0283-5.

[14] J. Ren, K. Song, C. Deng, et al., “Identifying viruses from metagenomic data using deep learning,” Quantitative Biology, vol. 8, no. 1, p. 64, 2020, doi: 10.1007/s40484-019-0187-4.

[15] Y. Miao, F. Liu, T. Hou, and Y. Liu, “Virtifier: a deep learning-based identifier for viral sequences from metagenomes” Bioinformatics, vol. 38, no. 5, pp. 1216–1222, Feb. 2022, doi: 10.1093/bioinformatics/btab845.

[16] Z. Bzhalava, A. Tampuu, P. Bała, R. Vicente, and J. Dillner, “Machine Learning for detection of viral sequences in human metagenomic datasets,” BMC Bioinformatics, vol. 19, no. 1, p. 336, Dec. 2018, doi: 10.1186/s12859-018-2340-x.

[17] M. H. Alshayeji, S. C. Sindhu, and S. Abed, “Viral genome prediction from raw human DNA sequence samples by combining natural language processing and machine learning techniques,” Expert Syst. Appl., vol. 218, p. 119641, May 2023, doi: 10.1016/j.eswa.2023.119641.

[18] A. Tampuu, Z. Bzhalava, J. Dillner, and R. Vicente, “ViraMiner: deep learning on raw DNA sequences for identifying viral genomes in human samples,” Apr. 2019. doi: 10.1101/602656.

[19] C. M. Dasari and R. Bhukya, “Explainable deep neural networks for novel viral genome prediction,” Applied Intelligence, vol. 52, no. 3, pp. 3002–3017, Feb. 2022, doi: 10.1007/s10489-021-02572-3.

[20] Y. Zhang, C. Li, H. Feng, and D. Zhu, “DLmeta: a deep learning method for metagenomic identification,” in 2022 IEEE International Conference on Bioinformatics and Biomedicine (BIBM), IEEE, Dec. 2022, pp. 303–308. doi: 10.1109/BIBM55620.2022.9995231.

[21] Y. LeCun, Y. Bengio, and G. Hinton, “Deep learning,” Nature, vol. 521, no. 7553, pp. 436–444, May 2015, doi: 10.1038/nature14539.

[22] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” arXiv:1512.03385 [cs], Dec. 2015, [Online]. Available: http://arxiv.org/abs/1512.03385

[23] A. Zárate, L. Díaz-González, and B. Taboada, “VirDetect-AI: a residual and convolutional neural network–based metagenomic tool for eukaryotic viral protein identification,” Brief. Bioinform., vol. 26, no. 1, Jan. 2025, doi: 10.1093/bib/bbaf001.

[24] D. Harding-Larsen, J. Funk, N. G. Madsen, H. Gharabli, C. G. Acevedo-Rocha, S. Mazurenko, “Protein representations: encoding biological information for machine learning in biocatalysis,” Biotechnology Advances, vol. 77, p. 108459, 2024. doi: 10.1016/j.biotechadv.2024.108459.

[25] Alyzart22, VirDetect-AI, GitHub repository. [Online]. Available: https://github.com/alyzart22/VirDetect-AI

[26] P. Iša, B. Taboada, R. García-López, C. Boukadida, J. E. Ramírez-González, J. A. Vázquez-Pérez, et al., “Metagenomic analysis reveals differences in the co-occurrence and abundance of viral species in SARS-CoV-2 patients with different severity of disease,” BMC Infect. Dis., vol. 22, no. 1, p. 792, Oct. 2022, doi: 10.1186/s12879-022-07783-8.

[27] X. Rivera-Gutiérrez, P. Morán, B. Taboada, A. Serrano-Vázquez, P. Isa, L. Rojas-Velázquez, et al., “The fecal and oropharyngeal eukaryotic viromes of healthy infants during the first year of life are personal,” Sci. Rep., vol. 13, no. 1, p. 938, Jan. 2023, doi: 10.1038/s41598-022-26707-9.

Publicado

25/05/26 (12:00)

Cómo citar

Zárate Jiménez, A. E., Taboada Ramírez, B. I., & Díaz-González , L. (2026). VirDetect-AI: nueva herramienta de inteligencia artificial para identificar proteínas virales eucariontes en datos metagenómicos. TIES, Revista De Tecnología E Innovación En Educación Superior, (15), 59–79. https://doi.org/10.22201/dgtic.26832968e.2026.15.156