VirDetect-AI: nueva herramienta de inteligencia artificial para identificar proteínas virales eucariontes en datos metagenómicos
DOI:
https://doi.org/10.22201/dgtic.26832968e.2026.15.156Palabras clave:
VirDetect-AI, inteligencia artificial, metagenómica viral, redes neuronales convolucionales, redes neuronales residuales, clasificación viralResumen
Identificar secuencias de virus en muestras metagenómicas de origen ambiental, animal o humano representa un gran reto científico. Los virus son extremadamente diversos, evolucionan rápidamente; además, muchos de ellos no cuentan con genomas de referencia en las bases de datos actuales, lo que dificulta su detección mediante métodos tradicionales. Si bien, en años recientes, se han incorporado herramientas basadas en inteligencia artificial, la mayoría operan de forma binaria, distinguen sólo entre secuencias virales y no virales, y se basan en información genética a nivel de nucleótidos.
En respuesta a este escenario, se desarrolló VirDetect-AI, una herramienta basada en inteligencia artificial diseñada para identificar secuencias de virus eucariontes a partir de sus secuencias proteicas. En este trabajo, se describe su diseño y flujo de trabajo, desde la construcción del conjunto de datos y el procesamiento de secuencias hasta la implementación del modelo de aprendizaje profundo utilizando redes neuronales convolucionales y bloques residuales. El sistema reconoce patrones discriminativos asociados con dominios y motivos en las secuencias de proteínas virales. Asimismo, esta herramienta logra clasificar secuencias metagenómicas en 979 clases de proteínas virales con alta precisión, lo que amplía las posibilidades para explorar la diversidad viral, descubrir virus previamente no descritos y fortalecer la vigilancia ecológica y de salud pública.
Descargas
Citas
[1] N. Nam, H. Do, K. L. Trinh, and N. Lee, “Metagenomics: an effective approach for exploring microbial diversity and functions,” Foods, vol. 12, no. 11, p. 2140, May 2023, doi: 10.3390/foods12112140.
[2] E. V. Koonin, V. V. Dolja, M. Krupovic, A. M. Varsani, Y. I. Wolf, and N. Yutin, et al., “Global organization and proposed megataxonomy of the virus world,” Microbiology and Molecular Biology Reviews, vol. 84, no. 2, pp. e00061-19, 2020, doi: 10.1128/MMBR.00061-19.
[3] R. K. Sales, J. Oraño, R. D. Estanislao, A. J. Ballesteros, and M. I. F. Gomez, “Research priority-setting for human, plant, and animal virology: an online experience for the Virology Institute of the Philippines,” Health Res Policy Sys, vol. 19, no. 1, Apr. 2021, doi: 10.1186/s12961-021-00723-z.
[4] S. R. Krishnamurthy and D. Wang, “Origins and challenges of viral dark matter,” Virus Res., vol. 239, pp. 136–142, Jul. 2017, doi: 10.1016/j.virusres.2017.02.002.
[5] A. R. Mushegian, “Are there 10^31 virus particles on earth, or more, or fewer?,” J. Bacteriol., vol. 202, no. 9, Apr. 2020, doi: 10.1128/JB.00052-20.
[6] C. Camacho, G. Coulouris, V. Avagyan, N. Ma, J. Papadopoulos, K. Bealer, and T. L. Madden, "BLAST+: architecture and applications," BMC Bioinformatics, vol. 10, no. 421, 2009, doi:10.1186/1471-2105-10-421.
[7] B. Langmead, C. Trapnell, M. Pop, and S. L. Salzberg, “Ultrafast and memory-efficient alignment of short DNA sequences to the human genome,” Genome Biology, vol. 10, no. 3, p. R25, 2009, doi: 10.1186/gb-2009-10-3-r25.
[8] R. Li, Y. Li, K. Kristiansen, and J. Wang, “SOAP: short oligonucleotide alignment program,” Bioinformatics, vol. 24, no. 5, pp. 713–714, 2008, doi: 10.1093/bioinformatics/btn025.
[9] H. Li and R. Durbin, “Fast and accurate short read alignment with Burrows–Wheeler transform,” Bioinformatics, vol. 25, no. 14, pp. 1754–1760, 2009, doi: 10.1093/bioinformatics/btp324.
[10] R. D. Finn, A. Bateman, J. Clements, P. Coggill, R. Y. Eberhardt, S. R. Eddy, A. Heger, K. Hetherington, L. Holm, J. Mistry, E. L. L. Sonnhammer, J. Tate, and M. Punta, “Pfam: the protein families database,” Nucleic Acids Research, vol. 42, no. 1, pp. 222–230, 2014, doi: 10.1093/nar/gkt1223.
[11] R. D. Finn, J. Clements, and S. R. Eddy, “HMMER web server: interactive sequence similarity searching,” Nucleic Acids Research, vol. 39, no. Suppl. 2, pp. 29–37, 2011, doi: 10.1093/nar/gkr367.
[12] J. Guo, B. Bolduc, A. A. Zayed, A. Varsani, G. Dominguez-Huerta, and T. O. Delmont, et al., “VirSorter2: a multi-classifier, expert-guided approach to detect diverse DNA and RNA viruses,” Microbiome, vol. 9, no. 1, p. 37, Feb. 2021, doi: 10.1186/s40168-020-00990-y.
[13] J. Ren, N. A. Ahlgren, Y. Y. Lu, J. A. Fuhrman, and F. Sun, “VirFinder: a novel k-mer based tool for identifying viral sequences from assembled metagenomic data,” Microbiome, vol. 5, no. 1, p. 69, Dec. 2017, doi: 10.1186/s40168-017-0283-5.
[14] J. Ren, K. Song, C. Deng, et al., “Identifying viruses from metagenomic data using deep learning,” Quantitative Biology, vol. 8, no. 1, p. 64, 2020, doi: 10.1007/s40484-019-0187-4.
[15] Y. Miao, F. Liu, T. Hou, and Y. Liu, “Virtifier: a deep learning-based identifier for viral sequences from metagenomes” Bioinformatics, vol. 38, no. 5, pp. 1216–1222, Feb. 2022, doi: 10.1093/bioinformatics/btab845.
[16] Z. Bzhalava, A. Tampuu, P. Bała, R. Vicente, and J. Dillner, “Machine Learning for detection of viral sequences in human metagenomic datasets,” BMC Bioinformatics, vol. 19, no. 1, p. 336, Dec. 2018, doi: 10.1186/s12859-018-2340-x.
[17] M. H. Alshayeji, S. C. Sindhu, and S. Abed, “Viral genome prediction from raw human DNA sequence samples by combining natural language processing and machine learning techniques,” Expert Syst. Appl., vol. 218, p. 119641, May 2023, doi: 10.1016/j.eswa.2023.119641.
[18] A. Tampuu, Z. Bzhalava, J. Dillner, and R. Vicente, “ViraMiner: deep learning on raw DNA sequences for identifying viral genomes in human samples,” Apr. 2019. doi: 10.1101/602656.
[19] C. M. Dasari and R. Bhukya, “Explainable deep neural networks for novel viral genome prediction,” Applied Intelligence, vol. 52, no. 3, pp. 3002–3017, Feb. 2022, doi: 10.1007/s10489-021-02572-3.
[20] Y. Zhang, C. Li, H. Feng, and D. Zhu, “DLmeta: a deep learning method for metagenomic identification,” in 2022 IEEE International Conference on Bioinformatics and Biomedicine (BIBM), IEEE, Dec. 2022, pp. 303–308. doi: 10.1109/BIBM55620.2022.9995231.
[21] Y. LeCun, Y. Bengio, and G. Hinton, “Deep learning,” Nature, vol. 521, no. 7553, pp. 436–444, May 2015, doi: 10.1038/nature14539.
[22] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” arXiv:1512.03385 [cs], Dec. 2015, [Online]. Available: http://arxiv.org/abs/1512.03385
[23] A. Zárate, L. Díaz-González, and B. Taboada, “VirDetect-AI: a residual and convolutional neural network–based metagenomic tool for eukaryotic viral protein identification,” Brief. Bioinform., vol. 26, no. 1, Jan. 2025, doi: 10.1093/bib/bbaf001.
[24] D. Harding-Larsen, J. Funk, N. G. Madsen, H. Gharabli, C. G. Acevedo-Rocha, S. Mazurenko, “Protein representations: encoding biological information for machine learning in biocatalysis,” Biotechnology Advances, vol. 77, p. 108459, 2024. doi: 10.1016/j.biotechadv.2024.108459.
[25] Alyzart22, VirDetect-AI, GitHub repository. [Online]. Available: https://github.com/alyzart22/VirDetect-AI
[26] P. Iša, B. Taboada, R. García-López, C. Boukadida, J. E. Ramírez-González, J. A. Vázquez-Pérez, et al., “Metagenomic analysis reveals differences in the co-occurrence and abundance of viral species in SARS-CoV-2 patients with different severity of disease,” BMC Infect. Dis., vol. 22, no. 1, p. 792, Oct. 2022, doi: 10.1186/s12879-022-07783-8.
[27] X. Rivera-Gutiérrez, P. Morán, B. Taboada, A. Serrano-Vázquez, P. Isa, L. Rojas-Velázquez, et al., “The fecal and oropharyngeal eukaryotic viromes of healthy infants during the first year of life are personal,” Sci. Rep., vol. 13, no. 1, p. 938, Jan. 2023, doi: 10.1038/s41598-022-26707-9.
Descargas
Publicado
Cómo citar
Número
Sección
Licencia
Derechos de autor 2026 Alida Esmeralda Zárate Jiménez, Blanca Itzel Taboada Ramírez, Lorena Díaz-González

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial 4.0.
TIES, Revista de Tecnología e Innovación en Educación Superior, es una publicación semestral de acceso abierto bajo la licencia Creative Commons Atribución-No Comercial 4.0 Internacional (CC BY-NC 4.0).
ISSN 22683-2968 • © 2026 Universidad Nacional Autónoma de México. TIES, Revista de Tecnología e Innovación en Educación Superior es editada por la Universidad Nacional Autónoma de México a través de la Dirección General de Cómputo y de Tecnologías de Información y Comunicación (DGTIC). Circuito exterior s/n, Ciudad Universitaria, Alcaldía Coyoacán, C.P. 04510, Ciudad de México, México • Reserva de Derechos de Autor otorgado por INDAUTOR: 04-2019-011816190900-203.
El contenido de los artículos es responsabilidad de los autores y no refleja el punto de vista del Comité editorial, del Editor o de la Universidad Nacional Autónoma de México. Hecho en México, 2026.
