Aplicación de inteligencia artificial en genómica y metagenómica viral para la clasificación taxonómica y el descubrimiento de nuevas proteínas virales

Autores/as

DOI:

https://doi.org/10.22201/dgtic.26832968e.2026.15.158

Palabras clave:

Metagenómica viral, clasificación taxonómica, proteínas virales, bacteriófagos, CRISPR, aprendizaje profundo, supercómputo

Resumen

La metagenómica viral permite caracterizar comunidades de virus en muestras clínicas o ambientales a partir de millones de secuencias de ADN generadas por tecnologías de próxima generación. Este trabajo describe tres aplicaciones computacionales que, apoyadas en el uso de supercómputo, buscan mejorar el análisis de datos metagenómicos: i) una metodología que elimina la redundancia de las bases de datos de secuencias de referencia de genomas de virus mediante la construcción de pangenomas, conservando secuencias específicas de cada especie y las compartidas a nivel de género, lo que permite identificar virus de manera más precisa; ii) una herramienta que usa inteligencia artificial para identificar secuencias de virus eucariontes a nivel de proteínas, facilitando la detección de virus nuevos o con baja similitud a los anotados; y iii) una herramienta, también basada en inteligencia artificial, para identificar arreglos CRISPR en genomas bacterianos, lo que favorece el estudio de las interacciones fago-bacteria en datos metagenómicos. Estas aplicaciones apoyan el análisis de datos metagenómicos, contribuyendo a comprender mejor la diversidad viral y las relaciones virus-bacteria.

Descargas

Los datos de descargas todavía no están disponibles.

Biografía del autor/a

Blanca Itzel Taboada Ramírez, Universidad Nacional Autónoma de México, Instituto de Biotecnología, Cuernavaca, Morelos, México.

Blanca Itzelt Taboada Ramírez es investigadora de tiempo completo en el Instituto de Biotecnología de la Universidad Nacional Autónoma de México (UNAM). Sus intereses académicos se centran en desarrollar y aplicar herramientas bioinformáticas y modelos computacionales basados en inteligencia artificial para la vigilancia genómica de virus emergentes y el análisis del viroma, con énfasis en salud pública en México.

Lorena Díaz-González, Universidad Autónoma del Estado de Morelos, Centro de Investigación en Ciencias, Cuernavaca, Morelos, México.

Lorena Díaz-González es profesora e investigadora de tiempo completo en el Centro de Investigación en Ciencias de la Universidad Autónoma del Estado de Morelos. Sus intereses académicos son desarrollar modelos computacionales basados en inteligencia artificial para abordar problemas en diversas áreas de la ciencia e ingeniería, específicamente en salud y ambiente.

Oscar Alejandro Uscanga Junco, Universidad Autónoma del Estado de Morelos, Instituto de Investigación en Ciencias Básicas Aplicadas (IICBA), Cuernavaca, Morelos, México.

Alejandro Uscanga es estudiante del Doctorado en Ciencias en el IICBA-UAEM. Su trayectoria se destaca por el desarrollo de soluciones tecnológicas como WCSystem y WaterMClaSys_LDA, plataformas especializadas en la aplicación de modelos de machine learning para la clasificación de calidad del agua. Actualmente, enfoca su labor en el desarrollo de K-FluDB, una base de datos de referencia con redundancia reducida diseñada para potenciar aplicaciones en metagenómica y deep learning.

Alida Esmeralda Zárate Jiménez, Universidad Nacional Autónoma de México, Instituto de Biotecnología, Cuernavaca, Morelos, México.

Alida Zárate realiza actualmente una estancia posdoctoral en el Instituto de Biotecnología de la Universidad Nacional Autónoma de México (UNAM). Es Doctora en Ciencias por la Universidad Autónoma del Estado de Morelos (UAEM), Maestra en Ciencias de la Computación e Ingeniera en Sistemas Computacionales por el Tecnológico Nacional de México. Su trabajo integra la bioinformática y la inteligencia artificial aplicada a la metagenómica viral. Ha participado en el desarrollo de herramientas computacionales para el análisis de proteínas virales y sus líneas de investigación se enfocan en la aplicación de inteligencia artificial a la bioinformática y al estudio de virus a partir de datos metagenómicos.

Edna Cruz-Flores, Universidad Autónoma del Estado de Morelos, Instituto de Investigación en Ciencias Básicas Aplicadas (IICBA), Cuernavaca, Morelos, México.

Edna Cruz Flores es Maestra en Optimización y Cómputo Aplicado y actualmente estudiante del Doctorado en Ciencias en el área de Modelación Computacional y Cómputo Científico en el IICBA-UAEM. Su trabajo doctoral se orienta hacia la integración de áreas del conocimiento como ciencia de datos, bioinformática y el desarrollo e implementación de modelos de redes neuronales profundas para el análisis y procesamiento de datos genómicos complejos.

Citas

[1] A. D. Rowan-Nash, B. J. Korry, E. Mylonakis, and P. Belenky, “Cross-Domain and Viral Interactions in the Microbiome,” Microbiology and Molecular Biology Reviews, vol. 83, no. 1, Feb. 2019, doi: 10.1128/MMBR.00044-18.

[2] A. Uscanga Junco, L. Díaz-González, and B. Taboada, “K-FluDB: A Novel K-Mer Based Database for Enhanced Genomic Surveillance of Influenza A Viruses,” Bioinformatics Advances, Oct. 2025, doi: 10.1093/bioadv/vbaf254.

[3] A. Zárate, L. Díaz-González, and B. Taboada, “VirDetect-AI: a residual and convolutional neural network–based metagenomic tool for eukaryotic viral protein identification,” Brief. Bioinform., vol. 26, no. 1, Nov. 2024, doi: 10.1093/bib/bbaf001.

[4] E. J. Black, C. S. Powell, D. M. Dempsey, R. C. Hendrickson, L. R. Mims, and E. J. Lefkowitz, “Virus taxonomy: the database of the International Committee on Taxonomy of Viruses,” Nucleic Acids Res., vol. 54, no. D1, pp. D776–D789, Jan. 2026, doi: 10.1093/nar/gkaf1159.

[5] Y. Wang, T. S. Korneliussen, L. E. Holman, A. Manica, and M. W. Pedersen, “ngs LCA - A toolkit for fast and flexible lowest common ancestor inference and taxonomic profiling of metagenomic data,” Methods Ecol. Evol., vol. 13, no. 12, pp. 2699–2708, Dec. 2022, doi: 10.1111/2041-210X.14006.

[6] National Center for Biotechnology Information (NCBI), “Virus genomes – All nucleotide sequences,” NCBI FTP Server. [Online]. Available: https://ftp.ncbi.nlm.nih.gov/genomes/Viruses/AllNucleotide/. [Accessed: Aug 24, 2025.]

[7] L. Fu, B. Niu, Z. Zhu, S. Wu, and W. Li, “CD-HIT: accelerated for clustering the next-generation sequencing data,” Bioinformatics, vol. 28, no. 23, pp. 3150–3152, Dec. 2012, doi: 10.1093/bioinformatics/bts565.

[8] J. Ren, N. A. Ahlgren, Y. Y. Lu, J. A. Fuhrman, and F. Sun, “VirFinder: a novel k-mer based tool for identifying viral sequences from assembled metagenomic data,” Microbiome, vol. 5, no. 1, p. 69, Dec. 2017, doi: 10.1186/s40168-017-0283-5.

[9] J. Ren, K. Song, C. Deng, N. A. Ahlgren, J. A. Fuhrman, Y. Li, X. Xie, R. Poplin, and F. Sun, “Identifying viruses from metagenomic data using deep learning,” Quantitative Biology, vol. 8, no. 1, p. 64, 2020, doi: 10.1007/s40484-019-0187-4.

[10] J. Guo et al., “VirSorter2: a multi-classifier, expert-guided approach to detect diverse DNA and RNA viruses,” Microbiome, vol. 9, no. 1, p. 37, Dec. 2021, doi: 10.1186/s40168-020-00990-y.

[11] C. Chothia and A. M. Lesk, “The relation between the divergence of sequence and structure in proteins.,” EMBO J., vol. 5, no. 4, pp. 823–826, Apr. 1986, doi: 10.1002/j.1460-2075.1986.tb04288.x.

[12] Y. LeCun, Y. Bengio, and G. Hinton, “Deep learning,” Nature, vol. 521, no. 7553, pp. 436–444, May 2015, doi: 10.1038/nature14539.

[13] K. He, X. Zhang, S. Ren, and J. Sun, “Deep Residual Learning for Image Recognition,” arXiv:1512.03385 [cs], Dec. 2015, [Online]. Available: http://arxiv.org/abs/1512.03385

[14] L. Beller and J. Matthijnssens, “What is (not) known about the dynamics of the human gut virome in health and disease,” Curr. Opin. Virol., vol. 37, pp. 52–57, Aug. 2019, doi: 10.1016/j.coviro.2019.05.013.

[15] E. V. Koonin and K. S. Makarova, “Origins and evolution of CRISPR-Cas systems,” Philosophical Transactions of the Royal Society B: Biological Sciences, vol. 374, no. 1772, p. 20180087, May 2019, doi: 10.1098/rstb.2018.0087.

[16] D. J. Nasko, B. D. Ferrell, R. M. Moore, J. D. Bhavsar, S. W. Polson, and K. E. Wommack, “CRISPR Spacers Indicate Preferential Matching of Specific Virioplankton Genes,” mBio, vol. 10, no. 2, Apr. 2019, doi: 10.1128/mBio.02651-18.

[17] C. Pourcel et al., “CRISPRCasdb a successor of CRISPRdb containing CRISPR arrays and cas genes from complete genome sequences, and tools to download and query lists of repeats and spacers,” Nucleic Acids Res., Oct. 2019, doi: 10.1093/nar/gkz915.

[18] K. Wang and C. Liang, “CRF: detection of CRISPR arrays using random forest,” PeerJ, vol. 5, p. e3219, Apr. 2017, doi: 10.7717/peerj.3219.

[19] C. Coclet and S. Roux, “Global overview and major challenges of host prediction methods for uncultivated phages,” Curr. Opin. Virol., vol. 49, pp. 117–126, Aug. 2021, doi: 10.1016/j.coviro.2021.05.003.

Publicado

25/05/26 (12:00)

Cómo citar

Taboada Ramírez, B. I., Díaz-González, L., Uscanga Junco, O. A., Zárate Jiménez, A. E., & Cruz-Flores, E. (2026). Aplicación de inteligencia artificial en genómica y metagenómica viral para la clasificación taxonómica y el descubrimiento de nuevas proteínas virales. TIES, Revista De Tecnología E Innovación En Educación Superior, (15), 29–44. https://doi.org/10.22201/dgtic.26832968e.2026.15.158