Genome assembly of multiple genomes using long-read sequencing technologies
Autor
Muñoz Barrera, AdriánFecha
2024Resumen
The emergence of long-read sequencing technologies has a substantial impact in genomic studies, facilitating de novo genome assembly, and structural
variant detection in complex genomes. Accurate and complete de novo assembled genomes sustain variant identification and catalyze the discovery of
new genomic features and functions and the effects in disease. However, accurate and precise de novo assemblies of large and complex genomes
remains a challenging task. Long-read sequencing data alone or in hybrid mode combined with more accurate short-read sequences facilitate the de novo
assembly of genomes. The main objective of this work is to unravel the potential of long-read sequencing technologies, specifically for de novo assembly,
by the development of specific bioinformatics pipelines to reconstruct diverse types of genomes, from those of small viruses to the larger and more
complex from humans. This comprehensive study aimed to achieve the following objectives: 1) To provide an updated review of current literature,
technologies, and computational tools for Next-Generation and Third-Generation Sequencing to serve as the starting point at which the thesis develops; 2)
To design, implement, and test bioinformatics strategies and pipelines for de novo assembly of viral genomes using short and long reads, assisting in the
precise characterization of the Mpox outbreak of 2022; 3) To assess its potential for human mtDNA reconstruction and classification; and 4) To benchmark
multiple state-of-the-art bioinformatics tools for de novo genome assembly of human whole genomes obtained with long reads, alone or in combination
with short-read data, and develop and optimize a de novo assembly pipeline for human whole genomes. Overall, the results underscore the potential of
long-read sequencing to advance infectious disease research and to unravel complexities in human genomics. La aparición de las tecnologías de secuenciación de lecturas largas ha tenido un impacto sustancial en la genómica, facilitando el ensamblado de novo y
la detección de variantes estructurales en genomas complejos, mejorando la identificación de variantes y ayudando en el descubrimiento de nuevas
características y funciones genómicas, así como sus efectos en enfermedades. Sin embargo, los ensamblados de novo precisos de genomas grandes y
complejos siguen siendo una tarea difícil. Los datos de secuenciación de lecturas largas, solos o híbridos combinados con secuencias de lecturas cortas
más precisas, facilitan el este problema. El objetivo principal de esta tesis ha sido es desentrañar el potencial de las tecnologías de secuenciación de
lecturas largas, específicamente para el ensamblado de novo, mediante el desarrollo de pipelines bioinformáticos específicos para reconstruir diversos
tipos de genomas, desde pequeños virus hasta los más grandes y complejos de humanos. Este estudio tuvo como objetivos: 1) realizar una revisión
actualizada de la literatura, tecnologías y herramientas computacionales actuales para secuenciación de segunda generación y de tercera generación; 2)
diseñar, implementar y probar estrategias y pipelines bioinformáticos para el ensamblado de novo de genomas virales usando lecturas cortas y largas,
apoyando la caracterización precisa del brote de Mpox de 2022; 3) evaluar su potencial para la reconstrucción y clasificación del ADNmt humano; y 4)
evaluar múltiples herramientas bioinformáticas de última generación para el ensamblado de novo de genomas completos humanos obtenidos con lecturas
largas en combinación con lecturas cortas, y desarrollar y optimizar un pipeline completo. En general, los resultados destacan el potencial de la
secuenciación de lecturas largas para avanzar en la investigación de enfermedades infecciosas y desentrañar las complejidades de la genómica humana.