TY - THES TI - A computational architecture to identify and classify LTR retrotransposons in plant genomes AU - Orozco Arias, Simon AB - spa:Esta tesis doctoral se ha centrado en la aplicación de técnicas de machine learning y deep learning para el estudio de los LTR retrotransposones, con el objetivo de mejorar la comprensión a nivel genómico de plantas de interés agroindustrial como el arroz, el maíz, el café y la caña de azúcar, y que podría aplicarse a cualquier otro genoma vegetal u otros organismos. Investigaciones recientes han demostrado el impacto de los elementos transponibles en el fenotipo de cultivos de interés, como el color de los granos de maíz, el color y el sabor de las naranjas, el color de la piel de las patatas, el tamaño y la forma de los tomates, y el color y el sabor de las uvas, que se producen por la inserción de estos elementos cerca o dentro de los genes. Aunque existen técnicas y herramientas bioinformáticas para la detección y clasificación de los elementos transponibles, aún no es posible obtener resultados fiables, debido a la gran diversidad de sus estructuras, patrones de replicación y ciclos de vida. Además, estos componentes genómicos tienen características que hacen muy complejo su estudio, como la especificidad de las especies, la alta diversidad a nivel de nucleótidos (baja homología entre secuencias), las largas regiones no codificantes y su naturaleza repetitiva. Por ello, nuevas técnicas como el machine learning y el deep learning podrían mejorar el rendimiento tanto en el tiempo de ejecución como en la precisión de los resultados. En el desarrollo de este proyecto de investigación se utilizaron los algoritmos de aprendizaje automático más conocidos, así como algunas arquitecturas de redes neuronales profundas que se han generalizado en la comunidad científica en los últimos años. Se extrapolaron los métodos de extracción y selección de características, las técnicas de preprocesamiento, los algoritmos y las arquitecturas que se han utilizado con éxito en conjuntos de datos similares a los elementos transponibles. Asimismo, esta tesis doctoral tendrá un impacto positivo en la comunidad científica en los campos de la bioinformática, la genómica y la agricultura, ya que el software desarrollado aquí y su uso en otros genomas podría servir de base para futuras investigaciones relacionadas con la mejora genética, la comprensión de la evolución de las especies y la relación entre los organismos y el medio ambiente. Además, se generó conocimiento sobre el uso de nuevas técnicas en datos genómicos (especialmente LTR retrotransposones), como la influencia de la naturaleza de los datos en la precisión de los resultados, mejores técnicas de preprocesamiento (selección y extracción de características, reducción de la dimensionalidad, transformación de datos, entre otras), mejores hiperparámetros y métricas que se ajusten mejor a dichos elementos. Finalmente, esta propuesta de investigación condujo a la creación de un software bioinformático funcional que, gracias a las técnicas seleccionadas, permite la detección y clasificación de LTR retrotransposones en plantas de interés. Este software está disponible para la comunidad científica y puede ser utilizado en el contexto de varios proyectos masivos de secuenciación y ensamblaje de genomas, como el proyecto de los 3.000 genomas del arroz, la secuenciación de 10.000 genomas de plantas o el proyecto de secuenciación de 1,5 millones de especies eucariotas. Todos los códigos y scripts desarrollados durante este proyecto están disponibles en https://github.com/simonorozcoarias/MLinTEs. DA - 2022-05-04 KW - LTR retrotransposons KW - Machine Learning KW - Detection KW - Classification KW - Genomic Object Detection KW - K-mer based method KW - Neural networks UR - https://repositorio.ucaldas.edu.co/handle/ucaldas/17590 ER -