Metodología de clasificación de proteínas usando aprendizaje semi-supervisado para la anotación de organismos fúngicos.
Trabajo de grado - Maestría
2021-08-26
spa:El análisis de los datos genómicos por procedimientos experimentales de laboratorio se ha caracterizado por ser muy demorado y costoso, generando una brecha bastante grande entre datos de origen biológico analizados y datos sin ningún tipo de tratamiento, este problema ha sido resuelto en los últimos años con la bioinformática; el avance en la ciencia ha permitido incrementar considerablemente la información genética de la mayoría de organismos biológicos.
La bioinformática se ha consolidado como una herramienta moderna, la cual, con base en métodos computacionales y grandes bases de datos, permite realizar análisis genómicos, transcriptónicos y proteómicos; su importancia radica en que ahora es posible intervenir de manera económica y rápida en el análisis de datos biológicos, lo cual, sin duda alguna, redunda en grandes avances en la investigación de la genómica funcional y estructural.
De igual forma, la bioinformática permite proporcionar inferencias valiosas desde el punto de vista evolutivo, especialmente con los hongos, los cuales tan solo tienen cinco grupos evolutivos estables, de acuerdo a la clasificación de sus órganos reproductores.
EL presente proyecto propone una metodología para la clasificación de proteínas a partir de estrategias basadas en el aprendizaje de máquina semi-supervisado, el cual es probado sobre bases de datos UniProtKB/Swiss-Prot, las cuales se encuentran solo parcialmente analizadas, es decir, contienen datos etiquetados (analizados) y una gran mayoría de datos no etiquetados (sin ningún tipo de análisis de las secuencias proteicas).
En el documento se aborda el estado actual del tema de investigación, se explica conceptos básicos de biología molecular y bioinformática, tales como: aminoácidos, proteínas, funciones moleculares, ontología genética, análisis de proteínas, aprendizaje de máquina semi-supervisada, máquinas de vectores de soporte, entrenamiento y clasificación de secuencias proteicas, etc., también se hace una descripción detallada paso a paso del proceso realizado: estructuración de las bases de datos, implementación, validación y análisis de resultados de los dos modelos de clasificación escogidos: máquinas de vectores de soporte transductivas (TSVM) y máquinas de vectores de soporte clásicas (KSVM).
La ejecución de este proyecto facilita la comprensión de los organismos fúngicos y por su puesto el entendimiento del comportamiento del hongo “Hemileia vastatrix” también llamado “roya del café”, este organismo es de especial interés para los temas de investigación de la universidad colombiana, sin duda alguna, generará beneficios económicos y científicos para el gremio caficultor nacional. La comprensión de estos organismos puede servir para idear estrategias de erradicación o inhibición de estos organismos, los cuales generan daños en los cultivos de café, especialmente en el centro del país. eng:Bioinformatics has been consolidated as a modern tool, which, based on computational methods and large databases, allows to carry out genomic, transcriptonic and proteomic analyzes. Its importance lies in fact that the biological analysis of data becomes faster and economically feasible, which without any doubt constitutes a great advance in the research of functional and structural genomics. In the same way, bioinformatics allow to provide valuable inferences from the evolutionary point of view, especially with fungi population, of which just five stable groups are distinguished, according to a classification based on their reproductive organs. The present project proposes a methodology for the classification of proteins from strategies based on semi-supervised machine learning, which is tested on UniProtKB / Swiss-Prot databases. Proteins are just partially analyzed, that is, they contain labeled (analyzed) data and unlabeled data (without any protein sequence analysis). This document addresses the current state of the research topic, explains basic concepts of molecular biology and bioinformatics such as: amino acids, proteins, molecular functions, genetic ontology, protein analysis, semi-supervised machine learning, vector machines support, training and classification of protein sequences, etc. There is also a detailed step-by-step description of the process carried out: databases structuring, implementation, validation and analysis of the results of two classification models chosen: Transductive Support Vector Machines (TSVM) and classical Support Vector Machines (KSVM). The execution of this project facilitates the understanding of fungal organisms and of course the behavior understanding of the fungus “Hemileia vastatrix” also called "coffee rust". This biological organism is of special interest for the Colombian university research and without any doubt will generate economic and scientific benefits for the national coffee grower union. Understanding these organisms can be used to devise strategies to eradicate or inhibit these organisms which damage coffee crops especially in the center of the country.