Metodología de clasificación de proteínas usando aprendizaje semi-supervisado para la anotación de organismos fúngicos.
...
Narváez Prado, Carlos Wilfredo | 2021-08-26
spa:El análisis de los datos genómicos por procedimientos experimentales de laboratorio se ha caracterizado por ser muy demorado y costoso, generando una brecha bastante grande entre datos de origen biológico analizados y datos sin ningún tipo de tratamiento, este problema ha sido resuelto en los últimos años con la bioinformática; el avance en la ciencia ha permitido incrementar considerablemente la información genética de la mayoría de organismos biológicos.
La bioinformática se ha consolidado como una herramienta moderna, la cual, con base en métodos computacionales y grandes bases de datos, permite realizar análisis genómicos, transcriptónicos y proteómicos; su importancia radica en que ahora es posible intervenir de manera económica y rápida en el análisis de datos biológicos, lo cual, sin duda alguna, redunda en grandes avances en la investigación de la genómica funcional y estructural.
De igual forma, la bioinformática permite proporcionar inferencias valiosas desde el punto de vista evolutivo, especialmente con los hongos, los cuales tan solo tienen cinco grupos evolutivos estables, de acuerdo a la clasificación de sus órganos reproductores.
EL presente proyecto propone una metodología para la clasificación de proteínas a partir de estrategias basadas en el aprendizaje de máquina semi-supervisado, el cual es probado sobre bases de datos UniProtKB/Swiss-Prot, las cuales se encuentran solo parcialmente analizadas, es decir, contienen datos etiquetados (analizados) y una gran mayoría de datos no etiquetados (sin ningún tipo de análisis de las secuencias proteicas).
En el documento se aborda el estado actual del tema de investigación, se explica conceptos básicos de biología molecular y bioinformática, tales como: aminoácidos, proteínas, funciones moleculares, ontología genética, análisis de proteínas, aprendizaje de máquina semi-supervisada, máquinas de vectores de soporte, entrenamiento y clasificación de secuencias proteicas, etc., también se hace una descripción detallada paso a paso del proceso realizado: estructuración de las bases de datos, implementación, validación y análisis de resultados de los dos modelos de clasificación escogidos: máquinas de vectores de soporte transductivas (TSVM) y máquinas de vectores de soporte clásicas (KSVM).
La ejecución de este proyecto facilita la comprensión de los organismos fúngicos y por su puesto el entendimiento del comportamiento del hongo “Hemileia vastatrix” también llamado “roya del café”, este organismo es de especial interés para los temas de investigación de la universidad colombiana, sin duda alguna, generará beneficios económicos y científicos para el gremio caficultor nacional. La comprensión de estos organismos puede servir para idear estrategias de erradicación o inhibición de estos organismos, los cuales generan daños en los cultivos de café, especialmente en el centro del país.
LEER