@PHDTHESIS{GRI_Téc_2024, author = "GRISALES AGUIRRE, ANDRES MAURICIO", title = "Técnicas de procesamiento de lenguaje natural aplicadas a la extracción de datos en información científica no estructurada", abstract = "El presente trabajo propone realizar un análisis de las técnicas de modelado de tópicos aplicadas en el análisis de texto, siendo estas una de las estrategias más eficientes dentro del Procesamiento de Lenguaje Natural para el análisis de información no estructurada en formato de texto. Este propósito se aborda desde dos perspectivas. Primero, desde una perspectiva teórica, donde se identifican los elementos generales que definen cada una de las técnicas o modelos considerados. Segundo, desde una perspectiva experimental, donde se pone a prueba el desempeño de estas técnicas sobre un conjunto de datos, utilizando métricas seleccionadas que permiten evaluar los resultados obtenidos en cada caso. Adicionalmente, se busca caracterizar las técnicas y herramientas de aprendizaje automático utilizadas para tareas como la revisión sistemática de literatura científica. Una contribución importante de esta investigación es la exploración meticulosa de técnicas avanzadas de modelado de tópicos en información científica no estructurada, enfocándose particularmente en la representación tensorial, como una forma alternativa de captar mayor cantidad de variables y características propias de las relaciones entre términos y documentos. Por otro lado, a través de una rigurosa metodología para revisión bibliográfica denominada Árbol de la Ciencia o Tree of Science, se ha proporcionado una profunda comprensión de las herramientas y técnicas de Aprendizaje Automático y Procesamiento de Lenguaje Natural en el ámbito de la revisión sistemática de la literatura, destacando la relevancia de las herramientas de aprendizaje automático, en particular aquellas diseñadas para el campo de la medicina, subrayando su capacidad para mejorar la eficiencia y precisión en la revisión de literatura en este campo, las cuales se pueden generalizar a otros áreas de estudio. Desde la perspectiva teórica, esta investigación permite establecer un marco de referencia sobre las principales técnicas de modelado de tópicos que han sido aplicadas en diferentes contextos con el fin de caracterizar campos de estudio o con el de clasificar un conjunto de documentos de acuerdo a la temática común entre ellos, como una forma alternativa de realizar agrupamiento o clusterización. Esto proporciona un inventario de estas técnicas y herramientas para que puedan ser utilizadas por investigadores de diversas áreas. Desde esta primera perspectiva también se logra un acercamiento a un conjunto de herramientas que han surgido en los últimos años dentro del campo de la Inteligencia Artificial aplicadas a la revisión sistemática de literatura (Rayyan, Abstrackr, ASReview, etc). Esto es importante en el sentido de que se logra un acercamiento a estos recursos que permiten realizar este tipo de tareas de una manera eficiente cuando la cantidad de registros es tan grande, que los métodos manuales o tradicionales son insuficientes para este ejercicio. Más allá de la identificación y clasificación, esta investigación ha incursionado en la representación tensorial de documentos, una técnica emergente que promete capturar información contextual y relacional en una estructura multidimensional. A través de la adaptación y aplicación del método de Mínimos Cuadrados Alternantes (ALS) para la factorización tensorial no negativa, este estudio introduce un enfoque innovador para el análisis de datos multidimensionales, garantizando una interpretación coherente y una visualización eficaz de los datos. Esta contribución es especialmente relevante para campos donde la información es intrínsecamente compleja y multimodal, como en los textos científicos. Teniendo en cuenta que la eficiencia de los sistemas y algoritmos utilizados en el modelado de tópicos dependen, en gran medida, de las estrategias de pre-procesamiento que se le hace a los textos y en la asignación de los pesos que se le den a los términos basados en su contribución a los documentos (proceso que ya ha sido estudiado con suficiente profundidad en investigaciones previas), en esta investigación se muestra cómo se pueden adaptar estos resultados previos con la propuesta de representar los documentos mediante tensores y en este sentido, se logra combinar eficientemente la representación tradicional de frecuencia de términos y documentos (tf-idf), con métricas como la entropía de término, lo que nos lleva a mejorar la especificidad de estos, así como también a identificar de manera más precisa las temáticas latentes en el conjunto de documentos. En complemento a lo anterior, la fase experimental de la investigación proporciona valiosos puntos de vista sobre la efectividad de diferentes técnicas de modelado de tópicos, a partir de métricas de desempeño de modelos como el Análisis Semántico Latente (LSA) o el Análisis Latente de Dirchichlet (LDA), para las cuales valores como la precisión o la sensibilidad estuvieron por debajo del modelo propuesto en donde se utilizan formas alternativas de la factorización matricial como la representación tensorial. Esto establece un sólido marco de referencia para futuras investigaciones en el campo, en donde la comparación y validación de técnicas, con investigaciones previas, y con conjuntos de datos específicos, refuerza la robustez y la innovación de las propuestas de este estudio.", year = 2024, institution = "Universidad de Caldas", url = "https://repositorio.ucaldas.edu.co/handle/ucaldas/19790", }