Técnicas de procesamiento de lenguaje natural aplicadas a la extracción de datos en información científica no estructurada
Trabajo de grado - Doctorado
2024-02-09
El presente trabajo propone realizar un análisis de las técnicas de modelado de tópicos aplicadas en el análisis de texto, siendo estas una de las estrategias más eficientes dentro del Procesamiento de Lenguaje Natural para el análisis de información no estructurada en formato de texto. Este propósito se aborda desde dos perspectivas. Primero, desde una perspectiva teórica, donde se identifican los elementos generales que definen cada una de las técnicas o modelos considerados. Segundo, desde una perspectiva experimental, donde se pone a prueba el desempeño de estas técnicas sobre un conjunto de datos, utilizando métricas seleccionadas que permiten evaluar los resultados obtenidos en cada caso. Adicionalmente, se busca caracterizar las técnicas y herramientas de aprendizaje automático utilizadas para tareas como la revisión sistemática de literatura científica. Una contribución importante de esta investigación es la exploración meticulosa de técnicas avanzadas de modelado de tópicos en información científica no estructurada, enfocándose particularmente en la representación tensorial, como una forma alternativa de captar mayor cantidad de variables y características propias de las relaciones entre términos y documentos. Por otro lado, a través de una rigurosa metodología para revisión bibliográfica denominada Árbol de la Ciencia o Tree of Science, se ha proporcionado una profunda comprensión de las herramientas y técnicas de Aprendizaje Automático y Procesamiento de Lenguaje Natural en el ámbito de la revisión sistemática de la literatura, destacando la relevancia de las herramientas de aprendizaje automático, en particular aquellas diseñadas para el campo de la medicina, subrayando su capacidad para mejorar la eficiencia y precisión en la revisión de literatura en este campo, las cuales se pueden generalizar a otros áreas de estudio. Desde la perspectiva teórica, esta investigación permite establecer un marco de referencia sobre las principales técnicas de modelado de tópicos que han sido aplicadas en diferentes contextos con el fin de caracterizar campos de estudio o con el de clasificar un conjunto de documentos de acuerdo a la temática común entre ellos, como una forma alternativa de realizar agrupamiento o clusterización. Esto proporciona un inventario de estas técnicas y herramientas para que puedan ser utilizadas por investigadores de diversas áreas. Desde esta primera perspectiva también se logra un acercamiento a un conjunto de herramientas que han surgido en los últimos años dentro del campo de la Inteligencia Artificial aplicadas a la revisión sistemática de literatura (Rayyan, Abstrackr, ASReview, etc). Esto es importante en el sentido de que se logra un acercamiento a estos recursos que permiten realizar este tipo de tareas de una manera eficiente cuando la cantidad de registros es tan grande, que los métodos manuales o tradicionales son insuficientes para este ejercicio. Más allá de la identificación y clasificación, esta investigación ha incursionado en la representación tensorial de documentos, una técnica emergente que promete capturar información contextual y relacional en una estructura multidimensional. A través de la adaptación y aplicación del método de Mínimos Cuadrados Alternantes (ALS) para la factorización tensorial no negativa, este estudio introduce un enfoque innovador para el análisis de datos multidimensionales, garantizando una interpretación coherente y una visualización eficaz de los datos. Esta contribución es especialmente relevante para campos donde la información es intrínsecamente compleja y multimodal, como en los textos científicos. Teniendo en cuenta que la eficiencia de los sistemas y algoritmos utilizados en el modelado de tópicos dependen, en gran medida, de las estrategias de pre-procesamiento que se le hace a los textos y en la asignación de los pesos que se le den a los términos basados en su contribución a los documentos (proceso que ya ha sido estudiado con suficiente profundidad en investigaciones previas), en esta investigación se muestra cómo se pueden adaptar estos resultados previos con la propuesta de representar los documentos mediante tensores y en este sentido, se logra combinar eficientemente la representación tradicional de frecuencia de términos y documentos (tf-idf), con métricas como la entropía de término, lo que nos lleva a mejorar la especificidad de estos, así como también a identificar de manera más precisa las temáticas latentes en el conjunto de documentos. En complemento a lo anterior, la fase experimental de la investigación proporciona valiosos puntos de vista sobre la efectividad de diferentes técnicas de modelado de tópicos, a partir de métricas de desempeño de modelos como el Análisis Semántico Latente (LSA) o el Análisis Latente de Dirchichlet (LDA), para las cuales valores como la precisión o la sensibilidad estuvieron por debajo del modelo propuesto en donde se utilizan formas alternativas de la factorización matricial como la representación tensorial. Esto establece un sólido marco de referencia para futuras investigaciones en el campo, en donde la comparación y validación de técnicas, con investigaciones previas, y con conjuntos de datos específicos, refuerza la robustez y la innovación de las propuestas de este estudio. This thesis proposes an analysis of topic modeling techniques applied in text analysis, being one of the most efficient strategies within Natural Language Processing for the analysis of unstructured information in text format. This objective is approached from two perspectives. First, from a theoretical perspective, where the general elements that define each of the techniques or models considered are identified. Second, from an experimental perspective, where the performance of these techniques is tested on a set of data, using selected metrics that allow evaluating the results obtained in each case. In addition, we seek to characterize the machine learning techniques and tools used for tasks such as the systematic review of scientific literature. An important contribution of this research is the careful exploration of advanced topic modeling techniques in unstructured scientific information, focusing in particular on the tensor representation as an alternative way to capture more variables and characteristics of the relationships between terms and documents. On the other hand, through a rigorous methodology for literature review called Tree of Science, a deep understanding of the tools and techniques of machine learning and natural language processing in the field of systematic literature review has been provided, highlighting the relevance of machine learning tools, especially those designed for the field of medicine, underlining their ability to improve the efficiency and accuracy of literature review in this field, which can be generalized to other fields of study. From a theoretical perspective, this research allows establishing a reference framework on the main topic modeling techniques that have been applied in different contexts to characterize fields of study or to classify a set of documents according to the common thematic between them, as an alternative way to perform clustering. This provides an inventory of these techniques and tools so that they can be used by researchers in different fields. From this first perspective, an approach to a set of tools that have emerged in recent years within the field of Artificial Intelligence applied to systematic literature review (Rayyan, Abstrackr, ASReview, etc) is also achieved. This is important in the sense that an approach is achieved to these resources that allow performing this type of tasks in an efficient way when the amount of records is so large that manual or traditional methods are insufficient for this exercise. Beyond identification and classification, this research has ventured into the tensor representation of documents, an emerging technique that promises to capture contextual and relational information in a multidimensional structure. By adapting and applying the Alternating Least Squares (ALS) method for non-negative tensor factorization, this study introduces an innovative approach to the analysis of multidimensional data, ensuring consistent interpretation and effective visualization of the data. This contribution is particularly relevant to domains where information is inherently complex and multi-modal, such as scientific texts. Considering that the efficiency of the systems and algorithms used in topic modeling depends to a large extent on the preprocessing strategies used to preprocess the texts and on the assignment of weights to the terms based on their contribution to the documents (a process that has already been sufficiently studied in previous research), This research shows how these previous results can be adapted to the proposal of representing documents by means of tensors, and in this sense it is possible to efficiently combine the traditional representation of term and document frequency (tf-idf) with metrics such as term entropy, which leads us to improve their specificity, as well as to identify more precisely the latent topics in the set of documents. In addition, the experimental phase of the research provides valuable insights into the effectiveness of different topic modeling techniques, based on model performance metrics such as Latent Semantic Analysis (LSA) or Latent Dirchichlet Analysis (LDA), for which values such as precision or sensitivity were below the proposed model, where alternative forms of matrix factorization such as tensor representation are used. This provides a solid framework for future research in this area, where the comparison and validation of techniques, with previous research and with specific data sets, reinforces the robustness and innovation of the proposals of this study.