التفاصيل البيبلوغرافية
العنوان: |
Modelado de temas en documentos de texto: análisis comparativo de LSA, PLSA y LDA ; Topic modelling in text documents: Comparative analysis of LSA, PLSA and LDA ; Modelatge de temes en documents de text: anàlisi comparativa de LSA, PLSA i LDA |
المؤلفون: |
Jiang, Linxi |
المساهمون: |
Periñán Pascual, José Carlos, Universitat Politècnica de València. Departamento de Lingüística Aplicada - Departament de Lingüística Aplicada |
بيانات النشر: |
Universitat Politècnica de València |
سنة النشر: |
2023 |
المجموعة: |
Universitat Politécnica de Valencia: RiuNet / Politechnical University of Valencia |
مصطلحات موضوعية: |
Latent Semantic Analysis (LSA), Probabilistic Latent Semantic Analysis (pLSA), Análisis Semántico Probabilístico Latente (pLSA), Latent Dirichlet Allocation (LDA), Asignación Latente de Dirichlet (ALD), Minería de textos, Análisis Semántico Latente (LSA), Modelado de temas, Topic modelling, Text mining, FILOLOGIA INGLESA, Máster Universitario en Lenguas y Tecnología-Màster Universitari en Llengües i Tecnologia |
الوصف: |
[ES] Este trabajo se centra en los modelos teóricos clásicos más representativos que han marcado el desarrollo del modelado de temas en la minería textual, razón por la cual se ha puesto el foco en el análisis de semántica latente, el análisis probabilístico de semántica latente y la asignación latente de Dirichlet. Siendo una rama de investigación en el ámbito del procesamiento de lenguaje natural, el modelado de temas proporciona una solución automatizada para tareas como la categorización de textos y la elaboración de resúmenes, captando el interés de los investigadores por su capacidad de descubrir estructuras semánticas latentes en los documentos. En este contexto, el estudio aborda principalmente un análisis cuantitativo y cualitativo en dos modelos probabilísticos, i.e. análisis probabilístico de semántica latente y asignación latente de Dirichlet. El objetivo es evaluar y comparar la efectividad de ambos modelos cuando se aplican a corpus de distintos tamaños. Para ello, se crearon tres corpus a partir de títulos de noticias en Wall Street Journal y Nature. Basándonos en los datos obtenidos, concluimos que PLSA proporciona mejores resultados que LDA en la clasificación de los textos según los temas latentes. Asimismo, se ha notado una mejora considerable en el rendimiento de PLSA a medida que aumenta el tamaño del corpus. Este estudio también analiza algunas cuestiones críticas que pueden afectar a la efectividad de estos modelos. ; [EN] This research focuses on the most representative classical theoretical models that have marked the development of topic modeling in text mining, which are latent semantic analysis, probabilistic latent semantic analysis and latent Dirichlet assignment. As a branch of research in the field of natural language processing, topic modeling provides an automated solution for text mining tasks such as text categorization and summarization. Thus, it has captured researchers¿ interest for the ability in discovering latent semantic structures in documents. In this context, the ... |
نوع الوثيقة: |
master thesis |
اللغة: |
Spanish; Castilian |
Relation: |
http://hdl.handle.net/10251/197043 |
الاتاحة: |
http://hdl.handle.net/10251/197043 |
Rights: |
http://creativecommons.org/licenses/by-nc-nd/4.0/ ; info:eu-repo/semantics/openAccess |
رقم الانضمام: |
edsbas.CFC926F8 |
قاعدة البيانات: |
BASE |