Sistema de Question Answering basado en Wikipedia

التفاصيل البيبلوغرافية
العنوان: Sistema de Question Answering basado en Wikipedia
المؤلفون: Fernández Benito, Jesús
المساهمون: Villena Román, Julio, Universidad Carlos III de Madrid. Departamento de Ingeniería Telemática
المصدر: e-Archivo. Repositorio Institucional de la Universidad Carlos III de Madrid
instname
سنة النشر: 2006
مصطلحات موضوعية: Ingeniería lingüística, Informática, Sistemas de respuesta automática, Lingüística computacional, Recuperación de la información, Question Answering, Wikipedia
الوصف: Este proyecto se centra en la investigación de las técnicas y estrategias que se emplean actualmente en los sistemas de respuesta automática, más conocidos por su denominación inglesa Question Answering (QA), disciplina que forma parte de la Ingeniería Lingüística (rama de la Inteligencia Artificial encargada del estudio y procesado del lenguaje natural) en la que se diseñan sistemas capaces de interpretar preguntas que realizan los usuarios, para buscar los documentos relacionados, extraer la información solicitada y devolver una respuesta completa. Utilizando esta investigación como base, se plantea el diseño y arquitectura un sistema de QA genérico, para su posterior implementación, teniendo en cuenta especialmente las características de la lengua española que requieren un tratamiento diferenciado de otros idiomas, al que se ha exigido un nivel de aciertos comparativamente similar a los sistemas actuales de QA y una interfaz que permita su utilización a personas sin conocimientos técnicos. La implementación efectiva del sistema se divide en dos fases: adquisición del conocimiento e interacción con el usuario. En la primera fase, de adquisición del conocimiento, el sistema descarga, procesa e interpreta los artículos de Wikipedia, la enciclopedia libre. Mediante este procedimiento, el sistema incorpora estos artículos a su “cultura” y se prepara para poder contestar las preguntas que se le formulen. En la segunda fase, de interacción con el usuario, cada vez que recibe una pregunta, la procesa, la analiza y busca información relacionada en su base de datos. Después extrae las posibles soluciones, las examina, las clasifica por relevancia y muestra las mejor valoradas al usuario. En las pruebas de evaluación, el sistema básico logra dar una respuesta apropiada al 22% de las preguntas y, tras la adición de dos bloques de expansión (utilización de sinónimos en la búsqueda y categorización de las respuestas en función del tipo de pregunta), este porcentaje sube hasta el 27’5%. _______________________________________________________________ This project focuses on current existing methods for building Question Answering (QA) systems, an interdisciplinary field related to the Information Retrieval and Natural Language Processing areas whose objective is to develop systems which are able to automatically provide correct answers to questions posed by users. The objective of the project is to propose, after an exhaustive preliminary research, the architectural design of a basic QA system and then develop an actual system with three main design guidelines: the system must take into account the special characteristics of the Spanish language, must achieve similar results (in terms of correctly answered questions) to other existing systems and, finally, must provide an ʺeasy to useʺ web interface. The system runs in two phases: the learning process and the answering process. First, Wikipedia must be parsed to extract its meaningful text fragments, which are then splitted into sentences to finally ʺlearnʺ all this knowledge by means of an Information Retrieval engine. In the second phase, the same processing steps are followed to try to provide the users with a valid answer (or more than one) for their questions: first of all, the question is parsed and POS‐tagged; then, the search engine is used to find the Wikipedia sentences which are most related to the question and are supposed to contain the answer; and, finally, after extracting, ranking and sorting those sentences, the best choices are shown to the users in a friendly web interface. The evaluation shows that the basic system achieves a 22% of correct answers and, after the addition of two specialized modules (expansion with synonyms and question‐type classifier), this percentage increases up to 27.5%, which is in fact a very good rate compared to existing systems. Ingeniería de Telecomunicación
وصف الملف: application/pdf
اللغة: Spanish; Castilian
URL الوصول: https://explore.openaire.eu/search/publication?articleId=dedup_wf_001::4c52fa24898b666f90849893b87d957b
https://hdl.handle.net/10016/6597
Rights: OPEN
رقم الانضمام: edsair.dedup.wf.001..4c52fa24898b666f90849893b87d957b
قاعدة البيانات: OpenAIRE