Electronic Resource
Identifying and categorizing offensive language in tweets using Machine Learning
العنوان: | Identifying and categorizing offensive language in tweets using Machine Learning |
---|---|
Additional Titles: | Identificación y categorización de lenguaje ofensivo en tuits utilizando Machine Learning Identificació i categorització de llenguatge ofensiu en tuits utilitzant Machine Learning |
المؤلفون: | Universitat Politècnica de Catalunya. Departament de Teoria del Senyal i Comunicacions, Lázaro Villa, José Antonio, Nugues, Pierre, Viñas Redondo, Berta |
بيانات النشر: | Universitat Politècnica de Catalunya 2020-02-03 |
نوع الوثيقة: | Electronic Resource |
مستخلص: | The aim of this thesis is the development of a system for identifying and categorizing offensive language in tweets using machine learning techniques. The project is based on Task 12 of the SemEval 2020 competition. This task consists of identifying offensive tweets and classifying the type and target of the offense. For this task, the Offensive Language Identification dataset (OLID) is used. The dataset contains English tweets annotated. The task is divided into three subtasks depending on the type and target of the offense. Different machine learning models are applied for the development of the project. The thesis provides a detailed analysis and evaluation of the results obtained with the different models and a comparison with the results in last year?s competition. It is demonstrated that one of the best models for this task consists of an ensemble of different deep learning models, resulting a final macro F1 score of 0.7807 for subtask A, 0.6634 for subtask B and 0.6062 for subtask C. El objetivo de esta tesis es el desarrollo de un sistema para identificar y categorizar el lenguaje ofensivo en tuits mediante técnicas de aprendizaje automático. El proyecto se basa en la tarea número 12 de la competición SemEval 2020. Esta tarea consiste en identificar los tuits ofensivos y clasificar el tipo y el objetivo de la ofensa. Para esta tarea, se utiliza el conjunto de datos Offensive Language Identification Dataset (OLID). El conjunto de datos contiene tuits en inglés anotados. La tarea se divide en tres subtareas, según el tipo y el objetivo de la ofensa. Para el desarrollo del proyecto, se aplican diferentes modelos de aprendizaje automático. La tesis proporciona un análisis y evaluación detalladas de los resultados obtenidos con los diferentes modelos y una comparación con los resultados de la competición del año pasado. Se demuestra que uno de los mejores modelos para esta tarea consiste en una combinación de distintos modelos de aprendizaje profundo, resultando una puntuación final de macro F1 de 0,7807 para la subtarea A, 0.6634 para la subtarea B y 0,6062 para la subtarea C. L'objectiu d'aquesta tesi és el desenvolupament d'un sistema per identificar i categoritzar el llenguatge ofensiu en tuits mitjançant tècniques d'aprenentatge automàtic. El projecte es basa en la tasca número 12 de la competició SemEval 2020. Aquesta tasca consisteix a identificar els tuits ofensius i classificar el tipus i l'objectiu de l'ofensa. Per a aquesta tasca, s'utilitza el conjunt de dades Offensive Language Identification Dataset (OLID). El conjunt de dades conté tuits en anglès anotats. La tasca es divideix en tres subtasques, segons el tipus i l'objectiu de l'ofensa. Per al desenvolupament del projecte, s'apliquen diferents models d'aprenentatge automàtic. La tesi proporciona una anàlisi i avaluació detallades dels resultats obtinguts amb els diferents models i una comparació amb els resultats de la competició de l'any passat. Es demostra que un dels millors models per a aquesta tasca consisteix en una combinació de diferents models d'aprenentatge profund, resultant una puntuació final de macro F1 de 0,7807 per a la subtasca A, 0.6634 per a la subtasca B i 0,6062 per a la subtasca C. |
مصطلحات الفهرس: | Àrees temàtiques de la UPC::Enginyeria de la telecomunicació, Artificial intelligence, Machine learning, Neural networks (Computer science), machine learning, deep learning, neural networks, NLP, Intel·ligència artificial, Aprenentatge automàtic, Xarxes neuronals (Informàtica), Bachelor thesis |
URL: | |
الاتاحة: | Open access content. Open access content S'autoritza la difusió de l'obra mitjançant la llicència Creative Commons o similar 'Reconeixement-NoComercial- SenseObraDerivada' http://creativecommons.org/licenses/by-nc-nd/3.0/es Open Access |
ملاحظة: | application/zip application/pdf English |
Other Numbers: | HGF oai:upcommons.upc.edu:2117/178168 ETSETB-230.149205 1141700926 |
المصدر المساهم: | UNIV POLITECNICA DE CATALUNYA From OAIster®, provided by the OCLC Cooperative. |
رقم الانضمام: | edsoai.on1141700926 |
قاعدة البيانات: | OAIster |
الوصف غير متاح. |