Dissertation/ Thesis
Re-thinking large scale hate speech identification: beyond common NLP conventions and supervised machine learning
العنوان: | Re-thinking large scale hate speech identification: beyond common NLP conventions and supervised machine learning |
---|---|
المؤلفون: | Teixeira Fortuna, Paula Cristina |
المساهمون: | University/Department: Universitat Pompeu Fabra. Departament de Tecnologies de la Informació i les Comunicacions |
Thesis Advisors: | Wanner, Leo, Soler Company, Juan |
المصدر: | TDX (Tesis Doctorals en Xarxa) |
بيانات النشر: | Universitat Pompeu Fabra, 2023. |
سنة النشر: | 2023 |
وصف مادي: | 127 p. |
مصطلحات موضوعية: | Hate speech detection, Machine learning conventions, Algorithmic challenges, Deteccio de discurs d’odi, Convencions d’aprenentatge automàtic, Reptes algorítmics |
الوصف: | The detection of hate speech in online spaces is traditionally conceptualized as a classification task that uses Machine Learning (ML)-driven Natural Language Processing (NLP) techniques. In accordance with this conceptualization, the hate speech detection task relies upon common conventions and practices in Artificial Intelligence, ML and NLP – among them interpretation of the inter-annotator agreement as a way to measure dataset quality and the use of standard metrics such as precision, recall or accuracy and benchmarks to assess model performance. However, hate speech is a highly subjective and context-dependent notion that eludes such static and disembodied practices. Their application results in definitorial challenges and the failure of the models to generalize across different datasets, two problems that I analyse in empirical studies. Furthermore, I critically reflect on the followed methodologies. I argue that many conventions in NLP are poorly suited for the problem and suggest to develop methods that are more appropriate for fighting online hate speech. |
Description (Translated): | Abordar el discurs de l’odi als espais en línia s’ha conceptualitzat comuna tasca de classificació que utilitza t`ecniques d’intelligència artificial (IA), aprenentatge automàtic (ML) o processament del llenguatge natural (PNL). Mitjançant aquesta conceptualització, la tasca de detecció del discurs d’odi s’ha basat en les convencions i pr`actiques comunes d’aquests camps. Per exemple, l’acord entre anotadors es conceptualitza com una manera de mesurar la qualitat del conjunt de dades i s’utilitzen determinades m`etriques i punts de referència per inferir el rendiment del model. Tanmateix, el discurs de l’odi és un concepte profundament complex i situat que eludeix aquestes pràctiques estàtiques i incorpònies. En aquesta tesi aprofundeixo en els reptes de definici ó i les dificultatKeywordss pel que fa a la generalització de models, dos problemes que analitzo amb estudis empírics. A més, reflexiono críticament sobre les metodologies seguides, argumento que moltes convencions en PNL són poc adequades per al problema i animo els investigadors a desenvolupar mètodes més adequats per combatre el discurs d’odi en línia. Programa de doctorat en Tecnologies de la Informació i les Comunicacions |
نوع الوثيقة: | Dissertation/Thesis |
وصف الملف: | application/pdf |
اللغة: | English |
URL الوصول: | http://hdl.handle.net/10803/688156 |
Rights: | L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-nc-nd/4.0/ |
رقم الانضمام: | edstdx.10803.688156 |
قاعدة البيانات: | TDX |
الوصف غير متاح. |