Apprentissage Conjoint de Représentations d'Auteurs et de Documents

التفاصيل البيبلوغرافية
العنوان: Apprentissage Conjoint de Représentations d'Auteurs et de Documents
المؤلفون: Gourru, Antoine, Yadav, Rohit, Velcin, Julien
المساهمون: Entrepôts, Représentation et Ingénierie des Connaissances (ERIC), Université Lumière - Lyon 2 (UL2)-Université Claude Bernard Lyon 1 (UCBL), Université de Lyon-Université de Lyon, Université Jean Monnet - Saint-Étienne (UJM)
المصدر: EGC 2021. Revue des Nouvelles Technologies de l'Information ; EGC 2021 ; https://hal.science/hal-03343908 ; EGC 2021, Jan 2021, Montpellier (en ligne), France
بيانات النشر: HAL CCSD
سنة النشر: 2021
المجموعة: Université Jean Monnet – Saint-Etienne: HAL
مصطلحات موضوعية: [INFO.INFO-TT]Computer Science [cs]/Document and Text Processing, [INFO.INFO-NE]Computer Science [cs]/Neural and Evolutionary Computing [cs.NE]
جغرافية الموضوع: Montpellier (en ligne), France
الوصف: International audience ; Les modèles de langue les plus récents utilisent des représentations de mots contextualisés à l'aide de Transformers. Ils ont rapidement dépassé les méthodes état de l'art dans de nombreuses tâches de traitement automatique de la langue. Des versions pré-entraînées de ces modèles sont largement utilisées, mais leur spécialisation pour résoudre une tâche spécifique reste une question centrale. Par exemple, ces méthodes ne produisent pas de représentation à l'échelle du document et de l'auteur, mais seulement du mot. Or comme le montrent Reimers et Gurevych (2019), une simple moyenne des plongements de mots ne suffit pas. En utilisant une approche dite du Variational Information Bottleneck, nous développons une architecture simple pour construire des représentations d'auteurs et de documents à partir de modèles pré-entraînés (Devlin et al., 2019). Nous évaluerons de manière quantitative et qualitative notre modèle sur deux jeux de données : un corpus d'articles scientifiques et un d'articles de presse. Notre modèle produit des représentations plus robustes que l'existant, et donne des résultats compétitifs en classification et en identification d'auteurs.
نوع الوثيقة: conference object
اللغة: French
Relation: hal-03343908; https://hal.science/hal-03343908; https://hal.science/hal-03343908/document; https://hal.science/hal-03343908/file/EGC2021_VADE.pdf
الاتاحة: https://hal.science/hal-03343908
https://hal.science/hal-03343908/document
https://hal.science/hal-03343908/file/EGC2021_VADE.pdf
Rights: info:eu-repo/semantics/OpenAccess
رقم الانضمام: edsbas.FE53AA29
قاعدة البيانات: BASE