NCHLT isiXhosa fastText-CBoW embeddings

التفاصيل البيبلوغرافية
العنوان: NCHLT isiXhosa fastText-CBoW embeddings
المؤلفون: Roald Eiselen
المساهمون: Rico Koen, Albertus Kruger, Jacques van Heerden
المصدر: Web ; Government Documents
بيانات النشر: North-West University; Centre for Text Technology (CTexT)
سنة النشر: 2023
الوصف: Static word and subword embeddings for the continuous bag of words (CBoW) flavour of the fastText architecture (Bojanowski et al., 2017). The embedding provides real-valued vector representations for isiXhosa text.
نوع الوثيقة: other/unknown material
وصف الملف: Training data: Paragraphs: 718,751; Token count: 13,190,962; Vocab size: 172,170; Embedding dimensions: 600; 3.97GB (Zipped); application/octet-stream
اللغة: Xhosa
Relation: https://hdl.handle.net/20.500.12185/594
الاتاحة: https://hdl.handle.net/20.500.12185/594
Rights: Creative Commons Attribution 4.0 International (CC-BY 4.0)
رقم الانضمام: edsbas.DE39E6B
قاعدة البيانات: BASE