التفاصيل البيبلوغرافية
العنوان: |
NCHLT isiXhosa fastText-CBoW embeddings |
المؤلفون: |
Roald Eiselen |
المساهمون: |
Rico Koen, Albertus Kruger, Jacques van Heerden |
المصدر: |
Web ; Government Documents |
بيانات النشر: |
North-West University; Centre for Text Technology (CTexT) |
سنة النشر: |
2023 |
الوصف: |
Static word and subword embeddings for the continuous bag of words (CBoW) flavour of the fastText architecture (Bojanowski et al., 2017). The embedding provides real-valued vector representations for isiXhosa text. |
نوع الوثيقة: |
other/unknown material |
وصف الملف: |
Training data: Paragraphs: 718,751; Token count: 13,190,962; Vocab size: 172,170; Embedding dimensions: 600; 3.97GB (Zipped); application/octet-stream |
اللغة: |
Xhosa |
Relation: |
https://hdl.handle.net/20.500.12185/594 |
الاتاحة: |
https://hdl.handle.net/20.500.12185/594 |
Rights: |
Creative Commons Attribution 4.0 International (CC-BY 4.0) |
رقم الانضمام: |
edsbas.DE39E6B |
قاعدة البيانات: |
BASE |