NCHLT Setswana word2vec-CBOW embeddings

التفاصيل البيبلوغرافية
العنوان: NCHLT Setswana word2vec-CBOW embeddings
المؤلفون: Roald Eiselen
المساهمون: Rico Koen, Albertus Kruger, Jacques van Heerden
المصدر: Web ; Government Documents
بيانات النشر: North-West University; Centre for Text Technology (CTexT)
سنة النشر: 2023
الوصف: Static word embeddings for the continuous bag of words (CBoW) flavour of the word2vec (w2v) architecture (Mikolov et al., 2013). The embedding provides real-valued vector representations for Setswana text.
نوع الوثيقة: other/unknown material
وصف الملف: Training data: Paragraphs: 515,961; Token count: 14,518,437; Vocab size: 33,074; Embedding dimensions: 600; 71.93MB (Zipped); application/octet-stream
اللغة: Tswana
Relation: https://hdl.handle.net/20.500.12185/651
الاتاحة: https://hdl.handle.net/20.500.12185/651
Rights: Creative Commons Attribution 4.0 International (CC-BY 4.0)
رقم الانضمام: edsbas.D37A9BB1
قاعدة البيانات: BASE