Dissertation/ Thesis

Audiovizuální rozpoznávání osoby ; Audiovisual person recognition

التفاصيل البيبلوغرافية
العنوان: Audiovizuální rozpoznávání osoby ; Audiovisual person recognition
المؤلفون: Bahounek, Ondřej
المساهمون: Plchot, Oldřich, Mošner, Ladislav
بيانات النشر: Vysoké učení technické v Brně. Fakulta informačních technologií
سنة النشر: 2024
المجموعة: Brno University of Technology (VUT): Digital Library / Vysoké učení technické v Brně: Digitální knihovně
مصطلحات موضوعية: audiovizuální verifikace osoby, embeddingy, rozpoznání řečníka, rozpoznání tváře, fúze modalit, fúze embeddingů, WavLM, MHFA, Inception Resnet, audivisual person verification, embeddings, speaker recognition, face recognition, multi-modal fusion, embedding fusion
الوصف: Tahle práce se zabývá audiovizuální verifikací osoby ve videu nebo ze snímku obličeje a hlasové nahrávky. Modely využívají fúze hlasových a obličejových embeddingů. Modely přidělují váhy oběma modalitám, podle nichž kladou větší pozornost na jednu z nich. Výsledky modelů se vyznačují dobrou odolností proti poškození jedné z modalit. ; This work focuses on audiovisual verification of a person in a video or from a facial image and a voice recording. The models use a fusion of voice and face embeddings. The models assign weights to both modalities, allowing them to give more attention to one or the other. The results from these models demonstrate good resistance to the degradation of one of the modalities. ; A
نوع الوثيقة: bachelor thesis
وصف الملف: application/pdf; text/html
اللغة: Czech
Relation: BAHOUNEK, O. Audiovizuální rozpoznávání osoby [online]. Brno: Vysoké učení technické v Brně. Fakulta informačních technologií. 2024.; 153223; https://hdl.handle.net/11012/247445
الاتاحة: https://hdl.handle.net/11012/247445
Rights: Standardní licenční smlouva - přístup k plnému textu bez omezení
رقم الانضمام: edsbas.1E73DB5
قاعدة البيانات: BASE