التفاصيل البيبلوغرافية
العنوان: |
Synth-to-real semi-supervised learning for visual tasks |
المؤلفون: |
Gómez Zurita, Jose Luis |
المساهمون: |
López Peña, Antonio M. (Antonio Manuel) |
المصدر: |
TDX (Tesis Doctorals en Xarxa) |
بيانات النشر: |
Universitat Autònoma de Barcelona |
سنة النشر: |
2024 |
المجموعة: |
Tesis Doctorals de la Universitat d'Andorra (TDX) |
مصطلحات موضوعية: |
Adaptació de domini, Adaptación de dominio, Domain adaptation, Aprenentatge semisupervisat, Aprendizaje semi-supervisado, Semi-supervised learning, Conducció autònoma, Conducción autónoma, Autonomous driving, Tecnologies |
Time: |
004 |
الوصف: |
Aquest PhD se centra a aplicar l’aprenentatge semisupervisat (SSL) en problemes d’adaptació de domini sense supervisió (UDA) per tasques visuals relacionades amb la conducció autònoma. Comencem adreçant el problema de sintètic a real en UDA per detecció d’objectes (vianants i cotxes) en sistemes de visió a bord, que és una tasca crítica en conducció autònoma i sistemes de conducció assistida. En particular, proposem l’aplicació d’una tècnica de SSL coneguda com a co-training (entrenament cooperatiu), el qual adaptem per treballar amb models profunds que processen dades d’entrada multimode, La multimodalitat consisteix en l’aparença visual d’imatges (RGB) i l’estimació monocular de profunditat. Aquest coneixement previ és el punt d’inici de la tècnica de co-training, que iterativament etiqueta dades reals sense etiquetar (pseudo-etiquetes) i les utilitza (en aquest cas quadrícules al voltant d’objectes amb classe assignada) progressivament per millorar el resultat de l’etiquetatge. Durant el transcurs d’aquest procés, dos models col·laboren per etiquetar automàticament les imatges, de mode que un model compensa les carències de l’altre i al revés, evitant propagació d’errors. A més a més, mostrem que el co-training multi-mode millora l’etiquetació en comparació al mode únic (només vista RGB), mantenint-se competitiu amb l’etiquetació per humans. Gràcies a l’èxit del co-training en detecció d’objectes, adaptem aquesta tècnica a la segmentació semàntica. De fet, un humà pot trigar a etiquetar una sola imatge de 30 a 90 minuts, depenent del contingut d’aquesta. En particular, el nou framework de co-training adreça sintètic a real en UDA per mitjà d’una fase inicial d’auto etiquetatge. Models intermedis són creats a partir d’aquesta fase que s’utilitza per començar el procés de co-training, pel qual hem elaborat una política de col·laboració entre tots dos models que realitzen l’etiquetatge automàtic. A més a més, aquest mètode és agnòstic a la funció de cost utilitzada per entrenar models de segmentació semàntica ... |
نوع الوثيقة: |
doctoral or postdoctoral thesis |
وصف الملف: |
161 p.; application/pdf |
اللغة: |
English |
Relation: |
http://hdl.handle.net/10803/689680 |
الاتاحة: |
http://hdl.handle.net/10803/689680 |
Rights: |
L'accés als continguts d'aquesta tesi queda condicionat a l'acceptació de les condicions d'ús establertes per la següent llicència Creative Commons: http://creativecommons.org/licenses/by-sa/4.0/ ; http://creativecommons.org/licenses/by-sa/4.0/ ; info:eu-repo/semantics/openAccess |
رقم الانضمام: |
edsbas.7F4816F5 |
قاعدة البيانات: |
BASE |