Dissertation/ Thesis

Comparaison de méthodes d'imputation de données manquantes dans un contexte de modèles d'apprentissage statistique

التفاصيل البيبلوغرافية
العنوان: Comparaison de méthodes d'imputation de données manquantes dans un contexte de modèles d'apprentissage statistique
المؤلفون: Bouchard, Simon
Thesis Advisors: Vallée, Audrey-Anne
سنة النشر: 2023
المجموعة: Université Laval
Original Material: 39039
مصطلحات موضوعية: Apprentissage statistique, Modèles mathématiques., Observations manquantes (Statistique), Imputation multiple (Statistique), Non-réponse (Statistique), Méthodes de simulation.
الوصف: Titre de l'écran-titre (visionné le 6 juin 2023)
Le sujet de ce mémoire concerne l'utilisation de données incomplètes qui sont utilisées à des fins d'apprentissage statistique, dans un contexte où une méthode de traitement des données manquantes a été appliquée aux données. La problématique motivant ce travail est la prédiction de l'abandon scolaire chez les étudiants collégiaux. La caractéristique principale de la non-réponse au sein de ces données est que les étudiants ayant le statut d'immigrant ont une non-réponse quasi complète pour certaines variables. À partir d'une étude de simulation répliquant le comportement des données collégiales, différentes méthodes d'imputation sont utilisées sur des jeux de données ayant différentes configurations de non-réponse. Ces données imputées sont ensuite utilisées pour entraîner des modèles d'apprentissage statistique afin d'en évaluer les performances. À partir des résultats de cette étude de simulation, les combinaisons de méthodes d'imputation et de modèles d'apprentissage statistique ayant le mieux performé au niveau des prédictions sont appliquées aux données collégiales afin de déterminer quelles méthodes d'imputation permettent d'obtenir les meilleures performances prédictives.
This thesis deals with the use of incomplete data, to which a missing data treatment has been applied, in a statistical learning problem. The issue motivating this project is the prediction of school dropout among college students. The main characteristic of non-response in these data is that students with immigrant status have non-response for almost all the variables. Based on a simulation study replicating the behavior of college data, different imputation methods are applied on datasets with different nonresponse patterns. The imputed data are then used to train statistical learning models and to evaluate their performance. Based on the results of the simulation study, the best-performing combinations of imputation methods and statistical learning models are applied to college data.
Original Identifier: oai:corpus.ulaval.ca:20.500.11794/119066
نوع الوثيقة: COAR1_1::Texte::Thèse::Mémoire de maîtrise
وصف الملف: 1 ressource en ligne (ix, 97 pages); application/pdf
اللغة: French
الاتاحة: https://hdl.handle.net/20.500.11794/119066
Rights: URL: http://purl.org/coar/access_right/c_abf2
رقم الانضمام: edsndl.LAVAL.oai.corpus.ulaval.ca.20.500.11794.119066
قاعدة البيانات: Networked Digital Library of Theses & Dissertations