Electronic Resource

Machine Learning Implementation for Prediction of Probability of Default in Credit Risk

التفاصيل البيبلوغرافية
العنوان: Machine Learning Implementation for Prediction of Probability of Default in Credit Risk
Additional Titles: Implementation av Maskininlärning för Prediktion av Sannolikhet för Fallissemang inom Kreditrisk
المؤلفون: Döös, Theresa, Holgersson, Annie
بيانات النشر: KTH, Skolan för industriell teknik och management (ITM) 2024
نوع الوثيقة: Electronic Resource
مستخلص: Probability of Default (PD) models can be used for various purposes within the banking and insurance sector. The models classify an observation as the probability of that observation defaulting within a future time span, often a year. Within banks, this type of model is used to calculate risk grades and capital requirements and needs to be accepted for implementation by Finansinspektionen. Due to requirements from Finansinspektionen regarding transparency and explainability, logistic regression is primarily used today when constructing these models. However, there is an interest in exploring how more advanced machine learning models would perform in this field. On behalf of Länsförsäkringar, this study focuses on how three models built using three different machine learning algorithms perform when trained on the same data as Länsförsäkringar's current model. The algorithms used are Random Forest, XGBoost, and Artificial Neural Networks, and the dataset used consists of private customers holding loans between the years 2007 and 2019. In addition, the study also covers current literature in the field, feature analysis, variable selection, and training of hyperparameters for model optimization. The model that performs the best according to the selected performance measures AUC, Brier score and log loss is the XGBoost model, which is in accordance with findings from several previous studies. The transparency and explainability of this model are found to be inferior to that of logistic regression, but the model does not lack transparency altogether. The study suggests further analysis of how these models could be implemented in the field of PD modelling and how the requirements from Finansinspektionen and EU could be interpreted and changed in order to make reality of the implementation machine learning in risk management.
Modeller för beräkning av sannolikheten för fallissemang kan användas för olika ändamål inom bank- och försäkringssektorn. De klassificerar en observation som sannolikheten för att den observationen fallerar inom en framtida tidsperiod, ofta ett år. Hos vissa banker används denna typ av modell för att beräkna riskklasser och kapitalkrav och behöver genomgå en process för godkännande hos Finansinspektionen. På grund av krav av Finansinspektionen gällande transparens och förklarbarhet används idag främst logistisk regression vid konstruktion av dessa modeller. Det finns dock ett intresse för att utforska hur mer avancerade maskininlärningsmodeller skulle prestera inom detta område. På uppdrag av Länsförsäkringar fokuserar denna studie på hur tre modeller, byggda på tre olika maskininlärningsalgoritmer, presterar när de tränas på samma data som Länsförsäkringars nuvarande modell. Algoritmerna som används är Random Forest, XGBoost och Artificial Neural Networks, och datsetet som används består av privatkunder med lån mellan åren 2007 och 2019. Dessutom innehåller studien även en litteraturstudie av området, variabelanalys, variabelval och träning av hyperparametrar för att optimera modellprestationen. Den modell som presterar bäst enligt de utvalda prestationsmåtten AUC, Brier score och log loss är XGBoost, vilket stämmer överens med resultat från flera tidigare studier. Transparensen och förklarbarheten hos denna modell har visat sig vara lägre än för logistisk regression, men möjligheten till transparens är inte obefintlig. Studien föreslår ytterligare utredning av hur dessa modeller skulle kunna införlivas inom PD-modellering och hur kraven från Finansinspektionen och EU skulle kunna tolkas och behöva förändras för att användningen av maskininlärning skulle bli verklighet inom riskhantering.
مصطلحات الفهرس: Risk management, credit risk, probability of default, machine learning, Random Forest, XGBoost, Artificial neural network, Riskhantering, kreditrisk, sannolikhet för fallissemang, maskininlärning, artificiellt neuralt nätverk, Engineering and Technology, Teknik och teknologier, Student thesis, info:eu-repo/semantics/bachelorThesis, text
URL: http://urn.kb.se/resolve?urn=urn:nbn:se:kth:diva-353292
TRITA-ITM-EX ; 2024:285
الاتاحة: Open access content. Open access content
info:eu-repo/semantics/openAccess
ملاحظة: application/pdf
English
Other Numbers: UPE oai:DiVA.org:kth-353292
1457632845
المصدر المساهم: UPPSALA UNIV LIBR
From OAIster®, provided by the OCLC Cooperative.
رقم الانضمام: edsoai.on1457632845
قاعدة البيانات: OAIster