Performance analysis of set partitioning formulations on the rule extraction from random forests

التفاصيل البيبلوغرافية
العنوان: Performance analysis of set partitioning formulations on the rule extraction from random forests
المؤلفون: EDALI, Mert
المصدر: Volume: 27, Issue: 4 513-519
Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi
بيانات النشر: Pamukkale Üniversitesi, 2020.
سنة النشر: 2020
مصطلحات موضوعية: Rastgele ormanlar,Kural çıkarma,Küme bölüntüleme,Sınıflandırma,Regresyon,Yorumlanabilirlik, Engineering, Random forests,Rule extraction,Set partitioning,Classification,Regression,Interpretability, Mühendislik
الوصف: Rastgele Ormanlar farklı alanlardaki sınıflandırma ve regresyon problemleri için sıklıkla kullanılan bir yapay öğrenme algoritmasıdır. Yüksek başarım göstermelerine rağmen, yapıtaşları olan karar ağaçlarına kıyasla yorumlanabilirlikleri oldukça düşüktür. Her bir üyesinin bir karar ağacı olduğu gerçeğinden yola çıkarak, Rastgele Ormanlardan yorumlanabilir eğer-ise tipinde kurallar çıkarmak için farklı küme bölüntüleme formülasyonları öneriyoruz. Literatürde sıklıkla kullanılan sınıflandırma ve regresyon veri setleri üzerinde yaptığımız deneylerin sonuçları göstermektedir ki orijinal küme bölüntüleme model formülasyonu, başarımı kabul edilebilir seviyelerde tutarak kural sayısını önemli ölçüde düşürebilmektedir. Çıkarılan kural sayısını daha da düşürebilmek için problemin amaç fonksiyonuna bir değişiklik öneriyoruz. Bu değişiklikle birlikte, çıkarılan kural sayısında daha da düşüş gözlemlerken başarımın aynı seviyelerde kaldığını gözlemliyoruz. Küme bölüntüleme problemi NP-zor olmasına rağmen, çoğu veri seti için yirmi dakika içinde en iyi çözümü buluyoruz.
Random Forests is a widely used machine learning algorithm for classification and regression problems from different domains. Although they are generally accurate, their interpretability is low compared to their building blocks: single decision trees. Using the fact that each member of a Random Forest is a decision tree, we propose different set partitioning formulations to extract interpretable if-then rules from Random Forests. Our experiments on well-known classification and regression datasets show that the original set partitioning model formulation significantly reduces the number of rules while keeping the accuracy at acceptable levels. We also propose a modification to the problem's objective function, which aims to reduce the number of extracted rules further. We observe a further reduction in the number of extracted rules while the accuracy values stay nearly the same. Although the set partitioning problem is NP-hard, we obtain optimal results for most datasets within twenty minutes.
وصف الملف: application/pdf
اللغة: English
تدمد: 1300-7009
2147-5881
URL الوصول: https://explore.openaire.eu/search/publication?articleId=tubitakulakb::0d77200a168983e52f3ccc5277ab4549
https://dergipark.org.tr/tr/pub/pajes/issue/64540/984920
Rights: OPEN
رقم الانضمام: edsair.tubitakulakb..0d77200a168983e52f3ccc5277ab4549
قاعدة البيانات: OpenAIRE