INVESTIGATING THE PERFORMANCE OF FEATURE SELECTION METHODS IN CLASSIFYING STUDENT SUCCESS

ÖĞRENCİLERİN BAŞARILARINI SINIFLANDIRMADA ÖZELLİK SEÇİM YÖNTEMLERİNİN PERFORMANSLARININ İNCELENMESİ

INVESTIGATING THE PERFORMANCE OF FEATURE SELECTION METHODS IN CLASSIFYING STUDENT SUCCESS

 
Author : Özlem Bezek Güre    
Type :
Printing Year : 2023
Number : 24
Page : 2695-2728
DOI Number: :
Cite : Özlem Bezek Güre , (2023). INVESTIGATING THE PERFORMANCE OF FEATURE SELECTION METHODS IN CLASSIFYING STUDENT SUCCESS. International Journal of Education Technology and Scientific Researches, 24, p. 2695-2728. Doi: 10.35826/ijetsar.668.
    


Summary

The present study investigates the optimization of machine learning algorithms, specifically the Naïve Bayes classifier, in the context of Educational Data Mining (EDM). The primary objective is to scrutinize the impact of various feature selection algorithms on the performance of the model. Six feature selection methods—Information Gain, Gain Ratio, Symmetric Uncertainty Coefficient, Relief-F, Correlation-Based Feature Selection, and One R measure—are employed for an exhaustive comparative analysis. The research utilizes the "Higher Education Students Performance Evaluation" dataset available on the UCI Machine Learning Repository. This dataset is particularly robust, comprising 145 samples and 33 features, out of which 30 have been meticulously chosen for this study. The criteria for feature selection were based on their presumed relevance and potential impact on academic performance. Upon implementing the Naïve Bayes algorithm, the study discerns that the Gain Ratio method emerges as the most proficient, boasting an accuracy rate of 60%. Interestingly, aside from the Correlation-Based Feature Selection, the semester grade point average stands out as the most significant feature affecting student success rates. According to the Gain Ratio method, additional influential variables, listed in descending order of importance, include gender, the impact of projects/activities on academic success, expected grade point average upon graduation, weekly study hours, type of scholarship received, frequency of reading non-academic literature, mother's educational level, and participation in departmental seminars/conferences as well as class attendance. The research affirms the overall effectiveness of feature selection methods, with the exception of the One R method, in enhancing the predictive accuracy of the Naïve Bayes algorithm. These findings not only validate the utility of feature selection in EDM but also provide invaluable insights for researchers and educators interested in advancing the methodologies in the field of Educational Data Mining.



Keywords

Feature Selection, Educational Data Mining, Naive Bayes, Higher Education.



Abstract

Bu çalışma, özellik seçme algoritmalarından yararlanarak Eğitimsel Veri Madenciliği (EDM) bağlamında makine öğrenimi modellerinin optimize edilmesine odaklanmaktadır. Özellik seçim yöntemleri, makine öğrenme algoritmalarının hızını ve tahminleme performansını arttırmaya, verinin anlaşılmasına ve maliyetinin de azaltılmasına olanak sağlamaktadırlar Bu çalışmada; özellik seçim yöntemlerinden Information Gain, Gain Ratio, Symmetric Uncertainty Coefficient, Relief-F, Correlation Based Feature Selection Method ve One R measure kullanılarak, üniversite öğrencilerinin başarılarını etkileyen faktörleri belirlemek amaçlanmaktadır. Özellik seçim yöntemlerinin etkisini karşılaştırmak amacıyla Naïve Bayes yöntemi uygulanmıştır. Bu amaçla, UCI Machine Learning Repository veri tabanında yer alan “Higher Education Students Performance Evaluation dataset” kullanılmıştır. Veri seti, 33 değişken ve 145 örnekten oluşmaktadır. Çalışmada; 30 değişken kullanılmıştır. Analiz sonuçlarına göre; %57.24 ile Information Gain ve Relief-F ölçüsü en iyi özellik seçim yöntemi olarak belirlenmiştir. Correlation Based Feature Selection Method hariç diğer tüm yöntemlerde öğrenci başarısını etkileyen en önemli faktör, öğrencinin son yarıyıl genel not ortalaması olarak tespit edilmiştir. Diğer taraftan; One R yöntemi hariç kullanılan özellik seçim yöntemlerinin Naïve Bayes yönteminin performasını artırdığı görülmektedir. Özellik seçim yöntemlerinin veri madenciliği yöntemlerin verimliliğini artırmak amacıyla kullanılması önerilmektedir.



Keywords

Özellik seçimi, Eğitsel Veri Madenciliği, Naive Bayes, Yüksek Öğrenim