Fadhelan, Achmad Nadjih and Achmad Efendi, S.Si., M.Sc., Ph.D (2021) Pemodelan Pohon Keputusan Menggunakan Algoritma Xgboost Dan Smote Xgboost Dengan Preprocessing Dalam Memprediksi Mahasiswa. Sarjana thesis, Universitas Brawijaya.
Abstract
UNISLA adalah perguruan tinggi dengan tingkat akreditasi yang belum maksimal. Dalam penilaian akreditasi mahasiswa memiliki poin 13,16% yang ditinjau dari berbagai aspek, salah satunya adanya mahasiswa lulus terlambat. Untuk mengetahui aspek yang mempengaruhi mahasiswa lulus terlambat dilakukan prediksi menggunakan data lulusan mahasiswa periode 2016-2020. Atribut yang digunakan diantaranya Prodi, Jenis Kelamin, Usia, Asal Sekolah, dan IP Semester 1-4 serta Ketepatan Lulus sebagai label. Pada data yang digunakan terdapat masalah dirty data yang ditangani pada preprocessing (sebelum split data) dan imbalance data ditangani dengan membangun dua model berbeda. Model pertama (XGBoost) menggunakan pendekatan algoritma dan model kedua (SMOTE XGBoost) dengan pendekatan algoritma dan tingkat data. Hasil menunjukan model SMOTE XGBoost mampu melakukan prediksi dengan baik pada imbalance data dan dirty data ditinjau dari ukuran evaluasi yang lebih tinggi, yaitu nilai precision kelas Tepat (98,12%) dan Telat (97,57%), specificity (98,16%), f1 score kelas Tepat (98,28%) dan Telat (97,37%), dan AUC (98,29%). Sedangkan, model XGBoost memiliki nilai recall lebih besar (99,08%). Berdasarkan model SMOTE XGBoost didapatkan atribut yang memiliki kontribusi lebih besar adalah IP Semester 1 (721), Semester 2 (716), Semester 4 (645), dan Semester 3 (615
English Abstract
UNISLA is an university with a level of accreditation that has not been maximized. In that assessment of accreditation, students have 13,16% points which are reviewed from various aspect, one of which is the presence of students graduating late. To find out the aspects that affect students graduating late, predictions are made using student graduate’s data at 2016-2020. The attributes used include Study Program, Gender, Age, School Origin, Grade Point in 1 st -4 th Semester, and Longth of Study as label. In this data there are dirty data which are handled in preprocessing (before splitting the data) and imbalance data which are handled by building two different models. The first model (XGBoost) uses an algorithmic approach and the second model (SMOTE XGBoost) uses an algorithmic and data-level approach. The results show that the SMOTE XGBoost model is able to make good predictions on imbalance data and dirty data in terms of higher evaluation measure, there are precision at Tepat’s class (98,12%) and Telat’s class (97,57%), specificity (98,16%), f1 score at Tepat’s class (98,28%) and Telat’s class (97,37%), and AUC (98,29%). Meanwhile, the XGBoost model has a high recall value (99,08%). Based on the SMOTE XGBoost model, the attributes that have the greater contribution are Grade Point 1 st Semester (721), 2nd Semester (716), 4th Semester (645), and 3rd Semester (615)
Item Type: | Thesis (Sarjana) |
---|---|
Identification Number: | 0521090055 |
Uncontrolled Keywords: | SMOTE, XGBoost, Imbalance Data, Preprocessing, Lama Studi Mahasiswa,SMOTE, XGBoost, Imbalance Data, Preprocessing, Student Length Study |
Subjects: | 500 Natural sciences and mathematics > 519 Probabilities and applied mathematics > 519.5 Statistical mathematics |
Divisions: | Fakultas Matematika dan Ilmu Pengetahuan Alam > Statistika |
Depositing User: | Zainul Mustofa |
Date Deposited: | 23 May 2022 01:25 |
Last Modified: | 07 Jul 2022 07:42 |
URI: | http://repository.ub.ac.id/id/eprint/190700 |
Text (DALAM MASA EMBARGO)
Achmad Nadjih F.pdf Restricted to Registered users only until 31 December 2023. Download (2MB) |
Actions (login required)
View Item |