Pengaruh Data Ber-Missing value terhadap Pengklasifikasian Data menggunakan Algoritma Decision Tree C4.5

Kusnadi, Elly Nurhayati (2008) Pengaruh Data Ber-Missing value terhadap Pengklasifikasian Data menggunakan Algoritma Decision Tree C4.5. Sarjana thesis, Universitas Brawijaya.

Abstract

Dalam teknologi pengolahan data, seringkali data yang terkumpul untuk diolah tidak selalu lengkap (memiliki nilai yang hilang atau missing value ). Ketidaklengkapan data tersebut tentunya menjadi permasalahan dalam proses pengolahan data, khususnya pada proses pengklasifikasian data yang merupakan salah satu tugas dari data mining dalam mencari pola penting dalam data untuk mendapatkan informasi dari data. Pengklasifikasian data dapat dilakukan dengan banyak metode, salah satunya yaitu metode decision tree. Ada banyak algoritma decision tree yang digunakan dalam mengklasifikasikan data, salah satunya yaitu algoritma C4.5. Algoritma C4.5 yang merupakan algoritma hasil pengembangan algoritma milik Quinlan, Rose (1996) ID3, memiliki kelebihan dapat menangani data dengan missing value . Dalam skripsi ini dilakukan penelitian mengenai pengaruh data ber- missing value terhadap pengklasifikasian data menggunakan algoritma C4.5. Adapun parameter yang dijadikan objek evaluasi yaitu akurasi dari model klasifikasi (model tree ) yang dihasikan dari proses pembelajaran data training . Hasil dari penelitian ini, yaitu bahwa banyaknya data yang memiliki missing value berpengaruh pada tingkat akurasi model tree yang terbentuk. Dari dua macam uji coba yang dilakukan, dapat disimpulkan bahwa semakin banyak jumlah missing value pada data training , maka tingkat akurasi dari model tree yang dihasilkan akan semakin kecil. Hal tersebut disimpulkan bedasarkan hasil uji coba 1 yang bertujuan mengetahui pengaruh banyaknya missing value terhadap tingkat akurasi model tree . Adapun hasil uji coba 1 untuk tiap-tiap kategori tabel berdasarkan jumlah record , yaitu data training 37 records (perubahan tingkat akurasi : 87,5%, 73,33334%, 70%, 63,33333%), data training 74 records (perubahan tingkat akurasi :80%, 74,16667%, 84,166667%, 70%), data training 111 records (perubahan tingkat akurasi : 85%, 70,83334%, 66,66667%, 61,66667%) dan data training 148 records (perubahan tingkat akurasi : 100%, 92,5%, 88,33333%, 84,16667%). Begitupula untuk data training yang memiliki record ber- missing value , semakin banyak jumlah record ber- missing value , maka tingkat akurasi dari model tree -nya akan semakin menurun. Hal tersebut berdasarkan hasil uji coba 2 yang bertujuan mengetahui pengaruh jumlah record ber- missing value terhadap tingkat akurasi. Adapun hasil dari uji coba 2 untuk tabel B (111 records ), dimana tingkat akurasi berdasarkan penambahan jumlah recor d ber- missing value meningkat untuk tiap kategori jumlah missing value per- record (jml mv/ record = 2 (85%, 72,5%, 77,5%, 72,5%), jml mv/ record = 4 (82,5%, 77,5%, 72,5%, 65%), jml mv/ record = 6 (87,5%, 80%, 62,5%, 52,5%), jml mv/ record = 10 (85%, 82,5%, 62,5%, 52,5%), jml mv/ record = 15 (80%, 82,5%, 52,5%, 32,5%)). Selain missing value , jumlah record data training juga berpengaruh pada akurasi model tree . Semakin banyak jumlah data training , maka tingkat akurasi dari model tree yang dihasilkan akan semakin tinggi. Hal tersebut disimpulkan berdasarkan pada hasil uji coba 1 untuk tabel data training tanpa missing value (tabel 37 records (87,5%), tabel 74 records (80%), tabel 111 records (85%), dan tabel 148 records (100%))

English Abstract

In data processing, the collected data is sometimes has inconsistency in form. Inconsistency here means that not all data is having its value (data contains missing value). This inconsistency should be a problem in data processing in certain. And this problem would be the same problem as well to data classification process, which is one of data mining task in figuring the most important pattern of data in order to obtain some important informations of data itself. Classification has a lot of method to build. One of them is Decision tree method. The algorithm for decision tree classification is in numbers, the most used algorithm is C4.5 algorithm, which is the advance version of ID3 algorithm by Quinlan, Rose (1996). One of extended feature C4.5 have is its capability to handle data with missing value. This undergraduate thesis is working in research to find the effects of missing valued data toward the data classification using C4.5 decision tree algorithm. And parameter used here in evaluation is the accuracy of the classifier (model tree). All that can be concluded from the result of this reseach is that the more number of missing value in data training, the lower accuracy of model tree. this conclusion is due to the result of error and trial done for the first one (table of uji coba 1) which worked to know the effect of missing value in data toward the accuracy of the model tree. And the results for each training table (in numbers of records) are 37 records training table (accuracies : 87,5%, 73,33334%, 70%, 63,33333%), 74 records training table (accuracies :80%, 74,16667%, 84,166667%, 70%), 111 records training table (accuracies : 85%, 70,83334%, 66,66667%, 61,66667%) dan 148 records training table (accuracies : 100%, 92,5%, 88,33333%, 84,16667%). And the same conclusion goes for the data training with missing valued records. The more number of missing valued records, the lower accuray of model tree. This conclusion is due to the result for second part error and trial, which results (for training table of 111 records) numbers of mv/record = 2 (85%, 72,5%, 77,5%, 72,5%), numbers of mv/record = 4 (82,5%, 77,5%, 72,5%, 65%), numbers of mv/record = 6 (87,5%, 80%, 62,5%, 52,5%), numbers of mv/record = 10 (85%, 82,5%, 62,5%, 52,5%), and numbers of mv/record = 15 (80%, 82,5%, 52,5%, 32,5%). The opposite statement goes for the data with more number in records. The more number of records in data training, the higher accuary of model tree. This could be conluded according to the result for trial and error of data with non-missing value in the first trial and error part (training table of 37 records (87,5%), training table of 74 records (80%), training table of 111 records (85%), dan training table of 148 records (100%))

Item Type: Thesis (Sarjana)
Identification Number: SKR/MIPA/2008/116/050801549
Subjects: 500 Natural sciences and mathematics > 510 Mathematics
Divisions: Fakultas Matematika dan Ilmu Pengetahuan Alam > Matematika
Depositing User: Unnamed user with email repository.ub@ub.ac.id
Date Deposited: 16 Jul 2008 09:58
Last Modified: 09 Mar 2022 03:20
URI: http://repository.ub.ac.id/id/eprint/151771
[thumbnail of 050801549.pdf]
Preview
Text
050801549.pdf

Download (5MB) | Preview

Actions (login required)

View Item View Item