Analisis Perbandingan Metode K-Means Dengan Improved Semi-Supervised K-Means Pada Data Indeks Pembangunan Manusia (Ipm)

Paramartha, Gusti Ngurah Wisnu (2017) Analisis Perbandingan Metode K-Means Dengan Improved Semi-Supervised K-Means Pada Data Indeks Pembangunan Manusia (Ipm). Sarjana thesis, Universitas Brawijaya.

Abstract

Saat ini dengan jumlah informasi yang semakin besar, konsep data mining semakin dikenal sebagai sebuah tools yang penting dalam manajemen informasi. Mengacu pada konsep data mining, salah satu teknik yang terdapat dalam konsep tersebut adalah teknik klastering. Salah satu teknik klastering adalah teknik k-means. K-means adalah sebuah algoritma pengklasteran umum yang memisahkan sekumpulan objek data dalam beberapa cluster atau kelompok yang berbeda. Dalam penerapannya metode k-means pempunyai masalah seperti pada penentuan inisial K klaster dan pusat klaster awal yang dipilih secara random yang membuat proses tidak konsisten dan membuat hasil klaster pusat menjadi buruk. Dengan masalah tersebut terdapat sebuah algoritma yang lebih baru yaitu algoritma improved semi-supervised k-means clustering. Algoritma improved semi-supervised k-means clustering adalah algoritma yang menggabungkan pendekatan supervised dan unsupervised dalam klastering. Untuk permasalahan ini pengguna hanya perlu memberikan label sebagian kecil objek dari set untuk mengklaster banyak objek yang sebelumya tidak berlabel. Sedikit objek data set yang berlabel tersebut digunakan untuk menentukan nilai K klaster dan pusat klaster awal. Dengan nilai K klaster dan pusat klaster awal yang lebih rasional akan memberikan nilai klaster yang lebih baik dan membuat proses lebih konsisten. Pada implementasinya, penelitian ini membandingkan dua algoritma yaitu k-means tradisional dan improved semi-supervised k-means clustering menggunakan data indeks pembangunan manusia (IPM). Data IPM dipilih karena memiliki karakteristik yang tepat untuk klastering seperti jumlah data yang banyak dan data yang terbagi menjadi beberapa klaster. Pada bagian pengujian yang dilakukan yang menggunakan data training dengan variasi data sebanyak 100, 200, 300, 400 dan 500 data training, serta 200 data uji yang diambil secara acak, algoritma semi-supervised k-means clustering memberikan rata-rata tingkat akurasi yang lebih baik yaitu 90.3% dari algoritma k-means tradisional yaitu 73.7%. Untuk rata-rata waktu komputasi dalam mencari satu kali konvergen algoritma semi-supervised k-means clustering memberikan hasil yang lebih baik yaitu 1222.9959 detik dibanding algoritma k-means tradisional dengan rata-rata waktu satu kali konvergen yaitu 1504.75 detik. Pada bagian pengujian efektifitas proses berupa jumlah iterasi untuk satu kali konvergen, algoritma improved semi-supervised k-means menghasilkan iterasi yang lebih efisien daripada algoritma k-means dengan rata-rata jumlah iterasi 7.11 kali iterasi berbanding 9.72 kali iterasi. Sedangkan pengujian kualitas klaster menggunakan algoritma silhouette coefficient algoritma improved semi-supervised k-means clustering memberikan hasil lebih baik dengan rata-rata nilai 0.69880 sedangkan untuk algoritma k-means tradisional menghasilkan silhouette coefficient rata-raata sebesar 0.62734.

English Abstract

At this time with the growing amount of information, the concept of data mining getting known as an important tool in the management information. Refers to the concept of data mining, the most popular concept in data mining is a clustering technique. One of the techniques in clustering is a k-means algorithm. K-means traditional is a clustering algorithm that separates a set of data into several clusters or different groups. In it’s application, k-means have some problems such as in the determination of the K cluster and initial cluster center which are selected randomly make the result of the cluster center becomes worse. With these problems there is a newer algorithm that is improved semi-supervised algorithm k-means clustering. Improved semi-supervised k-means clustering is an algorithm that combines supervised and unsupervised approaches in clustering. For this problem we only need labeling a small portion of objects on the data set to clustering all the data objek in the data training. That small labeled data object are used to determine the value of K clustering and initial cluster center. With more rational value of K clustering and initial cluster center will give a better final cluster and make the process more consistent. On implementation, this research combine k-means algorithm and improved semi-supervised k-means using human development index (HDI) data. HDI data chosen because it has the right characteristics for clustering such amounts of data and the data is divided into several clusters. From the testing that use the training data with a variety of data as much as 100, 200, 300, 400, and 500 and 200 of test data are drawn at random, the algorithm algorithm semi-supervised k-means clustering gives the average value of accuracy is better that is 90.3% of the traditional k-means algorithm that is 73.7%. For the average computation time to finding one convergent semi-supervised k-means algorithm provide better results that is 1222.9959 seconds compared traditional k-means algorithm with an average time of one convergent that is 1504.75 seconds. In the testing the effectiveness of the process is the number of iterations for one convergent algorithm. The improved semi-supervised algorithm k-means produces a more efficient iteration than the k-means algorithm with an average number of iterations of 7.11 times iteration compared 9.72 times iteration. Besides testing the quality of clustering algorithm using silhouette coefficient, improved semi-supervised k-means provides better average results that is 0.69880 while the traditional k-means algorithm generates 0.62734 average silhouette coefficient value.

Item Type: Thesis (Sarjana)
Identification Number: SKR/FTIK/2017/232/051704791
Uncontrolled Keywords: indeks pembangunan manusia, ipm, data mining, klastering, k-means, semi-supervised k-means.
Subjects: 000 Computer science, information and general works > 006 Special computer methods > 006.3 Artificial intelligence > 006.31 Machine learning > 006.312 Data mining
Divisions: Fakultas Ilmu Komputer > Teknik Informatika
Depositing User: Sugiantoro
Date Deposited: 17 Jul 2017 01:48
Last Modified: 28 Sep 2020 09:58
URI: http://repository.ub.ac.id/id/eprint/256
[thumbnail of 051704791 BAGIAN DEPAN.pdf] Text
051704791 BAGIAN DEPAN.pdf

Download (384kB)
[thumbnail of 051704791 BAB I.pdf] Text
051704791 BAB I.pdf
Restricted to Repository staff only

Download (310kB)

Actions (login required)

View Item View Item