Pengelompokan Dokumen Berita Berbahasa Indonesia Menggunakan Fuzzy C-Means

Septiana, Neny (2013) Pengelompokan Dokumen Berita Berbahasa Indonesia Menggunakan Fuzzy C-Means. Sarjana thesis, Universitas Brawijaya.


Pertukaran informasi berbasis web yang berkembang saat ini menyebabkan beberapa lembaga media banyak yang mendistribusikan beritanya secara online, sehingga mengakibatkan meluasnya isi dari berita dalam membahas suatu topik tertentu. Hal inilah yang kemudian menyebabkan pencari berita kesulitan dalam mencari informasi yang sesuai. Penelitian ini mengimplementasikan Fuzzy C-Means Clustering untuk mengelompokan dokumen berita berbahasa Indonesia dengan melihat kesamaan isi kata dari sebuah dokumen. Metode Fuzzy C-Means Clustering mengelompokan data ke dalam cluster berdasarkan nilai derajat keanggotaan sehingga memungkinkan data dapat memasuki lebih dari satu cluster. Prinsip pengelompokan ini adalah meminimalisasi nilai dari fungsi objektif terhadap penentuan nilai nilai derajat keanggotaan awal. Semakin besar nilai derajat keanggotaan data dalam suatu cluster maka semakin besar pula data tersebut menjadi anggota cluster tersebut. Hasil ujicoba terhadap 270 dataset yang diambil dari media online menunjukan bahwa dokumen cenderung untuk memasuki 5 kelompok dengan nilai akurasi f-measure tertinggi yaitu 0,638. Nilai akurasi yang didapatkan pada saat ujicoba menunjukan hasil yang didapat sangat tergantung pada jumlah dari variasi kata yang digunakan dalam pembobotan.

English Abstract

Nowadays, the information exchanging based on web application has led some media to distribute news via online, thus any news about particular topic spread out easily. In another hand, this may give hard time for news-searcher to find the appropriate information. This research studies to automatically find the news in Indonesia Language which is taken from online media by looking at the similarity in words in one document by using Fuzzy C-Means Clustering. Fuzzy C-Means Clustering classifies the data into clusters based on the value of the degree of membership that allows data to be processed more than one cluster. The principle of this grouping process is to minimize the value of the objective function to determine the degree of initial membership values. The greater the degree of membership of data within a cluster, the greater the data will be the member of it. This research is conducted by determining the minimum error value and number of iteration which are used to search out the convergence. This convergence values then will be used to get the optimal number of clusters. The results of tests on 270 datasets derived from online media showed that the data tend into 5 clusters, with the accuracy using F-Measure is 0.638. Accuracy values obtained when testing shows the results obtained on the number of variations of the words that is used during weighting process.

