Penerapan Metode Improved KNN Berbasis Clustering untuk Pengkategorian Dokumen Berita Berbahasa Indonesia

Christiana, Priskilla (2010) Penerapan Metode Improved KNN Berbasis Clustering untuk Pengkategorian Dokumen Berita Berbahasa Indonesia. Sarjana thesis, Universitas Brawijaya.

Abstract

Algoritma KNN tradisional melakukan klasifikasi terhadap objek berdasarkan data latih yang memiliki kemiripan paling besar dengan objek tersebut. Perhitungan kemiripan dilakukan dengan melibatkan seluruh data latih dalam jumlah besar sehingga menyebabkan tingginya kompleksitas perhitungan. Algoritma ini juga tidak membedakan pengaruh dari masing-masing data latih. Untuk mengatasi masalah-masalah tersebut digunakan metode Improved KNN berbasis clustering. Pertama-tama pada tahap penghematan sampel, kumpulan data latih diringkas dengan menghapus data latih yang berada dekat dengan batas kategori. Selanjutnya, kumpulan data latih pada masing-masing kategori dikelompokkan menggunakan algoritma k-means clustering, dan titik pusat cluster digunakan sebagai data latih yang baru. Kemudian digunakan pembobotan terhadap data latih berdasarkan banyaknya sampel yang berada pada cluster tersebut. Data latih yang telah dimodifikasi tersebut digunakan sebagai data latih baru untuk melakukan pengkategorian dengan algoritma KNN. Sistem pengkategorian berita yang dikembangkan dengan metode Improved KNN memiliki nilai recall rata-rata sebesar 95,56%, precision sebesar 94,98%, dan nilai F-Measure sebesar 95,05%. Percobaan yang dilakukan menunjukkan bahwa metode Improved KNN dapat mengurangi jumlah data latih secara efektif dan mengurangi kompleksitas perhitungan. Selain itu, yang terutama metode ini juga mampu meningkatkan akurasi dari algoritma KNN tradisional.

English Abstract

The traditional KNN text classification algorithm classify a new object based on the training sample which has the closest similarity to the object. It uses all training samples for classification, so it has a huge number of training samples and a high degree of calculation complexity. This algorithm also ignore different importance between each sample. In allusion to the problems mentioned above, an improved KNN text classification algorithm based on clustering center is used in this paper. Firstly, the given training sets are compressed and the samples near by the border are deleted by the sample austerity process. Secondly, the training sample sets of each category are clustered by k-means clustering algorithm, and all cluster centers are taken as the new training samples. Thirdly, a weight value is introduced, which can indicate the importance of each training sample according to the number of samples in the cluster that contains this cluster center. Finally, the modified samples are used to accomplish KNN text classification. The system developed using Improved KNN method results average recall value of 95,56%, precision 94,98%, and the F-Measure value of 95,05%. The simulation results show that the Improved KNN method can not only effectively reduce the actual number of training samples and lower the calculation complexity, but also improve the accuracy of KNN text classification algorithm.

Other obstract

Item Type:	Thesis (Sarjana)
Identification Number:	SKR/MIPA/2010/281/051003262
Uncontrolled Keywords:	clustering, metode FCM, FPCM
Subjects:	500 Natural sciences and mathematics > 510 Mathematics
Divisions:	Fakultas Matematika dan Ilmu Pengetahuan Alam > Matematika
Depositing User:	Unnamed user with email repository.ub@ub.ac.id
Date Deposited:	08 Nov 2010 09:23
Last Modified:	25 Nov 2021 02:34
URI:	http://repository.ub.ac.id/id/eprint/152422

Preview

Text
051003261.pdf
Download (4MB) | Preview

Actions (login required)

View Item