Penerapan Algoritma Improved KNearst Neighbors untuk Pengkategorian Dokumen Berita Berbahasa Indonesia

Diana, WidiaNur (2011) Penerapan Algoritma Improved KNearst Neighbors untuk Pengkategorian Dokumen Berita Berbahasa Indonesia. Sarjana thesis, Universitas Brawijaya.

Abstract

Pada algoritma k-NN (k-NN Tradisional) dalam melakukan kategorisasi terhadap suatu dokumen dilakukan perhitungan nilai similaritas antara dokumen uji dengan dokumen latih. Kategori untuk dokumen uji ditunjukkan dari nilai similaritas sejumlah k (k-values) terbesar Sehingga performa dari algoritma k-NN sangat dipengaruhi oleh kvalues yang digunakan. Ketika ditetapkan k-values yang terlalu kecil, dihasilkan akurasi yang rendah karena hasil kategorisasi akan lebih terpengaruh dengan noise. Penetapan k-values yang tinggi dapat mengurangi efek noise dalam kategorisasi, tetapi membuat akurasi menjadi rendah karena hasil kategorisasi lebih terpengaruh dengan kategori yang memiliki jumlah dokumen latih lebih besar. Sedangkan distribusi dokumen latih ditiap kategori pada tidak sama, sehingga seiiring meningkatnya k-values yang digunakan membuat menurunnya hasil akurasi pada kategori yang memiliki jumlah dokumen latih lebih kecil. Untuk mengatasi permasalahan menurunnya hasil akurasi, maka diterapkan algoritma Improved K-Nearst Neighbors. Pada algoritma Improved K-Nearst Neighbors dilakukan proporsi terhadap k-values yang digunakan. Proporsi k-values baru (nilai n) disesuaikan dengan jumlah dokumen pada tiap-tiap kategori. Sistem pengkategorian berita menggunakan algoritma Improved KNearst Neighbors memiliki nilai F-Measure sebesar 95,41%. K-values optimal diperoleh pada k = 5 dengan prosentase keberhasilan sebesar 96,17%. Berdasarkan percobaan yang telah dilakukan, menunjukkan bahwa sistem pengkategorian berita menggunakan algoritma Improved K-Nearst Neighbors mempunyai performa sistem (F-Measure) 3.09% lebih baik seiiring dengan variasi k-values yang digunakan dibandingkan dengan menggunakan algoritma k-NN (k-NN Tradisional)

Item Type: Thesis (Sarjana)
Identification Number: SKR/MIPA/2011/185/051103083
Subjects: 500 Natural sciences and mathematics > 510 Mathematics
Divisions: Fakultas Matematika dan Ilmu Pengetahuan Alam > Matematika
Depositing User: Unnamed user with email repository.ub@ub.ac.id
Date Deposited: 03 Aug 2011 09:44
Last Modified: 22 Oct 2021 07:40
URI: http://repository.ub.ac.id/id/eprint/152640
[thumbnail of 051103083.pdf]
Preview
Text
051103083.pdf

Download (3MB) | Preview

Actions (login required)

View Item View Item