Puspitasari, Arinda Ayu (2017) Klasifikasi Dokumen Tumbuhan Obat Menggunakan Metode Improved K-Nearest Neighbor. Sarjana thesis, Universitas Brawijaya.
Abstract
Tingkat pemanfaatan tumbuhan obat yang semakin tinggi memicu banyaknya penelitian terhadap tumbuhan obat. Penelitian-penelitian tersebut tentu memerlukan dokumentasi yang berisi informasi tentang tumbuhan obat. Dokumentasi yang banyak dan tersebar menyebabkan kesulitan dalam pencarian informasi seputar tumbuhan obat. Untuk mengatasi permasalahan tersebut dibutuhkan sebuah sistem yang dapat mengklasifikasikan dokumen tumbuhan obat secara otomatis agar pencarian informasi terkait dapat dilakukan dengan lebih efektif dan efisien. Salah satu metode yang sering digunakan dalam klasifikasi teks adalah k-Nearest Neighbor, tetapi memiliki kelemahan pada akurasi karena penggunaan nilai k yang sama pada semua kategori. Nilai k adalah jumlah data latih terdekat terhadap data uji. Untuk mengatasi permasalahan tersebut digunakan metode Improved k-Nearest Neighbour di mana nilai k akan disesuaikan dengan jumlah data latih yang dimiliki setiap kategori. Dari hasil pengujian pengaruh pertambahan nilai k diperoleh F1-measure sebesar 70,99%. Pengujian variasi data latih menunjukkan bahwa semakin besar jumlah data latih maka semakin tinggi nilai rata-rata akurasinya, sedangkan untuk pengujian data latih tidak seimbang diperoleh nilai F1-measure data latih seimbang 1,9% lebih baik dari data latih tidak seimbang.
English Abstract
The high utilization rates of medicinal plants is leading to increase the studies on it. Those studies certainly require documentation that contains information about medicinal plants. The large and scattered documentation cause difficulties in searching for information about medicinal plants. To overcome these problems a system that can classify the document automatically is needed to make the information search work more effective and efficient. K-Nearest Neighbor is the algorithm often used to classify text, but has a weakness in accuracy because of the fixed k values for each category. K values is the amount of the closest training data to the test data. Improved k-Nearest Neighbour is the algorithm used in this study to overcome the problem where the different k values will be applied based on the amount of the training data for each category. The average accuracy for the k values testing is 70,99%. The training data variation testing shows that the bigger amount of training data the higher average accuracy will be. The unbalanced data testing showed that the balance data training category has 1,9% better accuracy than the unbalanced category.
Item Type: | Thesis (Sarjana) |
---|---|
Identification Number: | SKR/FTIK/2017/374/051706887 |
Uncontrolled Keywords: | k-Nearest Neighbor, Improved k-Nearest Neighbor, text mining, tanaman obat, klasifikasi dokumen. |
Subjects: | 000 Computer science, information and general works > 005 Computer programming, programs, data > 005.2 Programming for specific types of computers, for specific operating systems, for specific user interfaces > 005.26 Programming for personal computers > 005.269 Programming for specific user interfaces |
Divisions: | Fakultas Ilmu Komputer > Teknik Informatika |
Depositing User: | Budi Wahyono Wahyono |
Date Deposited: | 16 Aug 2017 07:50 |
Last Modified: | 05 Nov 2024 02:45 |
URI: | http://repository.ub.ac.id/id/eprint/1412 |
Text
Arinda Ayu Puspitasari.pdf Download (6MB) |
Actions (login required)
View Item |