Suhermawan, . and Ir. Indriati,, S.T., M.Kom and Dr. Lailil Muflikhah,, S.Kom., M.Sc. (2024) Klasifikasi Dokumen Berita Berbahasa Indonesia Menggunakan K-Nearest Neigbours. Sarjana thesis, Universitas Brawijaya.
Abstract
Salah satu definisi berita adalah informasi tercepat yang mengandung ide baru atau fakta yang dimana ide dan fakta tersebut menarik perhatian sebagian besar orang. Dengan berkembang pesatnya dunia teknologi informasi, jumlah dokumen teks digital pun semakin berkembang. Oleh karenanya terciptalah sebuah cabang ilmu yang mencari berbagai informasi secara online. Jumlah dokumen berita yang dibuat oleh media online terus meningkat dengan cepat di era informasi digital saat ini. Sangat sulit untuk mengelola dan mengklasifikasikan banyak dokumen yang beragam. Oleh karena itu, untuk mengotomatisasi proses tersebut, penggunaan pemrosesan bahasa alami dan kecerdasan buatan sangat penting. Pada berita online terdapat kategori yang mengelompokkan tema berita berdasarkan informasi yang dimuat didalam berita. Dalam dunia teknologi informasi, untuk menentukan kelompok dari dataset sebuah dokumen berita digunakanlah teknik klastering. Untuk mengatasi masalah yang sudah dibahas sebelumnya, maka digunakanlah Text Mining. Dalam Text Mining terdapat sebuah metode untuk mengkategorikan atau memberikan kelas pada sebuah dokumen yaitu Klasifikasi dokumen. Proses dimulai dengan melakukan preprocessing data, menghitung bobot menggunakan tf-idf hasilnya digunakan untuk menghitung nilai Cosine Similarity, dan terakhir Klasifikasi dokumen menggunakan K-Nearest Neigbours. Penelitian ini menggunakan 1000 dataset teks dokumen berita yang sudah diberi label berdasarkan kategorinya. Pengujian pada penelitian ini menggunakan K-fold cross validation dengan nilai fold sebanyak 5. Dari hasil penelitian didapatkan hasil nilai tertinggi pada nilai ketetanggan (k) bernilai 200, dengan nilai precision = 0.374534331, recall = 0.395, f-measure = 0.340906899 dan accuracy = 0.395. Untuk nilai terkecil didapatkan pada nilai ketetangaan (k) bernilai 20, dengan nilai precision = 0.323956966, recall = 0.348, f-measure = 0.321993557 dan accuracy = 0.348.
English Abstract
One of the definitions of news is the fastest information that contains new ideas or facts where these ideas and facts attract the attention of most people. With the rapid development of the world of information technology, the number of digital text documents is also growing. Hence the creation of a branch of science that searches for various information online. The number of news documents created by online media continues to increase rapidly in today's digital information age. It is very difficult to manage and classify many diverse documents. Therefore, to automate the process, the use of natural language processing and artificial intelligence is essential. In online news, there are categories that group news themes based on the information contained in the news. In the world of information technology, clustering techniques are used to determine the groups of a dataset of news documents. To overcome the problems discussed earlier, Text Mining is used. In Text Mining, there is a method to categorize or give a class to a document, namely document classification. The process begins by preprocessing the data, calculating the weight using tf-idf, the results are used to calculate the Cosine Similarity value, and finally the document classification using K-Nearest Neigbors. This research uses 1000 datasets of news document texts that have been labeled based on their categories. From the results of the study, the highest value was obtained at a neighboring value (k) of 200, with a value of precision = 0.374534331, recall = 0.395, f-measure = 0.340906899 and accuracy = 0.395. For the smallest value obtained at the value of neighborliness (k) worth 20, with a value of precision = 0.323956966, recall = 0.348, f-measure = 0.321993557 and accuracy = 0.348.
Item Type: | Thesis (Sarjana) |
---|---|
Identification Number: | 052415 |
Uncontrolled Keywords: | Classification, Pre-processing text, K-Nearest Neigbours, K-fold cross validation |
Divisions: | Fakultas Ilmu Komputer > Teknik Informatika |
Depositing User: | Unnamed user with username nova |
Date Deposited: | 07 Mar 2024 03:52 |
Last Modified: | 07 Mar 2024 03:52 |
URI: | http://repository.ub.ac.id/id/eprint/216960 |
![]() |
Text (DALAM MASA EMBARGO)
SUHERMAWAN.pdf Restricted to Registered users only Download (7MB) |
Actions (login required)
![]() |
View Item |