Klasifikasi Tweets Pada Twitter Menggunakan Metode K-Nearest Neighbour (K-NN) Dengan Pembobotan TF-IDF

Satrio, Rakhman Halim (2019) Klasifikasi Tweets Pada Twitter Menggunakan Metode K-Nearest Neighbour (K-NN) Dengan Pembobotan TF-IDF. Sarjana thesis, Universitas Brawijaya.

Abstract

Twitter merupakan mikroblog yang sedang digemari oleh banyak orang dan berubah menjadi penyebar informasi yang sangat cepat saat ini. Informasi yang dihasilkan dan beredar melalui media ini sangat bebas dan beragam seperti berita, pertanyaan, opini, komentar, kritik baik yang bersifat positif maupun negatif. Klasifikasi merupakan semacam proses pada penambangan teks yang menggolongkan konten tertentu mengacu pada kesamaan skripnya. Dengan proses ini mengizinkan tweets tertentu yang berada pada Twitter digolongkan jadi satu bersumber pada kategorinya. Misalkan, berita sepakbola, voli, dan sepak takraw tergolong pada kategori olahraga. Proses pada klasifikasi diawali dengan preprocessing, dilanjutkan dengan pembobotan kata, kemudian kategorisasi yang terdiri dari penghitungan cosine similarity. Preprocessing sendiri terdiri dari beberapa tahap yaitu pembersihan dokumen, tokenizing, stopword removal, dan stemming. Metode pembobotan kata yang digunakan pada skripsi ini adalah Term Frequency–Inverse Document Frequency (TF-IDF) dan menggunakan K-Nearest Neighbor (K-NN) sebagai metode klasifikasinya. Metode K-NN merupakan klasifikasi terhadap sekumpulan data berdasarkan pembelajaran data yang sudah terklasifikasikan sebelumya. Kategori yang digunakan diantaranya ekonomi, kesehatan, olahraga, otomotif dan teknologi. Pengujian akurasi dari klasifikasi tweets pada Twitter dengan menggunakan metode K-Nearest Neighbor (K-NN) menghasilkan akurasi dimana total data berjumlah 140, dengan uraian 100 data latih dan 40 data uji serta nilai k yang dimasukkan adalah 1, 3, 5, dan 7, masing-masing hasilnya k = 1, akurasi sebesar 75,0%; k = 3, akurasi sebesar 72,5%; k = 5, akurasi sebesar 62,5%; k = 7, akurasi sebesar 55,0%.

English Abstract

Twitter is a microblog that is currently favored by many people and has turned out to be a very fast spreader of information at this time. Information generated and circulated through this media is very free and diverse, such as news, questions, opinions, comments, criticisms both positive and negative. Classification is a technique in text mining that classifies a content based on the similarity of the text. With this classification allows a tweets on Twitter to be grouped into one based on the category. For example, football, basketball and chess content are grouped into sports categories. The process of classification begins with preprocessing, followed by weighting words, then categorization which consists of calculating cosine similarity. Preprocessing itself consists of several phases, that is document cleaning, tokenizing, stopword removal, and stemming. The word weighting method used in this thesis is Term Frequency-Inverse Document Frequency (TF-IDF) and uses K-Nearest Neighbor (K-NN) as its classification method. The KNN method is a classification of a set of data based on data learning that has been previously classified. Categories used include economics, health, sports, automotive and technology. Accuracy testing of the classification of tweets on Twitter using the K-Nearest Neighbor (K-NN) method resulted in accuracy where the total data amounted to 140, with descriptions of 100 training data and 40 testing data and the values of k entered were 3, 5, and 8, each the result is when k = 1, the accuration is 75.0%; k = 3, accuration is 72.5%; k = 5, accuration is 62.5%; k = 7, accuration is 55.0%.

Other obstract

-

Item Type: Thesis (Sarjana)
Identification Number: SKR/FILKOM/2019/653/051907845
Uncontrolled Keywords: K-Nearest Neighbor (KNN), Text Mining, Preprocessing
Subjects: 000 Computer science, information and general works > 001 Knowledge > 001.012 Classification
Divisions: Fakultas Ilmu Komputer > Teknik Informatika
Depositing User: Budi Wahyono Wahyono
Date Deposited: 01 Aug 2020 08:55
Last Modified: 09 Mar 2022 03:36
URI: http://repository.ub.ac.id/id/eprint/174086
[thumbnail of Rakhman Halim Satrio  (2)ok.pdf]
Preview
Text
Rakhman Halim Satrio (2)ok.pdf

Download (3MB) | Preview

Actions (login required)

View Item View Item