Klasifikasi Tweet Berbahasa Indonesia Berisi Ujaran Kebencian Menggunakan Metode Improved K-Nearest Neighbor dengan Pembobotan BM25F

Febrianti, Nurdifa (2020) Klasifikasi Tweet Berbahasa Indonesia Berisi Ujaran Kebencian Menggunakan Metode Improved K-Nearest Neighbor dengan Pembobotan BM25F. Sarjana thesis, Universitas Brawijaya.

Abstract

Ujaran kebencian adalah tindakan kebencian verbal yang menargetkan sekelompok orang atau bagian dari komunitas tertentu berdasarkan ras, warna kulit, agama/keyakinan, jenis kelamin, kemampuan fisik, orientasi seksual, garis keturunan, negara dan suku asal, atau bahkan pandangan politik. Di Indonesia, ujaran kebencian semakin banyak ditemukan, terutama pada media sosial berbasis utama teks seperti Twitter. Sehingga menginspirasi ditulisnya penelitian ini, untuk mengidentifikasi ujaran kebencian di Twitter dengan klasifikasi tweet, khususnya yang berbahasa Indonesia. Penulis memilih menggunakan Improved K-Nearest Neighbor dengan menggunakan pembobotan kata BM25F, yaitu pembobotan yang mempertimbangkan field/stream dalam dokumen. Sehingga tweet yang dipilih sebagai dokumen latih dan dokumen uji penelitian, terdiri atas 2 stream, yaitu tweet dan hashtag atau tagar (tanda pagar). Dilakukan pengujian K-Fold Cross Validation (dengan K = 5) terhadap parameter untuk klasifikasi IKNN, serta parameter , , dan untuk pembobotan BM25F, dengan 400 dokumen latih dan 100 dokumen uji. Hasil pengujian menunjukkan bahwa penentuan nilai bobot stream pada BM25F cukup mempengaruhi hasil klasifikasi IKNN. Sedangkan hasil akhir terbaik untuk F-Measure, Accuracy, Precision, dan Recall dari rerata 5-Fold Cross Validation yang didapatkan adalah 79,77%, 68,80%, 68,80%, dan 89,92% dengan = 70, = 0,6, = 2, = 5 dan = 2 sebagai nilai terbaik untuk masing-masing parameternya.

English Abstract

Hate speech is a verbal hatred act that targets a group of people or parts of a particular community based on race, color, religion/beliefs, gender, physical ability, sexual orientation, lineage, country and ethnic origin, or even political views. In Indonesia, hate speech is increasingly found, especially on text-based social media such as Twitter. So that inspired the writing of this research, to identify hate speech on Twitter with the classification of tweets, especially those in Indonesian. The author chooses to use Improved K-Nearest Neighbor by using the BM25F term weighting, which is a weighting that considers the fields / streams in the document. So the tweet chosen as a training and testing document, consists of 2 streams, the tweet and the hashtag. K-Fold Cross Validation testing (with K = 5) was performed on the parameter for IKNN classification, , , and for BM25F weighting, with 400 training documents and 100 test documents. The test results show that the determination of stream weight values on BM25F sufficiently influences the results of the IKNN classification. Meanwhile the best final results for the F-Measure, Accuracy, Precision, and Recall of the average 5-Fold Cross Validation obtained were 79.77%, 68.80%, 68.80%, and 89.92% with = 70, = 0.6, = 2, = 5 and = 2 as the best value for each parameter

Other obstract

-

Item Type: Thesis (Sarjana)
Identification Number: SKR/FILKOM/2020/236/052003426
Uncontrolled Keywords: Ujaran Kebencian, Tweet, Hashtag, Improved K-Nearest Neighbor, BM25F, Hate Speech, Tweet, Hashtag, Improved K-Nearest Neighbor, BM25F
Subjects: 000 Computer science, information and general works > 001 Knowledge > 001.012 Classification
Divisions: Fakultas Ilmu Komputer > Teknik Informatika
Depositing User: Budi Wahyono Wahyono
Date Deposited: 05 Aug 2020 08:22
Last Modified: 11 Apr 2023 03:52
URI: http://repository.ub.ac.id/id/eprint/180991
[thumbnail of DALAM MASA EMBARGO] Text (DALAM MASA EMBARGO)
Nurdifa Febrianti.pdf
Restricted to Registered users only until 31 December 2023.

Download (7MB)

Actions (login required)

View Item View Item