Klasifikasi Hate Speech Berbahasa Indonesia di Twitter Menggunakan Metode Naive Bayes dan Seleksi Fitur Information Gain dengan Normalisasi Kata

-, Ivan (2019) Klasifikasi Hate Speech Berbahasa Indonesia di Twitter Menggunakan Metode Naive Bayes dan Seleksi Fitur Information Gain dengan Normalisasi Kata. Sarjana thesis, Universitas Brawijaya.

Abstract

Hate speech atau ujaran kebencian adalah tindakan yang sering dilakukan oleh sebagian kelompok di masyarakat untuk memprovokasi kebencian dan tindakan kekerasan terhadap seseorang atau kelompok lain karena berbagai alasan. Kasus hate speech sangat sering kita jumpai di media sosial, salah satunya di Twitter. Tujuan penelitian ini adalah untuk membuat sebuah sistem yang mampu mengklasifikasikan sebuah tweet pada Twitter ke dalam kelas hate speech ataupun kelas non hate speech. Metode yang digunakan adalah Naïve Bayes dan seleksi fitur Information Gain dengan normalisasi kata. Normalisasi kata digunakan untuk mengatasi permasalahan pada Twitter seperti banyaknya penyingkatan kata, penggunaan bahasa gaul, kesalahan eja, dan penggunaan bahasa yang tidak sesuai dengan standar yang ada. Normalisasi kata yang digunakan berasal dari Pujangga Indonesian Natural Language Processing REST API. Data yang digunakan pada penelitian ini berjumlah 250 data tweet hate speech berbahasa Indonesia dengan perbandingan 80% untuk data latih dan 20% untuk data uji. Threshold yang digunakan pada penelitian ini adalah sebesar 20%, 40%, 60%, 80%, dan 90%. Threshold adalah ambang batas yang ditentukan untuk menyimpan kumpulan term atau kumpulan kata yang akan digunakan untuk menyeleksi kata-kata yang memiliki nilai tinggi pada proses seleksi fitur Information Gain. Hasil akurasi terbaik diperoleh dengan menggunakan normalisasi kata pada tahap pre-processing dan menggunakan seleksi fitur Information Gain dengan threshold 80%. Hasil akurasi terbaik yang didapatkan adalah sebesar 98%, nilai precision sebesar 100%, nilai recall sebesar 96,15%, dan nilai f-measure sebesar 98,03%. Berdasarkan hasil yang diperoleh, dapat diambil kesimpulan bahwa pada saat melakukan klasifikasi hate speech berbahasa Indonesia di Twitter menggunakan Naïve Bayes dan seleksi fitur Information Gain dengan normalisasi kata mampu meningkatkan hasil akurasi menjadi lebih baik.

English Abstract

Hate speech is an action often carried out by some groups in the community to provoke hatred and acts of violence against other people or other group for varios reasons. The cases of hate speech are very often encountered on social media, one of which is on Twitter. The purpose of this study is to create a system that is able to classify a tweet on Twitter into a class of hate speech or non hate speech. The method used in this study is Naïve Bayes and Information Gain feature selection with word normalization. Word normalization is used to solve problems on Twitter such as the number of words abbreviated, the use of slang, misspellings, and the use of languages that are not in accordance with existing standards.Word normalization comes from Indonesian Natural Language Processing REST API. The data used in this study were 250 data tweets of hate speech in Indonesian with a ratio of 80% for training data and 20% for testing data. The threshold used in this study is 20%, 40%, 60%, 80%, and 90%. Threshold is a limit that is determined to store a collection of terms or a collection of words that will be used to select words that have high values in the Information Gain feature selection process. The best accuracy results obtained by using word normalization in the pre-processing stage and using Information Gain feature selection with an 80% threshold. The best accuracy result is 98%, precision value is 100%, recall value is 96.15%, and f-measure value is 98.03%. Based on the results obtained, it can be concluded that when doing hate speech classifications in Indonesian on Twitter using Naïve Bayes and Information Gain feature selection with word normalization can improve better accuracy of the results.

Item Type: Thesis (Sarjana)
Identification Number: SKR/FILKOM/2019/35/051902205
Uncontrolled Keywords: Hate speech, Twitter, Naïve Bayes, Threshold, Information Gain, Normalisasi
Subjects: 400 Language > 401 Philosophy and theory; international languages > 401.4 Communication; semantics, pragmatics, languages for special purposes > 401.47 Languages for special purposes
Divisions: Fakultas Ilmu Komputer > Teknik Informatika
Depositing User: soegeng sugeng
Date Deposited: 18 Jul 2020 03:13
Last Modified: 19 Oct 2021 09:21
URI: http://repository.ub.ac.id/id/eprint/168869
[thumbnail of Ivan.pdf]
Preview
Text
Ivan.pdf

Download (3MB) | Preview

Actions (login required)

View Item View Item