Klasifikasi Ujaran Kebencian Pada Twitter Menggunakan Metode Naive Bayes Berbasis N-gram dan Seleksi Fitur Information Gain.

Hakiem, Muhammad (2018) Klasifikasi Ujaran Kebencian Pada Twitter Menggunakan Metode Naive Bayes Berbasis N-gram dan Seleksi Fitur Information Gain. Sarjana thesis, Universitas Brawijaya.

Abstract

Ujaran kebencian atau hate speech adalah salah satu topik yang sering dibahas di bidang teknologi informasi. Ujaran kebencian banyak digunakan oleh orang-orang yang tidak suka atau benci terhadap seseorang maupun suatu kelompok. Orang menyatakan sebuah ujaran kebencian biasanya dilakukan dengan cara menulisnya di sosial media. Salah satu sosial media yang sering digunakan seseorang untuk menyebarkan ujaran kebencian adalah Twitter. Seseorang dapat menyebarkan ujaran kebencian di Twitter dengan mudah karena tweet yang ditulis tersebut dianggap hanya seperti tweet biasa saja oleh Twitter. Oleh karena itu dibutuhkan klasifikasi ujaran kebencian agar dapat mengurangi penyebaran ujaran kebencian. Metode yang digunakan dalam penelitian ini adalah Naïve Bayes berbasis N-gram dan seleksi fitur Information Gain. Fitur n-gram yang digunakan pada penelitian ini adalah fitur Unigram, Bigram, dan kombinasi unigram-bigram. Data yang digunakan pada penelitian ini berjumlah 250 data berlabel ujaran kebencian dan 250 data berlabel bukan ujaran kebencian dengan perbandingan 80% untuk data latih dan 20% untuk data uji. Hasil akurasi terbaik yang didapat pada penelitian ini adalah dengan menggunakan fitur Unigram dan nilai threshold seleksi fitur Information Gain yang digunakan adalah 100%. Hasil akurasi terbaik yang didapat adalah 84%, nilai precision 92%, nilai recall 79,31%, dan nilaif-measure 85,18%. Berdasarkan hasil yang didapat tersebut dapat diambil kesimpulan bahwa untuk melakukan klasifikasi ujaran kebencian pada Twitter menggunakan Naïve Bayes mendapat hasil paling bagus dengan fitur Unigram dan tanpa melakukan seleksi fitur Information Gain.

English Abstract

Hate speech is one of the topics that often discussed in information technology. Hate speech has been usually used by the people that don't like or hate with someone or a group. People stated their hate speech with post it in social media. One of the most used social media to spread the hate speech is Twitter. Someone can spread hate speech in Twitter easily because the tweet that they post only considered as a normal tweet by Twitter. Because of that hate speech identification is needed to decrease the spread of hate speech. The method used in this research is Naïve Bayes based on N-gram and feature selection Information Gain. N-gram features that used in this research are Unigram, Bigram, and combination unigram-bigram. 250 data are used in this research with hate speech label and 250 data with non hate speech label and have 80% proportion for data training and 20% for data testing. The best accuracy results in this research come from Unigram feature and without feature selection Information Gain. The best accuracy result is 84%, precision value 92%, recall value 79,31%, and f-measure value 85,18%. Based on the results obtained it can be concluded that to classify hate speech in Twitter using Naïve Bayes has the best result with Unigram feature and without using feature selection Information Gain.

Item Type: Thesis (Sarjana)
Identification Number: SKR/FTIK/2018/1026/051900822
Uncontrolled Keywords: Ujaran Kebencian, Twitter, Naïve Bayes, N-gram, Information Gain -Hate Speech, Twitter, Naïve Bayes, N-gram, Information Gain
Subjects: 500 Natural sciences and mathematics > 551 Geology, hydrology, meteorology > 551.5 Meteorology > 551.553 Tornadoes
Divisions: Fakultas Ilmu Komputer > Teknik Informatika
Depositing User: soegeng sugeng
Date Deposited: 19 Apr 2020 03:51
Last Modified: 03 Dec 2021 07:03
URI: http://repository.ub.ac.id/id/eprint/166793
[thumbnail of Muhammad Hakiem.pdf]
Preview
Text
Muhammad Hakiem.pdf

Download (29MB) | Preview

Actions (login required)

View Item View Item