Ramadhan, Randy and Yuita Arum Sari,, S.Kom., M.Kom and Putra Pandu Adikara,, S.Kom., M.Kom (2021) Perbandingan Pembobotan Term Frequencyinverse Document Frequency Dan Term Frequency-Relevance Frequency Terhadap Fitur N-Gram Pada Analisis Sentimen. Sarjana thesis, Universitas Brawijaya.
Abstract
Analisis sentimen merupakan salah satu metode yang digunakan untuk mengekstrak sentimen dalam kalimat berdasarkan isinya. Analisis sentimen merupakan salah satu metode dalam text mining yang menggunakan proses text preprocessing yang setelahnya terdapat suatu proses yaitu pembobotan kata. Term Frequency-Inverse Document Frequency (TF-IDF) merupakan metode pembobotan kata yang paling populer dari kategori unsupervised term weighting yang dilansir tidak cocok untuk melakukan pengelompokan teks. Term Frequency- Relevance Frequency (TF-RF) merupakan metode penggabungan antara TF dan RF dengan tujuan untuk mendapatkan performansi yang lebih baik, metode ini berfokus pada seluruh dokumen yang mengandung term atau tidak mengandung term. Twitter merupakan tempat untuk masyarakat mencurahkan isi pikiran tentang pandemi yang dialami. Ulasan tentang hal karyawan dirumahkan pada Twitter perlu diklasifikasikan menjadi ulasan positif, negatif, dan netral, yang berguna untuk menjadi pertimbangan perusahaan dan pemerintah untuk melakukan keputusan dalam kebijakan PSBB. Terdapat beberapa tahap penelitian ini yaitu preprocessing untuk pemrosesan dokumen, dan menggunakan fitur unigram dan bigram serta pembobotan kata menggunakan metode TF-IDF dan TFRF dalam klasifikasi menggunakan metode klasifikasi K-Nearest Neighbor. Data yang digunakan sebanyak 246 data latih dan 90 data uji. Hasil terbaik dari perbandingan evaluasi yang didapatkan adalah dengan menggunakan pembobotan kata TF.RF dengan fitur unigram pada klasifikasi KNN dengan nilai K = 3 yaitu accuracy sebesar 0,677, precision sebesar 0,526, recall sebesar 0,654, dan f-measure sebesar 0,583. Nilai bigram tidak berpengaruh besar dalam penelitian ini dikarenakan nilai f-measure terbaik didapatkan bigram dengan nilai 0,591, serta nilai unigram terbaik dengan nilai 0,583.
English Abstract
Sentiment analysis is a method used to extract sentiments in sentences based on their content. Sentiment analysis is a method in text mining that uses a text preprocessing process after which there is a process, namely word weighting. Term Frequency-Inverse Document Frequency (TF-IDF) is the most popular wordweighting method from the unsupervised term weighting category reported which is not suitable for grouping texts. Term Frequency-Relevance Frequency (TF-RF) is a method of combining TF and RF with the aim of getting better performance, this method focuses on all documents that contain terms or do not contain terms. Twitter is a place for people to express their thoughts about the pandemic they are experiencing. Reviews about employees being sent home on Twitter need to be classified into positive, negative, and neutral reviews, which are useful for companies and government consideration to make decisions in PSBB policies. There are several stages of this research, namely preprocessing for document processing, and using unigram and bigram features as well as word weighting using the TF-IDF and TF-RF methods in classification using the K-Nearest Neighbor classification method. The data used were 246 training data and 90 test data. The best results from the evaluation comparisons obtained are using TF.RF word weighting with the unigram feature in the KNN classification with a value of K = 3, namely accuracy of 0.677, precision of 0.526, recall of 0.654, and f-measure of 0.583. Bigram value does not have a big effect in this study because the best fmeasure value is obtained Bigram with a value of 0.591, and the best unigram value is with a value of 0.583.
Item Type: | Thesis (Sarjana) |
---|---|
Identification Number: | 052115 |
Uncontrolled Keywords: | Analisis sentimen, karyawan dirumahkan, TF.IDF, TF.RF, unigram, bigram, KNN, sentiment analysis, dismissed employees, TF.IDF, TF.RF, unigram, bigram, KNN. |
Subjects: | 000 Computer science, information and general works > 004 Computer science |
Divisions: | Fakultas Ilmu Komputer > Teknik Informatika |
Depositing User: | PKN 03 UB |
Date Deposited: | 09 Jun 2023 06:21 |
Last Modified: | 17 Oct 2024 02:42 |
URI: | http://repository.ub.ac.id/id/eprint/201328 |
Text
Randy Ramadhan..pdf Download (3MB) |
Actions (login required)
View Item |