Pembentukan Daftar Stopword Menggunakan Zipf Law Dan Pembobotan Augmented TF – Probability IDF Pada Klasifikasi Dokumen Ulasan Produk

Sari, Destin Eva Dila Purnama (2020) Pembentukan Daftar Stopword Menggunakan Zipf Law Dan Pembobotan Augmented TF – Probability IDF Pada Klasifikasi Dokumen Ulasan Produk. Sarjana thesis, Universitas Brawijaya.

Abstract

Stopword merupakan suatu kata tidak penting yang terdapat di dalam kalimat. Stopword digunakan untuk membantu tahap preprocessing teks terutama dalam tahap stopword removal. Digital library sering digunakan dalam tahap ini untuk memperoleh daftar stopword. Namun tidak semua daftar stopword yang ada dalam digital library merupakan kata yang tidak penting dalam suatu data. Fokus utama dalam penelitian ini adalah mencari tahu pembentukan daftar stopword dan pembobotan kata dalam klasifikasi dokumen ulasan produk dengan menggunakan metode Zipf Law. Metode yang digunakan untuk pembobotan kata adalah Augmented Term Frequency – Probability Term Frequency. Proses klasifikasi dokumen bertujuan untuk mencari tahu pengaruh dari pembentukan daftar stopword dan pembobotan kata. Klasifikasi dokumen menggunakan algoritme Support Vector Machine dan Polynomial Kernel. Output yang dihasilkan berupa hasil akurasi klasifikasi. Berdasarkan hasil akurasi klasifikasi, terdapat pengaruh pembentukan daftar stopword dan pembobotan kata terhadap hasil klasifikasi. Hasil akurasi terbaik dari klasifikasi dokumen terdapat pada saat persentase 15% untuk pembentukan daftar stopword yang diambil dari term yang memiliki hasil konstanta rendah. Akurasi yang dihasilkan terdiri dari nilai precision sebesar 0,73, nilai recall sebesar 0,7 dan nilai f-measure sebesar 0,63.

English Abstract

Stopword is an insignificant word contained in a sentence. Stopword was used to help the text preprocessing stage, especially in the stopword removal stage. Digital library was often used at this stage to get a stopword list. However, not all stopword lists in the digital library were words that were not important in the data. The main focus in this research was to find out forming stopword list and word weighting on the document classification of product review using the Zipf Law method. The method used for word weighting was Augmented Term Frequency - Probability Inverse Document Frequency. The document classification process aimed to find out the effect of forming stopword list and word weighting. Document classification using the Support Vector Machine algorithm and Polynomial Kernel. The output of the research was the result of classification accuracy. Based on the result of classification accuracy, there was an effect of forming a stopword list and weighting of words on the classification result. The best accuracy result of the document classification was found at a percentage of 15% for forming stopword list taken from term that has low constant result. The resulting accuracy consisted of a precision value of 0.73, a recall value of 0.7 and a f-measure value of 0.63.

Other obstract

-

Item Type: Thesis (Sarjana)
Identification Number: SKR/FILKOM/2020/17/052002979
Uncontrolled Keywords: Pembentukan Stopword, Zipf Law, Augmented Term Frequency – Probability Term Frequency, Forming a Stopword, Zipf Law, Augmented Term Frequency - Probability Term Frequency
Subjects: 000 Computer science, information and general works > 001 Knowledge > 001.012 Classification
Divisions: Fakultas Ilmu Komputer > Teknik Informatika
Depositing User: Budi Wahyono Wahyono
Date Deposited: 01 Aug 2020 08:57
Last Modified: 08 Oct 2024 02:06
URI: http://repository.ub.ac.id/id/eprint/180474
[thumbnail of Destin Eva Dila Purnama Sari ..pdf] Text
Destin Eva Dila Purnama Sari ..pdf

Download (5MB)

Actions (login required)

View Item View Item