Rozi, ImamFahrur (2012) Implementasi Opinion Mining (Sentiment Analysis) untuk Ekstraksi Data Opini Publik pada Perguruan Tinggi. Magister thesis, Universitas Brawijaya.
Abstract
Sentiment analysis atau opinion mining merupakan topik riset yang penting dan sedang marak diteliti saat ini. Opinion mining merupakan cabang dari text mining . Fokus dari opinion mining adalah melakukan analisis opini dari suatu dokumen teks. Dalam dunia bisnis, opinion mining banyak digunakan untuk menganalisis secara otomatis opini pelanggan tentang produk dan pelayanannya. Pada penelitian ini dikembangkan sistem opinion mining untuk menganalisis opini publik pada perguruan tinggi. Sistem dirancang sebagai aplikasi berbasis web dengan memiliki tiga subproses yaitu, document subjectivity (deteksi opini), opinion orientation (klasifikasi orientasi opini negatif dan positif) dan target detection (deteksi objek yang menjadi target opini). Pada subproses document subjectivity dan target detection digunakan Part-of-Speech (POS) Tagging menggunakan Hidden Markov Model (HMM). Dari POS Tagging akan dihasilkan kalimat yang sudah diberikan tag (kelas kata) pada masing-masing kata penyusun kalimat tersebut. Pada hasil proses POS Tagging kemudian diterapkan rule untuk mengetahui apakah suatu dokumen termasuk opini atau bukan, serta untuk mengetahui bagian kalimat mana yang merupakan objek yang menjadi target opini. Rule yang digunakan dalam penelitian ini didapatkan dari hasil observasi peneliti terhadap susunan kalimat-kalimat opini. Dokumen yang dikenali sebagai opini selanjutnya akan diklasifikasikan ke dalam opini negatif dan positif (subproses opinion orientation ) menggunakan Naïve Bayes Classifier (NBC). Pada proses training HMM digunakan tagged dataset (corpus) hasil penelitian sebelumnya. Tagged corpus berupa kumpulan kalimat yang telah diberikan tag pada setiap kata penyusunnya. Sedangkan pada proses training NBC digunakan opinion dataset yang dikumpulkan menggunakan kuisioner online sejumlah 575 data opini . Opinion dataset berupa kumpulan teks opini yang telah diklasifikasikan ke dalam klasifikasi negatif. Dari proses training HMM akan dihasilkan model probabilistik yang akan dijadikan acuan dalam proses tagging. Sedangkan dari proses training NBC akan dihasilkan model probabilistik sebagai acuan proses klasifikasi suatu teks opini. Parameter uji yang digunakan dalam penelitian ini adalah precission dan recall. Nilai precission dan recall menunjukkan akurasi sistem yang dibangun. Pada pengujian subproses document subjectivity dan target detection digunakan dua macam dataset POS Tagging, yaitu dataset dari UI dan dataset hasil modifikasi peneliti terhadap hasil penelitian sebelumnya. Pada kedua pengujian tersebut digunakan 575 data opini yang juga digunakan sebagai dataset untuk proses training NBC. Dengan menggunakan dataset dari UI, didapatkan nilai precission dan recall untuk subproses document subjectivity adalah 0.99 dan 0.72. Jika menggunakan dataset hasil modifikasi peneliti dihasilkan precission 0.99 dan recall 0.88. Pada pengujian subproses target detection , dengan menggunakan dataset dari UI didapatkan nilai precission berkisar 0.92 dan recall berkisar 0.93. Jika menggunakan dataset hasil modifikasi peneliti dihasilkann nilai precission 0.99 dan recall 0.97. Pada proses pengujian opinion orientation digunakan 87 data uji opini yang belum diklasifikasikan negatif atau positif. Data tersebut juga dikumpulkan melalui kuisioner online . Dari proses pegujian subproses opinion orientation didapatkan nilai precission dan recall sebesar 0.95 dan 0.94. Mengacu dari nilai precission dan recall yang didapatkan dari hasil pengujian, dapat dikatakan bahwa secara kualitatif akurasi sistem adalah baik.
English Abstract
Sentiment analysis or opinion mining as a branch of text mining, is an important research topic. It aims to analyze opinion data inside the text document. Opinion mining could support business activity by automatically analyzing consumer opinion data on its products or its services. This research aimed to develop computerized opinion mining system to automatically analyze public opinion data in a university. It was designed as web based application, so that this application could be accessed via internet. It contains three main subprocesses, they were document subjectivity detection, opinion orientation and opinion target detection. Both of document subjectivity and target detection subprocesses were developed using Part-of-Speech (POS) Tagging based on Hidden Markov Model (HMM). Then, some rules were implemented on the result of POS Tagging. The rules detected the document which its structure were proper to be classified as opinion. Also it detected the words or phrases as opinion target. Rules were formulated from the observation result on the structure of opinion sentences. Then, the documents which were detected by system as opinion were categorized as positive or negative one by using Naïve Bayes Classifier (NBC). Tagged dataset or corpus used in HMM training were obtained from previous research result. Tagged corpus is a collection of sentences that have been given the tag on each words inside it. Also NBC used collection of opinion sentences which have been classified as negative or positive one as classification opinion dataset. There were 575 opinion data in the opinion dataset collected using an online questionnaire. HMM training produced probabilistic model used as a reference in the tagging process. While NBC training produced probabilistic model used as a reference in opinion classification process. Two evaluation methods used in this research were precission and recall. Two kinds of POS Tagging dataset used in document subjectivity and target detection evaluation were UI dataset and researcher modified dataset. There were 575 opinion data used to evaluate both of subprocess document subjectivity and target detection. They were also used as opinion dataset in NBC training process. By using UI dataset, precission and recall values obtained from the document subjectivity evaluation process were 0.99 and 0.72 respectively, while by using researcher modified dataset they were 0.99 and 0.88 respectively. Same evaluation procedure was also attempted in the target detection subprocess. By using UI dataset, precission and recall values obtained from the target detection evaluation process were 0.92 and 0.93 respectively, while by using researcher modified dataset they were 0.99 and 0.97 respectively. The different data used in the subprocess opinion orientation evaluation. There were 87 opinion data that have not been classified as negative or positive opinion. By using the data, the opinion orientation evaluation produced a precission value of 0.95 and a recall vale of 0.94.
Item Type: | Thesis (Magister) |
---|---|
Identification Number: | TES/006.31/ROZ/i/041204114 |
Subjects: | 000 Computer science, information and general works > 006 Special computer methods > 006.3 Artificial intelligence |
Divisions: | S2/S3 > Magister Teknik Elektro, Fakultas Teknik |
Depositing User: | Endro Setyobudi |
Date Deposited: | 28 May 2013 14:44 |
Last Modified: | 28 May 2013 14:44 |
URI: | http://repository.ub.ac.id/id/eprint/155426 |
Actions (login required)
View Item |