Daqiqil Id, Ibnu (2008) Perancangan dan penerapan algoritma stemming kata berbahasa Indonesia. Sarjana thesis, Universitas Brawijaya.
Abstract
Pada penelitian yang berhubungan dengan pemrosesan teks [text processing], data mining, knowledge data discovery, dan penelitian yang berhubungan dengan teks maka pengolahan kata jadian menjadi kata dasar [stemming] sangat diperlukan, karena pemrosesan dalam bentuk yang bukan kata dasar dapat menyebabkan kesalahan atau penyimpangan data pada hasil penelitian. Pada penelitian ini proses stemming dilakukan oleh stemmer berdasarkan sebuah ruleset dalam bentuk file XML [Extensible Markup Language] dengan tujuan agar ruleset tersebut mudah dikustomisasi. Stemmer sendiri adalah sebuah parser yang menggunakan prinsip FSA [Finite State Automata] karena struktur bahasa Indonesia yang memiliki awalan dan akhiran ganda. Pada penelitian ini dilakukan tiga kali evaluasi. Pada evaluasi pertama didapat akurasi yang dihasilkan sebesar 84.33% dari 25.269 kata yang diujikan. Evaluasi kedua merupakan perbaikan dari evaluasi pertama terutama pada ruleset didapat tingkat akurasi 87.22%. Evaluasi ketiga yang fokus pada penambahan informasi dalam ruleset didapat tingkat akurasi sebesar 90.25% dari 25.269 kata yang diujikan.
English Abstract
In researches about Text Processing, Data Mining, Knowledge Data Discovery and about text in general, the task of processing derivative word into stem word is very important, because processing non-stem word can cause mistakes and deviations in the result. In this research, the stemming process is done by a stemmer made based on a rulested in the form of an XML (Extensible Markup Language) file in hope that the ruleset is easily customized. The stemmer itself is a parser using the FSA (Finite State Automata) principle, due to the fact that Indonesian language structure might contain double prefix or suffix. There are three evaluations done in this research. The first evaluation results in 84.33 % accuracy from 25269 words being tested. The second evaluation is an improvement from the first evaluation especially on the ruleset structures, resulting in 87.22% accuracy. The third evaluation is focused on adding information into the ruleset,resulting in 90.25% accuracy from 25269 words being tested.
Item Type: | Thesis (Sarjana) |
---|---|
Identification Number: | SKR/MIPA/2007/239/050800258 |
Subjects: | 500 Natural sciences and mathematics > 510 Mathematics |
Divisions: | Fakultas Matematika dan Ilmu Pengetahuan Alam > Matematika |
Depositing User: | Unnamed user with email repository.ub@ub.ac.id |
Date Deposited: | 13 Feb 2008 11:05 |
Last Modified: | 09 Mar 2022 01:10 |
URI: | http://repository.ub.ac.id/id/eprint/151736 |
Preview |
Text
050800258.pdf Download (3MB) | Preview |
Actions (login required)
View Item |