Saida, Y. Elys (2007) Pengelompokan terjemahan ayat-ayat Al-Qur’an dalam Bahasa Indonesia dengan Algoritma K-Means Clustering. Sarjana thesis, Universitas Brawijaya.
Abstract
Pengelompokan terjemahan ayat-ayat Al-Qur’an dalam bahasa Indonesia adalah salah satu implementasi dari text clustering yang merupakan bidang khusus dari text mining . Proses pengelompokan ini dapat dilakukan secara otomatis dengan memanfaatkan algoritma k-means clustering yang bertujuan untuk mengelompokkan terjemahan ayat-ayat Al-Qur’an dalam bahasa Indonesia yang mempunyai kesamaan isi. Tahapan proses yang dilakukan untuk menghasilkan sebuah sistem peng- cluster terjemahan ayat-ayat Al-Qur’an meliputi beberapa tahap, yaitu text prepocessing , text transformation dan pattern discovery . Text prepocessing dilakukan dengan Case folding dan parsing . Text transformation dilakukan dengan penghilangan stopword , stemming serta proses pembobotan. Sedangkan pattern discovery merupakan tahapan terpenting. Pada tahap ini, algoritma k-means clustering digunakan untuk melakukan pengelompokan dengan cara mencari terjemahan ayat yang paling mirip dengan centroid . Kemiripan dapat diperoleh melalui perhitungan jarak menggunakan angular separation atau pengukuran cos . Nilai kemiripan yang paling tinggi akan digunakan untuk menentukan terjemahan ayat Al-Qur’an tersebut masuk ke dalam cluster mana. Evaluasi terhadap sistem peng- cluster terjemahan ayat Al-Qur’an ini menggunakan CS measure dan pengamatan visual terhadap cluster yang dihasilkan. Hasil cluster terbaik pada k = 50 pada uji coba I, II dan III dengan nilai CS Measure 0.0167541629921499 pada uji coba I, 0.0163081183394216 pada uji coba II dan 0.0159520619328425 pada uji coba III. Pada uji coba IV, jumlah cluster (k) terbaik yaitu pada k = 60 dengan nilai CS Measure 0.0178579246300294. Akan tetapi pada saat nilai CS Measure dari keempat proses uji coba tersebut dihitung rata-ratanya, maka nilai k terbaik yang dihasilkan adalah k = 50. Sedangkan hasil proses evaluasi secara pengamatan visual pada cluster yang dihasilkan dari proses k-means clustering adalah tidak semua hasil dalam satu cluster membahas topik yang sama.
English Abstract
The clustering of Quran translation in Indonesian language is one of text clustering implementation, which belongs to one of text mining tasks. The clustering process can be automatically applied using k-means clustering algorithm, so that the goal is to cluster the quran translation in indonesian language, based on their content similarities. There are some steps in this quran translation in Indonesian language clustering system. They are text prepocessing, text transformation and pattern discovery. The text prepocessing process is using case folding and parsing process. The text transformation steps consist of stopwords elimination, stemming and weighing process. The last and most step is pattern discovery. In this step, the k-means clustering algorithm is used to cluster the quran translation by searching the translation which is the most similar to the centroid. The similarity can be obtained by calculating the distance using angular separation calculation or cos measure calculation. The highest similarity values then is used to determine which cluster the quran translation belongs to. This quran translation clustering system is evaluated using CS measure and visual observation to the resulted clusters. The best resulted clusters is reached at k = 50 in the 1st, 2nd and 3rd trial with CS measure value 0.0167541629921499 for the 1st trial, 0.0163081183394216 for the 2nd trial and 0.0159520619328425 for the 3rd trial. In the 4th trials, the best number of clusters (k) is reached at k = 60 with CS measure value 0.0178579246300294. But when the average CS measure values of those four trials are calculated, the best resulted k value is at k = 60. The result of evaluation using visual observation to the clusters resulted from k-means clustering process, is that not all of the results in one cluster study the same topic.
Item Type: | Thesis (Sarjana) |
---|---|
Identification Number: | SKR/MIPA/2007/225/050703286 |
Subjects: | 500 Natural sciences and mathematics > 510 Mathematics |
Divisions: | Fakultas Matematika dan Ilmu Pengetahuan Alam > Matematika |
Depositing User: | Unnamed user with email repository.ub@ub.ac.id |
Date Deposited: | 27 Dec 2007 09:07 |
Last Modified: | 07 Mar 2022 03:54 |
URI: | http://repository.ub.ac.id/id/eprint/151725 |
Preview |
Text
050703286.pdf Download (2MB) | Preview |
Actions (login required)
![]() |
View Item |