Perbandingan Rumus Cosine, Euclidean Distance, Intra Cluster Similarity, dan Variance pada Metode Bisecting K-Means Clustering untuk Pengelompokan E-Journal Berbahasa Inggris

Wirdati, Dianita Rahma (2007) Perbandingan Rumus Cosine, Euclidean Distance, Intra Cluster Similarity, dan Variance pada Metode Bisecting K-Means Clustering untuk Pengelompokan E-Journal Berbahasa Inggris. Sarjana thesis, Universitas Brawijaya.

Abstract

Jurnal-jurnal elektronik (e-journal) memuat berbagai macam informasi mengenai suatu bidang ilmu pengetahuan yang sebagian besar ditulis dalam bahasa Inggris. Untuk mempermudah pencarian informasi dalam sekumpulan jurnal tersebut, maka perlu adanya pengelompokan ke dalam kelompok-kelompok yang berhubungan. Pengelompokan jurnal dalam penelitian ini menerapkan metode Bisecting K-Means Clustering dimana di dalam metode tersebut menggunakan rumus cosine dan euclidean distance untuk menghitung kesamaan antar dokumen, serta rumus kesamaan dalam satu kelompok (Intra Cluster Similarity) dan rumus ragam untuk menentukan kelompok mana yang dapat dipecah lagi. Dalam rangka membuktikan apakah penggunaan rumus-rumus tersebut mempengaruhi hasil akhir, maka diperlukan penelitian. Penelitian ini menguji rumus cosine dan rumus ecluidean distance serta menguji penggunaan rumus Intra Cluster Similarity dan rumus ragam pada metode Bisecting K-Means Clustering. Evaluasi hasil pengelompokkan dilakukan dengan cara menghitung nilai precision, recall, dan F Measure. Hasil dari penelitian ini menunjukkan bahwa penerapan metode Bisecting K-Means pada pengelompokkan sekumpulan jurnal berbahasa inggris menghasilkan kualitas cluster yang berbeda-beda karena dipengaruhi oleh pemilihan rumus-rumus yang diterapkan pada beberapa langkah metode Bisecting K-Means. Penggunaan rumus cosine untuk menentukan nilai kemiripan antara dua dokumen dapat menghasilkan cluster dengan kualitas lebih baik daripada rumus euclidean distance. Rumus intra cluster similarity ataupun rumus ragam untuk menetapkan cluster mana yang dipecah lagi menghasilkan kualitas cluster yang hampir sama.

English Abstract

Electronics journals content of many information about science, which many of them are written in English. In order to make easier to find the information in those journals, it is needed to cluster them into relatively homogeneous groups or clusters. Clustering of English electronic journals in this final task uses “Bisecting K-Means Clustering” method, which using “Cosine” and “Euclidean Distance” formulas to measure the similarity between documents. Besides, “Intra Cluster Similarity” and “Variance” formulas for decision which cluster will be split. In order to proof whether those formulas will give different results, it is needed a research. This research tests “Cosine” and “Euclidean Distance” formulas, and tests “Intra Cluster Similarity” and “Variance” formulas on “Bisecting K- Means Clustering” method. Evaluation of cluster is measured using precision, recall, and F Measure. The result of this research shows that “Bisecting K-Means Clustering” method gives different results because it is influenced by selection of formulas which used in “Bisecting K-Means Clustering” step. “Cosine” formula which used for similarity measure between documents gives better result than “Euclidean Distance” formula. Whereas, “Intra Cluster Similarity” and “Variance” formulas for decision which cluster will be split, give equally result.

Item Type: Thesis (Sarjana)
Identification Number: SKR/MIPA/2007/050703108
Subjects: 500 Natural sciences and mathematics > 510 Mathematics
Divisions: Fakultas Matematika dan Ilmu Pengetahuan Alam > Matematika
Depositing User: Unnamed user with email repository.ub@ub.ac.id
Date Deposited: 23 Nov 2007 00:00
Last Modified: 07 Mar 2022 01:48
URI: http://repository.ub.ac.id/id/eprint/151705
[thumbnail of 050703108.pdf]
Preview
Text
050703108.pdf

Download (2MB) | Preview

Actions (login required)

View Item View Item