Berdasarkan Struktur Laten Dengan Menggunakan Pendekatan Self Organizing Map (Som) Pengelompokan Artikel Berbahasa Indonesia

Zaini, Akhmad (2017) Berdasarkan Struktur Laten Dengan Menggunakan Pendekatan Self Organizing Map (Som) Pengelompokan Artikel Berbahasa Indonesia. Magister thesis, Universitas Brawijaya.

Abstract

Pengelompokan dokumen merupakan salah satu kebutuhan ditengah-tengah banyaknya artikel yang terbit di internet. Telah banyak upaya yang dilakukan oleh para ahli dalam rangka pengelompokan dokumen ini. Dalam proses pengelompokan, dokumen dapat dipandang sebagai sebuah objek. Untuk dapat mengelompokkan objek tentu saja kita harus mengetahui karakteristik dari objek tersebut. Setelah diketahui karakteristik objek yang ingin diobservasi, selanjutnya adalah mengelompokkan objek-objek tersebut sesuai dengan karakteristik. Objek yang cirinya hampir sama, berada dalam satu kelompok, sedangkan objek yang cirinya terlalu jauh berbeda berada dalam kelompok yang berbeda pula. Secara umum, ciri dari sebuah dokumen dapat dilihat dari kemunculan kata maupun urutan kata. Namun demikian, kemunculan kata masih tetap menjadi unsur yang paling dominan dalam menentukan karakteristik suatu dokumen. Dalam rangka meningkatkan kualitas pengelompokan, khususnya yang didasarkan pada kemunculan kata, diperlukan pendekatan yang mampu mengidentifikasi konteks dari kemunculan kata. Kata-kata yang memiliki kedekatan makna sering kali digunakan pada konteks yang sama, sebaliknya kata-kata yang berbeda makna, sering kali digunakan pada konteks yang berbeda pula. Identifikasi konteks kemunculan kata salah satunya dapat dilihat dari latensi. Latensi dapat dipandang sebagai hubungan antara dua artikel yang tidak memiliki kesamaan kemunculan kata, yang disebabkan oleh adanya artikel ketiga, dimana artikel ketiga ini memiliki kesamaan kemunculan dengan artikel pertama dan kedua. Tahapan dimulai dengan proses pengambilan data dari internet, sebanyak 3000 artikel digunakan sebagai data sumber. Dokumen dari internet umumnya bertipe html, sehingga format ini perlu dibersihkan terlebih dahulu menjadi teks biasa. Selanjutnya kumpulan dokumen dalam bentuk teks biasa masuk ke dalam tahap preprocessing, dimana pada tahap ini dilakukan pembersihan terhadap ciri- ciri yang tidak diperlukan, seperti tanda baca, angka, kata hubung dan imbuhan. Setelah melalui tahapan preprocessing dokumen-dokumen dibangkitkan cirinya. Ciri-ciri dokumen disimpan dalam format matriks. Terdapat 2 ciri yang dibangkitkan, yakni ciri kemunculan kata dan ciri latensi. Untuk membangkitkan ciri latensi, digunakan pendekatan Singular value decomposition (SVD). SVD merupakan pendekatan dalam aljabar linier yang dapat meningkatkan potensi korelasi antar vektor, sekaligus melemahkan korelasi antar vektor jika memang dua vektor tersebut tidak memiliki potensi korelasi. Teknik SVD dilakukan dengan cara mendekomposisi (melakukan faktorisasi) suatu matriks menjadi 3 buah matriks, matriks hasil dekomposisi ini telah urut berdasarkan nilai singularnya dari yang terbesar ke yang terkecil. Ciri latensi dapat diambil dari matriks hasil dekomposisi dengan membuang beberapa nilai singularnya. Dalam kasus latensi, matriks yang didekomposisi adalah matriks kemunculan kata. Setelah diperoleh ciri kemunculan kata dan ciri latensi, masing-masing matriks ciri baik itu kemunculan kata maupun ii latensi, dikelompokkan dengan menggunakan pendekatan Self organizing map (SOM). SOM merupakan teknik pembelajaran tanpa supervisi yang dilakukan dengan cara memetakan data berdimensi banyak menjadi lebih sederhana. Pada kasus pengelompokan ini, jumlah pemetaan yang digunakan adalah sama dengan jumlah kategori artikel. Hasil pemetaan SOM menghasilkan dua pemetaan, yakni pemetaan berdasarkan kemunculan kata, dan pemetaan berdasarkan latensi. Masing-masing pemetaan selanjutnya diterapkan pada matriks, baik itu kemunculan kata maupun latensi. Evaluasi presisi dan recall digunakan untuk melihat sejauh mana kualitas hasil pengelompokan baik itu berdasarkan kemunculan kata maupun latensi. Dari 3000 artikel yang digunakan sebagai data sumber, diperoleh matriks kemunculan kata dengan dimensi 3.000 x 3.486, sedangkan matriks latensi berdimensi 3.000 x 1.110. Dari dimensi yang terbentuk, matriks latensi memiliki dimensi yang lebih sederhana jika dibandingkan matriks kemunculan kata. Sedikitnya dimensi matriks latensi berdampak baik pada waktu pelatihan, dimana latensi hanya membutuhkan waktu ≈ 0,69 detik, sedangkan kemunculan kata membutuhkan waktu ≈ 1,48 detik. Meskipun membutuhkan waktu lebih sedikit, matriks latensi memiliki kualitas yang lebih baik. Matriks kemunculan kata memiliki nilai presisi sebesar 0,68 dan nilai recall sebesar 0,72, sedangkan matriks latensi memiliki nilai presisi sebesar 0,73 dan recall sebesar 0,75. Jika masing- masing presisi dan recall dihitung rerata harmonisnya, maka latensi memiliki kualitas 4 % lebih baik dibandingkan kemunculan kata. Meskipun secara persentase tidak terlalu besar, namun matriks struktur laten mampu mengidentifikasi dominasi kategori artikel secara lebih tepat jika dibandingkan menggunakan kemunculan kata. Peluang yang dapat dilakukan dalam rangka pengembangan penelitian ini adalah masih diperlukan kajian yang mendalam mengenai penggunaan struktur laten untuk pengelompokan yang bersifat inkremental, mengingat penambahan artikel baru mengakibatkan perubahan struktur matriks latensi.

English Abstract

Document grouping is a necessity among many articles published on Internet. Several attempts have been done to improve this grouping process. On grouping process, document can be considered as an object. To doing these grouping process, obviously, we must know the characteristics of these objects. Having known the characteristic of the object to be observed, next is to group the objects based on their characteristics. Objects that have similar features will be on the same group, objects with different features will be on different group also. Generally, document features can be seen from the word appearances or word order structure. However, word appearances are still the most dominant element to determine the documents characteristics. To improve the quality of these grouping process, especially those based on word appearances, an approach that can identify the context of word occurrence is necessary. Words that have similar meaning are often used in the same context, in contrast, words that have different meaning are often used in different contexts. Word appearance contexts identification can be seen from its latency. Latency can be viewed as a relationship between two articles that that have different word appearances, which is caused by the third article, where this third article has word appearances similarities with the first and second articles. The investigation begins with the process of data retrieval from the internet, as many as 3000 articles are used as data source. Documents from the internet are generally formatted as html type, so this format needs to be cleaned first into plain text. The next step, these documents collection are used as input in preprocessing stage, where at this stage cleaning up unnecessary features, such as punctuation, numbers, hyphens and affixes. After going through the preprocessing stages, the documents features are generated. Documents features are stored in matrix format. There are two kinds of feature that are generated, the word appearance and latency feature. To generate latency feature, the Singular value decomposition (SVD) approach is used. SVD is an approach in linear algebra that can increase the correlation potential between vectors, as well as weaken the correlation between vectors if indeed the two vectors have no correlation potential. SVD technique is done by decomposition (factorization) a matrix into 3 pieces of matrix, this matrix decomposition has been sequenced based on its singular value from the largest to the smallest. Latency features can be derived from a part of these matrix decomposition by removing some singular values. In the case of latency, the decompositioned matrix is the word appearance matrix. After word appearance and latency features are obtained, both of them are grouped using Self organizing map (SOM) approach. SOM is an unsupervised learning technique that is done by mapping data that have large dimension into more simply. In the case of this grouping process, the number of mappings have the same dimension with the number of article categories. SOM mapping results in two mappings, mapping iv based on word appearance, and mapping based on latency. Each subsequent mapping is applied to the matrix, either word or latency. The evaluation of precision and recall is used to see how well the quality of groupings, either based on word appearance or latency. Of the 3000 articles used as data source, dimensions of the word appearance matrix are 3.000 x 3.486, while latency matrix dimensions are 3.000 x 1.110. From their dimensions, the latency matrix has a simpler dimension when compared to the word occurrence matrix. At least the dimension of the latency matrix has a good impact on training time, where latency only takes ≈ 0.69 seconds, while the word occurrence matrix takes ≈ 1.48 seconds. Although it takes less time, the latency matrix has better quality. The word occurrence matrix has a precision value of 0.68 and a recall value of 0.72, while the latency matrix has a precision value of 0.73 and a recall of 0.75. If each precision and recall are calculated their mean harmonic, then the latency has a quality of 4% better than the appearance of the word. Although the percentage is not too large, but the latent structure matrix is able to identify the dominance of the article category more precisely compared with word appearance matrix. The development opportunities that can be done for this research is still needed in-depth study in using latent structures for incremental grouping, because the addition of new articles resulted in changes in the structure of the latency matrix.

Item Type: Thesis (Magister)
Identification Number: TES/006.32/ZAI/p/2017/041709410
Uncontrolled Keywords: SELT - ORGANIZING MAPS, LATENT STRUCTURE ANALYSIS, NEURAL NETWORKS (computer scince)
Subjects: 000 Computer science, information and general works > 006 Special computer methods > 006.3 Artificial intelligence > 006.32 Neural nets (neural networks)
Depositing User: Nur Cholis
Date Deposited: 13 Nov 2017 02:00
Last Modified: 29 Nov 2021 07:26
URI: http://repository.ub.ac.id/id/eprint/5304
[thumbnail of BAB-VI.pdf]
Preview
Text
BAB-VI.pdf

Download (472kB) | Preview
[thumbnail of BAB-I.pdf]
Preview
Text
BAB-I.pdf

Download (482kB) | Preview
[thumbnail of BAB-IV.pdf]
Preview
Text
BAB-IV.pdf

Download (817kB) | Preview
[thumbnail of DAFTAR-PUSTAKA.pdf]
Preview
Text
DAFTAR-PUSTAKA.pdf

Download (337kB) | Preview
[thumbnail of BAB-V.pdf]
Preview
Text
BAB-V.pdf

Download (907kB) | Preview
[thumbnail of BAGIAN DEPAN.pdf]
Preview
Text
BAGIAN DEPAN.pdf

Download (1MB) | Preview
[thumbnail of BAB-II.pdf]
Preview
Text
BAB-II.pdf

Download (1MB) | Preview
[thumbnail of BAB-III.pdf]
Preview
Text
BAB-III.pdf

Download (675kB) | Preview

Actions (login required)

View Item View Item