Implementasi Gabungan Metode K-means Learning Vector Quantization (LVQ) Untuk Klasifikasi Fungsi Senyawa Aktif Menggunakan Data SMILES

Ilmiyah, Nur Khilmiyatul (2018) Implementasi Gabungan Metode K-means Learning Vector Quantization (LVQ) Untuk Klasifikasi Fungsi Senyawa Aktif Menggunakan Data SMILES. Sarjana thesis, Universitas Brawijaya.

Abstract

Senyawa aktif memiliki karakteristik khusus yang menentukan fungsi sebuah obat. Obat berfungsi untuk tindakan pencegahan atau penyembuhan terhadap suatu penyakit yang diderita oleh pasien. Untuk mengetahui kegunaan suatu senyawa dibutuhkan notasi SMILES. Notasi SMILES adalah bentuk representasi suatu senyawa aktif dengan notasi kimia terbaru sehingga komputer bisa membaca unsur senyawa tersebut. Keunggulan notasi SMILES selain adanya karakter American Standart Code for Information Interchange (ASCII) yang tersimpan dalam variabel string yaitu mudah diproses dan tidak membutuhkan kapasitas memori yang besar. Pengelompokan notasi SMILES dilakukan dengan mengambil 12 fitur yang terdiri dari atom B, C, N, O, P, S, F, Cl, Br, I, OH dan panjang notasi SMILES. Nilai setiap fitur akan diproses melalui preprocessing menggunakan Regex yang dilakukan awal proses. Pada proses klasifikasi fungsi senyawa aktif menggunakan dua gabungan metode yaitu K-means Learning Vector Quantization (LVQ). Langkah penting dari proses klasifikasi menggunakan metode gabungan metode K-means Learning Vector Quantization (LVQ) yaitu dimulai dengan proses K-means dengan menghitung jarak dari setiap data uji terhadap data latih atau yang biasa disebut dengan Euclidean distance, mengambil nilai sebanyak k dan mengecek jumlah data apakah lebih dari nilai ambang batas apablia iya maka dilakukan proses K-means dan jika tidak maka dilakukan proses LVQ. Pengujian penelitian ini menggunakan dataset sebanyak 664 dan dibagi menjadi 2 yaitu data latih dan data uji dengan masing-masing komposisi banyak data latih dan data uji sebesar 80% dan 20% sehingga untuk data latih sebanyak 531 dan data uji sebanyak 133. Berdasarkan hasil pengujian K-means LVQ menghasilkan nilai akurasi sebesar 72.22% sedangkan K-means konvensional 52.65%. Pengujian menggunakan K-means LVQ mengasilkan akurasi lebih baik dibandingkan K-means Konvensional.

English Abstract

The active compounds have special characteristics that define the functions of a drug. The function of drug is as a preventive measure or healing of an illness suffered by the patients. To figure out the usefulness of a compound is required notation SMILES. SMILES notation is a representation of a compound form of the active with the latest chemical notation so the computer can read the elements of the compound. Excellence notation SMILES in addition to the existence of the character of the American Standard Code for Information Interchange (ASCII) that are stored in a string variable which is easily processed and it does not require a large memory capacity. Grouping notation SMILES is done by taking the 12 features that consists of atoms of B, C, N, O, P, S, F, Cl, Br, I, OH and long SMILES notation. The value of each feature will be processed through the preprocessing using Regex performed the initial process. The process of classification of the functions of the active compounds use two combined method i.e. K-means Learning Vector Quantization (LVQ). An important step of the process of classification method uses a combined method of K-means Learning Vector Quantization (LVQ) that begins with the process of K-means by calculating the distance from each of the test data against data trainer or commonly known Euclidean distance, take as much k and check the amount of data does more than the threshold value if it is yes then do process K-means and if it is not then do process LVQ. Test study of using datasets as many as 664 and divided into 2 IE training data and test data with each composition a lot of training data and test data of 80% and 20% so to trainer data as much as 513 and test data as much as 133. Based on the results of the testing, K-means the accuracy value of generating LVQ 72.22% whereas for K-means conventional 52.65%. Testing using K-means get LVQ accuracy better than Conventional K-means.

Item Type: Thesis (Sarjana)
Identification Number: SKR/FTIK/2018/892/051901243
Uncontrolled Keywords: Senyawa Aktif, SMILES, K-means, Learning Vector Quantization (LVQ)-Active compounds, SMILES, K-means, Learning Vector Quantization (LVQ)
Subjects: 000 Computer science, information and general works > 006 Special computer methods > 006.3 Artificial intelligence > 006.31 Machine learning
Divisions: Fakultas Ilmu Komputer > Teknik Informatika
Depositing User: soegeng sugeng
Date Deposited: 25 Apr 2020 11:19
Last Modified: 18 May 2022 02:44
URI: http://repository.ub.ac.id/id/eprint/167010
[thumbnail of Jessica Sophia Alussy Hutabarat.pdf] Text
Jessica Sophia Alussy Hutabarat.pdf

Download (4MB)

Actions (login required)

View Item View Item