Laksono, Eko Puji (2020) Hibridasi KNN dan K-means untuk Klasifikasi Email Spam dan Ham. Magister thesis, Universitas Brawijaya.
Abstract
Kemudahan dalam penggunaan email dan aspek biaya yang terjangkau, membuat banyak email yang berisi iklan dan promosi bisnis masuk ke dalam inbox pengguna email. Email-email tersebutlah yang disebut sebagai spam mail. Banyaknya penyalahgunaan email ini dapat menimbulkan kerugian yang cukup besar, antara lain peningkatan data traffic dan dapat menyebabkan kerugian ekonomis yang cukup besar, terutama bagi perusahaan. Hal-hal tersebut menjadi latar belakang dilakukannya penelitian tentang klasifikasi email yang kemudian akan diklasifikasikan berdasar dua kategori utama yaitu email spam dan ham. Penelitian ini penting untuk dilakukan, dikarenakan penanganan email spam yang efektif tidak hanya dapat mengurangi kerugian perusahaan tetapi juga sebagai upaya peningkatkan kepuasan dari pengguna email itu sendiri. Banyak metode yang dapat digunakan untuk klasifikasi, salah satunya adalah K-Nearest Neighbor (KNN). Kualitas data sangat penting dalam membangun model KNN yang baik, karena kesuksesan pemodelan pada KNN sangat bergantung dari data input. Peningkatan kualitas data dapat dilakukan dengan melakukan optimasi pada data nilai K optimal. Distribusi frekuensi dan K-means clustering dapat digunakan untuk melakukan optimasi tersebut. Tahapan penelitian pada klasifikasi deteksi spam ini terdiri dari 5 tahap, yaitu: (1) pengumpulan data, (2) preprocessing, (3) pembobotan TF-IDF, (4) proses klasifikasi dan (5) evaluasi. Evaluasi untuk menguji kinerja metode yang dipakai ialah menggunakan confusion matrix yang menghasilkan nilai akurasi, presisi, recall dan waktu eksekusi. Dari penelitian yang ada didapatkan hasil bahwa akurasi tinggi sebesar 100% bisa dihasilkan dari penggunaan distribusi frekuensi untuk optimasi nilai K pada KNN untuk klasifikasi deteksi spam. Selain itu nilai presisi dan recallnya juga mencapai 100% yang membutuhkan waktu selama 2 detik. Sedangkan akurasi sebesar 99%, nilai presisi dan recall 99% dapat dihasilkan dengan penggunaan optimasi K-means clustering. Waktu yang dibutuhkan hanya 1.08 detik. Berdasarkan hasil penelitian diatas, dengan tingginya nilai akurasi, optimasi nilai K optimal pada KNN dalam klasifikasi deteksi spam email yang ada dapat menggunakan kedua metode tersebut.
English Abstract
E-mail facility that is easy to use and inexpensive causes many emails containing advertisements and business promotions to enter the user's email inbox. Email advertising is what is referred to as spam mail. The large number of misuse of e-mails causes significant losses, among others, can increase data traffic and cause significant economic losses, especially for companies. These things underlie the study of the classification of e-mails which will then be classified based on two main categories, e-mail spam and ham. The importance of this research because effective spam email handling can not only reduce company losses but also increase satisfaction of the email users themselves. Many methods can be used for classification, one of which is K-Nearest Neighbor (KNN). Data quality is very important in building a good KNN model, because the success of modeling in KNN depends very much on the input data. One way that can be done to improve data quality is by optimizing the optimal K value data using frequency distribution clustering and K-means clustering. Stages of research in the classification of spam detection consists of 5 stages, namely (1) data collection, (2) preprocessing, (3) TF-IDF weighting, (4) classification process and (5) evaluation. Evaluation to test the performance of the method used is to use a confusion matrix that produces values of accuracy, precision, recall and execution time. From the existing research, it is obtained that the optimization of the K value in KNN for classification of spam detection by using clustering frequency distribution produces high accuracy of 100% with a precision value and 100% recall which takes 2 seconds. While the K-means clustering optimization results in an accuracy of 99% with a precision value and 99% of the recall which only takes 1.08 seconds. So, judging from the existing accuracy values, the frequency distribution of clustering and K-means clustering can be used to optimize the optimal K value on KNN in the classification of existing spam email detection.
Item Type: | Thesis (Magister) |
---|---|
Identification Number: | 0420150008 |
Uncontrolled Keywords: | Klasifikasi, Spam Email, KNN, Distribusi Frekuensi, K-means Clustering. |
Subjects: | 000 Computer science, information and general works > 004 Computer science |
Divisions: | S2/S3 > Magister Ilmu Komputer, Fakultas Ilmu Komputer |
Depositing User: | Budi Wahyono Wahyono |
Date Deposited: | 12 Jan 2022 06:51 |
Last Modified: | 17 Apr 2023 02:04 |
URI: | http://repository.ub.ac.id/id/eprint/188253 |
![]() |
Text (DALAM MASA EMBARGO)
Eko Puji Laksono.pdf Restricted to Registered users only until 31 December 2023. Download (3MB) |
Actions (login required)
![]() |
View Item |