Pratiwi, Rahmi (2013) Penerapan Metode Neighbor Weighted– K Nearest Neighbor (NW-KNN) Pada Pengklasifikasian Spam Email. Sarjana thesis, Universitas Brawijaya.
Abstract
Email Spam Menyebabkan Banyak Pengguna Email Menjadi Terganggu Karena Account Email nya Dipenuhi Oleh Email-Email Yang Tidak Diperlukan. Oleh Karena Itu, Para Pengguna Email Banyak Menggunakan Email Filtering. Salah Satu Teknik Yang Digunakan Dalam Email Filtering Adalah Klasifikasi Dengan Metode KNN. Pada Umumnya Metode KNN Dilakukan Pada Jumlah Corpus Yang Seimbang Karena Hasil Klasifikasi Terpengaruh Oleh Kelas Mayoritas. Pada Penelitian Ini Telah Dilakukan Penelitian Dengan Menggunakan Metode Neighbor-Weighted K-Nearest Neighbor (NW-KNN). Karena Data Yang Dipakai Tidak Seimbang, Maka Digunakan Metode Neighbor-Weighted K-Nearest Neighbor (NW-KNN). Dengan Data Latih Dan Data Uji Masing-Masing Sebesar 80% Dan 75% Serta Data Uji Masing-Masing Sebesar 20% Dan 25% Dari 1000 Data Email , Hasil Terbaik Diperoleh Dari 75% Data Latih Dan 25% Data Uji (Pengujian Ke-2) Saat Nilai Threshold Document Frequency ( DF)=4 Dengan Nilai K Tetangga=5 Dan Nilai Exponent =5. Nilai Precision, Recall Dan F1 Measure Mencapai 97.5%, 97.72%, Dan 97.59%. Sedangkan Pada Pengujian Ke-1 (80% Data Latih Dan 20% Data Uji) Didapatkan Nilai Precision, Recall Dan F1 Measure Mencapai 97.69%, 97.24%, Dan 97.44% Pada Saat Nilai Threshold Document Frequency (DF)=4, Nilai K Tetangga=5, Dan Exponent =
English Abstract
Email Spam Caused Many Users Become Disturbed Because The Email Account Filled With Emails That Are Not Needed. Therefore , Many Users Using Email Filtering . One Of The Techniques Used In Email Filtering Is A Classification By KNN Method . KNN Method Generally Performed On A Balanced Corpus. The Results For The Classification Are Affected By The Majority Class . In This Research Study Has Been Carried Out Using The Neighbor Weighted-K Nearest Neighbor (NW-KNN) . Since The Sum Of Data Are Not Balanced , Then Used Neighbor Weighted-K Nearest Neighbor (NW-KNN) Method. With The Training Data Are 80% And 75% And The Test Data Are 20% And 25% From 1000 Email , The Best Result Obtained From The 75 % Training Data And 25 % Test Data (Second Test) When The Threshold Value Document Frequency (DF)=4 With Neigbor Value K=5 And The Exponent=5 .The Value Of Precision, Recall And F1 Measure Reached 97.5% , 97.72% , And 97.59% . While On First Test (80% Training Data And 20% Test Data) Obtained Values Of Precision, Recall And F1 Measure Reached 97.69% , 97.24% , And 97.44% When The Threshold Value Document Frequency (DF)=4, Neighbor Value K=5, And The Exponent=5
Item Type: | Thesis (Sarjana) |
---|---|
Identification Number: | SKR/FTIIK/2013/193/051400195 |
Subjects: | 000 Computer science, information and general works > 005 Computer programming, programs, data |
Divisions: | Fakultas Ilmu Komputer > Teknik Informatika |
Depositing User: | Budi Wahyono Wahyono |
Date Deposited: | 20 Jan 2014 11:29 |
Last Modified: | 23 Oct 2021 08:36 |
URI: | http://repository.ub.ac.id/id/eprint/145673 |
Preview |
Text
PENERAPAN_METODE_NW-KNN_PADA_PENGKLASIFIKASIAN_SPAM_EMAIL.pdf Download (5MB) | Preview |
Actions (login required)
View Item |