AndyBaskaraTriWinasis (2010) Klasifikasi Spam Email Menggunakan Metode Pendekatan Naive Bayes. Sarjana thesis, Universitas Brawijaya.
Abstract
Pengklasifikasian spam email adalah proses untuk menghasilkan klasifikasi email. Tujuannya adalah mendeteksi isi email yang ada pada mail client mengandung kata – kata yang dianggap atau tidak. Sehingga dapat membantu pemilik account email menyeleksi email yang tidak berguna yang hanya berisi promosi produk ataupun berupa email yang berisi kata – kata yang tidak sopan. Sistem ini mengimplementasikan metode NBC (Naive Bayesian Classification) untuk mengkalsifikasikan email, dimana email yang digunakan berasal dari mail server yang berada di plaza.com. Tahapan-tahapan yang dilakukan dalam sistem ini adalah, pertama dilakukan proses case folding yaitu mengubah semua huruf menjadi huruf kecil, tahap kedua yaitu penguraian kata (tokenizing), tahap ketiga yaitu mengambil kata-kata yang penting dan penghilangan stopword (filtering), tahap keempat yaitu perhitungan frekuensi dari masing-masing kata, tahap kelima yaitu klasifikasi menggunakan metode NBC (Naïve Bayes Classifier). Untuk mengevaluasi efektifitas sistem klasifikasi spam, digunakan standar pengukuran precision, recall, dan F1Measure. Pengujian dengan beberapa data latih, Sistem mampu menghasilkan nilai yang sama terhadap pengujian email dengan menggunakan kedua fitur yang diujikan nilai Spam Precision sebesar 65,38%, nilai 100% Spam Recall pada penggunaan data latih sebanyak 80 emails, dan nilai rata-rata F-measure sebesar 79,06%. Sedangkan pada penggunaan data latih sebanyak 100 emails, Sistem ini menghasilkan nilai rata-rata Spam precision sebesar 88,88%, nilai rata-rata Spam recall sebesar 94,11% pada fitur word, dan nilai rata-rata F-measure sebesar 91,42%. Hasil yang lebih baik didapatkan pada fitur word + phrase dengan nilai Spam precision sebesar 89,47%, nilai rata-rata Spam recall sebesar 100% pada fitur word, dan nilai rata-rata F-measure sebesar 94,44%. Sistem dengan metode NBC ini memiliki kelemahan, yaitu sangat bergantung pada data latih yang berkualitas sehingga mampu menghasilkan hasil klasifikasi yang baik pula.
English Abstract
The classification of spam emails is a process to generate an email classification. The goal is to detect the contents of the existing email in mail client contains words that are considered or not. So that can help the owner of an email account that is not useful to select email containing only the form of email promotions or products that contain the words that is not polite. This system implements the method NBC (Naive Bayesian Classification) for classificaton email, where emails are used come from mail servers that are in plaza.com. These stages are carried out in this system are, first made the case folding process is to convert all letters to lowercase, the second stage of decomposition of the word (tokenizing), the third stage is to take the words that are important and stopword removal (filtering), the fourth stage namely the calculation of the frequency of each word, ie the fifth stage classification method NBC (Naïve Bayes Classifier). To evaluate the effectiveness of spam classification system, used in standard measurement precision, recall, and F1Measure. Testing with few training data, systems capable of producing the same value of the test email using the two features are tested Spam Precision values of 65.38%, a value of 100% Spam Recall the use of training data of 80 emails, and the average value of F- measure of 79.06%. While the use of training data as much as 100 emails, this system produces an average rating of 88.88% precision Spam, Spam average score of 94.11% recall on the features of word, and the average value of F-measure 91.42%. Systems with NBC this method has a weakness, which is highly dependent on the quality of training data so as to produce good classification results as well.
Item Type: | Thesis (Sarjana) |
---|---|
Identification Number: | SKR/MIPA/2010/333/051100170 |
Subjects: | 500 Natural sciences and mathematics > 510 Mathematics |
Divisions: | Fakultas Matematika dan Ilmu Pengetahuan Alam > Matematika |
Depositing User: | Unnamed user with email repository.ub@ub.ac.id |
Date Deposited: | 14 Feb 2011 09:09 |
Last Modified: | 22 Oct 2021 06:41 |
URI: | http://repository.ub.ac.id/id/eprint/152470 |
Preview |
Text
051100170.pdf Download (3MB) | Preview |
Actions (login required)
![]() |
View Item |