Dayinta Warih Wulandari, Named Entity Recognition (NER) pada Dokumen Biologi menggunakan Rule Based dan Naïve Bayes Classifier

Wulandari, Dayinta Warih (2018) Dayinta Warih Wulandari, Named Entity Recognition (NER) pada Dokumen Biologi menggunakan Rule Based dan Naïve Bayes Classifier. Sarjana thesis, Universitas Brawijaya.

Abstract

Named Entity Recognition (NER) adalah bagian dari proses text mining dan natural language processing yang sangat berguna pada proses ekstraksi informasi. NER sangat berguna untuk membantu dalam mengidentifikasi dan mendeteksi entitas dari suatu kata. Bidang biomedis memiliki banyak pustaka sehingga NER sangat dituntut dalam domain biomedis. Teknik ini bermanfaat untuk banyak aplikasi, seperti text mining di domain biomedis, alat bioinformatika, pembangunan database biomedis, dan lain-lain. Karena biomedis memiliki skala yang sangat luas, penelitian ini hanya akan berfokus pada dokumen biologi sel. Rule based adalah sebuah metode dengan aturan yang ada di dalam sistem dibuat sendiri berdasarkan pengetahuan linguistik. Naïve Bayes Classifier merupakan jenis klasifikasi statistik dimana teori utamanya adalah memprediksi probabilitas keanggotaan kelas. Penelitian ini akan menggunakan Rule Based dan Naïve Bayes Classifier untuk mengklasifikasikan entitas dari suatu kata dalam dokumen biologi sel. Penelitian ini menggunakan 19 dokumen sebagai dokumen latih dan setelah diproses dan dianotasi manual untuk Named Entity (NE) terdapat 1135 data latih dalam bentuk kata. Sebelum masuk ke proses inti, dokumen uji ditokenisasi dan diberi POS Tag oleh tagger site terlebih dulu yang kemudian di cari bigram dan trigram. Selanjutnya proses rule based, jika dalam rule based tidak ditemukan solusi, maka akan masuk pada proses ekstraksi fitur dan Naïve Bayes Classifier. Dengan menggunakan 16 NE class, 18 aturan, dan 7 fitur dilakukan pengujian dengan tiga skenario, pertama menggunakan rule based, kedua menggunakan Naïve Bayes, dan yang ketiga kombinasi keduanya. Dari ketiga skenario didapatkan precision, recall dan f-measure tertinggi pada rule based dengan nilai sama yaitu 0,85 ketika menggunakan micro average. Ketika menggunakan macro average recall dan f-measure tertinggi didapat oleh kombinasi dengan nilai 0,66 dan 0,45, sedangkan precision tertinggi didapat oleh rule based dengan nilai 0,39.

English Abstract

Named Entity Recognition (NER) is part of text mining process and natural language processing which is very useful in information extraction. NER is very useful to help in identifying and detecting entities of a word. In the field of biomedical has a lot of literature so that NER is highly prosecuted in the biomedical domain. This technique is useful for many applications, such as text mining in the biomedical domain, bioinformatics tools, biomedical database development, and others. Since biomedical has a very large scale, this research will only focus on biology cell documents. Rule based is a method which rules within the system are made on the basis of linguistic knowledge. Naïve Bayes Classifier is a type of statistical classification. The main theory of Naïve Bayes is predicting the probability of class membership. This study will use rule based and Naïve Bayes Classifier to classify entities of a word in biology cell documents. This study used 19 documents as a training document and after being processed and annotated manually for Named Entity (NE) there were 1135 word training data. Before entering the main process, Test documents are denoted and tagged by tagger site then search for bigram and trigram. Furthermore, rule-based process, if in the rule based not found solution, it will continue on feature extraction process and Naïve Bayes Classifier. Using 16 NE classes, 18 rules, and 7 features were tested with three scenarios, first using rule based, second using naïve bayes, and the third combination of both. From the three scenarios we get the highest average precision, recall and f-measure with micro average on rule based is 0.85. With macro average the highest recall and f-measure obtained combination is 0.66 and 0.45, while the highest precision obtained rule based is 0.39.

Item Type: Thesis (Sarjana)
Identification Number: SKR/FTIK/2018/328/051804141
Uncontrolled Keywords: named entity recognition, NER, rule based, naïve bayes classifier, biologi sel. named entity recognition, NER, rule based, naïve bayes classifier, biology cell.
Subjects: 000 Computer science, information and general works > 006 Special computer methods > 006.4 Computer pattern recognition > 006.45 Accoustical pattern recognition > 006.454 Speech recognition
Divisions: Fakultas Ilmu Komputer > Teknik Informatika
Depositing User: Budi Wahyono Wahyono
Date Deposited: 06 Mar 2019 01:58
Last Modified: 16 Oct 2021 05:38
URI: http://repository.ub.ac.id/id/eprint/13410
[thumbnail of Dayinta Warih Wulandari.pdf]
Preview
Text
Dayinta Warih Wulandari.pdf

Download (4MB) | Preview

Actions (login required)

View Item View Item