Implementasi Metode TextRank dan Named Entity Recognition Untuk Ekstraksi Kata Kunci Pada Media Online Berita

Anwar, Muhammad Theofany Aulia and Satrio Hadi Wijoyo,, S.Si., S.Pd., M.Kom. and Ir. Widhy Hayuhardhika Nugraha Putra, S.Kom., M.Kom. (2024) Implementasi Metode TextRank dan Named Entity Recognition Untuk Ekstraksi Kata Kunci Pada Media Online Berita. Sarjana thesis, Universitas Brawijaya.

Abstract

Kata kunci penting untuk memahami isi berita secara singkat dan mendukung indeksasi serta pencarian. Penelitian ini bertujuan untuk meningkatkan proses identifikasi kata kunci yang relevan dalam artikel berita online dengan memanfaatkan metode TextRank dan Named Entity Recognition (NER). NER digunakan untuk mengenali dan mengklasifikasikan entitas penting dalam teks, sementara TextRank, yang merupakan algoritma berbasis graf, digunakan untuk menentukan pentingnya kata berdasarkan struktur jaringan mereka. Gabungan dari kedua metode ini diharapkan dapat meningkatkan akurasi ekstraksi kata kunci. Penelitian ini berasal dari sumber berita online Times Indonesia. Teknik NER yang diimplementasikan adalah model bahasa Indonesia pada spaCy, yang dilatih khusus untuk tujuan ini. Selain itu, TF-IDF (Term Frequency-Inverse Document Frequency) digunakan untuk pembobotan kata dalam penerapan algoritma TextRank. Pada penelitian sebelumnya telah dilakukan ekstraksi kata kunci menggunakan kombinasi TextRank dan NER dalam bahasa Inggris, penelitian ini mengarah pada penggunaan kedua metode tersebut untuk mengekstraksi kata kunci dalam bahasa Indonesia, menggunakan data berita online dari Times Indonesia. Dari penelitian ini dapat dibuktikan, kinerja gabungan metode TextRank dan NER dalam mengekstraksi kata kunci dari artikel berita lebih baik dibandingkan dengan penggunaan TextRank secara tunggal. Hal ini dapat dilihat dari nilai rata-rata recall, precision, f-measure, dan accuracy yang dihasilkan dari eksperimen dengan 300 artikel dan weight multiplier 2 dengan nilai masing-masing 0.652, 0.645, 0.648, 0.505. Secara kesimpulan, integrasi TextRank dan NER dapat secara signifikan meningkatkan kualitas ekstraksi kata kunci dari artikel berita online.

English Abstract

In this era of digitalization, access to information is crucial, and effective keywords are important to understand the content of the news briefly and support indexation and search. This research aims to improve the process of identifying relevant keywords in online news articles by utilizing TextRank and Named Entity Recognition (NER) methods. NER is used to recognize and classify important entities in the text, while TextRank, which is a graph-based algorithm, is used to determine the importance of words based on their network structure. The combination of these two methods is expected to improve the accuracy of keyword extraction. This research comes from the Times Indonesia online news source. The NER technique implemented is the Indonesian language model on spaCy, which is specially trained for this purpose. In addition, TF-IDF (Term Frequency-Inverse Document Frequency) is used for word weighting in the application of the TextRank algorithm. In previous research, keyword extraction using a combination of TextRank and NER in English has been carried out, this research leads to the use of both methods to extract keywords in Indonesian, using online news data from Times Indonesia. From this research, it can be proven that the combined performance of TextRank and NER methods in extracting keywords from news articles is better than the use of TextRank alone. This can be seen from the average values of recall, precision, f-measure, and accuracy generated from experiments with 300 articles and weight multiplier 2 with values of 0.652, 0.645, 0.648, 0.505, respectively. In conclusion, the integration of TextRank and NER can significantly improve the quality of keyword extraction from online news articles.

Item Type: Thesis (Sarjana)
Identification Number: 0524150187
Uncontrolled Keywords: TextRank, Named Entity Recognition, ekstraksi kata kunci, berita online, spaCy-TextRank, Named Entity Recognition, keyword extraction, online news, spaCy
Divisions: Fakultas Ilmu Komputer > Teknologi Informasi
Depositing User: soegeng sugeng
Date Deposited: 25 Mar 2024 02:25
Last Modified: 25 Mar 2024 02:25
URI: http://repository.ub.ac.id/id/eprint/216121
[thumbnail of DALAM MASA EMBARGO] Text (DALAM MASA EMBARGO)
Muhammad Theofany Aulia Anwar.pdf
Restricted to Registered users only

Download (11MB)

Actions (login required)

View Item View Item