Optimalisasi Performa Model Normalisasi Bahasa Indonesia Informal Menjadi Baku berbasis Transformers dengan Named Entity Recognition (NER)

Khairul, Muhammad Fathur Rahman and Rizal Setya Perdana, S.Kom., M.Kom., Ph.D. and Dr. Eng. Budi Darma Setiawan, S.Kom., M.Cs. (2024) Optimalisasi Performa Model Normalisasi Bahasa Indonesia Informal Menjadi Baku berbasis Transformers dengan Named Entity Recognition (NER). Magister thesis, Universitas Brawijaya.

Abstract

Perkembangan Bahasa Indonesia informal yang pesat ditandai dengan penggunaan slang, singkatan, dan kolokialisme. Perkembangan ini memunculkan tantangan besar pada bidang pemrosesan bahasa alami (NLP), terutama dalam tugas normalisasi bahasa informal menjadi versi formalnya. Bahasa informal sering kali memiliki perbedaan yang signifikan dalam struktur dan kosa kata dibandingkan dengan bahasa formal, sehingga menyulitkan pengembangan model NLP yang bertujuan menghasilkan teks formal bahasa Indonesia yang relevan dan akurat secara kontekstual. Ketersediaan data berbahasa Indonesia secara luas sangat didominasi dengan informalitasi bahasa yang menyebabkan perkembangannya terhambat. State-of-the-art model cenderung kesulitan untuk melakukan penerjemahan ketika terdapat entitas bernama didalamnya. Penelitian ini mengatasi tantangan tersebut dengan mengembangkan model yang dirancang untuk mengubah teks bahasa Indonesia informal ke dalam bentuk formal dengan tetap menjaga integritas entitas bernama didalamnya yang penting untuk mempertahankan makna kalimat. Keutuhan entitas bernama dapat dijaga dengan melakukan pemrosesan secara terpisah dengan memanfaatkan pendeteksian entitas bernama yang biasa disebut dengan Named Entity Recognition (NER) dalam NLP. Penelitian ini menggunakan model "opus-mt-en-id" yang telah dilatih sebelumnya dari Helsinki-NLP dan memperkenalkan pendekatan fine-tuning baru menggunakan NER untuk menjaga keutuhan entitas bernama dalam teks. Model ini dikolaborasikan dengan pustaka "cahya/bert-base-indonesian-NER" untuk mendeteksi entitas bernama didalamnya dan memperlakukannya sebagai token khusus selama proses normalisasi. Teknik ini ditujukan untuk menjaga representasi makna yang sesuai pada hasil normalisasi. Pendekatan ini memastikan bahwa informasi penting terjaga, mengatasi keterbatasan pada stateof-the-art model yaitu entitas bernama sering kali diterjemahkan secara tidak akurat atau hilang. Metodologi penelitian melibatkan terjemahan berbasis kamus untuk menstandarisasi sinonim, diikuti dengan tokenisasi dan representasi numerik untuk data preprocessing dalam pelatihan model. Efektivitas model yang diusulkan dievaluasi terhadap model baseline, "machine_translation_informal2formal," menggunakan metrik BLEU Score, CHRF, dan METEOR. Hasil evaluasi menunjukkan peningkatan yang signifikan dalam kualitas dan hasil terjemahan direpresentasikan melalui BLEU Score meningkat dari 38.78 menjadi 42.14, CHRF dari 68.79 menjadi 70.61, dan METEOR dari 0.682 ke 0.699. Perbandingan secara evaluasi manusia juga menunjukkan bahwa proposed model menunjukkan hasil yang lebih akurat secara kaidah kebahasaan.Pendekatan ini tidak hanya mengatasi tantangan normalisasi yang ditimbulkan oleh bahasa Indonesia informal, tetapi juga menjaga keutuhan entitas bernama, sehingga menghasilkan teks formal yang lebih akurat dan bermakna.

English Abstract

The rapid development of informal Indonesian language is marked by the use of slang, abbreviations, and colloquialisms. This development presents significant challenges in the field of Natural Language Processing (NLP), particularly in the task of normalizing informal language into its formal version. Informal language often exhibits substantial differences in structure and vocabulary compared to formal language, making it difficult to develop NLP models that aim to produce contextually relevant and accurate formal Indonesian text. The widespread availability of Indonesian language data is heavily dominated by language informality, which impedes its development. State-of-the-art models tend to struggle with translation when named entities are involved. This study addresses these challenges by developing a model designed to convert informal Indonesian text into formal form while preserving the integrity of named entities within the text, which is crucial for maintaining the meaning of the sentence. The integrity of named entities can be preserved by processing them separately using Named Entity Recognition (NER) in NLP. This study employs the pre-trained "opus-mt-enid" model from Helsinki-NLP and introduces a new fine-tuning approach using NER to maintain the integrity of named entities within the text. The model is integrated with the "cahya/bert-base-indonesian-NER" library to detect named entities and treat them as special tokens during the normalization process. This technique is aimed at ensuring accurate meaning representation in the normalized output. The proposed approach ensures that important information is preserved, addressing the limitation in state-of-the-art models where named entities are often inaccurately translated or lost. The research methodology involves dictionarybased translation for synonym standardization, followed by tokenization and numerical representation for data preprocessing in model training. The effectiveness of the proposed model is evaluated against a baseline model, "machine_translation_informal2formal," using BLEU Score, CHRF, and METEOR metrics. Evaluation results show a significant improvement in translation quality, with the BLEU Score increasing from 38.78 to 42.14, CHRF from 68.79 to 70.61, and METEOR from 0.682 to 0.699. Human evaluation comparisons also indicate that the proposed model demonstrates more accurate linguistic outcomes. This approach not only addresses the normalization challenges posed by informal Indonesian language but also preserves the integrity of named entities, resulting in more accurate and meaningful formal text

Item Type: Thesis (Magister)
Identification Number: 042415
Uncontrolled Keywords: nformal-to-formal, Bahasa Indonesia, named entity recognition, deep learning, natural language processing-informal-to-formal, Indonesian, named entity recognition, deep learning, natural language processing
Divisions: S2/S3 > Magister Ilmu Komputer, Fakultas Ilmu Komputer
Depositing User: Sugeng Moelyono
Date Deposited: 01 Nov 2024 08:19
Last Modified: 01 Nov 2024 08:19
URI: http://repository.ub.ac.id/id/eprint/232001
[thumbnail of DALAM MASA EMBARGO] Text (DALAM MASA EMBARGO)
Muhammad Fathur Rahman Khairul.pdf
Restricted to Registered users only

Download (3MB)

Actions (login required)

View Item View Item