Prawironegoro, Abdul Harris and Barlian Henryranu Prasetio, S.T., M.T., Ph.D. (2024) Penerapan Short Time Fourier Transform pada Koefisien Cepstral Mel untuk Menghitung Jumlah Pembicara. Sarjana thesis, Universitas Brawijaya.
Abstract
Sistem penghitung jumlah pembicara merupakan dasar dari sistem pengenalan suara. Banyak aplikasi masa kini yang membutuhkan sistem pemrosesan suara, seperti “SIRI” pada iphone, “Google Assistant” pada google. Sistem sistem tersebut terdapat beberapa kesalahan jika banyak pembicara yang memerintahkan sekaligus, maka dari itu sistem penghitung jumlah pembicara sangat penting untuk sistemsistem tersebut untuk membagi suara pembicara yang memerintah. Pada penelitian sebelumnya sistem penghitung jumlah pembicara hanya menggunakan ShortTime Fourier Transform (STFT) sebagai ekstraksi fiturnya, pada penelitian ekstraksi fitur menggunakan MFCC dengan fourier transformasinya menggunakan STFT yang biasanya menggunakan FFT. Dataset mengambil dari sumber yang berasak dari internet, dan memiliki sepuluh kelas, setiap kelas memiliki 520 data. Alur dari penelitian ini dilakukan dengan melakukan studei literatur dilanjutkan dengan rekayasa kebutuhan, dilanjutkan dengan perancangan sistem, implementasi sistem, pengujian dan analisis. Implementasi dari sistem ini menggunakan Raspberry pi 4 model B dan menggunakan Convolutional Neural Network (CNN) sebagai klasifikasinya. Penelitian kali ini mencapai ratarata 53% akurasi saat testing. Hal ini dikarenakan beberapa faktor salah satunya adalah data testing yang kurang variatif sehingga ketika mendapat data testing yang tidak sesuai dengan training menghasilkan output yang kurang sesuai. Penelitian ini juga menguji keberhasilan dari sistem dalam melakukan ekstraksi fitur dengan menggunakan STFT pada MFCC, dan hasil dari pengujian menunjukan keberhasilan dari sistem dalam melakukan ekstraksi fitur.
English Abstract
The speaker counting system forms the basis of voice recognition systems. Many contemporary applications require sound processing systems, such as "Siri" on the iPhone, "Google Assistant" on Google, and others. These systems may encounter errors when multiple speakers issue commands simultaneously. Therefore, the speaker counting system becomes crucial for these systems to allocate the commands from different speakers. In previous research, the speaker counting system solely utilized ShortTime Fourier Transform (STFT) for feature extraction. However, recent studies have employed MelFrequency Cepstral Coefficients (MFCC) with STFT as its Fourier transformation, typically utilizing Fast Fourier Transform (FFT). The dataset, comprising ten classes with 520 data points for each class, was sourced from the internet. The research workflow commenced with a literature review, followed by requirement engineering, system design, system implementation, testing, and analysis. The system was implemented using a Raspberry Pi 4 Model B, employing Convolutional Neural Network (CNN) for classification. During testing, the research achieved an average accuracy of 53%. Several factors contributed to this result, including the lack of variability in the testing dataset. This led to instances where the testing data did not align well with the training data, resulting in suboptimal outputs. Additionally, the research examined the success of the system in feature extraction using STFT in MFCC, demonstrating the system's proficiency in this feature extraction technique. In conclusion, this study highlighted the significance of speaker counting systems in voice recognition. Despite achieving a 53% accuracy rate, the limitations primarily stemmed from insufficient variability in the testing dataset. Nevertheless, the system showcased success in feature extraction using STFT within the MFCC framework.
Item Type: | Thesis (Sarjana) |
---|---|
Identification Number: | 0524150232 |
Uncontrolled Keywords: | Speaker Count, MFCC, CNN, STFT, Raspberry pi 4 model B |
Divisions: | Fakultas Ilmu Komputer > Teknik Komputer |
Depositing User: | Sugeng Moelyono |
Date Deposited: | 24 Apr 2024 08:35 |
Last Modified: | 24 Apr 2024 08:35 |
URI: | http://repository.ub.ac.id/id/eprint/217757 |
![]() |
Text (DALAM MAS EMBARGO)
Abdul Harris Prawironegoro.pdf Restricted to Registered users only Download (3MB) |
Actions (login required)
![]() |
View Item |