Text-Independent Speaker Recognition Menggunakan 1D Time-Channel Separable Convolution Pada Mikrokontroler

Laksono, Blessius Sheldo Putra and Barlian Henryranu Prasetio, S.T., M.T., Ph.D. and Rizal Setya Perdana, S.Kom., M.Kom., Ph.D. (2024) Text-Independent Speaker Recognition Menggunakan 1D Time-Channel Separable Convolution Pada Mikrokontroler. Magister thesis, Universitas Brawijaya.


Speaker recognition adalah salah satu permasalahan yang seringkali harus dihadapi menggunakan perangkat low power seperti mikrokontroler untuk melakukan verifikasi keamanan misalnya. Metode sebelumnya masih membutuhkan perangkat yang jauh lebih kuat seperti mini-computer dan single board computer untuk menjalankan algoritma deep learning yang kompleks untuk mengenali data suara dalam menghadapi speaker recognition. Sementara itu metode-metode yang ada tersedia pada mikrokontroller hanya terbatas pada metode machine learning seperti CNN, ANN serta GMM yang masih belum dapat mengenali sinyal suara dengan baik apalagi dengan adanya noise pada saat pengujiannya. Oleh karena itu pada penelitian ini digunakan arsitektur deep learning Time Channel Separable Convolution yang akan digunakan untuk mengekstraksi fitur dan mengenali pembicara dari sinyal suara mentah. Metode yang diusulkan memberikan kenaikan performa hingga 43% dengan parameter model yang 19% lebih sedikit. Metode yang diusulkan juga dapat dijalankan pada mikrokontroler berbasis ARM Cortex M4 dalam 1,5 detik dan ukuran model sebesar 12kiloByte.

English Abstract

Speaker recognition is one of the problems that often have to be faced using low power devices such as microcontrollers to perform security verification for exa mple. Previous methods still require much more powerful devices such as minicomputers and single board computers to run complex deep learning algorithms to recognize voice data in the face of speaker recognition. Meanwhile, the existing methods available on microcontrollers are only limited to machine learning methods such as CNN, ANN and GMM which still cannot recognize sound signals well especially in the presence of noise during testing. Therefore, in this research, the deep learning architecture Time Channel Separable Convolution is used to extract features and recognize speakers from raw speech signals. The proposed method provides up to 43% performance improvement with 19% less model parameters. The proposed method can also be run on an ARM Cortex M4 based microcontroller in 1.5 seconds and a model size of 12kiloBytes.

Item Type: Thesis (Magister)
Identification Number: 0424150003
Uncontrolled Keywords: Speaker Recognition, TinyML, Deep Learning, Time Channel Separable Convolution-Speaker Recognition, TinyML, Deep Learning, Time Channel Separable Convolution
Divisions: S2/S3 > Magister Ilmu Komputer, Fakultas Ilmu Komputer
Depositing User: soegeng sugeng
Date Deposited: 02 Apr 2024 00:40
Last Modified: 25 Apr 2024 07:42
URI: http://repository.ub.ac.id/id/eprint/217788
Blessius Sheldo Putra Laksono.pdf
Restricted to Registered users only

Download (5MB)

Actions (login required)

View Item View Item