Klasifikasi Jenis Teh Hijau Menggunakan Pengolahan Citra Digital dengan Algoritma Random Forest

Fahira, Jasmine and Aunur Rofiq Mulyarto, S.T.P., M.Sc and Ir. Usman Effendi, MS (2023) Klasifikasi Jenis Teh Hijau Menggunakan Pengolahan Citra Digital dengan Algoritma Random Forest. Sarjana thesis, Universitas Brawijaya.

Abstract

Teh hijau merupakan hasil tanaman teh (Camellia sinensis) yang diolah tanpa melalui proses oksidasi enzimatis. Teh hijau diprediksi mengalami pertumbuhan tercepat di pasar global pada tahun 2020 hingga 2025. Hal ini sejalan dengan meningkatnya konsumsi teh dunia selama pandemi COVID-19. Kualitas teh hijau bersumber pada SNI 01-3945-2016, dibedakan jenisnya berdasarkan bentuk dan ukuran partikel. Kemiripan bentuk daun dan persyaratan SNI yang sulit dipahami menjadi tantangan saat penilaian jenis daun teh hijau. Selain itu, memvalidasi kesesuaian persyaratan SNI dengan jenis teh hijau yang dijual di pasaran sulit dilakukan, karena artikel yang membahas teh hijau berdasarkan SNI jarang ditemui. Tujuan penelitian ini adalah menghasilkan model algoritma random forest dalam mengklasifikasikan jenis teh hijau sesuai dengan SNI 01-3945-2016 dan mengukur kinerja model algoritma random forest. Metode penelitian menggunakan random forest dengan ekstraksi fitur warna (RGB to HSV) dan bentuk (Morphological Threshold). Pada ekstraksi fitur menggunakan Principal Component Analysis (PCA) dan tuning parameter menggunakan GridSearchCV. Sampel yang digunakan terdiri dari tujuh jenis teh hijau, yaitu pekoe super, pekoe, jikeng, bubuk 1, tulang daun, gun powder 1, dan fanning dalam bentuk daun teh hijau kering. Akuisisi citra untuk setiap jenis teh dilakukan sebanyak 200 kali, sehingga total keseluruhan dataset yang digunakan sebanyak 1400 citra. Pembagian data pelatihan dan data pengujian menggunakan proporsi 80:20. Pembahasan yang dianalisis adalah nilai akurasi, presisi, recall, f1-score berdasarkan matriks konfusi data latih dan uji, RMSE, serta kecepatan prediksi. Karakteristik warna dan bentuk daun teh hasil akuisisi menggunakan smartphone terlihat jelas. Kesamaan bentuk, warna, dan ukuran pekoe super dengan pekoe menjadi tantangan saat labelisasi. Hasil augmentasi mengubah warna, fokus, dan posisi melalui teknik grayscalling, gaussian blurring, histogram equalization, rotation, dan translation. Hasil ekstraksi fitur menggunakan PCA mereduksi 30 fitur menjadi 7 fitur. Random forest menghasilkan lima opsi model terbaik dengan parameter berbeda. Model terbaik random forest dengan hasil akurasi tertinggi adalah model dengan parameter bootstrap berupa false, criterion berupa entropy, max_depth sebanyak 8, max_features berupa log2, min_sample_leaf sebanyak 2, n_estimators sebanyak 100, random_state sebanyak 0, dan oob_score bernilai false. Model terbaik yang dihasilkan menggunakan spesifikasi perangkat keras dengan prosesor 1,7Ghz dual-core Intel Core i5 dan RAM 4 GB 1600 MHz DDR3I. Persentase akurasi rata-rata pengujian berdasarkan kelima model dengan parameter tuning yang berbeda adalah 99,5%, sehingga klasifikasi teh hijau berdasarkan SNI 01- 3945-2016 dengan menggunakan algoritma random forest layak untuk dilakukan. Keseluruhan model yang dihasilkan menggunakan ekstraksi fitur warna. Nilai presisi, recall, dan f1-score adalah satu, sehingga tidak terjadi overfitting atau underfitting pada model terbaik. RMSE yang dihasilkan dari model dengan akurasi tertinggi adalah 0,044. Kecepatan prediksi rata-rata adalah 1,2 detik dan termasuk kategori sangat baik. Berdasarkan hasil kinerja, secara umum random forest dapat mengklasifikasikan teh hijau sesuai dengan baik, namun terdapat kesulitan untuk membedakan mutu pekoe dengan pekoe super. Penelitian hanya menggunakan sampel dari satu distributor, perlakuan peletakkan sampel adalah disebar merata dan tidak bertumpukkan. Hal ini menyebabkan ketidaksesuaian pengujian manual dengan akurasi. Kesalahan pengujian manual dapat diminimalisir dengan menggunakan sampel dari distributor lainnya, serta perlakuan peletakkan sampel dengan cara ditumpuk atau dicampur untuk memperkaya sumber pembelajaran machine learning

English Abstract

Green tea is the product of the tea plant (Camellia sinensis), which is processed without going through an enzymatic oxidation process. In 2020 to 2025, green tea is expected to expand at the quickest rate worldwide. This in line with the amount of tea consumed during the COVID-19 pandemic. The quality of green tea is according to SNI 01- 3945-2016, classified based on the shape and the particle size. Similarity in form and difficult to understand the SNI criteria become the challenge to classify green tea leaves. Due to the rarity of publications discussing green tea based on SNI, it is challenging to validate SNI requirements with the varieties of green tea available on the market. This study aims to create random forest models in classifying types of green tea according to SNI 01- 3945-2016 and to measure the performance of random forest models. This research method uses random forest with color (RGB to HSV) and shape (Morphological Threshold) feature extraction. The samples used seven types of green tea, namely pekoe super, pekoe, jikeng, bubuk 1, tulang daun, gun powder 1, and fanning. Image acquisition for each type of tea is done 200 times, so the total dataset used is 1400 images. The division of training and testing data uses a proportion of 80:20. The analysed discussion is the value of accuracy, precision, recall, f1-score based on the confusion matrix of training and test data, RMSE, and prediction speed. The characteristics of the color and shape of the tea leaves resulting from the smartphone acquisition are clearly visible. The similarity of shape, color, and size of super pekoe with pekoe is a challenge during labelling. Augmentation results change color, focus, and position through grayscalling, gaussian blurring, histogram equalization, rotation, and translation techniques. The results of feature extraction using PCA reduced 30 features to 7 features. Random forest generates five best model options with different parameters. The best random forest model with the highest accuracy results is a model with a bootstrap f false, a criterion of entropy, max_depth 8, max_features log2, min_sample_leaf 2, n_estimators 100, random_state 0, and oob_score of a false value. The best model generated using 1,7Ghz dual-core Intel Core i5 processor and RAM 4 GB 1600 MHz DDR3I. The average accuracy percentage of testing based on five models with different tuning parameters is 99.5%, so classifying green tea based on SNI 01-3945-2016 using random forest is worth doing. The entire model is produced using color feature extraction. The values of precision, recall, and f1-score are one, concluding that there is no overfitting or underfitting on the best model. The RMSE derived from the model with the highest accuracy is 0,044. The average prediction speed is 1,2 seconds. Based on performance results, generally random forest can classify green tea accordingly well, but there is difficulty in distinguishing quality pekoe from pekoe super. The study only used samples from one distributor, the treatment of placing the samples was evenly distributed and not overlapping. This causes manual testing discrepancies with accuracy. Manual testing errors can be minimized by using samples from other distributors, as well as stacking or mixing samples to enrich machine learning resources.

Item Type: Thesis (Sarjana)
Identification Number: 052310
Uncontrolled Keywords: Klasifikasi, Pengolahan Citra Digital, Random Forest, Teh Hijau, Classification, Digital Image Processing, Green Tea, Random Forest
Divisions: Fakultas Teknologi Pertanian > Teknologi Industri Pertanian
Depositing User: Annisti Nurul F
Date Deposited: 17 Jan 2024 03:06
Last Modified: 17 Jan 2024 03:06
URI: http://repository.ub.ac.id/id/eprint/211290
[thumbnail of DALAM MASA EMBARGO] Text (DALAM MASA EMBARGO)
JASMINE FAHIRA.pdf
Restricted to Registered users only until 31 December 2025.

Download (5MB)

Actions (login required)

View Item View Item