Metode Hybrid Undersampling, Regularisasi, Dan Pohon Keputusan Untuk Klasifikasi Data Dimensi Tinggi Dengan Kelas Tidak Seimbang

Rochayani, Masithoh Yessi (2020) Metode Hybrid Undersampling, Regularisasi, Dan Pohon Keputusan Untuk Klasifikasi Data Dimensi Tinggi Dengan Kelas Tidak Seimbang. Magister thesis, Universitas Brawijaya.

Abstract

Dimensi tinggi dan proporsi kelas tidak seimbang merupakan dua tantangan dalam pemodelan klasifikasi. Data dimensi tinggi merupakan data dengan peubah prediktor lebih banyak daripada pengamatan. Pemodelan data dimensi tinggi dapat ditangani dengan Lasso yang mampu menyeleksi prediktor. Sementara itu, penanganan kelas tidak seimbang dapat dilakukan dengan Random Undersampling (RUS). Penelitian ini menggabungkan metode RUS dan Lasso untuk menyelesaikan permasalahan data dimensi tinggi dengan kelas tidak seimbang. Untuk membangun model klasifikasi, digunakan pohon keputusan Classification and Regression Tree (CART). Metode yang diusulkan adalah (Lasso + CART) dan (RUS + Lasso + CART) yang diterapkan pada tiga puluh set data simulasi yang memiliki rasio ketidakseimbangan berbeda dan dua set data microarray real, yaitu data tumor payudara dan tumor ovarium. Hasil studi simulasi menunjukkan bahwa metode (Lasso + CART) tepat digunakan ketika pengamatan pada kelas minoritas lebih dari 25% pengamatan pada data latih. Sementara itu, metode (RUS + Lasso + CART) efektif digunakan ketika kelas tidak seimbang dengan ukuran kelas minoritas tidak kurang dari 20 pengamatan. Hasil pemodelan pada kedua data microarray menunjukkan bahwa (Lasso + CART) dan (RUS + Lasso + CART) mampu menghasilkan model yang sesuai dengan teori. Pemodelan data tumor payudara menghasilkan bahwa di antara 10.396 prediktor berupa gen, GATA3 menjadi gen terbaik untuk membedakan jaringan tumor payudara dan jaringan tumor lainnya. Sementara itu pada data tumor ovarium, diperoleh gen STAR pada penggunaan metode (Lasso + CART) dan diperoleh gen COLEC11 pada penggunaan (RUS + Lasso + CART) sebagai gen terbaik untuk membedakan jaringan tumor ovarium dan tumor lainnya.

English Abstract

The high dimension and unbalanced class are two challenges in classification modeling. High dimensional data is a data that has more predictor variables than observations. High dimensional data modeling can be handled with Lasso which is able to select predictors. Meanwhile, the handling of unbalanced classes can be done by random undersampling (RUS). This study combines the RUS and Lasso methods to solve high dimensional data problems with unbalanced classes. The Classification and Regression Tree (CART) decision tree is used to construct a classification model. The proposed methods are (Lasso + CART) and (RUS + Lasso + CART) which are applied to thirty simulation data sets that have different imbalance ratios and two real microarray data sets, namely breast tumor and ovarian tumor data. The results of the simulation study show that the method (Lasso + CART) is appropriate when the observation of the minority class has more than 25% of the observation on the training data. Meanwhile, the method (RUS + Lasso + CART) is effective when the class is not balanced with the minority class size of not less than 20 observations. The modeling results on both microarray data show that (Lasso + CART) and (RUS + Lasso + CART) are able to produce models in accordance with the theory. Breast tumor data modeling resulted that among 10,396 predictors in the form of genes, GATA3 was the best gene for differentiating breast tumor tissue from other tumor tissues. Meanwhile on ovarian tumor data, the STAR gene was obtained using the method (Lasso + CART) and the COLEC11 gene was obtained on the use (RUS + Lasso + CART) as the best gene to distinguish ovarian tumor tissue and other tumors.

Other obstract

-

Item Type: Thesis (Magister)
Identification Number: 0420090012
Uncontrolled Keywords: Dimensi Tinggi, Kelas Tidak Seimbang, Random Undersampling, Regularisasi, Pohon Keputusan, Data Microarray
Subjects: 500 Natural sciences and mathematics > 519 Probabilities and applied mathematics > 519.5 Statistical mathematics > 519.53 Descriptive statistics, multivariate analysis, analysis of variance and covariance > 519.536 Regression analysis
Divisions: Fakultas Matematika dan Ilmu Pengetahuan Alam > Statistika
Depositing User: ismanto
Date Deposited: 25 Feb 2021 14:14
Last Modified: 12 Apr 2023 03:34
URI: http://repository.ub.ac.id/id/eprint/183689
[thumbnail of DALAM MASA EMBARGO] Text (DALAM MASA EMBARGO)
0420090012 - Masithoh Yessi Rochayani.pdf
Restricted to Registered users only until 31 December 2023.

Download (3MB)

Actions (login required)

View Item View Item