Syafi’i, M. Irfan (2018) Analisa Perbandingan Kinerja File System GlusterFS dan HDFS dengan Distribusi Striped dan Replicated. Sarjana thesis, Universitas Brawijaya.
Big Data merupakan istilah yang digunakan untuk menggambarkan pertumbuhan data yang besar, baik data terstruktur maupun data tidak terstrukur. Big Data mempuyai tiga karakeristik utama yaitu volume, velocity, dan variety. Permasalahan yang timbul dengan semakin berkembangnya Big Data adalah bagaimana cara menyimpan data tersebut. Data yang terus tumbuh membesar setiap waktu membutuhkan ruang penyimpanan yang besar pula. Hal ini tentu tidak akan mampu bila ruang penyimpanan tersebut berada dalam satu mesin (single node/host). Sistem file terdistribusi merupakan modul penyimpanan dan pengelolaan file yang terdiri dari banyak mesin (multi node/host). Penelitian ini bertujuan untuk membandingkan kinerja dua file system yakni GlusterFS dan HDFS dalam melakukan penyimpanan file terdistribusi dengan skenario distribusi striped dan replicated. Penelitian berbatas pada pengukuran kinerja file system dalam melakukan operasional write/read file. Hasil pengujian menunjukkan bahwa GlusterFS memiliki kinerja yang lebih ringan dalam melakukan operasional write file dengan perolehan throughput sebesar 44,54 MBps, waktu eksekusi selama 58,54 detik, beban penggunaan CPU sebesar 54,83% dan penggunaan memori sebesar 3,6%. Sedangkan HDFS, memiliki kinerja optimal saat operasional read file diperoleh hasil rata-rata throughput sebesar 194,37 MBps, waktu eksekusi selama 16,01 detik, beban penggunaan CPU sebesar 86,9% dan penggunaan memori sebesar 18,5%.
English Abstract
Big Data is a term used to describe the growth of large data, both structured data and data not tersrukur. Big Data has three main characteristics: volume, velocity, and variety. The problem that arises with the development of Big Data is how to store the data. Data that continues to grow enlarged each time requires a large storage space as well. This certainly will not be able if the storage space is in one machine (single node / host). Distributed file system is a storage and file management module consisting of multiple machines (multi node / host). This study aims to compare the performance of two file systems, GlusterFS and HDFS in distributed file storage with striped and replicated distribution scenarios. The study is limited to the measurement of file system performance in performing write / read file operational. The test results show that the performance GlusterFS have a lighter in performing write file operations with the acquisition of 44.54 MBps throughput, the execution time for 58.54 seconds, CPU usage of 54.83% and memory usage of 3.6%. HDFS has the optimal performance on operational write files, obtained the average of throughput for 194.37 MBps, execution time for 16.01 seconds, CPU usage of 86.9% and memory usage of 18.5%.
