KOMPARASI KECEPATAN  HADOOP MAPREDUCE DAN APACHE SPARK  DALAM MENGOLAH DATA TEKS

Condro Wibawa; Setia Wirawan; Metty Mustikasari; Dessy Tri Anggraeni

doi:10.33557/jurnalmatrik.v24i1.1649

Authors

Condro Wibawa Universitas Gunadarma
Setia Wirawan Universitas Guna Darma
Metty Mustikasari Universitas Guna Darma
Dessy Tri Anggraeni Universitas Guna Darma

DOI:

https://doi.org/10.33557/jurnalmatrik.v24i1.1649

Keywords:

Big Data, Map Reduce, Hadoop MapReduce, Apache Spark

Abstract

Istilah Big Data saat ini bukanlah hal yang baru lagi. Salah satu komponen Big Data adalah jumlah data yang masif, yang membuat data tidak bisa diproses dengan cara-cara tradicional. Untuk menyelesaikan masalah ini, dikembangkanlah metode Map Reduce. Map Reduce adalah metode pengolahan data dengan memecah data menjadi bagian-bagian kecil (mapping) dan kemudian hasilnya dijadikan satu kembali (reducing). Framework Map Reduce yang banyak digunakan adalah Hadoop MapReduce dan Apache Spark. Konsep kedua framework ini sama akan tetapi berbeda dalam pengelolaan sumber data. Hadoop MapReduce menggunakan pendekatan HDFS (disk), sedangkan Apache Spark menggunakan RDD (in-memory). Penggunaan RDD pada Apache Spark membuat kinerja framework ini lebih cepat dibandingkan Hadoop MapReduce. Hal ini dibutktikan dalam penelitian ini, dimana untuk mengolah data teks yang sama, kecepatan rata-rata Apache Spark adalah 4,99 kali lebih cepat dibandingkan Hadoop MapReduce.

Downloads

Download data is not yet available.

References

R. D. Gantz, R. John, "The Digitalization of the World From Edge to Core". Framingham : IDC, 2018.

E.G. Ularu, et al, "Perspectives on Big Data and Big Data Analytics", Database Systems Journal, vol III, no 4, 2012.

J. Dean dan S. Ghemawat, "MapReduce : Simplified Data Processing on Large Cluster", San Fransisco : Sixth Symposium on Operating System Design and Implementation, 2014.

The Apache Software Foundation, "What Is Apache Hadoop?" [Online], Available: http://hadoop.apache.org/#What+Is+Apache+Hadoop%3F. [Accessed : 15-Jun-2016].

R. Xue, "SQL Engines for Big Data Analytics : SQL on Hadoop", Aalto University, Espoo, 2015.

The Apache Software Foundation, "Home - Speed", [Online], Available : http://hadoop.apache.org/#What+Is+Apache+Hadoop%3F, [Accessed : 15-Jun-2016].

T. White, "Hadoop : The Definitive Guide, Second Edition". Sebastopol : O'Reilly Media, Inc, 2011.

P. C. Zikopolous, et al, "Understanding Big Data : Analytics for Enterprise Class Hadoop and Streaming Data". New York : The McGraw-Hill Companies, 2012.

A. Momtaz, "Detecting Document Similarity in Large Document Collection using MapReduce and the Hadoop Framework". Dhaka : Brac University, 2012.

C. Wibawa, et al, "Document Similarity Measurement Using Ferret Algorithm and Map Reduce Programming Model". International Journal of Computer Trends and Technology, vol 19, no 2, 2015.

V. Pellakuri dan R. Rao, "Hadoop MapReduce Framework in Big Data Analytics". International Journal of Computer Trends and Technology, vol 8, no 3, 2014.

V. S. Jonnalagadda, et al, "A Review Study of Apache Spark in Big Data Processing". International Journal of Computer Trends and Technology, vol 4, Issue 3, 2016.