KOMPARASI KECEPATAN HADOOP MAPREDUCE DAN APACHE SPARK DALAM MENGOLAH DATA TEKS

  • Condro Wibawa Universitas Gunadarma
  • Setia Wirawan Universitas Guna Darma
  • Metty Mustikasari Universitas Guna Darma
  • Dessy Tri Anggraeni Universitas Guna Darma
Keywords: Big Data, Map Reduce, Hadoop MapReduce, Apache Spark

Abstract

Istilah Big Data saat ini bukanlah hal yang baru lagi. Salah satu komponen Big Data adalah jumlah data yang masif, yang membuat data tidak bisa diproses dengan cara-cara tradicional. Untuk menyelesaikan masalah ini, dikembangkanlah metode Map Reduce. Map Reduce adalah metode pengolahan data dengan memecah data menjadi bagian-bagian kecil (mapping) dan kemudian hasilnya dijadikan satu kembali (reducing). Framework Map Reduce yang banyak digunakan adalah Hadoop MapReduce dan Apache Spark. Konsep kedua framework ini sama akan tetapi berbeda dalam pengelolaan sumber data. Hadoop MapReduce menggunakan pendekatan HDFS (disk), sedangkan Apache Spark menggunakan RDD (in-memory). Penggunaan RDD pada Apache Spark membuat kinerja framework ini lebih cepat dibandingkan Hadoop MapReduce. Hal ini dibutktikan dalam penelitian ini, dimana untuk mengolah data teks yang sama, kecepatan rata-rata Apache Spark adalah 4,99 kali lebih cepat dibandingkan Hadoop MapReduce.

References

R. D. Gantz, R. John, "The Digitalization of the World From Edge to Core". Framingham : IDC, 2018.

E.G. Ularu, et al, "Perspectives on Big Data and Big Data Analytics", Database Systems Journal, vol III, no 4, 2012.

J. Dean dan S. Ghemawat, "MapReduce : Simplified Data Processing on Large Cluster", San Fransisco : Sixth Symposium on Operating System Design and Implementation, 2014.

The Apache Software Foundation, "What Is Apache Hadoop?" [Online], Available: http://hadoop.apache.org/#What+Is+Apache+Hadoop%3F. [Accessed : 15-Jun-2016].

R. Xue, "SQL Engines for Big Data Analytics : SQL on Hadoop", Aalto University, Espoo, 2015.

The Apache Software Foundation, "Home - Speed", [Online], Available : http://hadoop.apache.org/#What+Is+Apache+Hadoop%3F, [Accessed : 15-Jun-2016].

T. White, "Hadoop : The Definitive Guide, Second Edition". Sebastopol : O'Reilly Media, Inc, 2011.

P. C. Zikopolous, et al, "Understanding Big Data : Analytics for Enterprise Class Hadoop and Streaming Data". New York : The McGraw-Hill Companies, 2012.

A. Momtaz, "Detecting Document Similarity in Large Document Collection using MapReduce and the Hadoop Framework". Dhaka : Brac University, 2012.

C. Wibawa, et al, "Document Similarity Measurement Using Ferret Algorithm and Map Reduce Programming Model". International Journal of Computer Trends and Technology, vol 19, no 2, 2015.

V. Pellakuri dan R. Rao, "Hadoop MapReduce Framework in Big Data Analytics". International Journal of Computer Trends and Technology, vol 8, no 3, 2014.

V. S. Jonnalagadda, et al, "A Review Study of Apache Spark in Big Data Processing". International Journal of Computer Trends and Technology, vol 4, Issue 3, 2016.

Published
2022-04-13
How to Cite
Wibawa, C., Wirawan, S., Mustikasari, M., & Anggraeni, D. (2022). KOMPARASI KECEPATAN HADOOP MAPREDUCE DAN APACHE SPARK DALAM MENGOLAH DATA TEKS. Jurnal Ilmiah Matrik, 24(1), 10–20. https://doi.org/10.33557/jurnalmatrik.v24i1.1649
Section
Articles
Abstract viewed = 1203 times
PDF : 722 times