Mengenal Hadoop: Definisi, Ekosistem, Jenis Instalasi, dan Manfaat
Isi Artikel
Seiring teknologi yang terus berkembang, muncul pula beberapa inovasi baru yang membuat big data analytics semakin efektif, salah satunya adalah Hadoop.
Saat ini, big data analytics sangat dibutuhkan oleh banyak perusahaan, khususnya yang mengolah data dalam jumlah besar.
Dibuat oleh Google dan Apache Software Foundation, framework ini tentunya canggih, sehingga tak heran ia banyak digunakan.
Yuk, kenali seluk-beluknya dan pahami secara mendalam di artikel ini.
Apa Itu Hadoop?
Hadoop menawarkan solusi terhadap permasalahan pengolahan big data secara tradisional.
Dulu, pengolahan big data sering bermasalah ketika data yang dimiliki bersifat heterogen, seperti structured data, semi-structured data, dan unstructured data.
Karena dirasa semakin penting bagi perusahaan, terjadi kebutuhan pengolahan big data yang lebih efektif dan efisien.
Maka, framework ini hadir dan memungkinkan pengolahan data lebih banyak, menyimpan data heterogen, dan meningkatkan kecepatan prosesnya.
Menurut AWS, Hadoop adalah framework open source yang efektif untuk menyimpan dataset dalam jumlah besar.
Tidak hanya menyimpan, framework ini juga tentunya bisa memproses data mulai dari ukuran gigabyte hingga petabyte secara efisien.
Meskipun data yang diolah jumlahnya besar, prosesnya lebih cepat karena menggunakan komputer yang lebih banyak.
Data diolah secara terdistribusi dalam waktu yang bersamaan, sehingga kecepatan prosesnya bisa lebih singkat.
Framework ini memiliki empat modul utama, yaitu HDFS, YARN, MapReduce, dan Hadoop Common.
- Hadoop Distributed File System (HDFS): File system terdistribusi yang beroperasi di hardware standar maupun low-end.
- Yet Another Resource Negotiator (YARN): Sistem yang mengatur dan memonitor cluster node dan resource usage.
- MapReduce: Framework yang membantu program untuk melakukan komputasi data secara paralel.
- Hadoop Common: Penyedia library Java yang dapat digunakan oleh semua modul.
Cara Kerja Hadoop
Hadoop adalah framework yang bekerja dengan mendistribusi dataset dalam jumlah besar ke beberapa mesin berbeda.
Data-data ini diproses di waktu yang bersamaan.
HDFS digunakan untuk menyimpan data dan MapReduce memproses data tersebut.
Sementara, YARN berfungsi untuk membagi tugas.
Ekosistem Hadoop
Ekosistem Hadoop meliputi berbagai tool dan aplikasi yang membantu pengumpulan, penyimpanan, analisis, dan pengelolaan big data.
Beberapa aplikasi atau software yang populer berdasarkan framework ini adalah:
1. Spark
Spark adalah processing system terdistribusi yang bersifat open source.
Sistem yang merupakan bagian ekosistem Hadoop ini digunakan untuk big data dan mampu beroperasi dengan cepat.
Spark bisa melakukan batch processing, streaming analytics, machine learning, graph database, dan ad hoc query.
2. Presto
Seperti Spark, Presto juga bersifat open source.
Presto merupakan SQL query engine terdistribusi yang digunakan untuk analisis data ad hoc low-latency.
Dengan Presto, kamu bisa memproses data dari sumber yang berbeda-beda, termasuk HDFS dan Amazon S3.
3. Hive
Hive digunakan untuk MapReduce dengan interface SQL.
Jadi, tool ini cocok untuk analisis data jumlah besar.
4. HBase
HBase adalah database yang digunakan Amazon S3 dan HDFS.
Tool ini dibuat untuk memproses tabel dengan baris dalam jumlah sangat banyak.
Selain keempat software atau aplikasi tersebut, Data Bricks menyampaikan bahwa ada juga Apache Impala, Pig, Zookeeper, Sqoop, dan Oozie.
Jenis Instalasi Hadoop
Sejatinya, Hadoop berjalan pada sistem operasi komputer berbasis Unix atau Linux. Akan tetapi, meskipun tidak disarankan, ia juga dapat diterapkan pada perangkat berbasis Windows.
Tak hanya itu, teknologi ini juga memiliki sejumlah tipe instalasi dengan metode dan proses kerja yang berbeda-beda. Data scientist dapat memanfaatkannya sesuai kebutuhan mereka masing-masing.
Nah, berikut adalah daftar dan penjelasan jenis-jenis instalasi Hadoop, dikutip dari C-Sharp Corner.
1. Standalone mode
Ini adalah bentuk paling sederhana dari mode Hadoop yang berjalan pada satu node atau sistem.
Ia memiliki proses JVM tunggal untuk mensimulasikan sistem terdistribusi. Jenis mode ini pun menggunakan sistem file lokal untuk keperluan penyimpanan.
HDFS tidak berjalan di mesin berbasis standalone mode dan semua manipulasi file akan berada di mesin lokal dengan tambahan HDFS – YARN. Keduanya tidak mendapatkan dukungan dalam mode ini.
Standalone mode biasanya digunakan untuk menguji pekerjaan yang berorientasi dengan program MapReduce sebelum menjalankannya di sebuah cluster.
2. Pseudo-distributed mode
Jika ingin mensimulasikan cluster yang sebenarnya, data scientist bisa menggunakan pseudo-distributed mode instalasi Hadoop.
Mode ini memiliki kualitas dari mode standalone dan cluster tingkat fully-distributed mode.
Ia berjalan pada satu node, tetapi, ada dua proses JVM untuk mensimulasikan dua node, satu sebagai master dan satu lagi untuk penopang kerja.
HDFS di sini digunakan untuk penyimpanan dan YARN dimanfaatkan untuk mengelola sumber daya di instalasi Hadoop.
Mode ini pun biasanya digunakan untuk lingkungan pengujian yang lengkap dan direkomendasikan untuk keperluan lain dengan sistem kerja yang sama.
3. Fully-distributed mode
Jenis instalasi Hadoop terakhir yang dapat dimanfaatkan oleh para scientist adalah fully-distributed mode.
Mode ini merupakan lingkungan produksi yang berjalan pada sekelompok pengaturan mesin terdistribusi nyata yang berfungsi untuk traffic pengguna.
Jenis instalasi ini adalah yang paling penting, di mana beberapa node digunakan dan beberapa dari mereka menjalankan Daemon Master, yaitu Namenode dan Resource Manager.
Sisa nodenya menjalankan Daemon Slave, yaitu DataNode dan Node Manager.
Manfaat Hadoop
1. Dapat ditingkatkan kapasitasnya
Hadoop adalah teknologi yang memberikan solusi pada sistem tradisional.
Sistem tradisional memiliki data storage yang terbatas, sementara Hadoop bisa ditingkatkan kapasitasnya.
Pasalnya, seperti yang sudah kamu ketahui, framework ini bekerja secara terdistribusi.
2. Ketahanan
HDFS sebagai bagian dari ekosistem Hadoop dinilai memiliki ketahanan tinggi dan meminimalkan risiko kegagalan hardware atau software.
Kalaupun satu node rusak atau mengalami masalah, HDFS bisa menyediakan backup data untuk melanjutkan proses.
3. Fleksibilitas
Data bisa disimpan dalam format apa pun, baik structured atau unstructured.
Jadi, kamu bisa mengakses data dari sumber mana pun dan dengan tipe apa pun.
Sudahkah kamu lebih paham tentang Hadoop?
Memang terdengar cukup rumit, tetapi software dan tool yang tergabung di ekosistemnya pasti bisa kamu kuasai.
Jika ingin belajar lebih lanjut tentang big data analytics dan hal-hal terkait lainnya, kamu bisa langsung kunjungi laman Data Analytics di Glints Blog.
Di sana, Glints sudah siapkan banyak artikel mengenai istilah, tools, dan tips dunia analisis data khusus buat kamu.
Maka dari itu, tunggu apa lagi? Yuk, langsung baca kumpulan artikelnya sekarang juga!