ETL: Proses Integrasi Data yang Sangat Penting untuk Perusahaan

Diperbarui 21 Des 2020 - Dibaca 8 mnt

Isi Artikel

    Kamu tengah menggeluti dunia data science? Apabila demikian, ETL adalah proses yang harus kamu kuasai. Akan tetapi, sudahkah kamu memahami apa itu ETL?

    Selain itu, apa fungsinya? Bagaimana teknis prosesnya?

    Jawabannya ada di dalam artikel ini. Simak selengkapnya, yuk!

    Apa Itu ETL?

    apa itu etl

    © Freepik.com

    ETL adalah singkatan dari extract, transform, dan load. Melansir IBM, ia merupakan proses integrasi data.

    Di sana, data akan dikombinasikan dari berbagai sumber. Setelah itu, mereka disimpan di tempat bernama data warehouse.

    Dalam proses ini, kata Guru99, ada tools yang bisa kamu gunakan. Misalnya, MarkLogic, Oracle, Amazon RedShift, dan lain-lain.

    Di perusahaan, orang yang bertanggung jawab atasnya merupakan ETL developer.

    Baca Juga: Kupas Tuntas Perbedaan Business Intelligence dan Business Analytics

    Mengapa ETL Penting?

    mengapa extract transform load penting

    © Freepik.com

    Kamu telah memahami apa itu ETL. Lantas, mengapa proses ini begitu penting?

    Nah, Xplenty punya jawabannya. Ternyata, ini sangat berkaitan dengan penerapan data science dalam bisnis. 

    Ingat, di masa kini, big data adalah unsur yang penting untuk perusahaan. Berbagai pihak sangat membutuhkannya.

    Departemen sales ingin tahu informasi soal pelanggan potensial? Tim pemasaran ingin mengetahui conversion rate dari suatu campaign?

    ETL adalah salah satu proses yang bisa membantu mereka semua. Lewatnya, berbagai informasi bisa diambil dan dimanfaatkan.

    Dengan begitu, keputusan bisnis yang tepat pun bisa dibuat. Tak ada lagi pihak yang meraba-raba dalam kegelapan atau “asal tembak”.

    Terlebih lagi, ETL memungkinkan perusahaan melakukan data governance. Dengannya, informasi pun terkumpul menjadi satu, tak tercecer ke mana-mana.

    Baca Juga: 10 Pertanyaan Interview Data Scientist yang Harus Kamu Ketahui

    Proses dalam ETL

    apa itu proses etl extract transform load

    © Geeksforgeeks.org

    Kamu telah memahami pengertian dan fungsi dari ETL. Lantas, bagaimana teknis dari proses ini?

    Dirangkum dari Geeks for Geeks, penjelasan langkah dalam ETL adalah:

    1. Extraction

    Langkah pertama bernama extraction. Layaknya namanya, dalam proses ini, kamu mengambil data dari berbagai sumber. Misalnya, dari server SQL, XML, atau flat files

    Nah, setelah diambil, kamu tak serta-merta menaruhnya di warehouse. Tempat untuk data ini adalah staging area.

    Mungkin, kamu bertanya apa pentingnya langkah itu dalam ETL? Bukankah lebih cepat jika data langsung pergi ke tempat seharusnya?

    Format dari data tersebut berbeda-beda. Belum lagi, ada kemungkinan informasi tersebut bersifat corrupt.

    Oleh karena itu, kamu wajib menaruhnya di staging area dulu. Di sana, langkah selanjutnya pun dilakukan.

    2. Transformation

    Tahap ETL selanjutnya adalah transformation. Pada langkah ini, data akan diolah sehingga punya satu format yang sama.

    Biasanya, ada 5 hal yang dilakukan pada data:

    • filtering, menyaring data dengan filter tertentu
    • cleaning, menyesuaikan format penulisan, misalnya “Amerika Serikat” diubah jadi “AS”
    • joining, ciri data yang serupa menjadi satu
    • splitting, memecah ciri data yang berbeda menjadi dua atau lebih
    • sorting mengurutkan data berdasarkan ciri tertentu

    Dengan begitu, informasi yang didapatkan lebih rapi. Mereka pun siap menuju tahap selanjutnya.

    3. Loading

    Langkah terakhirnya bernama loading. Akhirnya, data yang selesai diproses masuk ke data warehouse

    Kadang kala, proses ini terjadi sangat cepat. Tiap data selesai diolah, ia langsung menjalani proses loading.

    Akan tetapi, kamu bisa mengatur alirannya menjadi beberapa saat sekali. Dengan begitu, tingkat keseringannya bisa kamu atur.

    ETL Pipeline

    pipeline

    © Freepik.com

    Ternyata, satu data mentah tak hanya bisa menjadi satu data matang, lho. Kamu bisa “mengambil” data itu di tengah proses, lalu mengolahnya menjadi data lain.

    Nama untuk proses ini adalah ETL pipeline. Ilustrasi lengkapnya ada di bawah ini.

    apa itu pipeline etl extract transform load

    © Geeksforgeeks.org

    Misalnya, kamu sudah mengambil dan mengolah data A menjadi setengah jadi. Awalnya, data A ingin diubah menjadi data B.

    Akan tetapi, kamu bisa meng-copy data ini dan mengolahnya menjadi data baru, lho. Misalnya, data A setengah jadi menjadi data C.

    Baca Juga: Jangan Tertukar! Ini Perbedaan Data Analyst, Data Scientist, dan Data Engineer

    Demikian informasi dari Glints soal apa itu ETL. Setelah ini, kamu tak perlu lagi merasa bingung.

    ETL adalah satu dari banyak istilah data science yang ada. Masih banyak proses dan metode yang wajib kamu pelajari.

    Tenang saja, ada Glints ExpertClass. Glints ExpertClass adalah sebuah kelas dengan pemateri berpengalaman.

    Di sana, dunia data dan analisisnya akan dikupas tuntas. Jadi, tunggu apa lagi? Ikut kelasnya sekarang, yuk!

      Seberapa bermanfaat artikel ini?

      Klik salah satu bintang untuk menilai.

      Nilai rata-rata 4.7 / 5. Jumlah vote: 15

      Belum ada penilaian, jadi yang pertama menilai artikel ini.

      We are sorry that this post was not useful for you!

      Let us improve this post!

      Tell us how we can improve this post?


      Comments are closed.

      Artikel Terkait