ANALISIS BIG DATA Edisi I
ANALISIS BIG DATA: KONSEP BIG DATA
A. PERKEMBANGAN BIG DATA
Ada banyak pendapat, diskusi, maupun ketidaksepakatan tentang apa sebenarnya Big Data itu dan juga jenis kemampuan apa yang dibutuhkan untuk memanfaatkannya secara efektif. Banyak pula pakar yang telah menulis tentang Big Data dan kebutuhan akan penggunaannya dalam data analitik lanjutan diindustri, akademisi, dan pemerintahan, di antara bidang lainnya. Potensi analitik yang lebih rumit dan ketersediaan sumber informasi baru mengharuskan pemikiran ulang struktur data yang ada untuk memfasilitasi analitik Big Data. Beberapa prinsip terpenting dari Big Data dijelaskan dalam artikel ini, termasuk mengapa data analitik tingkat lanjut diperlukan, perbedaan antara Business Intelligent dengan Data Science, dan pekerjaan baru apa yang dibutuhkan dalam ekosistem Big Data. Sebagaimana tergambar pada gambar berikut, perkembangan data dan sumber data utama berikut muncul dari tahun ke tahun yang menjelaskan bagaiman kemudian Big Data itu berkembang:
Sedangkan pada gambar dibawah, menunjukkan bagaiamana kita dapat membedakan antara Business Intelligence dengan Data Science sehingga kita dapat dengan mudah untuk membedakannya.
Sebuah peneilitian dilakukan untuk berusaha memahami suatu topik secara mendalam daripada hanya menguji faktor-faktor, karena variabel-variabel ini seringkali tidak diketahui dan hanya dapat ditemukan melalui penelitian, yang kemudian penelitian ini disebut sebagai penelitian eksploratory atau eksplorasi. Eksperimen eksplorasi ini, di sisi lain, lebih terbuka. Wawancara dan diskusi kelompok adalah metode pengumpulan data yang paling umum digunakan dalam penelitian ini, yang umumnya berbentuk penelitian kualitatif. Laporan yang dibuat dan didistribusikan oleh pengguna akhir non-teknis merupakan metodologi pelaporan ad hoc atau laporan dalam waktu yang cepat sesuai kebutuhan. Dan dasbor, yang juga dikenal sebagai perangkat lunak Business Intelligent.
B. GAMBARAN UMUM BIG DATA
HDD, FDD, dan media penyimpanan perangkat keras lainnya dapat digunakan dari perspektif ilmiah. Jika dianalogikan, salah satu organ yang penting bagi manusia adalah otak yang oleh Sang Pencipta difungsikan sekaligus sebagai media penyimpan dalam jaringan biologis. Keseluruhan data kecil diproses dan kemudian menyatukan semuanya untuk membentuk data besar sangat penting, yang kemudian disebut sebagai Big Data.
Secara garis besar, hubungan Big Data dapat ditunjukkan sebagaimana pada gambar dibawah ini:
Dari gambaran umum diatas, dapat kita bagi menjadi 4 (empat) elemen penting dari Big Data, diantaranya:
1. Data (Facts, a description of the World)
2. Information (Captured Data and Knowledge): Merekam atau mengambil Data dan Knowledge pada satu waktu tertentu (at a single point). Sedangkan Data dan Knowledge dapat terus berubah dan bertambah dari waktu ke waktu.
3. Knowledge (Our personal map/model of the world): apa yang kita ketahui (not the real world itself) Anda saat ini tidak dapat menyimpan pengetahuan dalam diri anda dalam apa pun selain otak, dan untuk membangun pengetahuan perlu informasi dan data.
4. Decisions (Informed actions): Keputusan ataupuk hal apa yang kita lakukan dengan adanya kumpulan data dan informasi yang telah masuk dan diolah. Menurut McKinsey Global (2011), Big Data dapat didefinisikan dengan data yang memiliki skala (volume), distribusi (velocity), 4 Cholissodin, I., Riyandani, E., 2016, Analisis Big Data, Fakultas Ilmu Komputer, Universitas Brawijaya, Malang. keragaman (variety) yang sangat besar, dan atau abadi, sehingga membutuhkan penggunaan arsitektur teknikal dan metode analitik yang inovatif untuk mendapatkan wawasan yang dapat memberikan nilai bisnis baru (informasi yang bermakna). Dan pada pengembangannya ada yang menyebut (7V) termasuk Volume, Velocity, Variety, Variability, Veracity, Value, dan Visualization, atau 10V bahkan lebih dari itu.
Big data merupakan istilah untuk sekumpulan data yang begitu besar atau kompleks dimana tidak bisa ditangani lagi dengan sistem teknologi komputer konvensional (Hurwitz, et al., 2013). Kapan suatu data dapat dikatakan sebagai “Big Data”?
C. KARAKTERISTIK BIG DATA (3V)
1. Volume
Facebook menghasilkan 10TB data baru setiap hari, Twitter 7TB - Sebuah Boeing 737 menghasilkan 240 terabyte data penerbangan selama penerbangan dari satu wilayah bagian AS ke wilayah yang lain - Microsoft kini memiliki satu juta server, kurang dari Google, tetapi lebih dari Amazon, kata
Ballmer (2013).
Teknologi Big Data dibagi menjadi 2 kelompok (Batch Processing dan Streaming Processing):
- Batch processing yang mana digunakan untuk menganalisis data yang sudah settle (data at rest) pada satu waktu tertentu. Batch processing adalah jenis pemrosesan data di mana sejumlah besar data diproses sekaligus. Memproses semua transaksi lembaga keuangan besar dalam seminggu, misalnya Secara total, data ini berisi miliaran entri untuk satu hari. Setelah penutupan hari itu, file ini akan dianalisis oleh perusahaan untuk berbagai tujuan. Jelas bahwa file ini akan memakan waktu lama
untuk diproses. Pemrosesan batch adalah metode untuk melakukan hal itu.
Dalam hal pemrosesan batch, Hadoop MapReduce adalah kerangka kerja terbaik. MapReduce digunakan untuk mengolah data di Hadoop, seperti terlihat pada diagram di bawah ini.
Ada kalanya pemrosesan batch lebih disukai daripada analitik waktu nyata, seperti saat memproses data dalam jumlah besar lebih penting daripada mendapatkan hasil langsung.
- Streaming processing yang mana digunakan untuk menganalisis data yang terus menerus terupdate setiap waktu (data in motion). Anda memerlukan streaming processing untuk mendapatkan hasil analisis waktu nyata. Kemampuan untuk memproses data secara real time seperti yang diterima dan mendeteksi kondisi dalam waktu singkat setelah mendapatkan data dimungkinkan berkat streaming processing. Segera setelah data dihasilkan, Anda dapat memasukkannya ke dalam alat
analisis dan mendapatkan hasil langsung dari analisis. Apache Kafka, Apache Flink, Apache Storm, Apache Samza, dan lebih banyak lagi sistem streaming processing sumber terbuka tersedia. Platform streaming processing sumber terbuka yang saya sarankan adalah, WSO2 SP. Data dari Kafka, permintaan HTTP, dan perantara pesan dapat diserap oleh WSO2 SP. Saat bekerja dengan data streaming, bahasa "Streaming SQL" dapat digunakan untuk kueri. Ketersediaan tinggi dan throughput 100K+ TPS dapat dicapai hanya dengan dua server komoditas. Selain Kafka, ia mampu menangani jutaan transaksi per detik. Dimungkinkan juga untuk menggunakan Pengelola Aturan Bisnis WSO2 SP untuk membuat templat dan menghasilkan aturan bisnis darinya untuk beragam skenario yang
memiliki kebutuhan umum.
Deteksi penipuan dapat mengambil manfaat dari pemrosesan aliran.
Anomali yang mengindikasikan penipuan dapat dideteksi secara real time oleh data transaksi pemrosesan aliran, dan transaksi penipuan dapat dihentikan sebelum diselesaikan. Real-time data processing Spark diilustrasikan dalam diagram di bawah ini.
Karena streaming processing mengevaluasi data sebelum ditulis ke disk, ini jauh lebih cepat daripada pemrosesan batch tradisional. WSO2 telah menambahkan Solusi Deteksi Penipuan WSO2 ke portofolio
produknya. Menggunakan Platform Analisis Data WSO2, yang mencakup analitik batch dan real-time, telah dikembangkan (Stream Processing).
Sekarang Anda memiliki beberapa pemahaman dasar tentang apa itu pemrosesan Batch dan pemrosesan Stream. Mari selami perdebatan seputar batch processing vs stream processing.
Di Batch Processing, semua atau sebagian besar data diproses, sedangkan di Stream Processing, hanya data terbaru yang diproses. Sejumlah besar data ditangani oleh Pemrosesan Batch, sementara catatan individu atau kumpulan mikro dari beberapa catatan ditangani oleh Pemrosesan Streaming.
Batch processing memiliki latensi menit hingga jam, sedangkan streaming processing memiliki latensi detik atau milidetik.
Pengembang harus memiliki pemahaman tentang kedua alur kerja tersebut. Tidak ada jawaban yang cocok untuk semua pertanyaan tentang alur kerja mana yang terbaik untuk dimanfaatkan pada organisasi Anda, semua hal tersebut disesuikan dengan kebutuhan dan output apa yang nantinya akan diharapkan dari pemrosesan data.
Organisasi dengan jelas memindahkan fokus mereka ke analitik waktu nyata dan aliran data sehingga mereka dapat mengekstrak informasi yang dapat ditindaklanjuti secara waktu nyata. Basis data dan aplikasi streaming saat ini dilengkapi dengan baik untuk menghadapi tantangan bisnis saat ini, sedangkan solusi lama tidak dapat mengimbanginya.
Palu tidak selalu merupakan alat terbaik untuk memukul, dan itulah kesimpulan dari argumen Big Data. Pada akhirnya, ini bukan masalah memilih satu dari yang lain, melainkan memutuskan mana yang terbaik untuk kasus penggunaan spesifik Anda. Pemrosesan batch dan streaming adalah dua konsep yang berbeda.
2. Velocity
Velocity adalah Kecepatan data yang masuk (per jam, per detik, etc). Clickstreams (web log) dan transfer data asynchronous yang dapat menangkap apa saja yang dilakukan oleh jutaan atau lebih pengguna yang lakukan saat ini. Dimana clickstream atau web log merupakan salah satu sumber data yang menarik. Sebuah clickstream meliputi suatu rekaman untuk setiap permintaan halaman dari setiap pengunjung website. Jadi, suatu clickstream merekam setiap gesture yang dibuat oleh pengunjung dan gesture ini memiliki potensi untuk memberikan deskripsi mengenai kebiasaan dari pengunjung yang bersangkutan. Diharapkan bahwa clickstream akan mengidentifikasi sesi yang berhasil dan tidak berhasil, menentukan apakah pengunjung puas atau tidak puas, dan menemukan
bagian dari website yang secara efektif menarik perhatian pengunjung.
3. Variety
Variety merupakan kumpulan dari berbagai macam data, baik data yang terstruktur, semi terstruktur maupun data tidak terstruktur (bisa dipastikan lebih mendominasi). Tampilan data semakin komprehensif (lengkap dan menyeluruh).
4. Rangkuman 3V dan Veracity