ANALISIS BIG DATA Edisi 2
EKOSISTEM BIG DATA ANALYTICS
Pada edisi sebelumnya telah dibahas mengenai apa itu Big Data, dan hal mendasar apa yang perlu diketahui mengenai Big Data. Selanjutnya kita akan membahas mengenai gambaran dari Ekosistem Big Data yang perlu kita ketahui. Secara garis besar, ekosistem Big Data dapat dilihat pada gambar berikut dibawah:
Keterangan:
1. Data Devices: Devices atau alat-alat apa saja yang dipergunakan dalam mengelola Big Data dalam keseharian.
2. Data Collectors: Merupakan kolektor atau pengumpul data yang telah dihasilkan
3. Data Aggregators: kompilasi informasi dari database dengan tujuan untuk mempersiapkan dataset gabungan untuk pengolahan data.
4. Data Users/ Buyers: Pengguna dari data yang telah dikumpulkan, merupakan hasil akhir dari pengolahan data sehingga lebih memudahkan dalam penggunaan lebih lanjut.
Apa yang dimaksud dengan istilah "analitik"? Langkah pertama dalam memahami analitik adalah turun ke seluk beluk suatu objek. Tidak jarang hasil analitik dipahami karena konteksnya. Gambar dibawah mengilustrasikan perkembangan analitik dari DSS ke BI (Business Intelligence) dan selanjutnya ke analitik:
Kata umum untuk semua aplikasi yang mendukung DSS dan bagaimana aplikasi tersebut dipahami di industri dan akademisi adalah BI. Dengan cara yang sama seperti DSS melahirkan BI, orang mungkin berpendapat bahwa Analytics juga melahirkan BI (setidaknya dalam hal terminologi). Akibatnya, Analytics berfungsi sebagai kata kunci untuk semua alat analisis data. Alat dan pendekatan analitis
yang disebut Big Data Analytics dapat sangat membantu dalam memahami data besar jika algoritme yang digunakan dalam alat ini dapat menangani volume besar situasi waktu nyata dan pada berbagai kumpulan data.
Bidang Pekerjaan baru Big Data Analytics:
1. Orang yang memiliki dasar yang kuat dalam algoritma sistem cerdas, matematika terapan, ekonomi, atau ilmu lain melalui inferensi dan eksplorasi data dikenal sebagai "bakat analitis yang dalam" (ilmuwan data).
2. Hasilnya, mereka dapat mengajukan jenis pertanyaan (tujuan) yang benar untuk memenuhi tujuan lembaga, perusahaan, dan lain-lain, dan mereka mampu memahami jawaban yang mereka terima.
3. Mengaktifkan teknologi dan informasi: Pada titik ini, teknologi yang paling canggih dan relevan untuk integrasi data telah tersedia.
Salah satu contoh perusahaan atau developer yang menerapkan penggunaan analisis Big Data adalah Starbucks dengan cara memperkenalkan produk kopi yang baru. Segera setelah diluncurkan, Starbucks mulai mengukur reaksi pelanggan melalui blog, Twitter, dan forum diskusi kopi lainnya. Starbucks menemukan pada dini hari bahwa, terlepas dari kenyataan bahwa pelanggan menikmati rasa kopi mereka, mereka percaya bahwa harganya terlalu tinggi. Menanggapi umpan balik negatif, Starbucks langsung menurunkan harga, yang segera diikuti oleh hilangnya semua kritik. Mengapa tidak tetap menggunakan metode analisis statistik yang terbukti benar?
EKOSISTEM TOOL BIG DATA ANALYTICS
Ekosistem Hadoop (Ekosistem Apache Hadoop) yang disajikan pada Gambar di atas memberikan gambaran umum tentang ekosfer alat Big Data.
Mengidentifikasi kegunaan dan bagaimana setiap Alat Big Data berinteraksi satu sama lain adalah langkah pertama untuk mengembangkan Ekosistem Hadoop yang akan berhasil. digunakan dalam konteks Hadoop untuk membuat implementasi. Ekosistem aplikasi, alat, dan antarmuka Hadoop
digambarkan dalam diagram di bawah ini, yang menunjukkan bagaimana berbagai komponen berinteraksi satu sama lain. Misalnya, berdasarkan fungsi masing masing produk Apache, yang khusus digunakan untuk; (Penyimpanan, Pemrosesan, Kueri), dan bagaimana interaksi di antara mereka cocok.
Contoh lain dari Ekosistem Hadoop menggunakan seperangkat alat Big Data yang berbeda ditunjukkan pada gambar berikut.,
ANALITIK BIG DATA & LIFECYCLE
Fakta-fakta terkait dengan kondisi existing Perusahaan:
Informasi apa saja yang bisa digali dari Big Data pada perusahaan di atas? Dan strategi apa saja yang bisa dilakukan dari masing-masing perusahaan di atas terkait Analitik Data.
1. Advance Technology (Tools) Big Data
2. Key Roles Kunci Sukses Proyek Analitik
3. Lifecycle Analitik Data
TEKNOLOGI ADVACED (TOOLS) BIG DATA
Teknologi yang digunakan dalam penyimpanan (storage), pemrosesan (processing), dan analisis dari Big Data meliputi:
1. Dengan cepat menurunnya biaya penyimpanan dan daya CPU dalam beberapa tahun terakhir.
2. Fleksibilitas dan efektivitas biaya pusat data (datacenters) dan komputasi awan (cloud computing) untuk perhitungan dan penyimpanan elastis;
3. Pengembangan frameworks baru seperti Hadoop, yang memungkinkan pengguna memanfaatkan sistem komputasi terdistribusi ini untuk mengolah menyimpan sejumlah data besar melalui pemrosesan paralel yang fleksibel.
Gambar Faktor yang mendorong (driving) adopsi Big Data
Beberapa tools yang dapat membantu untuk membuat query yang kompleks dan menjalankan algoritma dari machine learning di atas hadoop, meliputi:
1. Pig (sebuah platform dan scripting language untuk complex queries)
2. Hive (suatu SQL-friendly query language)
3. Mahout dan RHadoop (data mining dan machine learning algorithms untuk Hadoop)
4. Selain hadoop, terdapat frameworks baru seperti Spark yang didesain untuk meningkatkan efisiensi dari data mining dan algoritma pada machine learning pada hadoop, sehingga dapat digunakan secara berulang-ulang untuk mengerjakan pengolahan/ analitik secara mendalam dari kumpulan data
Dan juga terdapat beberapa database yang didesain untuk efisiensi peyimpanan dan query Big Data, meliputi:
1. MongoDB
2. Cassandra
3. CouchDB
4. Greenplum Database
5. HBase, MongoDB, dan
6. Vertica.
ARSITEKTUR BIG DATA
"Bagikan Masalah" adalah cara terbaik untuk menemukan solusi untuk masalah Big Data. Arsitektur Berlapis adalah cara yang bagus untuk memahami Solusi Big Data. Arsitektur ini dipecah menjadi beberapa lapisan, yang masing masing memiliki seperangkat standar sendiri untuk tugas tertentu. Dalam membuat Data Pipeline (pipa data), arsitektur menyediakan berbagai opsi, termasuk Sistem Pemrosesan Batch dan Sistem Pemrosesan Aliran, untuk dipilih. Enam lapisan desain ini memastikan aliran data yang aman dan efisien.
Lapisan Penyerapan Data adalah perhentian pertama dalam perjalanan data setelah diterima dari sumber tertentu. Untuk memudahkan data diproses dan dipindahkan ke layer berikutnya, data ini akan diprioritaskan dan dikategorikan. Apache Flume, Apache Nifi (Pengumpulan Data dan Penambangan dari Twitter menggunakan Apache Nifi untuk Membangun Data Lake), dan Elastic Logstash juga merupakan opsi. 17 Cholissodin, I., Riyandani, E., 2016, Analisis Big Data, Fakultas Ilmu Komputer, Universitas Brawijaya, Malang. Data ditambahkan ke Data Lake dengan cara ini. data mentah, serta setiap dan semua data yang mungkin digunakan di masa mendatang, disimpan. Semua data disimpan dalam bentuk aslinya di Data Lake.
Bagian penting dari lapisan ini berfokus pada pemindahan data dari lapisan penyerapan ke jalur data lainnya. Lapisan ini memungkinkan kami untuk mengatur data kami sehingga kami dapat mulai menganalisisnya (Topik: kategori yang ditentukan pengguna untuk pesan yang diterbitkan, Produsen: produsen yang memposting pesan dalam satu atau beberapa topik, Konsumen: pelanggan yang memproses pesan yang diposting, Pialang: broker rajin dalam mengelola dan mereplikasi data pesan). Apache Kafka adalah teknologi yang dapat digunakan.
Pada lapisan ini, sistem pemrosesan data pipa atau kita dapat mengatakan bahwa data yang telah kita peroleh di lapisan sebelumnya akan diproses, yang merupakan fokus utama. Pada fase inilah kita mulai mengekstraksi dan menganalisis data, mengklasifikasikan aliran data, dan menentukan aliran data mana yang harus dikirim ke tujuan mana. Integrasi Data sangat bergantung pada pembuatan jalur data.
Gambar Arsitektur Big Data
Semua aliran dan transformasi data aplikasi Anda secara real-time ke layanan yang membutuhkannya, serta diubah menjadi format standar yang dapat digunakan untuk analisis dan visualisasi data melalui jalur data. Dengan kata lain, jalur pipa data adalah urutan proses yang dilalui data Anda sebelum mencapai tujuan akhirnya. Output suatu langkah menjadi input langkah berikutnya, dan seterusnya dan seterusnya. Langkah-langkah pipa data dapat mencakup campuran pembersihan, konversi, penggabungan, pemodelan, dan lainnya. Sqoop, Storm, Spark, dan Flink adalah beberapa alat yang tersedia.
Mengelola penyimpanan data dalam jumlah besar merupakan kesulitan besar, terutama jika data itu sendiri sangat besar. "Di mana menyimpan begitu banyak data secara efisien" adalah topik dari lapisan ini. Apache Hadoop (HDFS), sistem file Gluster (GFS), dan Amazon S3 adalah opsi yang layak.
Pemrosesan analitik sekarang berlangsung di Lapisan Kueri Data. Tujuan utama di sini adalah untuk mengumpulkan nilai data sehingga lapisan berikutnya dapat membuatnya lebih berguna dan mudah digunakan. Apache Hive, Apache (Spark SQL), Amazon Redshift, dan Presto adalah beberapa opsi.
Pada level ini, pengguna saluran data memiliki akses ke keluaran laporan yang menyeluruh dan mudah dipahami berdasarkan nilai data yang telah divisualisasikan dalam proses visualisasi data, atau tahap visualisasi. Temuan Anda akan lebih mudah dipahami melalui visualisasi jika teralihkan dari data oleh apa pun yang tidak terkait dengannya.
Gambar Integrasi Data menggunakan Apache NiFi dan Apache Kafka
Gambar Integrating Apache Spark dan NiFi for Data Lakes
Angular.js dapat digunakan sebagai agen intelijen, misalnya, untuk mengingat hal-hal yang mungkin telah Anda lupakan, meringkas data kompleks dengan cerdas, belajar dari tindakan Anda, dan bahkan membuat rekomendasi untuk Anda; untuk menemukan dan menyaring informasi saat melihat data perusahaan atau menjelajahi Internet dan tidak mengetahui di mana informasi yang benar; untuk merekomendasikan produk berdasarkan kriteria pengguna menggunakan "React.js."
Ini adalah praktik umum untuk menggunakan Apache Spark untuk pemrosesan Big Data. Spark mampu memproses data dalam mode batch dan streaming. Komunikasi situs-ke-situs digunakan untuk mentransfer data antara Apache NiFi dan Apache Spark. Selain itu, data dari sumber diterbitkan
menggunakan port keluaran. Mesin pemrosesan data dalam memori yang cepat dan ringkas, dengan mode pengembangan API yang indah dan ekspresif, memungkinkan pengguna untuk melakukan streaming, memanfaatkan pembelajaran mesin, atau SQL yang memerlukan akses berulang cepat ke
kumpulan data, Apache Spark dapat digunakan. Untuk mendapatkan wawasan dan meningkatkan ilmu data mereka, pengembang sekarang dapat menggunakan Spark di Apache Hadoop YARN untuk membangun aplikasi yang menggunakan kemampuan Spark.
KEY ROLES KUNCI SUKSES PROYEK ANALITIK
Gambar Key Roles Kunci Sukses Proyek Analitik
Terdapat beberapa komponen Key roles:
1. Bussines User
Business User atau Pengguna bisnis adalah seseorang yang memiliki pemahaman menyeluruh tentang materi pelajaran dan mampu memberikan masukan yang berharga kepada tim proyek tentang isu-isu seperti ruang lingkup, hasil, dan keluaran operasional (terkait dengan cara mengukur variabel). Analis bisnis, manajer lini, dan spesialis materi pelajaran yang mendalam adalah kandidat umum untuk memainkan fungsi ini dalam sebuah organisasi..
2. Project Sponsor
Project Sponsor: Bertanggung jawab atas asal usul proyek. Membantu dalam mendefinisikan ruang lingkup proyek, serta mendefinisikan masalah bisnis yang paling penting. Paling sering, ia memasok dana dan konsep untuk mengukur tingkat nilai keluaran akhir dari tim kerja yang bersangkutan.
Memprioritaskan proyek dan mengidentifikasi target hasil.
3. Project Manager
Project Manager atau Manajer Proyek bertanggung jawab untuk memastikan bahwa tujuan dan sasaran proyek terpenuhi sesuai jadwal dan standar yang dipersyaratkan.
4. Business Intelligence Analyst
Keahlian dalam domain bisnis diberikan melalui pemahaman data, indikator kinerja utama / key performance index (KPI), metrik, dan pelaporan dari sudut pandang pelaporan oleh Analis Intelijen Bisnis. Dasbor (panel kontrol) dan pembuatan laporan adalah keahlian umum di antara analis intelijen bisnis, yang juga berpengalaman dalam banyak sumber data dan prosedur yang mereka gunakan.
5. Database Administrator (DBA)
Database Administrator (DBA): Membuat dan mengatur database untuk memenuhi kebutuhan analitis. Tugas-tugas ini mungkin termasuk menyediakan akses ke kunci atau tabel database dan memastikan bahwa penyimpanan data dilindungi secara memadai.
6. Data Engineer
Pengetahuan mendalam tentang konfigurasi kueri SQL untuk manajemen data dan ekstraksi data, serta dukungan untuk konsumsi data ke dalam kotak pasir analitik, adalah tanggung jawab seorang insinyur data. Insinyur Data bertanggung jawab untuk mengekstraksi dan memanipulasi sejumlah besar data untuk memenuhi persyaratan proyek. Dengan bimbingan seorang Data Scientist, seorang insinyur data (Data Engineer) membentuk data yang tepat untuk dianalisis dalam upaya kolaboratif.
7. Data Scientist
Metodologi analitik, pemodelan data, dan penerapan pendekatan analitik yang sah untuk masalah tertentu adalah tanggung jawab seorang ilmuwan data. Mencapai tujuan melalui menganalisis semua aspek proyek. Menggunakan data yang ada, merancang dan menerapkan metodologi analitis dan
pendekatan lainnya.