CKIK – Big Data

Word Cloud
Sumber: datascience.or.id

Mulai postingan kali ini akan ada rubrik baru di blog ini yang kuberi nama dengan Catatan Kuliah Ilmu Komputer yang disingkat degan CKIK. Postingan dengan label atau tag CKIK ini berbeda dengan postingan ‘Seputar Ilmu Komputer’ yang ada di bagian menu di blog ini. Perbedaan tersebut adalah pada isi konten dari tulisan tersebut. Untuk CKIK sendiri seperti ulasan kuliah yang didapat pada saat hari itu yang tentu saja tujuannya untuk mengulas. Ini adalah salah satu teknik belajar yang kupaksa untuk semester ini walau menyesal kenapa tidak diterapkan di enam semester ke belakang. Jadi isi dari postingan ini adalah mengeluarkan apa yang telah di dapat di kelas tadi pagi/siang/sore yang kebenarannya belum tentu 100%. Maka dari itu catatan untuk CKIK adalah masih cukup diragukan untuk dijadikan referensi karena tujuannya pun untuk pribadi. Jika ada yang protes tentang kebenaran ilmu di dalam CKIK, maka akan ditunjukkan tulisan ini sebagai perjanjian awal. Sedangkan untuk berbagi ilmu yang telah ditelaah dan Insya Allah kebenarannya bisa dipertanggungajawabkan akan masuk dalam list ‘Seputar Ilmu Komputer’ di atas dengan bahasa yang berbeda pula, bukan semacam cerita seperti ini.

Untuk yang pertama akan dibuka dengan kuliah Sistem Terdistribusi bersama Pak Lala. Ini adalah pertemuan ke-dua yang sebelumnya hanya pengenalan sedikit tentang Big Data dan platformnya seperti Apache Hadoop, dll. Big Data adalah keilmuan yang serang menjadi pusat perhatian akhir-akhir ini. Tak dapat dipungkiri bahwa perusahaan seperti Google, Facebook, Twitter yang menampung banyak data sangat menaruh perhatian pada perkembangan Big Data. Berbagai definisi Big Data juga dapat ditemukan. Namun yang paling mudah adalah dengan acuan 3V yaitu volume, velocity, dan variety.

Pertama adalah volume. Tentu saja karena dalam Big Data banyaknya data set menjadi hal paling satu. Dapat dibayangkan untuk perusahaan seperti Facebook harus menampung data lebih dari 10 TB dalam sehari. Artinya dalam sebulan Facebook harus menampung lebih dari 300 TB. Isinya adalah semua postingan, foto, video, dll yang ada di Facebook. Permasalahannya adalah untuk menyimpan data sebesar itu diperlukan sebuah hardware yang mumpuni yang masih mungkin jika kita membeli karena memiliki banyak uang. Pertanyaan berikutnya adalah bagaimana untuk membaca sebesar 10 TB dalam satu hari? Belum lagi ditambahkan dengan proses pencarian, pengurutan, analisa, dll. Di sana Big Data berperan. Teknik-teknik Big Data dari mulai algoritma harus menghadirkan sesuatu yang efisien guna menghadapi volume yang sangat besar.

Selanjutnya adalah velocity atau kecepatan masuknya data. Kita tahu dalam sebuah tweet yang hanya dapat menampung 140 karakter tentu berukuran kecil. Namun yang menjadi permasalahan dalam Twitter adalah kecepatan masuknya data. Dalam hitungan detik yang sama, bisa terdapat jutaan tweet yang masuk secara bersamaan. Dan dalam waktu itu pula Twitter harus membaca dan menganalisa jutaan tweet yang masuk dalam satu detik. Sama seperti halnya Youtube yang dalam satu menit mendapatkan total videoyang diunggah dengan total 60 jam jika digabungkan. Luar biasa bukan? Dalam satu menit saja Youtube harus menampung 60 jam video. Itu berarti dalam satu jam, total video yang telah diunggah ke Youtube jika ditonton harus menghabiskan 3600 jam atau selama 5 bulan! Bagaimana Youtube atau Google sebagai pemilik dapat menangani fenomena ini: Big Data. Untuk Twitter sendiri terdapat teknik Twitter Streaming yang memungkinkan menganalisa tweet secara real-time lalu melupakan tweet yang telah dinalisa demi efesiensi tempat penyimpanan. Wow luar biasa.

Sebenarnya ada yang mengatakan 4V, 5V bahkan 7V. Namun yang paling popular tentu saja yang 3V dengan yang terakhir adalah variety. Maksudnya adalah data set pun dikatakan besar jika dalam data tersebut mengandung variasi jenis data yang beragam. Contohnya dalam sebuah tweet banyak yang mengandung URL, foto, video dan yang terbaru kali ini adalah GIF. Sama seperti halnya Facebook atau Google yang menampung surat elektronik yang di dalamnya banyak melampirkan dokumen, foto, dll. Keberagaman jenis data ini pula yang menjadi tantangan dalam Big Data yang terus berkembang.

Dalam kuliah ini pula dijelaskan beberapa paltform seperti Apache Hadoop, Map Reduce, Apache Spark, SparkR, dll. Pak Lala juga mambahas tentang jenis bahasa pemrograman yang akan digunakan dalam kuliah ini. Kali ini kami akan menggunakan functional programming yang memurnikan fungsi matematika. Pasti tak jauh dari bahasa R walau Pak Lala mengenalkan bahasa SCALA yang baru pertama kali kudengar. Fungsi sendiri adalah memetakan himpunan A ke himpunan B dengan angka yang pasti tunggal, tidak ada percabangan pemetaan. Untuk yang satu ini akan dibahas di series CKIK selanjutnya. Hehe.

Kuliah selanjutnya bersama Pak Yudi sangat relevan dengan kuliah 6 jam sebelumnya. Di Data Minning pun Big Data adalah permasalahan utama. Namun dalam kuliah ini lebih dibahas mengapa harus ada penggalian data dan apa saja yang diperoleh oleh tiap perusahaan dengan adanya keilmuan ini. Perkuliahan tadi pun membahas tugas kami yang diberikan minggu lalu. Kelompokku membahas tentang Google. Perusahaan yang sudah pasti dikenal banyak orang ini tentu menggunakan Data Minning. Hal yang paling kelompokku soroti adalah tentang pengambilan data perilaku konsumen dalam menonton video di Youtube, apa yang dicari di Google hingga data historis perjalanan kita yang Google ketahui setiap harinya. Yap, Google tahu ke mana kita pada tiga hari lalu pukul 13.00 WIB atau sedang dalam perjalanan dari mana ke mana dan menggunakan apa. Tidak percaya? Silakan akses di sini dan jangan lupa Anda harus masuk akun Google Anda untuk mengetahuinya.

Apa kepentingan Google mengetahui semua itu? Jawabannya adalah iklan. Dengan menemukan pola kebiasaan kita dalam dunia maya, Google tahu kita tertarik dengan apa, barang apa yang sering kita ‘kepoin’ dan berada di mana kita menghabiskan waktu yang lama. Jadi jangan heran jika kita tinggal di Bandung dan beberapa kali mencari suatu barang di Google lalu pada saat membuka sebuah web terdapat iklan yang menawarkan barang yang sering kita cari yang dijual di daerah sekitar Bandung. Google tahu semuanya. Karena Google mempelajari kita dengan cara menggali data kita.

Perkuliahan selanjutnya adalah tentang Data Preprocessing. Materinya cukup banyak. Intinya adalah membersihkan data set sebelum dilakukan penggalian pada data tersebut. Karena dalam data set tersebut bisa memiliki ‘data sampah’ seperti data yang tidak lengkap, tidak relevan, rancu, dll. Untuk Data Preprocessing sepertinya akan dibahas selanjutnya dan langsung menjadi artikel di ‘Seputar Ilmu Komputer’ karena harus dibaca ulang dan ditelaah lebih lanjut.

Mungkin itu saja untuk CKIK pertama kali ini. Semoga yang membaca mendapatkan sedikit ilmu dan terus mencari sumber lain agar ilmunya semakin kaya dan dapat dipertanggungjawabkan. Jangan lupa untuk berkunjung lagi jika berkenan. Silakan jika ingin dijadikan referensi asalkan mencantumkan sumber. Tulisan ini boleh disebarkan secara gratis karena ilmu adalah sesuatu yang seharusnya didapatkan secara gratis oleh manusia. Jika ada saran, masukan bahkan bantahan silakan tulis di kolom komentar atau bisa mengirim pesan pribadi yang gunanya bukan untuk berdebat kebenaran, tapi justru untuk meningkatkan kualitas tulisan-tulisan keilmuan yang mudah-mudahan dapat bermanfaat untuk masyarakat luas. Aamiin.

Iklan

Tinggalkan Balasan

Isikan data di bawah atau klik salah satu ikon untuk log in:

Logo WordPress.com

You are commenting using your WordPress.com account. Logout / Ubah )

Gambar Twitter

You are commenting using your Twitter account. Logout / Ubah )

Foto Facebook

You are commenting using your Facebook account. Logout / Ubah )

Foto Google+

You are commenting using your Google+ account. Logout / Ubah )

Connecting to %s