:::: MENU ::::

Posts Categorized / Big Data

  • Jan 16 / 2017
  • Comments Off on Seputar Big Data edisi #2
Big Data, Forum Info, Komunitas

Seputar Big Data edisi #2

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan Januari 2017.

Artikel dan Berita

  1. DZone Big Data - Generating Values From Big Data Analytics for Your Business in 2017
    Beberapa hal yang dapat dilakukan dalam pemanfaatan big data pada toko online atau marketplace
  2. McKinsey - Unlocking the power of data in sales
    Bagaimana memanfaatkan data untuk memaksimalkan performa dalam B2B sales.
  3. Simplified Analytics - This is how Analytics is changing the game of Sports!!
    Big Data dan Analisa Data telah membuat banyak perubahan pada berbagai industri, tak terkecuali pada bidang olahraga. Selama beberapa tahun terakhir, dunia olahraga telah mengalami ledakan dalam penggunaan analisa data.
  4. DZone Big Data - The Role of Big Data in Finance and Trading
    Industri keuangan dan perdagangan valuta maupun saham selalu mengandalkan data yang kuat dan masukan yang akurat dalam pengambilan keputusan. Memasuki tahun 2017 ini, sangat jelas bahwa big data merevolusi industri keuangan dan perdagangan baik dari dalam ke luar.
  5. Yahoo Finance - Big Data Market to Reach 3 Billion by 2025: Increased Adoption of Cloud Computing - Research and Markets
    Research and Markets dalam laporannya "Big Data Market Analysis 2014 - 2025" menyatakan bahwa pasar big data diharapkan akan mencapai USD 123.2 miliar pada tahun 2025.
  6. Smart Data Collective - 3 Sweet Big Data Lies
    Big Data menjadi sebuah buzzword sampai hari ini. Walaupun memang petensinya cukup besar dalam menyelesaikan masalah, namun ada beberapa pemahaman yang kurang tepat terhadap big data.
  7. The Register - Hadoop hurler Hortonworks votes Tibco veteran for president
    Hortonworks menunjuk nama baru sebagai sebagai President dan COO pada perusahaan tersebut. Ia adalah Raj Verma yang sebelumnya merupakan COO pada enterprise software bussiness TIBCO dan telah terbukti kesuksesannya dalam mengakselearsi peningkatan revenue yang signifikan.

Tutorial dan Pengetahuan Teknis

  1. DZone Big Data - Quick Tips: Apache Phoenix and Zeppelin
    Sebuah tips mengenai query pada Apache Phoenix menggunakan Zeppelin, dan dengan cepat menambahkan grafis untuk tabel Zeppelin tersebut
  2. AWS Big Data Blog - Create a Healthcare Data Hub with AWS and Mirth Connect
    Pemanfaatan Mirth Connect yang merupakan teknologi open source pada Amazon Web Services untuk membangun sebuah sistem untuk mengintegrasikan informasi-informasi dalam bidang kesehatan.
  3. Creating Data Visualization in Matplotlib
    Matplotlib adalah library data visualization untuk Python yang paling banyak digunakan. Overview ini mencakup beberapa grafik yang bermanfaat untuk berbagai macam analisis, dan bagaimana sebaiknya grafik tersebut disajikan agar data anda dapat 'bercerita'.
  4. DZone Big Data - Parsing and Querying CSVs With Apache Spark
    Pada artikel ini akan dijelaskan bagaimana memecah dan mengquery data berformat CSV menggunakan Apache Spark. SQLContext akan memudahkan query pada data CSV.
  5. MapR - Real-time Smart City Traffic Monitoring Using Microservices-based Streaming Architecture (Part 2)
    Artikel ini merupakan seri lanjutan dari pemanfaatan Complex Event Processing (CEP). Kasus ini akan memanfaatkan sensor tunggal yang dapat mengukur kecepatan kendaraan yang melewatinya. Dengan menggunakan data sensor tersebut kita dapat memprediksikan kemacetan secara realtime
  6. Cloudera Engineering Blog - How-to: Fuzzy Name Indexing in Apache Hadoop with Rosette and Cloudera Search
    Pada tutorial ini akan dipelajari cara menggunakan Coudera Search dan Rosette untuk melakukan pencarian nama secara fuzzy pada berbagai bahasa dan dokumen.

  7. KDnuggets - The Most Popular Language For Machine Learning and Data Science Is …
    Ketika melakukan pemilihan bahasa pemrograman untuk proyek Data Analytics, banyak terjadi perbedaan pendapat yang tentunya sangat bergantung pada latar belakang dan area yang digeluti.
Rilis produk
  1. Apache Beam - Apache Beam established as a new top-level project
    Apache Software Foundation mengumumkan bahwa Apache Beam telah menjadi Top-Level Project pada apache project. Sebelumnya Apache Beam merilis versi terbaru yaitu versi 0.4.0
  2. Apache Calcite - Release 1.11.0
    Hampir tiga bulan setelah rilis sebelumnya, terdapat daftar panjang perbaikan software termasuk perbaikan bug.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Jan 09 / 2017
  • Comments Off on Seputar Big Data edisi #1
Apache, Big Data, Hadoop, Implementation, IoT, Social Media, Storage, Storm, Uncategorized

Seputar Big Data edisi #1

Seputar Big Data edisi #1

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan Januari 2017.

Artikel dan berita

  1. datafloq.com - 4 Industries Leading the Way in IoT Integration
    Perkembangan Internet of Thing saat ini sangat pesat. Diprediksi dalam waktu dekat, hampir semua perangkat akan terkoneksi satu sama lainnya untuk membuat hidup kita lebih mudah. Ada 4 industri yang diperkirakan akan mengambil manfaat dari IoT.
  2. AWS Big Data Blog - Decreasing Game Churn: How Upopa used ironSource Atom and Amazon ML to Engage Users
    Apakah pernah mengalami kesulitan untuk menjaga loyalitas pengguna supaya tidak meninggalkan game atau aplikasi, setelah bersusah untuk menarik pengguna? Upopa, sebuah studio game yang memanfaatkan machine learning untuk memprediksi perilaku para pengguna game
  3. oreilly.com - 7 AI trends to watch in 2017
    Pada tahun 2016 lalu, banyak terjadi inovasi-inovasi yang luar biasa, banyak investasi di bidang Artificial Intelligent baik pada perusahaan besar maupun startup. Bagaimana dengan tahun 2017?
  4. DZone - Understanding Machine Learning
    Apa sebetulnya Machine Learning? Sebuah penjelasan mengenai machine learning, cara kerjanya dan bagaimana penggunaannya.
  5. Yahoo Finance - Hadoop Big Data Analytics Market Worth 40.69 Billion USD by 2021
    Menurut sebuah laporan market research yang dipublikasikan oleh MarketsandMarkets, pasar big data analytics akan berkembang dari USD 6.71 miliar di tahun 2016 akan menjadi USD 40.69 miliar di tahun 2021.
  6. insideBIGDATA - Loggly Introduces Gamut™ Search for Massive-Scale Log Analysis
    Loggly, perusahaan di balik, kelas enterprise layanan manajemen log berbasis cloud, memperkenalkan Gamut ™ Search, teknologi analisa log yang khusus dirancang untuk merespon langsung pencarian pada data bervolume sangat besar dan dalam periode waktu yang lama.
  7. BrightPlanet - Social Media Data – Instagram Pulls Back on API Access
    Program pemantauan sosial media perlu melakukan perubahan dan terbuka untuk opsi lain pada data open-source. Seperti Instagram melakukan beberapa perubahan akses API, dan akses ke data-data akan dibatasi.

 

Tutorial dan pengetahuan teknis

  1. ZDNet - Hands-on with Azure Data Lake: How to get productive fast
    Microsoft Azure Data Lake saat ini telah tersedia secara umum, tapi apa fungsinya, dan bagaimana cara kerjanya? Artikel berikut merupakan overview seputar tools dan kemampuan layanan, untuk membantu memahami dan meningkatkan produktifitas.
  2. KDnuggets - Internet of Things Tutorial: WSN and RFID – The Forerunners
    Wireless Sensor Network dan RFID adalah kunci utama untuk memahami konsep-konsep yang lebih kompleks dari IoT dan teknologinya.
  3. KDnuggets - Internet of Things Tutorial: WSN and RFID – The Forerunners
    Wireless Sensor Network dan RFID adalah kunci utama untuk memahami konsep-konsep yang lebih kompleks dari IoT dan teknologinya.
  4. IBM Big Data Hub - How to build an all-purpose big data engine with Hadoop and Spark
    Beberapa organisasi sering salah dalam mengoptimalkan penggunakan Hadoop dan Spark bersama-sama, terutama karena masalah kompleksitas. Padalah kombinasi keduanya memungkinkan untuk analisa data yang lebih luas dan mendukung use case yang lebih banyak.
  5. DZone Big Data - Kafka Avro Scala Example
    Tutorial mengenai cara menulis dan membaca pesan dalam format Avro dari/ke Kafka. Bagaimana cara menghasilkan pesan untuk dikodekan menggunakan Avro, cara mengirim pesan tersebut ke Kafka, dan bagaimana untuk mengkonsumsi dengan konsumen dan akhirnya bagaimana untuk dibaca dan digunakan.
  6. IBM Hadoop Dev - Enable Snappy Compression for Improved Performance in Big SQL and Hive
    Ketika loading data ke dalam tabel Parquet, Big SQL akan menggunakan kompresi Snappy secara default. Pada Hive, secara default kompresi tidak diaktifkan, akibatnya tabel bisa secara signifikan menjadi lebih besar
  7. KDnuggets - Generative Adversarial Networks – Hot Topic in Machine Learning
    Apa Generative Adversarial Networks (GAN)? Ilustratif sederhana dari GAN adalah dengan mengambil contoh seperti memprediksi frame berikutnya dalam urutan video atau memprediksi kata berikutnya saat mengetik di google search.
  8. MapR - Monitoring Real-Time Uber Data Using Spark Machine Learning, Streaming, and the Kafka API (Part 2)
    Ini merupakan bagian kedua dari tutorial untuk membuat pemantauan secara realtime mobil-mobil yang digunakan oleh Uber. Tutorial ini menggunakan algoritma k-means pada Apache Spark untuk melakukan pengelompokan data secara realtime
  9. LinkedIn Engineering - Asynchronous Processing and Multithreading in Apache Samza, Part I: Design and Architecture
    Apache Samza terus digunakan oleh LinkedIn dan perusahaan lain untuk melakukan pemrosesan stream. Pada sistem pengolahan stream lainnya menyederhanakan model pemrograman untuk menjadi synchronous and stream/event-based, sedangkan Samza mengembangkan model asynchronous.
  10. MapR - Processing Image Documents on MapR at Scale
    Sebuah tutorial dari MapR untuk pemrosesan gambar dengan menggunakan Apache Spark dan Tesseract OCR engine

 

Rilis produk

  1. GitHub - kafka-utilities
    Sebuah project yang dishare oleh wushujames di hithub.com yang memberikan script untuk menganalisa keadaan klaster Kafka, untuk menentukan broker yang dapat digunakan untuk partisi under-replicated
  2. GitHub - burry
    Burry adalah backup recovery tool yang digunakan untuk membackup dan mengembalikan service pada Zookeepr dan etcd. Tools ini dibuat oleh Michael Hausenblas dan dapat diunduh pada github.com

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Dec 23 / 2016
  • Comments Off on Persembahan idBigData untuk Indonesia
Big Data, Forum Info, Komunitas, Uncategorized

Persembahan idBigData untuk Indonesia

Komunitas big data Indonesia telah sukses menggelar konferensi big data terbesar di Indonesia untuk yang ke 3 kalinya pada 7 dan 8 Desember 2016 lalu. Konferensi yang dihadiri sekitar 400 peserta ini diselenggarakan di di Auditorium Gedung BPPT, Jakarta, dan menampilkan 30 pembicara.

Konferensi Big Data Indonesia merupakan event tahunan yang diadakan oleh idBigdata, dan selama 3 tahun ini selalu konsisten dalam usaha mendorong perkembangan dan pemanfaatan big data di Indonesia. Menurut Sigit Prasetyo, chairman IDBigData sekaligus ketua panitia, KBI2016 adalah ajang show-off bagi berbagai pihak di dalam negeri untuk menunjukkan bahwa bangsa Indonesia sangat mampu untuk mengembangkan dan menerapkan big data dan berbagai teknologi yang mendukungnya.

Besarnya potensi data dan kebutuhan teknologi big data di dalam negeri diungkapkan Neil L Himam dari Bekraf, bahwa pada tahun 2020 mendatang di Indonesia diperkirakan akan ada sekitar 1,7 milyar perangkat terhubung ke internet of things, yang tentunya akan memproduksi data yang sangat besar. Nilai komersialisasi data sendiri bukanlah jumlah yang kecil, misalnya kapitalisasi pasar Facebook saat ini adalah USD 340 miliar, sedangkan ‘warga’ Facebook dari Indonesia sebanyak 77 juta, setara dengan USD 15 miliar atau Rp. 200 Triliun. Contoh lain adalah GOJEK, dengan jumlah pengemudi lebih dari 20 ribu dan aplikasi terinstall melebihi 10 juta, saat ini membukukan setidaknya 20 juta transaksi per bulan. Hal tersebut menunjukkan potensi pemanfaatan big data untuk mendorong tumbuhnya ekonomi kreatif sangat besar.

Indonesia sebenarnya memiliki banyak potensi dan kemampuan dalam pengembangan maupun penerapan big data, seperti disampaikan oleh Beno K. Pradekso, CEO Solusi247, bahwa big data yang banyak didukung oleh teknologi open source, memungkinkan siapapun untuk dapat mengembangkan dan memanfaatkannya. Seperti yang selama ini sudah dilakukan oleh Solusi247, yang telah berhasil membuat berbagai tools untuk big data processing, maupun big data analytics, yang sudah diimplementasikan oleh beberapa perusahaan besar di Indonesia.

Wisnu Jatmiko, Manager Riset Fakultas Ilmu Komputer Universitas Indonesia menyampaikan hal senada, yaitu bahwa Indonesia sebenarnya sangat mampu untuk mengembangkan berbagai peralatan, algoritma maupun berbagai teknologi modern lainnya, seperti misalnya yang telah dikembangkan oleh team peneliti dari indonesia dalam bidang telehealth. Dalam serangkaian penelitian ini telah berhasil dikembangkan berbagai alat maupun algoritma yang dapat digunakan untuk melakukan USG maupun EKG secara otomatis, bahkan alat EKG ini telah berhasil mendapat penghargaan di level asia pasifik.

Tampil pula Oskar Riandi, CEO Bahasa Kita, yang menampilkan teknologi voice analytics. Oskar menyampaikan bahwa multimedia adalah bagian terbesar dari big data, namun saat ini penggalian dan pengolahannya masih sangat minim. Dalam pemaparannya disampaikan mengenai berbagai contoh pemanfaatan dan pengolahan data suara, khususnya yang telah berhasil dilakukan dengan menggunakan tools yang dibuat oleh Bahasa Kita.

Konferensi Big Data Indonesia 2016 juga menampilkan beberapa pembicara yang membagi pengalaman, tip dan insight mengenai implementasi big data dalam perusahaan mereka, di antaranya adalah Tina Lusiana, IT Data Analyst dari PT Telkomsel, perusahaan yang saat ini memiliki cluster Hadoop terbesar di Indonesia dengan lebih dari 300 nodes. Telkomsel merupakan operator telekomunikasi terbesar ke-15 di dunia, sehingga data yang diproses sangat besar, dan big data, khususnya Hadoop menjadi solusi pengolahan data yang ekonomis untuk diterapkan dalam skala besar. Hadoop cluster dapat mendukung kebutuhan pengolahan data dan analytics untuk memperbaiki layanan, merumuskan strategi marketing, maupun mendeteksi fraud. Salah satu peningkatan yang didapatkan dengan penggunaan customer profiling dan campaign, adalah adanya peningkatan recharge sebesar 13 Milyar rupiah.

Pemanfaatan big data untuk pembangunan kota, yang biasa disebut dengan smart city disampaikan oleh Setiaji, Head of Jakarta Smart City. Pembicara lain yaitu Aldila Septiadi, Digital & Data Analytics Manager, PT Danone Indonesia, yang menyampaikan mengenai inovasi disruptive dalam bisnis FMCG. Dari bidang perbankan, tampil Febrianto, Team Leader Data Analyst and Insight PT. Bank Mandiri, menyampaikan mengenai transformasi bisnis melalui data analytics yang dilakukan oleh bank Mandiri.

Dari sisi pembentukan sumber daya, khususnya data scientist, tampil Komang Budi Aryasa, Deputy Research & Big Data, Pt Telkom Indonesia, mengulas mengenai peran seorang Chief Data Scientist. Menurut Komang, seorang data scientist memiliki peran yang luas dalam proses bisnis modern, baik dari sisi teknis maupun bisnis, mulai dari pendefinisian produk dan visi, sampai pada penerapan teknologi untuk memaksimalkan gross margin. Tampil pula Ainun Najib, Head Of Data, Traveloka, yang membawakan mengenai role dan skillset yang diperlukan dalam sebuah data team.

Dihadirkan pula beberapa showcase yang diantara menampilkan pemanfaatan tools maupun platform big data, di antaranya Big Data Lake, Big Data Document, Business Data Science, dan Big Data for Geospatial, yang disampaikan oleh pembicara-pembicara dari Labs247, Montis Advisory, dan Badan Informasi Geospatial Indonesia (BIG).

Untuk lebih lengkapnya, dapat dilihat melalui channel IDBigData, di (https://www.youtube.com/watch?v=GF16B6uepC0&list=PLzPU503u40ymTwuknU3yKgMPWN2d_6XpM)

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Oct 26 / 2016
  • Comments Off on [Flashback video 2015]
Big Data, Forum Info, Komunitas, Uncategorized

[Flashback video 2015]

Why Local Distro?

Saat ini makin banyak perusahaan yang beralih ke teknologi open source. Bahkan vendor-vendor besar pun mulai ikut terjun dalam penggunaan dan pengembangan software open source.

Beberapa motivasinya adalah:
  • akses source code, dan menjamin keberlangsungannya meskipun jika vendor penyedianya tidak survive
  • kemudahan integrasi
  • tidak ada vendor lock-in
  • lebih cost efficient karena tidak ada biaya license
Dan lain sebagainya.

Big Data sebagai teknologi yang banyak didukung software open source membuat biaya investasi untuk implementasi lebih rendah. Hortonwork menyatakan, penggunaan Hadoop dapat memberikan penghematan sampai 100x. Seperti yang kita ketahui, Hadoop dapat menggunakan server commodity atau server berbiaya ekonomis, sehingga di samping penghematan dari sisi software terdapat penghematan dari sisi hardware.

Big data adalah teknologi yang akan sustain, karena digunakan oleh banyak perusahaan besar. Yahoo! misalnya, saat ini memiliki lebih dari 40.000 nodes. Di Indonesia sendiri, di tahun 2015 cluster Hadoop terbesar dimiliki oleh Telkomsel, yaitu sekitar 300 nodes.

Demikian yang dikatakan oleh salah satu pembicara dalam Konferensi Big Data Indonesia 2015, Beno Kunto Pradekso, CEO Solusi247.

Disampaikan juga contoh kasus dari Splice Machine, yang mengklaim dirinya sebagai “the first Hadoop RDBMS”. Splice Machine menyatakan dapat menggantikan Oracle dengan kecepatan 20x dan biaya ¼-nya. Dan jika dilihat komponen di dalam Splice Machine, ternyata banyak di antaranya adalah software-software open source dari Apache.org. Hal semacam ini sebenarnya mungkin sekali untuk dilakukan di dalam negeri. Lisensi Apache.org memungkinkan siapapun untuk mengembangkan dan memasarkan software open source tersebut.

Penggunaan software open source sendiri bukan berarti tidak ada biaya sama sekali, sebab di samping implementasi, hampir semua perusahaan mensyaratkan adanya support resmi untuk softwarenya. Support inilah yang saat ini sebagian besar masih didapatkan dari luar negeri. Padahal cluster Hadoop biasanya terdiri dari puluhan bahkan ratusan node.

Dengan kondisi nilai tukar Rupiah yang kurang stabil seperti akhir-akhir ini, mengurangi komponen mata uang asing dalam pembiayaan, khususnya untuk support software, menjadi sebuah langkah yang perlu dilakukan. Satu-satunya jalan adalah dengan mendorong munculnya distro atau distribusi lokal, yang tentunya menyediakan support secara lokal pula.

Beberapa keuntungan dari support lokal yaitu:

  • cost effective
  • responsive
  • on site
  • talkable
Berbeda dengan support dari luar negeri yang umumnya hanya dilakukan lewat telepon dan email, support lokal dapat memberikan respon yang lebih baik, seperti misalnya teknisi yang datang langsung ke lokasi jika terjadi masalah.

Belajar dari pengalaman perusahaan yang mengembangkan software open source, ada beberapa hal yang perlu dimiliki :

  • Research & Development : perusahaan open source biasanya memiliki RnD yang kuat, untuk mengembangkan core competencies and tools untuk data engineering, analytics, visualization & compute platform
  • Distro & support : memiliki distro sendiri dan menyediakan support, termasuk training
  • Community : komunitas yang aktif diperlukan untuk sharing pengalaman, pengetahuan dan programming codes
  • Customers : basis customer yang baik berarti income, yang pasti diperlukan untuk mendorong dan menjalankan semua aktifitas di atas

Big data, jika tidak dapat dipenuhi sendiri, bisa berarti big investment. Oleh karenanya perlu didorong munculnya perusahaan-perusahaan lokal yang dapat mengembangkan dan menyediakan support secara lokal sehingga kita mandiri secara teknologi.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂

  • Oct 19 / 2016
  • Comments Off on [Flashback KBI 2015]
Big Data, Forum Info, Implementation, Komunitas, Uncategorized

[Flashback KBI 2015]

Masa Depan Indonesia : Ekonomi Berdasar Inovasi

Bagaimana masa depan Indonesia? McKinsey memprediksi bahwa perekonomian Indonesia di tahun 2030 bisa masuk ke dalam 7 besar. Namun hal ini hanya akan bisa dicapai jika kita mengubah ekonomi Indonesia dari berbasis sumber daya alam dan jumlah konsumer yang besar, menjadi ekonomi berbasis pengetahuan dan inovasi.

Ada 4 hal yang harus diperhatikan oleh sebuah negara yang ingin mencapai potensi maksimalnya, yaitu:
  • Investasi ke human capital
  • Investasi ke sains dan teknologi
  • Membina dan mendukung inovasi dan kewirausahaan
  • Meminimalkan kemiskinan

Hendaknya pengeluaran untuk pengembangan sains dan teknologi tidak lagi dianggap sebagai biaya, namun sebagai sebuah investasi yang dapat kita nantikan return atau hasilnya. Inovasi sendiri tidak dapat dilepaskan dari kewirausahaan, karena sebuah penemuan yang disebut inovasi adalah yang dapat diterapkan dalam dan diambil manfaatnya. Sedangkan penemuan yang tidak diterapkan hanyalah menjadi sebuah invensi saja.

Hal tersebut disampaikan oleh Prof. Dr. Eng. Ilham Habibie dalam keynote speech pada Konferensi Big Data Indonesia 2015 yang lalu.

Menurut UNESCO, idealnya pengeluaran untuk RnD sebuah negara setidaknya 2% dari PDB. Pengeluaran RnD Indonesia sendiri saat ini baru sekitar 0.1%, yang 80% dari jumlah itu didominasi oleh pemerintah.

Untuk dapat menumbuhkan inovasi, ada beberapa hal yang perlu diperhatikan, yaitu: Inovasi dilakukan dalam sebuah klaster lintas sektoral, yang terdiri dari 4 komponen ABCG (Akademia, Bisnis, Komunitas dan Pemerintah). Idealnya dilakukan dengan co-location Jika tidak memungkinkan, maka perlu dibentuk i-Klaster, atau kelompok kerja virtual yang terhubung dengan komunikasi broadband. Oleh karenanya inovasi + teknologi + konektivitas dibutuhkan untuk menghasilkan pertumbuhan yang cepat Perlu dipertimbangkan adanya insentif pajak untuk kegiatan inovasi

Sinergi antara akademia dan bisnis di Indonesia masih sangat rendah, karena beberapa hal: Dari sisi universitas/akademia riset masih banyak yang berorientasi kepada jenjang karir penelitian, yang targetnya adalah poin dan jumlah publikasi, sehingga kurang terasa dari sisi manfaatnya. Sedangkan dari sisi industri masih banyak kekhawatiran mengenai HAKI, masalah ketepatan waktu dan lain sebagainya, sehingga lebih suka membeli hasil yang sudah jadi dari luar negeri. Hal seperti ini hendaknya mulai dikurangi, jika Indonesia ingin mencapai ekonomi yang berbasis pengetahuan dan inovasi.

Video materi KBI2015 lainnya bisa dilihat di channel idBigdata.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂

  • Oct 10 / 2016
  • Comments Off on Indonesia Menggelar “Karpet Merah” untuk Data
Big Data, Forum Info, Hadoop, Komunitas, Uncategorized

Indonesia Menggelar “Karpet Merah” untuk Data

Pemerintah Indonesia terus membangun infrastruktur untuk penggunaan transaksi data di Indonesia. Di antaranya adalah program menghubungkan kota-kota dan kabupaten di seluruh Indonesia dengan backbone fiber optik yang selesai pada akhir 2015, refarming 1800 MHz yang juga selesai pada akhir 2015, disusul dengan 2,1 dan 2,3 GHz untuk memasuki 4G dan nantinya 5G. Semua itu dilakukan untuk menyongsong penggunaan data dan teknologi big data di Indonesia.

Demikian disampaikan oleh Prof. Dr.-Ing. Ir. Kalamullah Ramli, M.Eng. selaku Direktur Jenderal Pos dan Penyelenggaraan Informatika Kementerian Komunikasi dan Informatika pada Konferensi Big Data Indonesia 2015 yang lalu.

Beberapa poin penting yang disampaikan pada kesempatan tersebut yaitu:

  • Big data merupakan peluang bagi seluruh pelaku usaha, pemerintah, dan masyarakat dalam mengoptimalkan strategi mencapai sasaran yang lebih efisien, efektif dan terarah.
  • Sumber daya big data nasional yang tercipta dalam NKRI harus diproteksi dan dioptimalkan untuk kepentingan nasional dan khususnya digunakan untuk menyediakan layanan big data dengan kemandirian.
  • Pemerintah telah membangun kebijakan dan regulasi yang mendorong terciptanya ekosistem big data di indonesia dengan baik. Kemkominfo fokus pada pengembangan dukungan infrastruktur dan platform untuk penyediaan layanan big data.
  • Semua instansi terkait harus berperan dalam pengembangan ekosistem big data, khususnya pada pengembangan human capital dari sisi kemampuan analitikal
  • Penyelenggara telko dapat menyediakan layanan big data untuk mengetahui subscriber behavior dan subscriber demographic untuk kepentingan pengembangan usaha oleh berbagai korporasi di indonesia serta pemerintah untuk mencapai pertumbuhan yang lebih dan akhirnya bermuara pada pertumbuhan ekonomi nasional.

Konferensi Big Data Indonesia kembali akan digelar pada tanggal 7-8 Desember 2016 di Jakarta, dan tentunya akan menampilkan pembicara dan materi yang sangat relevan dengan perkembangan big data di Indonesia.

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Aug 09 / 2016
  • Comments Off on Big Data Membantu NYPD Menangani Kejahatan Dengan Lebih Cepat
Big Data, Implementation

Big Data Membantu NYPD Menangani Kejahatan Dengan Lebih Cepat

Pada tanggal 4 Desember 2015, petugas NYPD di kantor polisi 73 New York menerima peringatan pada ponsel mereka dari sistem baru mereka, Shot-spotter : Delapan tembakan telah dilepaskan di dekat 409 Saratoga Avenue di kawasan Bedford-Stuyvesant, Brooklyn.

Kejadian selanjutnya menunjukkan seberapa jauh teknologi dapat berperan dalam membantu tugas polisi.

Polisi menemukan selongsong peluru di atap gedung, kemudian dengan menggunakan ponsel mereka, mengetahui ada sebuah surat perintah penangkapan yang belum dieksekusi untuk seorang wanita di gedung tersebut. Mereka kemudian mendapat surat perintah penggeledahan untuk apartement wanita tersebut melalui ponsel mereka, di mana mereka menemukan dua senjata, dan menangkap tiga orang tersangka.

Para petugas NYPD berhasil melaksanakan tugasnya dengan cepat berkat bantuan sistem kesadaran situasional / Situational Awareness System, yang disebut dengan DAS (Domain Awareness System).

Ide mengenai kesadaran situasional atau situational awareness ini bukanlah sesuatu yang baru. Setiap individu maupun organisasi idealnya dapat menyesuaikan perilaku dan tindakan mereka dengan situasi yang ada. Dan seiring dengan perkembangan teknologi sensor dan sinyal, semakin besar kebutuhan untuk dapat mengumpulkan data dari dunia luar ke dalam sebuah sistem untuk melakukan monitoring dan analisis. Mengetahui apa yang terjadi di domain yang relevan di dunia luar merupakan sesuatu yang penting dan semakin menjadi kebutuhan banyak pihak.

Salah satu pihak yang tampaknya paling berkepentingan terhadap hal ini adalah organisasi di sektor publik. Kepolisian New York (NYPD), pemerintah kota Chicago, dan juga sebuah grup yang terdiri dari instansi-instansi pemerintah di Kanada adalah beberapa pihak yang telah mengembangkan dan memanfaatkan sistem kesadaran situasional. Salah satu hal yang dipelajari dari pengalaman mereka membangun sistem SA adalah, semakin terarah target sistemnya, semakin baik hasilnya.

MASAS, atau Multi-Agency Situational Awareness System, yang dikelola oleh Canadian Public Safety Operations Organizations (CanOps), dimaksudkan untuk memonitor dan menampilkan informasi yang relevan dengan keamanan publik. MASAS mencakup informasi mengenai kebakaran, gempa bumi, cuaca buruk, masalah lalulintas, kerusakan jalan, kerumunan massa, lokasi dan status shelter, perbatasan, dan lain sebagainya.

Cakupan luas dari MASAS ini sebetulnya bertujuan baik, namun hal ini sepertinya membatasi value dari sistemnya sendiri. Misalnya seperti disebutkan pada website mereka, karena instansi-instansi enggan untuk berbagi informasi sensitif dengan instansi lain, maka informasi yang di-share adalah informasi yang tidak sensitif (yang akhirnya juga tidak terlalu bermanfaat).

Chicago termasuk kota pertama yang mengadopsi sistem SA pada tahun 2012. Sistem yang dinamakan WindyGrid ini adalah sistem informasi geografis yang menyajikan gambaran terpadu dari pengoperasian kota di atas peta Chicago, yang memberikan akses ke seluruh data spasial kota, baik secara historikal maupun real time.

WindyGrid mencakup informasi mengenai layanan panggilan 911 dan 311, lokasi aset transit dan mobile, status bangunan, tweets berdasarkan lokasi geografis, dan lain sebagainya. Sistem ini hanya berfokus pada data spasial, sehingga cakupannya lebih sempit daripada sistem di Kanada. Sebenarnya yang lebih dibutuhkan oleh Chicago adalah sistem yang berfokus pada penangangan kejahatan. Karena WindyGrid dibangun atas prakarsa CIO kota Chicago, maka sistem ini cenderung didasari oleh kebutuhan efisiensi informasi dibandingkan prioritas strategis.

Pencegahan kejahatan dan terorisme menjadi prioritas dari sistem DAS yang dimiliki NYPD. Sistem ini pada awalnya dikembangkan oleh biro kontraterorisme, dan saat ini digunakan secara luas dalam tugas harian kepolisian. DAS mengumpulkan dan menganalisa data dari berbagai sensor -termasuk 9000 kamera CCTV, 500 kamera pembaca plat nomor, 600 sensor radiasi dan kimia, dan jaringan detektor untuk mendeteksi suara tembakan yang menjangkau 24 mil persegi, dan 54 juta panggilan ke 911 dari masyarakat. Sistem ini juga dapat menarik data dari arsip kejahatan NYPD, termasuk 100 juta surat pemanggilan.

Project DAS dimulai pada tahun 2008 dan terus dikembangkan hingga saat ini. Pada tahun 2010 ditambahkan fungsi analytics, dan pada 2011 ditambahkan kemampuan pengenalan pola. Pada tahun 2014 mulai dikembangkan fungsi “predictive policing” , dan pada tahun 2015 petugas kepolisian dapat memperoleh informasi 911 secara real-time.

Antarmuka utama dengan sistem adalah smartphone, yang saat ini digunakan oleh 35.000 anggota NYPD. Lebih dari 10.000 polisi menggunakan DAS setiap harinya. Sistem ini disebut sebagai ‘keajaiban teknologi’, yang lahir dari kepemimpinan dan prioritas yang kuat.

Terfokusnya SA yang dimiliki NYPD merupakan kunci kesuksesan sistem ini. Tingkat kejahatan di kota New York semakin menurun (saat ini di bawah rata-rata nasional US), dan tingkat penyelesaian kasus pembunuhan meningkat. Tentunya banyak faktor yang menjadi penyebabnya, termasuk di antaranya penggunaan DAS ini, namun salah satu yang paling penting adalah budaya kepolisian yang mengedepankan bukti (evidenced based policing) yang menjadi karakteristik NYPD.

Dari beberapa pengalaman penerapan sistem berbasis kesadaran situasional ini terlihat jelas nilai strategis dari penerapan sebuah sistem berbasis kesadaran situasional. Teknologi yang ada saat ini sangat memungkinkan untuk mengetahui apa yang terjadi di luar, yang mungkin mempengaruhi kesuksesan sebuah organisasi atau perusahaan. Namun mengingat keluasan dan kompleksitas dunia luar itu sendiri, sebaiknya sistem SA dibangun dengan fokus yang jelas, misalnya pada customer, kompetitor, atau regulator. Pada akhirnya yang dituju tentunya adalah pemahaman terhadap situasi secara menyeluruh, namun mulailah dari sesuatu yang spesifik.

Diterjemahkan dari : http://fortune.com/2016/07/17/big-data-nypd-situational-awareness/

Contributor :


M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng. Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun. Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.

  • Jun 27 / 2016
  • Comments Off on Twitter Open Source-kan Heron, Framework Real Time Stream Processing
Big Data, Forum Info, Implementation, IoT

Twitter Open Source-kan Heron, Framework Real Time Stream Processing

Satu lagi framework yang bergabung ke dalam ekosistem Big Data Open Source. Meramaikan percaturan dalam pemrosesan Big Data, khususnya real-time streaming data processing, bulan Mei lalu Twitter mengumumkan bahwa mereka meng-open-source-kan Heron, sistem real-time stream processing yang mereka kembangkan untuk menggantikan Apache Storm.

Setelah sebelumnya mengumumkan bahwa mereka mengganti framework pemrosesan real-time streaming mereka dari Storm ke Heron, dan menerbitkan paper mengenai arsitekturnya, baru setahun kemudian publik dapat ikut menggunakan dan mengembangkannya.

Alasan Twitter mengembangkan Heron pada awalnya adalah karena beberapa kesulitan yang mereka hadapi ketika menggunakan Storm, terutama ketika sistem yang mereka deploy sudah sangat besar. Beberapa kesulitan yang dihadapi di antaranya adalah kesulitan dalam hal profiling dan reasoning mengenai Storm worker di tingkat data dan tingkat topologi, alokasi resource yang bersifat statis, tidak adanya dukungan back-pressure, dan lain sebagainya.

Mengapa saat itu Twitter tidak beralih ke Apache Spark streaming atau Apache Flink misalnya, dan justru memutuskan untuk mengembangkan sendiri sistemnya secara internal? Alasan utamanya adalah peralihan framework tersebut akan menyebabkan mereka harus menulis ulang banyak sekali code dari sistem mereka yang sudah sangat besar. Sebab, sebagai pihak yang mengembangkan Storm, Twitter adalah pengguna Apache Storm yang paling lama, jauh sebelum Storm menjadi open source.

Heron didesain sebagai sebuah sistem yang memiliki backward compatibility dengan Apache Storm. Hal ini merupakan sebuah keputusan yang strategis, bukan saja untuk Twitter sendiri, namun juga untuk pengguna yang sudah mengimplementasikan Apache Storm, mereka dapat beralih ke Heron dengan relatif mudah.

Paradigma pemrosesan Heron sangat mirip dengan Apache Storm, di mana dasarnya adalah DAG (Direct Acyclic Diagram) yang disebut topology, dengan komponennya berupa spout dan bolt.

Heron dibangun dengan perubahan mendasar dalam arsitektur streamingnya, dari sistem berbasis thread, menjadi sebuah sistem berbasis proses. Heron juga didesain untuk deployment dalam cluster dengan mengintegrasikannya dengan scheduler open source yang powerful seperti Apache Mesos, Apache Aurora, Apache REEF atau Slurm.

Banyak yang dijanjikan dengan Heron, seperti misalnya 2-5 kali efisiensi, kemudahan dan stabilitas, dan lain sebagainya. Salah satu kelebihan utama Heron adalah sudah dibuktikan dalam skala yang besar di Twitter sendiri, dan kompatibilitasnya dengan Storm sebagai framework yang sudah banyak diimplementasi sebelumnya. Namun apakah masyarakat Big Data akan dengan serta merta mengadopsinya sebagai framework pilihan mereka, masih harus kita lihat bagaimana perkembangannya ke depan. Karena saat ini banyak sekali framework open source untuk pemrosesan streaming yang ada dan berkompetisi untuk menjadi yang terdepan, seperti misalnya Apache Spark, Apache Flink, Apache Samza, Apache Apex, atau bahkan Apache Storm sendiri yang juga telah me-release versi 1.0 dengan banyak perubahan dan perbaikan.

Baca juga : APACHE STORM 1.0 PENINGKATAN PERFORMA DAN SARAT FITUR BARU

Contributor :


M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng. Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun. Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.

  • Mar 15 / 2016
  • Comments Off on Challenges For The Biomedical Industry In Terms Of Big Data
Big Data, Forum Info, Implementation, IoT

Challenges For The Biomedical Industry In Terms Of Big Data

Tantangan Industri Biomedis untuk Big Data

Lahirnya Next-Generation Sequencing (NGS) berakibat pada pertumbuhan data genomic secara eksponensial. NGS berhasil memangkas waktu dan biaya yang dibutuhkan untuk melakukan sequencing sebuah genom secara drastis. Biaya sequencing turun secara signifikan dari sekitar US$100M pada tahun 2001 menjadi sekitar US$1000 di tahun 2015. Sebuah studi kasus diagnostik genom http://www.genomemedicine.com/content/7/1/100?utm_source=datafloq&utm_medium=ref&utm_campaign=datafloq pada tahun 2015 menunjukkan bahwa waktu yang diperlukan untuk melakukan whole genome sequencing, analisis dan diagnosis penyakit genetik pada bayi yang sakit berat adalah 26 jam.

8-challenge_04.png

Apakah perpaduan teknologi antara industri biomedis dan big data akan dapat mendukung perkembangan data genomics di masa datang? Berikut adalah beberapa hambatan dan tantangan yang dihadapi dalam perkembangan pemanfaatan data genomics :

  • Meskipun biaya sequencing dan storage sudah relatif rendah, namun biaya komputasi terutama dari sisi infrastruktur masih relatif tinggi. Cloud computing dapat menjadi solusi terhadap kebutuhan komputasi, namun transfer data genomics yang sangat besar dari mesin sequencing ke cloud dapat menjadi tantangan tersendiri.
  • Privasi data genomics juga menjadi sebuah isu, karena penggunaan dan penyebaran (sharing) data tersebut tidak dapat diprediksi. Meskipun data dikumpulkan secara anonimus, masih ada kemungkinan re-identifikasi sehingga menjadi peluang timbulnya pelanggaran privasi.
  • Interoperabilitas antar database genomics maupun dengan sistem medis lainnya (misalnya Electronic Medical Records atau EMR) menjadi tantangan lain yang harus diatasi agar proyek-proyek kolaborasi semacam 100.000 Genome Project (http://www.genomicsengland.co.uk/the-100000-genomes-project/?utm_source=datafloq&utm_medium=ref&utm_campaign=datafloq) dapat memberikan manfaat yang sebesar-besarnya bagi masyarakat maupun pasien yang membutuhkan.
  • Nilai tambah yang ditawarkan oleh bidang translational genomics kepada industri biomedis mungkin tidak langsung terlihat hasilnya. Biaya yang harus dikeluarkan oleh sebuah organisasi untuk menyimpan dan mengolah data genomics mungkin tidak bisa memberikan keuntungan finansial dalam jangka pendek. Hal ini dapat menyurutkan keinginan untuk berinvestasi di bidang ini. Namun, pengetahuan yang didapat dari proyek-proyek yang bersifat riset dapat memberi manfaat yang sangat besar bagi masyarakat maupun bagi pengembangan produk mereka sendiri. Penyedia solusi big data yang mendukung platform big data di bidang genomics akan dapat memperoleh keuntungan dengan menyediakan jasa penyimpanan, pemrosesan dan analisis data.

Perusahaan seperti AWS, Oracle dan Google menempatkan diri sebagai pemain kunci dalam penyediaan infrastruktur komputasional di bidang biomedis dengan menyediakan infrastruktur bagi penyimpanan dan analisis data genomics. Mereka menyadari potensi nilai yang didapat dari penyediaan platform untuk riset genomics.

Dengan semakin menurunnya biaya sequencing dan dengan dimungkinkannya sequencing dalam skala besar, kita dapat menyaksikan pergeseran dari pengobatan reaksioner (mengobati setelah timbulnya penyakit) menjadi pengobatan prediktif dan proaktif. Database genomics yang besar memungkinkan dilakukannya riset untuk lebih memahami dasar-dasar genetik pada bermacam-macam penyakit.

Pengetahuan ini akan mendorong pengembangan obat-obatan dan terapi yang lebih terarah dan bersifat preventif, dan juga memungkinkan pengembangan alat interpretasi genomics secara individual untuk keperluan konseling bagi individu untuk mencegah kemungkinan munculnya penyakit atau kondisi yang berkaitan dengan kecenderungan genetik.

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Mar 07 / 2016
  • Comments Off on Genomics : The Next Big Thing in Big Data
Big Data, Implementation

Genomics : The Next Big Thing in Big Data

Apa itu Genomics?

Genomics adalah bidang yang mempelajari genome, untuk memahami bagaimana suatu organisme bekerja, dan apa akibat dari interaksi antar gen serta pengaruh lingkungan terhadapnya. Sedangkan genome adalah materi genetik yang menjadi cetak biru atau rancangan dari suatu mahluk hidup. Informasi ini diwariskan secara turun temurun dan tersimpan dalam DNA, atau pada beberapa jenis virus, dalam RNA.

Ukuran genome dinyatakan dalam bp atau base pair, yaitu jumlah pasangan nukleotida dalam DNA.

Manusia memiliki sekitar 3 miliar bp dalam genome-nya. Sebetulnya manusia genome manusia 99.9% mirip. Namun perbedaan yang hanya 0.1% tersebut telah menghasilkan keragaman yang sangat besar pada penampilan maupun kondisi fisik seseorang.

Apa Pentingnya Genomics?

Saat ini genomics memiliki peran yang besar dalam berbagai bidang, mulai dari kesehatan, pertanian, lingkungan, industri maupun perkembangan ilmu pengetahuan. Dengan mempelajari gen, manusia dapat menemukan solusi dari banyak permasalahan mendasar di banyak bidang kehidupan.

Misalnya, di bidang medis, genomics dapat membantu dalam meningkatkan kualitas diagnosis penyakit, mengidentifikasi predisposisi terhadap penyakit tertentu (misalnya diabetes tipe 2, penyakit huntington, dll), mendeteksi virus dan bakteri penyebab penyakit, mengembangkan obat yang disesuaikan dengan informasi genetik seseorang (disebut juga ‘personalized medicine’, misalnya penggunaan penanda genetik untuk membantu menentukan dosis War¬farin, obat anti penggumapalan darah, menentukan jenis dan dosis obat untuk kanker, dll), atau memantau pengaruh gaya hidup dan lingkungan terhadap genome dan kesehatan manusia.

Di bidang lingkungan, genomics membantu untuk menemukan sumber-sumber energi yang lebih sustainable seperti biofuels, mengendalikan polusi, melakukan dekontaminasi daerah yang terkena limbah (disebut juga bioremediation, seperti misalnya mikroba yang digunakan untuk membantu membersihkan tumpahan minyak di teluk Meksiko), memantau keragaman hayati dan identifikasi spesies baru.

Dalam bidang pertanian genomics dapat digunakan untuk mengembangkan tanaman yang lebih tahan terhadap serangan hama, penyakit, dan lingkungan, dapat juga digunakan untuk membantu mengidentifikasi hama, mengembangkan tanaman pangan yang lebih kaya kandungan gizi, ataupun mengembangkan ternak yang lebih berkualitas dan tahan terhadap serangan penyakit, dan lain sebagainya.

Teknologi di Balik Perkembangan Genomics

Peran genomics yang besar tersebut dimungkinkan dengan berkembangnya teknologi dalam bidang pemetaan gen dan pengolahan data.

Next Generation Sequencing

Dengan hadirnya teknologi yang disebut dengan Next Generation Sequencing, maka biaya untuk melakukan pemetaan genetik juga mengalami penurunan yang sangat ekstrim.

genomics_pt1_02.png

Jika sebelumnya biaya untuk melakukan sequencing atau pemetaan terhadap genome manusia adalah sebesar 100 juta US$ (dana yang digunakan pada Human Genome Project, yang di-launch di tahun 1986 dan selesai pada 2003), maka saat ini biaya pemetaan genome manusia adalah sekitar 1000 US$.

Penurunan biaya dan waktu pemrosesan menjadikan pemetaan genome menjadi sebuah proses yang terjangkau, sehingga banyak pihak dapat turut memanfaatkan dan mengembangkannya. Sebagai akibatnya, genomics pun menjadi sebuah bidang yang mengalami perkembangan yang sangat cepat pada dekade terakhir ini.

Big Data

Pemetaan dan analisis genome menghasilkan dan membutuhkan data yang sangat besar. Data hasil sequencing dapat mencapai 130 GB lebih per genome. Dengan semakin banyaknya genome yang dipetakan dan dianalisis, terjadilah ledakan di sisi data yang dihasilkan.

Tantangan selanjutnya adalah bagaimana data yang sedemikian besar dapat diproses dan dianalisis, sehingga semakin banyak penelitian maupun pemanfaatan data genomics dapat dilakukan.

Salah satu pendekatannya adalah dengan cara meningkatkan kecepatan prosesor. Teknologi seperti GPU ataupun FPGA (Field Programmable Gate Arrays) menjadi beberapa alternatif dalam hal ini. Solusi lain adalah penggunaan cloud computing, di mana data yang akan digunakan diproses di cloud, sehingga para peneliti tidak perlu membangun sendiri infrastruktur yang mereka gunakan. Namun permasalahannya adalah ketika diperlukan analisis seperti variant calling untuk mendeteksi mutasi gen, sejumlah data yang sangat besar perlu diakses dan dipindahkan ke environment analisis yang sesuai. Transfer data yang sangat besar melalui jaringan menjadi sebuah permasalahan berikutnya.

Dengan kehadiran big data, khususnya Hadoop sebagai solusi komputasi dan penyimpanan data terdistribusi, para peneliti memiliki alternatif baru yang lebih terjangkau. Hadoop menjadi alternatif bagi penyimpanan dan pemrosesan data genome dengan memberikan solusi berupa : biaya yang lebih terjangkau dengan pemanfaatan commodity hardware, peningkatan kapasitas komputasi dengan penggunaan banyak mesin secara paralel, mengurangi data movement dengan melakukan komputasi secara lokal, di mana data tersebut disimpan secara fisik.

Di samping itu, saat ini telah banyak teknologi yang dikembangkan di atas ataupun melengkapi Hadoop ekosistem, seperti misalnya Hive, Pig, Mahout, Yarn, dan lain sebagainya. Terlebih lagi setelah munculnya Spark sebagai platform pemrosesan in memory secara terdistribusi, big data menjadi sebuah alternatif solusi yang tidak dapat diabaikan lagi.

Salah satu pemanfaatan teknologi big data dalam bidang genomics ini adalah ADAM, yaitu platform analisis genomik dengan format file khusus. Dibangun menggunakan Apache Avro, Apache Spark dan Parquet. ADAM pada awalnya dikembangkan oleh Universitas Berkeley dan berlisensi Apache 2.

Referensi :

http://www.whygenomics.ca/why-should-i-care

http://blogs.uw.edu/ngopal/why-genomics/

https://blog.pivotal.io/data-science-pivotal/features/re-architecting-genomics-pipelines-to-handle-the-rising-wave-of-data

Contributor :

M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng. Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun. Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.
Pages:1...56789101112
Tertarik dengan Big Data beserta ekosistemnya? Gabung