:::: MENU ::::

Posts Categorized / Hadoop

  • Aug 28 / 2017
  • Comments Off on 5 Contoh Penerapan Big Data dalam Bidang Kesehatan
Big Data, Forum Info, Hadoop, Implementation, Uncategorized

5 Contoh Penerapan Big Data dalam Bidang Kesehatan

Institute for Health Technology Transformation, sebuah perusahaan riset dan konsultasi berbasis New York, memperkirakan bahwa pada tahun 2011 industri kesehatan AS menghasilkan data sebesar 150 miliar GB (150 Exabytes). Data ini sebagian besar dihasilkan dari berbagai hal, seperti persyaratan peraturan, pencatatan, hingga data-data perawatan pasien. Akibat dari hal tersebut, terjadi peningkatan data yang eksponensial yang mengakibatkan pengeluaran sebesar US$ 1,2 triliun untuk solusi data dalam industri kesehatan. McKinsey memproyeksikan penggunaan Big Data di bidang kesehatan dapat mengurangi biaya pengelolaan data sebesar US$ 300 miliar - US$ 500 miliar.

Meskipun sebagian besar data di sektor pelayanan kesehatan saat ini masih disimpan dalam bentuk cetak, namun kecenderungan menuju digitalisasi terjadi dengan cepat. Terlebih dengan munculnya banyak standar, peraturan dan insentif untuk digitalisasi data dan penggunaan bersama data dalam bidang kesehatan, serta penurunan biaya teknologi penyimpanan dan pengolahan data.

Artikel ini akan mengupas beberapa contoh penerapan teknologi Big Data dalam bidang kesehatan.

  1. Teknologi Hadoop untuk Pemantauan Kondisi Vital Pasien

    Beberapa rumah sakit di seluruh dunia telah menggunakan Hadoop untuk membantu stafnya bekerja secara efisien dengan Big Data. Tanpa Hadoop, sebagian besar sistem layanan kesehatan hampir tidak mungkin menganalisis data yang tidak terstruktur.

    5_contoh_penerapan_bigdata_dlmbid_kesehatan_img

    Children's Healthcare of Atlanta merawat lebih dari 6.200 anak di unit ICU mereka. Rata-rata durasi tinggal di ICU Pediatrik bervariasi dari satu bulan sampai satu tahun. Children's Healthcare of Atlanta menggunakan sensor di samping tempat tidur yang membantu mereka terus melacak kondisi vital pasien seperti tekanan darah, detak jantung dan pernafasan. Sensor ini menghasilkan data yang sangat besar, dan sistem yang lama tidak mampu untuk menyimpan data tersebut lebih dari 3 hari karena terkendala biaya storage. Padahal rumah sakit ini perlu menyimpan tanda-tanda vital tersebut untuk dianalisa. Jika ada perubahan pola, maka perlu ada alert untuk tim dokter dan asisten lain.

    Sistem tersebut berhasil diimplementasikan dengan menggunakan komponen ekosistem Hadoop : Hive, Flume, Sqoop, Spark, dan Impala.

    Setelah keberhasilan project tersebut, project berbasis Hadoop selanjutnya yang mereka lakukan adalah riset mengenai asma dengan menggunakan data kualitas udara selama 20 tahun dari EPA (Environment Protection Agency). Tujuannya: mengurangi kunjungan IGD dan rawat inap untuk kejadian terkait asma pada anak-anak.

  2. Valence health : peningkatan kualitas layanan dan reimbursements

    Valence health menggunakan Hadoop untuk membangun data lake yang merupakan penyimpanan utama data perusahaan. Valence memproses 3000 inbound data feed dengan 45 jenis data setiap harinya. Data kritikal ini meliputi hasil tes lab, data rekam medis, resep dokter, imunisasi, obat, klaim dan pembayaran, serta klaim dari dokter dan rumah sakit, yang digunakan untuk menginformasikan keputusan dalam peningkatan baik itu pendapatan ataupun reimbursement. Pertumbuhan jumlah klien yang pesat dan peningkatan volume data terkait semakin membebani infrastruktur yang ada.

    5_contoh_penerapan_bigdata_dlmbid_kesehatan_img

    Sebelum menggunakan big data, mereka membutuhkan waktu hingga 22 jam untuk memproses 20 juta records data hasil laboratorium. Penggunaan big data memangkas waktu siklus dari 22 jam menjadi 20 menit, dengan menggunakan hardware yang jauh lebih sedikit. Valence Health juga mampu menangani permintaan pelanggan yang sebelumnya sulit untuk diselesaikan. Misalnya jika seorang klien menelpon dan mengatakan bahwa ia telah mengirimkan file yang salah 3 bulan yang lalu, dan perlu untuk menghapus data tersebut. Sebelumnya dengan solusi database tradisional, mereka memerlukan 3 sampai 4 minggu. Dengan memanfaatkan MapR snapshot yang menyediakan point-in-time recovery, Valence dapat melakukan roll-back dan menghapus file tersebut dalam hitungan menit.

  3. Hadoop dalam Pengobatan Kanker dan Genomics

    Salah satu alasan terbesar mengapa kanker belum dapat dibasmi sampai sekarang adalah karena kanker bermutasi dalam pola yang berbeda dan bereaksi dengan cara yang berbeda berdasarkan susunan genetik seseorang. Oleh karena itu, para peneliti di bidang onkologi menyatakan bahwa untuk menyembuhkan kanker, pasien perlu diberi perawatan yang disesuaikan dengan jenis kanker berdasarkan genetika masing-masing pasien.

    Ada sekitar 3 miliar pasangan nukleotida yang membentuk DNA manusia, dan diperlukan sejumlah besar data untuk diorganisir secara efektif jika kita ingin melakukan analisis. Teknologi big data, khususnya Hadoop dan ekosistemnya memberikan dukungan yang besar untuk paralelisasi dan proses pemetaan DNA.

    David Cameron, Perdana Menteri Inggris telah mengumumkan dana pemerintah sebesar £ 300 juta pada bulan Agustus, 2014 untuk proyek 4 tahun dengan target memetakan 100.000 genom manusia pada akhir tahun 2017 bekerja sama dengan perusahaan Bioteknologi Amerika Illumina dan Genomics Inggris. Tujuan utama dari proyek ini adalah memanfaatkan big data dalam dunia kesehatan untuk mengembangkan personalized medicine bagi pasien kanker.

    Arizona State University mengadakan sebuah proyek penelitian yang meneliti jutaan titik di DNA manusia untuk menemukan variasi penyebab kanker sedang berlangsung. Proyek ini merupakan bagian dari Complex Adaptive Systems Initiative (CASI), yang mendorong penggunaan teknologi untuk menciptakan solusi bagi permasalahan dunia yang kompleks.

    Dengan menggunakan Apache Hadoop, tim peneliti universitas dapat memeriksa variasi dalam jutaan lokasi DNA untuk mengidentifikasi mekanisme kanker dan bagaimana jaringan berbagai gen mendorong kecenderungan dan efek kanker pada individu.

    "Proyek kami memfasilitasi penggunaan data genomik berskala besar, sebuah tantangan bagi semua institusi penelitian yang menangani pecision medicine," kata Jay Etchings, direktur komputasi riset ASU. Ekosistem Hadoop dan struktur data lake terkait menghindarkan setiap peneliti dan pengguna klinis untuk mengelola sendiri jejak data genomik yang besar dan kompleks.

  4. UnitedHealthcare: Fraud, Waste, and Abuse

    Saat ini setidaknya 10% dari pembayaran asuransi Kesehatan terkait dengan klaim palsu. Di seluruh dunia kasus ini diperkirakan mencapai nilai miliaran dolar. Klaim palsu bukanlah masalah baru, namun kompleksitas kecurangan asuransi tampaknya meningkat secara eksponensial sehingga menyulitkan perusahaan asuransi kesehatan untuk menghadapinya.

    UnitedHealthCare adalah sebuah perusahaan asuransi yang memberikan manfaat dan layanan kesehatan kepada hampir 51 juta orang. Perusahaan ini menjalin kerja sama dengan lebih dari 850.000 orang tenaga kesehatan dan sekitar 6.100 rumah sakit di seluruh negeri. Payment Integrity group/divisi integritas pembayaran mereka memiliki tugas untuk memastikan bahwa klaim dibayar dengan benar dan tepat waktu. Sebelumnya pendekatan mereka untuk mengelola lebih dari satu juta klaim per hari (sekitar 10 TB data tiap harinya) bersifat ad hoc, sangat terikat oleh aturan, serta terhambat oleh data yang terpisah-pisah. Solusi yang diambil oleh UnitedHealthCare adalah pendekatan dual mode, yang berfokus pada alokasi tabungan sekaligus menerapkan inovasi untuk terus memanfaatkan teknologi terbaru.

    Dalam hal pengelolaan tabungan, divisi tersebut membuat “pabrik” analisis prediktif di mana mereka mengidentifikasi klaim yang tidak akurat secara sistematis dan tepat. Saat ini Hadoop merupakan data framework berplatform tunggal yang dilengkapi dengan tools untuk menganalisa informasi dari klaim, resep, plan peserta, penyedia layanan kesehatan yang dikontrak, dan hasil review klaim terkait.

    Mereka mengintegrasikan semua data dari beberapa silo di seluruh bisnis, termasuk lebih dari 36 aset data. Saat ini mereka memiliki banyak model prediktif (PCR, True Fraud, Ayasdi, dll.) yang menyediakan peringkat provider yang berpotensi melakukan kecurangan, sehingga mereka dapat mengambil tindakan yang lebih terarah dan sistematis.

  5. Liaison Technologies: Streaming System of Record for Healthcare

    Liaison Technologies menyediakan solusi berbasis cloud untuk membantu organisasi dalam mengintegrasikan, mengelola, dan mengamankan data di seluruh perusahaan. Salah satu solusi vertikal yang mereka berikan adalah untuk industri kesehatan dan life science, yang harus menjawab dua tantangan : memenuhi persyaratan HIPAA dan mengatasi pertumbuhan format dan representasi data.

    Dengan MapR Stream, permasalahan data lineage dapat terpecahkan karena stream menjadi sebuah SOR (System of Record) dengan berfungsi sebagai log yang infinite dan immutable dari setiap perubahan data. Tantangan kedua, yaitu format dan representasi data, bisa digambarkan dengan contoh berikut: rekam medis pasien dapat dilihat dengan beberapa cara yang berbeda (dokumen, grafik, atau pencarian) oleh pengguna yang berbeda, seperti perusahaan farmasi, rumah sakit, klinik, atau dokter.

    Dengan melakukan streaming terhadap perubahan data secara real-time ke basis data, grafik, dan basis data MapR-DB, HBase, MapR-DB JSON, pengguna akan selalu mendapatkan data paling mutakhir dalam format yang paling sesuai.

Kesimpulan

Meningkatkan hasil pelayanan pada pasien dengan biaya yang sama atau bahkan lebih murah adalah tantangan bagi penyedia layanan kesehatan manapun, mengingat di Amerika keseluruhan biaya perawatan kesehatan meningkat sampai sekitar 15%. Transformasi digital adalah kunci untuk membuat mewujudkan tujuan ini. Digitalisasi, peningkatan komunikasi, dan big data analytics menjadi landasan untuk mendukung usaha transformasi tersebut.

Berbagai macam use-case untuk big data analytics sangat terkait dengan kemampuan Hadoop dan ekosistemnya dalam mengolah dan menyimpan data yang beraneka ragam, serta menyajikannya untuk analisa yang mendalam.

Dalam memilih platform big data khususnya distribusi Hadoop, salah satu hal yang penting untuk dipertimbangkan adalah kemampuan untuk menangani berbagai macam tipe data dari sumber data yang terpisah-pisah : data klinis dalam satu silo, data farmasi di silo yang lain, data logistik, dan lain sebagainya. Platform yang dipilih hendaknya cukup fleksibel sehingga tenaga kesehatan dapat menggunakan data yang kompleks seperti catatan dokter, hasil scan, dan lain sebagainya untuk mendukung analisis terhadap pasien, bukan hanya untuk pengarsipan saja.

Sumber :
https://dzone.com/articles/5-examples-of-big-data-in-healthcare
https://www.dezyre.com/article/5-healthcare-applications-of-hadoop-and-big-data/85
https://www.healthdatamanagement.com/news/arizona-state-using-big-data-in-hunt-for-cancer-cure

Contributor :


M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng. Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun. Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.


Vinka Palupi
pecinta astronomi yang sejak kecil bercita-cita menjadi astronaut, setelah dewasa baru sadar kalau tinggi badannya tidak akan pernah cukup untuk lulus seleksi astronaut.
  • Aug 21 / 2017
  • Comments Off on Seputar Big Data Edisi #26
Apache, Big Data, Forum Info, Hadoop, Uncategorized

Seputar Big Data Edisi #26

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan Agustus 2017

Artikel dan Berita

  1. Steering Big Data Projects in the Modern Enterprise
    Meskipun penerapan big data bukanlah hal mudah, namun semakin banyak perusahaan yang mengimplementasi atau mempertimbangkan big data sebagai competitive advantage mereka. Secara garis besar inisiasi implementasi big data dapat dibagi menjadi 3 tahap : assesment awal, perencanaan langkah strategis, dan penentuan sasaran yang spesifik dan dapat dijangkau. Artikel ini mengupas mengenai 5 tingkatan big data maturity model yang dapat dijadikan acuan dalam adopsi big data ke dalam proses bisnis.
  2. Merchant attrition is a big problem. Can big data help?
    Bagi penyedia layanan pembayaran seperti kartu kredit, salah satu permasalahan yang dihadapi adalah mundurnya merchant, atau disebut juga merchant attrition. Langkah untuk mengatasi hal ini tidak selalu mudah, karena tidak semua merchant menunjukkan tanda-tanda yang jelas. Oleh karena itu untuk dapat mendeteksi secara dini dan mengambil tindakan preventif, para acquirer menggunakan big data analytics.
  3. Intel, NERSC and University Partners Launch New Big Data Center
    Intel bekerja sama dengan Pusat Komputasi Ilmiah Riset Energi Nasional (NERSC) milik Departemen Energi Amerika Serikat, dan 5 Intel Parallel Computing Centers (IPCC), membuat sebuah Big Data Center. Pusat big data ini akan melakukan modernisasi kode sekaligus menangani tantangan-tantangan sains yang aplikatif.
  4. How Big Data Analytics Companies Support Value-Based Healthcare
    Layanan kesehatan merupakan salah satu bidang yang sangat penting, tidak terkecuali di Amerika Serikat. Pelayanan kesehatan berbasis fee-for-service yang saat ini digunakan dipandang tidak efektif dan tidak tepat sasaran, oleh karena itu banyak pihak mulai beralih ke layanan kesehatan berbasis nilai (value based healthcare atau VBH). Pada dasarnya VBH menganggap setiap episode konsultasi, pemeriksaan lab, rawat inap, dan prosedur lain sebagai satu kesatuan. Untuk itu perlu integrasi dari berbagai sumber data dan mungkin organisasi yang saat ini masih banyak terpisah-pisah. Salah satu solusi yang dapat mengatasi kebutuhan tersebut adalah big data analytics.
  5. Toyota, Intel and others form big data group for automotive tech
    Sebuah konsorsium yang terdiri dari beberapa nama besar seperti Denso, Ericsson, Intel and NTT Docomo, bekerja sama dengan Toyota mengembangkan sistem Big Data untuk mendukung program mobil yang mampu berjalan sendiri (sefl-driving car) dan teknologi otomotif masa depan lainnya.

Tutorial dan Pengetahuan Teknis

  1. Cassandra to Kafka Data Pipeline (Part 1)
    Artikel ini menunjukkan dengan cukup jelas langkah demi langkah pembuatan sistem dengan Cassandra cluster dan Kafka sebagai event source tanpa downtime.
  2. DeepMind papers at ICML 2017 (part one)
    Beberapa paper mengenai DeepMind yang disampaikan pada ICML 2017, diantaranya mengenai decoupling antarmuka dalam neural netwok menggunakan synthetic gradient, reinforcement learning menggunakan minimax regret bounds, dan lain sebagainya.
  3. New R Course: Spatial Statistics in R
    Salah satu bidang yang banyak digunakan dalam berbagai aplikasi saat ini, terutama yang berkaitan dengan IoT dan berbagai aplikasi berbasis lokasi adalah statistik spasial. Topik “Spatial Statistics in R” merupakan course terbaru yang diluncurkan oleh Datacamp, sebuah platform online learning.
  4. Update Hive Tables the Easy Way
    Pada awalnya memastikan kemutakhiran data dalam Apache Hive membutuhkan pembuatn aplikasi custom yang kompleks, tidak efisien dan sulit di-maintain. Blog ini menunjukkan bagaimana mengatasi permasalahan data manajemen yang umumnya dihadapi, seperti misalnya sinkronisasi data Hive dengan sumber data di RDBMS, update partisi dalam Hive, dan masking atau purging data secara selektif di Hive.
  5. Implementing Temporal Graphs with Apache TinkerPop and HGraphDB
    Big Data bagi sebagian besar orang dibayangkan sebagai data-data yang tidak terstruktur. Walaupun demikian, selalu ada data-data terstruktur dan memiliki relasi diantaranya (relational data). Berdasarkan relasi keterkaikan antar data tersebut, dibutuhkan satu atau lebih skema untuk menangani jenis data tersebut. Pola umum yang sering terlihat adalah sebuah hirarki atau representasi hubungan antar data.
  6. An Introduction to Apache Flink
    Salah satu platform pemrosesan big data streaming yang paling banyak digunakan saat ini adalah Apache Flink. Artikel ini merupakan bagian pertama dari serangkain artikel yang menjelaskan dasar-dasar implementasi Apache Flink.

Rilis Produk

  1. Apache Hadoop 2.7.4 Release
    Rilis Apache Hadoop 2.7.4, yang merupakan penerus dari seri Hadoop 2.7.3, mencakup 264 perbaikan baik perbaikan bugs yang bersifat kritis, maupun optimasi.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Aug 03 / 2017
  • Comments Off on Seputar Big Data Edisi #24
Big Data, Forum Info, Hadoop, IoT

Seputar Big Data Edisi #24

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu terakhir bulan Juli 2017

Artikel dan berita

  1. Mark Zuckerberg, Priscilla Chan Donate $ 10M to Advance Health Using Big Data
    Priscilla Chan (yang juga alumni Fakultas Kedokteran UCSF) dan Mark Zuckerberg mendonasikan dana sekitar $10 juta untuk mendukung berbagai penelitian pada Institute for Computational Health Sciences, University of California San Francisco (UCSF). Termasuk didalamnya adalah pengembangan UCSF’s Spoke Knowledge Network, semacam 'otak' untuk pengobatan yang lebih presisi yang memberikan para peneliti akses ke data-data dari berbagai sumber yang berbeda-beda, seperti percobaan laboratorium, uji klinis, EHR dari perangkat digital seorang pasien.
  2. Scientists turn to big data in hunt for minerals, oil and gas
    Dari Reuters OSLO, Para ilmuwan yang mencari segala sesuatu mulai dari minyak bumi dan gas, hingga tembaga dan emas, mulai mengadopsi teknik yang digunakan oleh perusahaan seperti Netflix dan Amazon untuk mengolah data yang berukuran sangat besar.
  3. How BMW Uses Artificial Intelligence And Big Data To Design And Build Cars Of Tomorrow
    BMW menciptakan beberapa mobil berteknologi tinggi yang belum pernah kita lihat. Berkat Kecerdasan Buatan (AI), data-driven predictive analytics dan teknologi terdepan lainnya, BMW mampu membangun mobil yang diperkirakan merupakan mobil masa depan.
  4. Are the world's highest paid football players overpaid? Big data says yes
    Para pakar komputer menggunakan machine learning dan data science untuk menganalisa gaji para pemain sepak bola professional. Model komputasi dikembangkan untuk menunjukkan pemain mana digaji terlalu besar atau terlalu rendah, dan juga untuk dapat mengidentifikasi keterampilan dan kemampuan yang dapat meningkatkan gaji pemain.
  5. Musk vs. Zuckerberg: Who’s Right About AI?
    Elon Musk dan Mark Zuckerberg memperdebatkan apa, tepatnya, akan terjadi dalam hubungan antara kecerdasan buatan dan manusia di masa depan, dan apakah kemajuan robot AI akan memerlukan peraturan agar manusia tidak terganggu oleh AI di masa depan.

Tutorial dan Pengetahuan Teknis

  1. Self-Learning Kafka Streams With Scala: Part 1
    Tutorial untuk mengenal Apache Kafka dengan menggunakan Scala
  2. Machine Learning Exercises in Python: An Introductory Tutorial Series
    Sebuah artikel yang menyajikan ringkasan dari rangkaian tutorial dan latihan mengenai Machine Learning yang dibuat oleh Andrew Ng dalam site Coursera. Tutorial ini menggunakan bahasa pemrograman Python.
  3. The Internet of Things: An Introductory Tutorial Series
    Sebuah seri tutorial mengenai pengenalan Internet of Things yang membahas mengenai konsep-konsep dasar, teknologi dan aplikasinya, dengan menggunakan gaya bahasa yang cukup untuk mudah dipahami oleh orang non teknis.
  4. Classifying traffic signs with Apache MXNet: An introduction to computer vision with neural networks
    Meskipun telah banyak framework mengenai deep learning, seperti TensorFlow, Keras, Torch, dan Caffe, Apache MXNet pada khususnya mulai populer karena skalabilitasnya di beberapa GPU. Dalam blog ini, akan dibahas mengenai computer vision yaitu mengklasifikasikan rambu lalu lintas di Jerman menggunakan jaringan saraf tiruan konvolusi (convolutional neural network). Jaringan mengambil foto berwarna yang berisi gambar tanda lalu lintas sebagai masukan, dan mencoba untuk mengidentifikasi jenis tanda.

Rilis Produk

  1. Solix Launches Data-driven Healthcare
    Solix Technologies, Inc. (www.solix.com), penyedia aplikasi Big Data terkemuka, hari ini mengumumkan Data-driven Healthcare, sebuah framework aplikasi yang menggunakan Solix Common Data Platform (CDP), sebuah solusi manajemen data yang memberikan Information Lifecycle Management (ILM), penyimpanan data berbiaya rendah dan analisis data lanjutan.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Aug 01 / 2017
  • Comments Off on Pertanyaan Wajib Ketika Memilih SQL-on-Hadoop
Big Data, Forum Info, Hadoop, Uncategorized

Pertanyaan Wajib Ketika Memilih SQL-on-Hadoop

Meskipun Hadoop telah terbukti memberikan solusi yang scalable dan cost effective, namun banyak perusahaan yang masih belum yakin untuk mengadopsinya. Salah satu hambatan bagi perusahaan maupun organisasi yang ingin mengimplementasi Hadoop adalah kebutuhan akan sumber daya yang cukup ‘mumpuni’ untuk dapat menggunakan dan memanfaatkannya secara maksimal. Saat ini kebanyakandata analisis sudah cukup familiar dengan SQL, sehingga solusi SQL-on-Hadoop merupakan sebuah pilihan yang banyak digunakan.

Apache Hive adalah SQL engine di atas Hadoop yang muncul pertama kali, dan banyak penggunanya. Saat ini sudah banyak berkembang engine SQL lain yang dibuat untuk Hadoop dan Big Data, diantaranya adalah:
  • Hive on Spark
  • Hive on Tez
  • Spark SQL
  • Presto
  • Apache Drill
  • Apache HAWQ
  • Apache Impala
  • Apache Phoenix
  • MemSQL

Dengan begitu banyak pilihan, apa saja hal yang harus dipertimbangkan dalam memilih solusi SQL untuk Big Data?

Setidaknya ada 3 hal penting yang perlu diperhatikan dalam memilih solusi SQL on Hadoop, yaitu:
  • Kinerja dalam mengolah data besar : apakah engine dapat memproses data sampai jutaan bahkan miliaran record dengan konsisten, tanpa terjadi error, dengan waktu response yang cepat
  • Kecepatan dalam pengolahan data berukuran kecil : SQL engine dapat memberikan hasil query secara interaktif untuk data yang relatif kecil (ribuan sampai jutaan records)
  • Stabilitas untuk banyak concurrent user : tetap handal ketika diakses secara bersamaan oleh banyak pengguna (puluhan, ratusan atau bahkan ribuan), dengan load kerja yang tinggi

Di samping ketiga kriteria di atas, beberapa pertanyaan lain yang perlu kita ajukan ketika mengevaluasi solusi SQL on Hadoop adalah sebagai berikut:

  1. Solusi proprietary atau open-source?
  2. Bagaimana tingkat skalabilitasnya?
  3. Solusi mana yang memberikan dukungan terlengkap untuk berbagai query SQL?
  4. Versi SQL apa yang perlu disupport?
  5. Bagaimana arsitektur solusinya? Di atas Hive dan MapReduce? In-memory?
  6. Apakah solusi SQL tersebut terikat pada distribusi Hadoop yang spesifik dari vendor tertentu?
  7. Seberapa banyak support yang tersedia?
  8. Seberapa fleksibel jenis eksplorasi data yang perlu disupport?
  9. Seberapa mudah dan baik solusi tersebut diintegrasikan dengan datawarehouse atau sistem lain yang sudah ada? API apa saja yang disupport? Apakah mensupport REST-ful API?
  10. Berapa banyak training yang akan dibutuhkan user untuk dapat menggunakannya?

Referensi :
https://zdatainc.com/2016/12/sql-hadoop-paradox-choice/
http://blog.atscale.com/how-different-sql-on-hadoop-engines-satisfy-bi-workloads

Contributor :


M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng. Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun. Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.

  • Jul 26 / 2017
  • Comments Off on Seputar Big Data Edisi #23
Big Data, Forum Info, Hadoop, Implementation, Uncategorized

Seputar Big Data Edisi #23

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ketiga bulan Juli 2017

Artikel dan Berita

  1. Airbus Gets A Step Closer To The Holy Grail Of Big Data And Plane Connectivity
    Salah satu kendala yang sering dihadapi oleh industri penerbangan dalam penerapan big data adalah interoperabilitas data antar berbagai peralatan dari berbagai pabrikan, serta belum adanya penyimpanan data yang terpusat. Airbus melakukan sebuah langkah besar dalam penerapan big data dengan mengumumkan Skywise, platform airline-centric berbasis cloud.
  2. The Impact of Big Data on Banking and Financial Systems
    Sektor keuangan dan perbankan termasuk bidang yang banyak menerapkan pendekatan berbasiskan data untuk mengembangkan bisnis dan meningkatkan layanan kepada pelanggan. Apa saja pengaruh dan manfaat big data untuk sektor ini?
  3. Why Startups Should Not Ignore Big Data
    Startup adalah sebuah usulan bisnis yang cukup memiliki resiko. Ini berarti bahwa jika segala sesuatunya tidak dikerjakan dengan baik dan efektif, bisnis tidak akan pernah berhasil melewati tahun pertama. Bisnis plan merupakan penentu apakah sebuah bisnis akan melewati fase startup perusahaan atau tidak
  4. The 2016 Election Was a Wake-Up Call for Marketers, Forcing Many to Rethink Big Data
    Salah satu hal yang dituding sebagai penyebab kekalahan Hillary Clinton dalam pemilihan presiden Amerika yang lalu adalah penggunaan Big Data Analytics yang tidak benar. Apa saja kesalahan yang kiranya dilakukan, dan apakah para politisi maupun marketers menjadi anti terhadap big data analytics?
  5. What AI-enhanced health care could look like in 5 years
    Sejak data kesehatan mulai didigitalisasi pada tahun 2013, jumlah data di bidang tersebut terus meningkat sekitar 48% per tahun secara global. Teknologi AI diyakini sesuai untuk mengatasi inefisiensi di bidang kesehatan, mengurangi beban bagi tenaga medis, dan menghemat biaya hingga ratusan juta US$. Artikel ini mengupas mengenai bagaimana wajah layanan kesehatan yang didukung AI lima tahun ke depan.

Tutorial dan Pengetahuan Teknis

  1. Using Apache Kafka as a Scalable, Event Driven Backbone for Service Architectures
    Artikel in imenjelaskan mengenai berbagai fitur utama Apache Kafka, lengkap dengan contoh dan diagram yang menggambarkan konsep-konsep dasarnya.
  2. implyr: R Interface for Apache Impala
    Artikel ini menjelaskan secara singkat mengenai integrasi implyr, yaitu package baru yang merupakan antarmuka R ke Impala, yang memungkinkan melakukan query ke Impala dari R menggunakan dplyr.
  3. 5 Free Resources for Getting Started with Deep Learning for Natural Language Processing
    5 link ke resource untuk mulai mempelajari deep learning untuk NLP. Ditujukan untuk memberi gambaran mengenai NLP dan deep learning, serta apa langkah selanjutnya yang perlu diambil untuk mendalaminya.
  4. How to Use the Kafka Streams API
    Kafka Streams API memungkinkan kita untuk membuat aplikasi real-time yang memperkuat bisnis utama kita. Penggunaan API merupakan cara termudah untuk memanfaatkan teknologi terbaik untuk mengolah data yang tersimpan di Kafka.
  5. When not to use deep learning
    Meskipun banyak keberhasilan dalam penerapan Deep Learning, setidaknya ada 4 situasi di mana hal ini justru menjadi penghalang, di antaranya ketika anggaran yang tersedia kecil, atau saat menjelaskan model dan fitur kepada orang awam.
  6. Ask a question, get an answer in Google Analytics
    Saat ini, Google Analytics telah berkembang sangat maju menuju masa depan. Ia mengetahui data apa yang anda butuhkan dan inginkan dengan cepat? Tanya apa saja dengan menggunakan bahasa Inggris pada Google Analytics dan dapatkan jawabannya.
  7. Random Forests in R
    Random Forest adalah sebuah tehnik Ensembling yang populer digunakan untuk memperbaiki kinerja prediktif dari Decision Trees dengan cara mengurangi varian dalam pencabangan (Trees) dengan membuat rata-ratanya.

Rilis produk

  1. Hue 4 SQL Editor improvements
    Setelah Hue 4 dirilis pada Juni lalu, kali ini Hue 4 SQL Editor mendapatkan perbaikan, di antaranya enriched autocomplete dan multi-query editing.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Jul 21 / 2017
  • Comments Off on Seputar Big Data Edisi #22
Big Data, Forum Info, Hadoop, Komunitas, Uncategorized

Seputar Big Data Edisi #22

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan Juli 2017

Artikel dan berita

  1. Stanford researchers find intriguing clues about obesity by counting steps via smartphones
    Sebuah penelitian global berdasarkan berapa jumlah langkah perhari, dicatat menggunakan smartphone, menunjukkan adanya "ketimpangan aktivitas". Hal ini bisa dianggap serupa dengan ketimpangan pendapatan, di mana "kemiskinan langkah" menyebabkan kecenderungan obesitas, sedangkan "kekayaan langkah" menghasilkan kebugaran dan kesehatan.
  2. A better approach to disease prediction through big data analytics
    Bagaimana penggunaan data hasil crowdsourcing dan analytics big data dapat meningkatkan kualitas prediksi kesehatan.
  3. How a new wave of machine learning will impact today’s enterprise
    AI dan machine learning menjadi sebuah kebutuhan bagi perkembangan dan persaingan bisnis. Bagaimana trend terbaru penerapan machine learning, dan apa yang perlu dilakukan perusahaan untuk dapat mengambil manfaat sebesar-besarnya?
  4. How Colleges Can Use Big Data to Encourage Better Management
    Pengelolaan sebuah institusi pendidikan tidak hanya berkaitan dengan unsur pendidikan saja, namun juga bagaimana me-manage dan menciptakan lingkungan kerja yang kondusif bagi para staf. Artikel ini membahas bagaimana institusi pendidikan tinggi memanfaatkan big data untuk dapat meningkatkan kualitas manajemen mereka.

Tutorial dan pengetahuan teknis

  1. Facets: An Open Source Visualization Tool for Machine Learning Training Data
    Bekerjasama dengan PAIR initiative, google team merilis Facets, sebuah tools open source visualisasi yang dapat digunakan untuk membantu memahami dan menganalisa data XML. Facets terdiri dari dua visualisasi yang memungkinkan pengguna untuk memperoleh gambaran holistik dari data-data yang dimiliki.
  2. The Modern Problem of Collecting Network Data
    Big Data tidak hanya mengenai sekumpulan informasi yang telah ada sebelumnya, serta bukan hanya melempar konten digital ke dalam database untuk diproses nantinya. Akan tetapi Big Data juga harus melibatkan pembangunan sistem yang dapat digunakan untuk mengumpulkan lebih banyak aset, seperti statistik, angka-angka, pola pengguna dan berbagai hal detail lainnya dari berbagai sumber.
  3. Text Classifier Algorithms in Machine Learning
    Salah satu problem dalam machine learning adalah klasifikasi teks, yang banyak digunakan mulai dari deteksi spam, penentuan topik sebuah artikel, dan lain sebagainya. Artikel ini membahas mengenai beberapa algoritma klasifikasi teks lengkap dengan use case-nya. Disertakan pula link menuju resource dan tutorial untuk pembaca yang ingin mempelajari lebih dalam.
  4. Advanced Machine Learning with Basic Excel
    Implementasi machine learning tidak harus selalu menggunakan bahasa pemrograman seperti R, Scala, atau Python misalnya, namun dapat juga dilakukan menggunakan Microsoft Excel, bahkan dengan menggunakan fitur dasarnya saja (tanpa macros), seperti yang ditampilkan dengan gamblang di dalam artikel ini.
  5. Artificial Intelligence Explained Part 1
    Satu lagi artikel yang mengupas mengenai AI, yang ditujukan untuk pembaca tanpa latar belakang matematika ataupun pemrograman.

Risil Produk

  1. Apache HAWQ 2.2.0.0-incubating Released
    Rilis ini mencakup CentOS 7.x Support, Ranger Integration, PXF ORC Profile dan Bug Fixes.
  2. Apache Hive 2.3.0 Released
    Fitur baru yang tercakup di antaranya peningkatan vektorisasi untuk ACID dengan menghilangkan row-by-row stitching, menambahkan UDF untuk uniontype values, dan menambahkan StrictRegexWriter untuk RegexSerializer di Flume Hive Sink. Di samping itu tercakup pula 8 perbaikan dan lebih dari 125 bug fixing.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Jul 12 / 2017
  • Comments Off on Seputar Big Data Edisi #21
Apache, Big Data, Forum Info, Hadoop, Komunitas

Seputar Big Data Edisi #21

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan Juli 2017

Artikel dan Berita

  1. DataOps: How To Use Big Data To Achieve A Data-Driven Enterprise
    Banyak perusahaan sangat menyadari akan manfaat yang didapat dari Big Data bagi perusahaan. Mendapatkan pemahaman yang lebih baik tentang perilaku pelanggan dan membuat keputusan bisnis yang lebih baik, hanya sebagian manfaat yang didapat oleh suatu perusahaan atau organisasi berbasis data.
  2. What Does the Customer Want? Big Data Knows
    Dunia e-comerce saat ini, produk dirancang berdasarkan analisa perilaku konsumen, dimana kebutuhan pelanggan terpenuhi sebelum mereka menyadari bahwa mereka memilikinya. Produsen mungkin tidak dapat membaca pikiran, tetapi dengan next generation big data, seolah-olah pembacaan pikiran dapat dilakukan.
  3. Open Source Is The New Normal In Data and Analytics
    Dengan menggunakan Hadoop sebagai teknologi utama, arsitektur data open source telah mencapai tingkat kestabilan dan adopsi yang cukup baik, namun demikian belum sepenuhnya dapat dinikmati oleh perusahaan-perusahaan.
  4. Five big data trends in healthcare
    Penyedia jasa kesehatan memanfaatkan big data untuk memperbaiki hasil perawatan terhadap pasien serta menurunkan biaya. Pada tahun 2017 ini, industri kesehatan akan melihat lima tren dari pemanfaatan big data.
  5. Better Buy: Hortonworks vs. Cloudera
    Dua Hadoop distro berhadapan dalam persaingan untuk sebuah pasar yang sangat besar. Mana yang lebih baik untuk dibeli ?
  6. The 10 Coolest Big Data Startups Of 2017 (So Far)
    Banyak startup yang bermain di area big data memfokuskan diri untuk memberikan solusi terhadap masalah dalam menghubungkan sumber data yang berbeda dan memindahan data ke dalam cloud untuk memudahkan akses dan analisa. Ada juga tren yang sedang berkembang yaitu penggunaan machine learnig dan artificial intelligence dalam aplikasi big data untuk membuat sistem yang lebih cerdas.

Tutorial dan Pengetahuan Teknis

  1. Medical Image Analysis with Deep Learning Part 4
    Tulisan ini merupakan bagian keempat dan akan membahas mengenai gambar medis dan komponennya, format gambar medis dan konversi formatnya. Tujuannya adalah untuk mengembangkan pengetahuan untuk membantu dalam menganalisa citra medis dengan menggunakan deep learning
  2. Five Steps to Tackling Big Data with Natural Language Processing
    Apa 5 langkah mendasar yang harus diambil untuk menangani project Big Data dengan Natural Language Processing? Bagaimana tools-tools NLP dan teknik-tekniknya membantu proses bisnis, menganalisa, dan memahami data secara efektif dan proaktif?
  3. Visualizing Smog Sensor Data With Vert.x, Prometheus, and Grafana
    Sebuah tutorial singkat menggunakan data-data yang dikumpulkan dari sensor asap di Jerman ke server lokal sehingga dapat digunakan untuk memvisualisasikan tren jangka panjang
  4. Exploratory Data Analysis in Python
    Sebuah tutorial yang dibuat berdasarkan presentasi dari Jonathan Whitmore yang berjudul Exploratory Data Analysis in Python pada PyCon 2017 di Portland, Oregon.
  5. Data Cleaning and Wrangling With R
    Salah satu permasalahan utama dalam pengolahan data adalah menggabungkan dan 'membersihkan' berbagai dataset dari sumber data yang berbeda-beda. Dalam artikel ini ditampilkan 10 tips untuk melakukan data cleansing dan wrangling menggunakan R.

Rilis Produk

  1. Spark Release 2.2.0
    Apache Spark 2.2.0 merupakan rilis ketiga untuk versi 2.x. Pada rilis ini tag eksperimental dihapus dari Structured Streaming. Selain itu, rilis ini lebih berfokus pada kegunaan, stabilitas dan penyempurnaan, serta menyelesaikan lebih dari 1100 tiket perbaikan.
  2. Apache Phoenix 4.11
    Tercakup dalam rilis ini di antaranya adalah: support untuk HBase 1.3.1, local index hardening dan peningkatan kinerja, lebih dan 50 bug-fixes, dan lain sebagainya.
  3. Apache OpenNLP 1.8.1 Release
    The Apache OpenNLP library adalah machine learning toolkit untuk melakukan pemrosesan bahasa alami (NLP). Mendukung proses dasar NLP seperti tokenization, segmentasi kalimat, part-of-speech tagging, named entity extraction, chunking, parsing, dan coreference resolution. Rilis 1.8.1 ini mencakup peningkatan kinerja, beberapa fitur baru, dan bug-fixes.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • May 29 / 2017
  • Comments Off on Seputar Big Data edisi #15
Apache, Big Data, Forum Info, Hadoop, Komunitas

Seputar Big Data edisi #15

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu 3 bulan mei 2017

Artikel dan berita

  1. How Traditional Industries Are Using Machine Learning and Deep Learning to Gain Strategic Business Insights
    Pengaruh AI di bidang industri tidak bisa lagi dianggap trend sesaat belaka. Bagaimana langkah industri dalam mengadopsi AI ke dalam proses bisnis dan pengambilan keputusan mereka? Beberapa use case nyata disajikan dalam artikel ini.
  2. How Artificial Intelligence will Transform IT Operations and DevOps
    Penerapan big data membawa tantangan yang besar bagi IT Operation dan DevOps. Di antaranya adalah bagaimana mereka harus bisa menemukan akar masalah, bahkan mengantisipasinya sedini mungkin, di tengah lautan data yang begitu besar. Artikel ini menjelaskan bagaimana AI menjadi salah satu solusi yang akan mengubah ‘wajah’ Operasional IT dan DevOps. Salah satu konsep yang sering disebut adalah ‘Cognitive Insights’, yaitu menggunakan machine learning untuk mengolah log dan data dari berbagai sumber untuk menemukan solusi bagi masalah-masalah yang dihadapi DevOps dan Operasional IT.
  3. Neural Network-Generated Illustrations in Allo
    Sebuah fitur menarik yang diperkenalkan Google di aplikasi Allo, yang mengubah foto selfie menjadi stiker ilustrasi, menggunakan kombinasi antara neural network dan hasil karya seniman.
  4. Using Twitter as a data source: an overview of social media research tools (updated for 2017)
    Tinjauan dan pembahasan singkat mengenai metode dan tools yang dapat digunakan oleh ilmuwan bidang sosial untuk menganalisis data sosial media. List yang sangat bermanfaat jika anda ingin melakukan penelitian yang memanfaatkan data sosial media.
  5. NHS gave DeepMind patient records on an ‘inappropriate legal basis’
    Sebuah pelajaran berharga dari dugaan pelanggaran privacy dalam kasus data sharing antara NHS dengan DeepMind. Mengingatkan kita kepada pentingnya memahami regulasi yang harus dipenuhi apa saja yang harus diantisipasi, dan batasan apa yang harus ditaati dalam pemanfaatan data-data sensitif dan pribadi untuk keperluan analisis dan machine learning.
  6. Four Lessons In The Adoption Of Machine Learning In Health Care
    AI dan machine learning berpotensi sangat besar untuk perbaikan kualitas pelayanan kesehatan, namun mengapa saat ini pemanfaatannya di dunia kesehatan masih sangat terbatas? Berikut ini beberapa poin penting yang perlu diperhatikan, dari mulai jenis task apa yang paling sesuai, bagaimana membangun kepercayaan dan dukungan dari tenaga medis sendiri, bagaimana memilih vendor, dan perubahan apa yang perlu dilakukan dari sisi layanan kesehatan agar dapat memperoleh manfaat sebesar-besarnya dari teknologi ini.
  7. Special Ops battle with ‘big data’
    Komandan Komando Operasi Khusus Amerika Serikat (SOCOM) berbicara mengenai pentingnya Big Data, dan apa yang dilakukan untuk memanfaatkan data bagi operasi-operasi intelelejen, terutama yang bersifat kritikal.
  8. Big Data: The Ultimate in Customer Tracking
    Big Data identik dengan pelacakan dan pengumpulan data pengguna, dari setiap titik transaksi, profil WiFi, situs yang dikunjungi, dan lain sebagainya. Hal ini menimbulkan kekhawatiran bahwa Big Data identik dengan ‘Big Brother’. Namun sebetulnya Big Data lebih dekat perbandingannya dengan ‘Moneyball’, yaitu sebuah film mengenai pemanfaatan big data untuk memenangkan kompetisi baseball terbesar di dunia, Superbowl.

Tutorial dan pengetahuan teknis

  1. Event-time Aggregation and Watermarking in Apache Spark’s Structured Streaming
    Artikel ini merupakan seri ke 4 dari serangkaian artikel mengenai pemrosesan yang kompleks terhadap data streaming menggunakan Spark. Di sini dijelaskan mengenai bagaimana meng-agregasi data real time dengan Structured Streaming, dan mengenai bagaimana menangani event yang terlambat masuk dengan mekanisme Watermarking.
  2. Detecting Abuse at Scale: Locality Sensitive Hashing at Uber Engineering
    Menjelaskan mengenai Locality Sensitive Hashing, yaitu algoritma near neighbor search dalam ruang dimensi tinggi. Uber ddan Databrick bekerjasama dalam kontribusi implementasi LSH ke dalam Spark. Uber menggunakan LSH terutama untuk medeteksi pengemudi yang curang berdasar data perjalanan. Dijelaskan juga apa motivasi Uber menggunakan LSH di atas Spark, bagaimana penerapannya, dan apa rencana pengembangan ke depan.
  3. Home advantages and wanderlust
    Menganalisa data Premier League, untuk menentukan kesebelasan mana prosentase poinnya paling banyak didapat dari pertandingan kandang. Analisis dilakukan menggunakan R, yaitu package engsoccerdata. Dalam artikel ini ditunjukkan bagaimana teknik-teknik analisis dan visualisasi data dapat menjadi sesuatu yang menarik, apalagi jika dipadukan dengan data yang sesuai dengan bidang yang digemari.
  4. hive-druid-part-1-3/">Ultra-fast OLAP Analytics with Apache Hive and Druid – Part 1 of 3
    Bagian pertama dari 3 seri tulisan mengenai bagaimana melakukan OLAP analisis super cepat menggunakan Apache Hive dan Druid. Druid adalah data store terdistribusi berorientasi kolom, yang sesuai untuk low latency analytics.
  5. How-to: Backup and disaster recovery for Apache Solr (part I)
    Satu lagi artikel yang menjadi bagian dari serial, kali ini membahas mengenai backup dan disaster recovery Apache Solr. Artikel ini menjelaskan dasar-dasar backup dan recovery Solr dengan cukup detail dan jelas.
  6. Using 'Faked' Data is Key to Allaying Big Data Privacy Concerns
    Salah satu issue terbesar dalam penggunaan data untuk machine learning adalah privacy. Data yang digunakan dalam proses learning seringkali mengandung informasi pribadi yang sensitif, bahkan ketika data tersebut sudah di-anonimisasi. Untuk mengatasi permasalahan MIT membuat sebuah gebrakan, yaitu sistem machine learning yang men-generate ‘data sintetis’ berdasar model data asli. Data sintetis initidak mengandung informasi asli apapun, namun tetap dapat ‘berperilaku’ serupa dengan data asli di dalam analisis dan stress tes, sehingga dapat menjadi pengganti ideal bagi data asli. Algoritma yang digunakan disebut dengan “recursive conditional parameter aggregation”.
  7. An Impatient Start With the Apache Ignite Machine Learning Grid
    Baru-baru ini Apache Ignite merilis in memory machine learning grid mereka, dalam tahap beta version. Rilis beta ini dapat melakukan operasi vektor lokal dan terdistribusi, dekomposisi, dan matriks. Artikel menunjukkan secara singkat dan padat, bagaimana mendownload Apache Ignite 2.0 release, kemudian mem-build dan mengeksekusi contoh programnya.
  8. Balancing Bias and Variance to Control Errors in Machine Learning
    Di dunia machine learning, akurasi adalah hal utama. Berbagai cara dilakukan untuk membangun model seakurat mungkin, dengan cara menyesuaikan parameter-parameternya. Artikel ini mengupas dengan cukup detail mengenai apa yang harus diperhatikan untuk meminimalisir error dengan mengontrol bias dan variansi.
  9. Deep Learning – Past, Present, and Future
    Perjalanan perkembangan deep learning dari masa ke masa.

Rilis produk

  1. The Apache Software Foundation Announces Apache® Samza™ v0.13
    Samza adalah framework pemrosesan Big Data stream terdistribusi, yang saat ini digunakan oleh Intuit, LinkedIn, Netflix, Optimizely, Redfin, Uber dan lain-lain.

    Rilis v0.13 mencakup :
    • Higher level API yang dapat merepresentasikan pipeline pemrosesan stream yang kompleks dengan lebih ringkas
    • Support untuk menjalankan aplikasi Samza sebagai lightweight embedded library tanpa mengandalkan YARN
    • Deployment yang lebih fleksibel
    • Peningkatan monitoring dan deteksi kegagalan menggunakan mekanisme heart-beating yang built-in
    • Integrasi yang lebih baik dengan framework manajemen cluster yang lain
    • Beberapa bug-fixes yang meningkatkan keandalan, stabilitas, dan kekuatan pemrosesan data
  2. Build Intelligent Apps Faster with Visual Studio and the Data Science Workload
    Versi terbaru Visual Studio 2017 memiliki built-in support untuk pemrograman R dan Python. Pada versi terdahulu, dukungan untuk bahasa-bahasa ini telah tersedia melalui RTVS dan PTVS add-in, namun dengan Data Science Workloads support R dan Python tidak lagi memerlukan add-in. Fitur ini tersedia di semua edisi, termasuk Visual Studio Community 2017 yang bisa anda download secara gratis.
  3. Apache Arrow 0.3.0
    Rilis 0.3.0 ini mencakup 306 JIRA yang diresolve dari 23 kontributor.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • May 10 / 2017
  • Comments Off on Seputar Big Data Edisi #14
Big Data, Forum Info, Hadoop, Komunitas

Seputar Big Data Edisi #14

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan mei 2017

Artikel dan Berita

  1. How Small Businesses Can Utilize Big Data to Grow Big
    Big Data sering diterjemahkan sebagai sejumlah data sangat besar yang berukuran terabyte bahkan petabyte. Data-data tersebut dikelola dan dianalisa untuk mendapatkan pola-pola yang bernilai (misal perilaku), tren dan berbagi informasi lainnya. Bagaimana sebenarnya pemanfaatan Big Data untuk "Small Business" supaya dapat berkembang?
  2. Big Data strategies to address Ebola
    IBM mengumumkan hasil riset penggunaan big data untuk menganalisa pengaruh hewan yang telah tertular terhadap penyebaran virus Ebola.
  3. Timeline of AI and Robotics
    Infografis mengenai perkembangan AI dan Robotik dari masa ke masa
  4. Using Machine Learning to Fight Crime
    Dengan menggunakan metodologi Machine Learning yang diberi nama Probabilistic Assessment for Contributor Estimate (PACE), tim riset dari Forensics and National Security Sciences Institute (FNSSI) mampu mengidentifikasikan profil penjahat secara lebih baik dengan menggunakan analisa DNA
  5. How to Become a Data Engineer
    Kebutuhan akan data engineers diprediksi akan meningkat seiring dengan perkembangan pemanfaatan data sebagai acuan dalam pengambilan keputusan. Apa sebenarnya data engineer itu ? Apa yang dilakukannya ?

Tutorial dan pengetahuan teknis

  1. 20 Questions with Big Data Cybersecurity Experts on Apache Metron: Webinar Recap
    Rangkuman pertanyaan dari webminar yang diadakan oleh Hortonworks dengan tema Combating Phishing Attacks: How Big Data Helps Detect Impersonators
  2. Deep Learning in Minutes with this Pre-configured Python VM Image
    Sekumpulan tools dan library deep learning berbasiskan Python yang dipaketkan dalam sebuah virtual machine dan siap untuk digunakan.
  3. Introduction to R: The Statistical Programming Language
    Pengenalan dan memulai R, sebuah bahasa pemrograman khusus untuk statistik.

Rilis produk

  1. pache ZooKeeper 3.5.3-beta
    Tim developer Apache ZooKeeper mengumumkan versi 3.5.3-beta. Versi ini merupakan versi beta pertama dari seri ZooKeeper 3.5, yang meliputi 77 issue.
  2. Apache Trafodion 2.1.0-incubating
    Apache Trafodion salah satu solusi SQL-on-Hadoop telah merilis Apache Trafodion 2.1.0-incubating.
  3. Apache Ignite 2.0: Redesigned Off-heap Memory, DDL and Machine Learning
    Setelah menunggu cukup lama akhirnya Apache Ignite 2.0 dirilis dengan banyak perubahan seperti meredisain arsitektur Off-heap Memory, mensupport Data Definition Languange, dan yang paling menarik adalah fitur Machine Learning Grid.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • May 08 / 2017
  • Comments Off on Seputar Big Data Edisi #13
Apache, Big Data, Forum Info, Hadoop, Komunitas

Seputar Big Data Edisi #13

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan Mei 2017.

Artikel dan berita

  1. Data Driven: 5 Ways Automakers Use Big Data to Improve Their Products
    Di era data-driven ini big data memegang peran yang semakin penting dalam bisnis otomotif, bahkan mcKinsey memperkirakan, data-data otomotif akan bernilai 450 to 750 milyar dolar di tahun 2030. Apa saja yang dilakukan produsen otomotif dalam pemanfaatan big data untuk memperbaiki produk mereka?
  2. How Companies Say They’re Using Big Data
    Hasil survey terhadap eksekutif perusahaan-perusahaan Fortune 1000 mengenai bagaimana mereka mengimplementasikan dan menggunakan big data.
  3. The Big Data Market Will account for over Billion by the end of 2020
    Investasi di bidang yang terkait big data semakin meningkat di seluruh dunia. SNS Research memprakirakan bahwa investasi big data akan mencapai lebih dari 57 miliar US$ untuk tahun 2017, dan 76 miliar US$ pada 2020.
  4. PSU, Eversource to use big data to better predict storms that cause power outages
    Kerja sama antara Plymouth State University dan Eversource dalam pemanfaatan big data untuk memprediksikan cuaca, dalam usaha mengurangi padamnya listrik. Beberapa hal yang menjadi perhatian adalah suhu, curah hujan, dan kemungkinan adanya badai, bahkan jenis pepohonan apakah yang mungkin menjadi potensi masalah untuk jalur listrik jika terjadi badai.
  5. The new paradigm for big data governance
    Data saintis menggunakan sandbox untuk mengeksplorasi data dan menggali insight. Meskipun penggunaan sandbox dapat meningkatkan produktivitas, namun memindahkannya ke production environment bisa menjadi masalah. Penggunaan bahasa pemrograman dan struktur data yang masih relatif asing untuk dunia IT pun memperumit permasalahan. Oleh karenanya, perlu penerapan data governance dalam big data sains. Akan tetapi, berbeda dengan data governance pada umumnya, big data analytics memiliki karakteristik dan kebutuhan tersendiri.
  6. The new paradigm for big data governance
    Data saintis menggunakan sandbox untuk mengeksplorasi data dan menggali insight. Meskipun penggunaan sandbox dapat meningkatkan produktivitas, namun memindahkannya ke production environment bisa menjadi masalah. Penggunaan bahasa pemrograman dan struktur data yang masih relatif asing untuk dunia IT pun memperumit permasalahan. Oleh karenanya, perlu penerapan data governance dalam big data sains. Akan tetapi, berbeda dengan data governance pada umumnya, big data analytics memiliki karakteristik dan kebutuhan tersendiri.
  7. Making the Most of Big Data in Biomedicine
    The Biomedical Big Data to Knowledge Training (B2D2K), sebuah program untuk melatih ilmuwan di bidang biomedis dalam penggunaan big data, diluncurkan di Amerika. Program berbiaya 2.4 juta US$ ini adalah kerjasama antara Geisinger Health System, Penn State University dan Penn State Hershey, didanai oleh National Library of Medicine, National Institutes of Health sebesar 1.4 juta US$, dan Penn State sebesar 1 juta US$.
  8. Big data research awards show the potential of international collaboration
    The Trans-Atlantic Platform, sebuah konsorsium organisasi-organisasi ilmu sosial dan kemanusiaan dari Amerika Utara, Amerika Selatan dan Eropa, mengumumkan pemenang kompetisi riset big data yang diberi nama Digging into Data Challenge. Kompetisi yang telah memasuki putaran ke empat ini menunjukkan besarnya potensi kerjasama internasional dalam bidang big data.
  9. In a world of bots, AI and big data, how can employees and businesses survive?
    Revolusi industri keempat, yang ditandai dengan ledakan digital di dunia ekonomi membawa tantangan tersendiri bagi bisnis. AI, bot dan big data merambah semakin luas ke setiap segi kehidupan. Bagaimana bisnis dan tenaga kerja dapat bertahan menghadapi gelombang digitalisasi dan otomasi?

Tutorial dan pengetahuan teknis

  1. Hail: Scalable Genomics Analysis with Apache Spark
    Salah satu tantangan terbesar dalam analisis data genomics adalah skalabilitas. Ukuran data genome sangatlah besar, bahkan dalam paper “Big Data: Astronomical or Genomical?” diperkirakan bahwa “pada tahun 2025 genome manusia yang disekuens dapat mencapai antara 100 juta sampai 2 milyar”, membutuhkan sekitar 2-40 exabyte storage. Permasalahan utama pemrosesan data besar adalah performance. Hail muncul sebagai salah satu solusi analisis genome yang memanfaatkan keunggulan kinerja dan skalabilitas Apache Spark.
  2. Building and Exploring a Map of Reddit with Python
    Memetakan dan menganalisis 10.000 subreddit paling populer di Reddit, dalam Python.
  3. Machine Learning Classification with C5.0 Decision Tree Algorithm
    Tutorial klasifikasi menggunakan algoritma c5.0 decision tree, mengidentifikasi pinjaman bank yang beresiko, menggunakan R.
  4. Understanding Machine Learning
    Apa sebenarnya machine learning? Berikut ini artikel singkat dilengkapi ilustrasi yang memberikan pengenalan dasar mengenai machine learning dan metode-metodenya
  5. What Do Frameworks Offer Data Scientists that Programming Languages Lack?
    Saat ini makin banyak programmer dan data saintis yang lebih memilih bekerja menggunakan framework daripada bahasa pemrograman, dan menganggapnya sebagai pilihan yang lebih modern dan canggih. Apa sebenarnya kelebihan framework yang tidak dimiliki oleh bahasa pemrograman?
  6. Visualizing Tennis Grand Slam Winners Performances
    Data visualization of sports historical results is one of the means by which champions strengths and weaknesses comparison can be outlined. In this tutorial, we show what plots flavors may help in champions performances comparison, timeline visualization, player-to-player and player-to-tournament relationships. We are going to use the Tennis Grand Slam Tournaments results as outlined by the ESP Visualisasi data dalam bidang olah raga adalah salah satu cara untuk membandingkan kekuatan dan kelemahan para juara dari masa ke masa. Dalam tutorial ini ditunjukkan bagaimana plot dan grafik dapat membantu dalam membandingkan performance pemain tersebut. Data yang digunakan adalah data Tennis Grand Slam Tournaments yang ditampilkan situs ESP di tabel ESPN site tennis history.
  7. Advanced Apache NiFi Flow Techniques
    Tutorial mengenai bagaimana memback-up Apache Nifi flow yang sedang berjalan, menyimpannya ke dalam disk, untuk kemudian menggabungkannya kembali dengan data dan metadata, dan melanjutkan eksekusinya atau me-restart-nya di waktu yang akan datang.

Rilis produk

  1. Apache Scio versi 0.3.0
    Apache Scio, Scala API untuk Apache Beam dirilis versi 0.3.0-nya. Ini merupakan rilis non-beta yang pertama yang dibuat di atas Apache Beam SDK, sedangkan rilis sebelumnya dibangun di atas Google Cloud Dataflow SDK.
  2. Apache Kafka 0.10.2.1
    Rilis ini adalah bug-fix, yang me-resolve 29 issue dari rilis sebelumnya.
  3. Apache Kylin 2.0.0 released
    Apache Kylin adalah Engine Analytics terdistribusi, menyediakan SQL interface dan OLAP untuk Hadoop.
  4. Apache Mahout 0.13.0
    Mencakup : Peningkatan kemudahan dalam melakukan komputasi matrix langsung di GPU yang menghasilkan peningkatan kinerja yang signifikan, penyederhanaan framework untuk menambahkan algoritma baru, dll.
  5. Apache® CarbonData™ as a Top-Level Project
    Apache CarbobData adalah format file kolumnar terindeks untuk melakukan data analytics di atas platform Big Data (Apache Hadoop, Apache Spark, dll) yang mempercepat query pada data berskala petabytes.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
Tertarik dengan Big Data beserta ekosistemnya? Gabung