:::: MENU ::::

Posts Categorized / Implementation

  • Oct 18 / 2017
  • Comments Off on Seputar Big Data Edisi #34
Big Data, Hadoop, Implementation, Storage, Uncategorized

Seputar Big Data Edisi #34

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama terakhir bulan Januari 2017 dan awal Februari 2017

Artikel dan Berita

  1. Big Data Is the New Push for Bank Indonesia
    Seperti halnya bank central di negara lain seperti Rusia, China, Inggris dan lainnya, Bank Indonesia beralih menggunakan mesin atau yang sering disebut dengan istilah Big Data, untuk membantu membuat kebijakan menjadi lebih efektif.
  2. Why Blockchain-as-a-Service Should Replace Servers and the Cloud
    Blockchain dan Big Data sangat mirip dalam hal penggunaan: ini semua tentang bagaimana kita menggunakannya. Sama seperti istilah Force dalam film Star Wars, blockchain dan big data adalah alat yang bisa digunakan untuk hal buruk atau hal baik.
  3. How Big Data is Helping Predict Heart Disease
    Penyakit jantung merupaka salah satu penyebab utama kematian di Amerika Serikat. Satu dari 4 orang yang meninggal dunia disebabkan oleh penyakit jantung. Berkat Big Data, para dokter dan ilmuwan telah membuat kemajuan dalam penelitian mengenai prediksi serangan jantung dan pengobatan yang efektif
  4. Saving Snow Leopards with Artificial Intelligence
    Microsoft Azure Machine Learning bekerja sama Snow Leopard Trust, membangun sistem klasifikasi otomatis menggunakan Convolutional Neural Network (CNN) untuk mengklasifikasi gambar yang tertangkap kamera.

Tutorial dan Pengetahuan Teknis

  1. Random Forests(r), Explained
    Random Forest, salah satu metode ensemble paling populer yang digunakan pada implementasi Machine Learning saat ini. Postingan berikut merupakan pengantar algoritma semacam itu dan memberikan gambaran singkat cara kerjanya.
  2. Data Visualization Using Apache Zeppelin
    Apache Zeppelin merupakan sebuah platform open-source untuk analisa data dan visualisasi data. Aplikasi ini yang dapat membantu untuk mendapatkan insight untuk memperbaiki dan meningkatkan performa dalam pengambilan keputusan.
  3. Anomaly Detection With Kafka Streams
    Postingan berikut merupakan studi kasus untuk melakukan deteksi anomali menggunakan Streaming Kafka. Dengan contoh kasus pada situs pembayaran pinjaman, yang akan mengirimkan notifikasi peringatan jika terjadi pembayaran yang terlalu tinggi.
  4. Top 30 big data tools for data analysis
    Saat ini banyak sekali tool Big Data yang digunakan untuk menganalisa data baik yang open-source, gratis maupun berbayar. Analisa data disini adalah proses untuk pemeriksaan, pembersihan, transformasi, dan pemodelan data dengan tujuan untuk menemukan informasi yang berguna, membantu memberikan kesimpulan, dan mendukung pengambilan keputusan.
  5. Kafka Racing: Know the Circuit
    Berikut merupakan postingan pertama dalam rangkaian blog yang didedikasikan untuk Apache Kafka dan penggunaannya untuk memecahkan masalah di domain data yang besar.
  6. Getting Started With Batch Processing Using Apache Flink
    Apache Flink adalah alat pengolah data generasi baru yang dapat memproses kumpulan data yang terbatas (ini disebut juga batch processing) atau aliran data yang berpotensi tak terbatas (stream processing).

Rilis Produk

  1. Apache Phoenix 4.12 released
    Apache Phoenix merilis versi 4.12.0, yang di antaranya mencakup : peningkatan skalabilitas dan reliabilitas untuk global mutable secondary index, support untuk table sampling, stabilisasi unit test run, perbaikan terhadap lebih dari 100 issue.
  2. Apache Solr™ 7.1.0 available
    The Lucene PMC dengan bangga mengumumkan perilisan Apache Solr 7.1.0 yang mencakup banyak fitur baru lainnya serta banyak optimasi dan perbaikan bug.
  3. Apache Rya 3.2.11-incubating released
    Ini adalah rilis Apache Rya yang kedua, versi 3.2.11.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Oct 10 / 2017
  • Comments Off on Seputar Big Data Edisi #32
Apache, Big Data, Implementation, Medical Analytics

Seputar Big Data Edisi #32

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke 4 bulan September 2017

Artikel dan berita

  1. Using Big Data Medical Analytics To Address The Opioid Crisis
    Overdosis obat di tahun 2016, terutama yang berkaitan dengan opioid, menewaskan lebih dari 64 ribu orang di Amerika. Menurut CDC, jumlah tersebut merupakan kenaikan 21% dari tahun 2015. Krisis opioid merupakan problem yang dilematis, karena permasalahannya tidak hanya pada peredaran obat ilegal, namun juga peredaran resmi (obat yang diresepkan). Salah satu sarana yang dianggap dapat menjadi pendukung untuk mengatasi krisis ini adalah penggunaan big data medical analytics. Apa saja peluang dan tantangannya?
  2. Hadoop Was Hard to Find at Strata This Week
    Tidak hanya menghilang dari judul konferensi, dalam acara Strata Data (yang sebelumnya bernama Strata Hadoop), Hadoop pun terkesan menghilang dari peredaran. Banyak yang mengatakan bahwa hal ini terjadi karena “Spark membunuh Hadoop”. Apakah benar demikian? Bagaimana trend ke depannya?
  3. How to Select a Big Data Application
    Memilih software big data bisa menjadi sebuah proses yang rumit dan memerlukan pertimbangan yang matang, berdasar tujuan dan solusi yang tersedia. Artikel ini mencoba mengupas jenis-jenis solusi big data dan karakteristik apa yang perlu dipertimbangkan dalam memilihnya.

Tutorial dan Pengetahuan Teknis

  1. XGBoost, a Top Machine Learning Method on Kaggle, Explained
    XBoost atau eXtreme Gradient Boosting, adalah salah satu tools yang paling populer di kalangan kompetitor Kaggle dan data saintist, dan telah diujicoba dalam implementasi skala besar. XBoost bersifat fleksibel dan versatile, dan dapat digunakan untuk menangani hampir semua kasus regresi, klasifikasi dan ranking, serta fungsi buatan user. Sebagai sebuah software open source, XBost mudah diakses dan dapat digunakan di atas berbagai platform dan antarmuka. Artikel ini mencoba menjelaskan mengenai apa XBoost tersebut, dan apa saja kelebihannya.
  2. Comparison API for Apache Kafka
    Dalam artikel ini disajikan berbagai penerapan Kafka API, mulai dari consume data dari stream, menulis ke stream, sampai pendekatan yang lebih reaktif menggunakan Akka.
  3. PyTorch tutorial distilled – Migrating from TensorFlow to PyTorch
    Artikel yang mengupas dengan baik dan menarik mengenai PyTorch, dan tutorial mengenai bagaimana melakukan migrasi dari TensorFlow ke PyTorch.
  4. [FREE EBOOK] Deep Learning – By Ian Goodfellow, Yoshua Bengio and Aaron Courville
    “Deep Learning” adalah teksbook yang ditujukan untuk membantu mahasiswa dan praktisi untuk memasuki bidang machine learning, dan khususnya deep learning. Versi online dari buku ini sudah lengkap dan dapat diakses secara gratis.
  5. [DATASET] NIH Clinical Center provides one of the largest publicly available chest x-ray datasets to scientific community
    Pusat klinis NIH menyediakan dataset berupa hasil x-ray dada, yang bisa diakses oleh publik. Dataset ini berisi lebih dari 100.000 x-ray image, dari sekitar 30.000 pasien, termasuk di antaranya dengan berbagai penyakit paru-paru yang berat.

Rilis Produk

  1. Apache NiFi 1.4.0 Released
    Versi 1.4.0 ini adalah rilis fitur dan stabilitas, menekankan pada bug fixes yang penting dan penambahan prosesor dan controller services baru. Beberapa fitur baru di antaranya adalah support untuk Apache Knox, autorisasi grup dengan Apache Ranger, dan LDAP-base user authentication.
  2. Apache Solr Reference Guide for 7.0 released
    Setelah Solr 7.0 dirilis beberapa waktu yang lalu, Reference Guide Solr 7.0 dirilis minggu lalu. Dokumen yang berupa 1.035 halaman file PDF berisi dokumentasi untuk fitur-fitur baru, dengan daftar lengkap perubahan konfigurasi dan deprecation yang penting untuk diperhatikan untuk melakukan upgrade dari Solr versi sebelumnya.
  3. Theano To Cease Development After Version 1.0
    Theano, library komputasi numerik untuk Python yang merupakan pelopor di dunia machine learning, akan segera merilis versi 1.0, namun bersamaan dengan itu diumumkan bahwa kegiatan pengembangan Theano akan berakhir setelahnya. Support minimal akan dilanjutkan selama 1 tahun, dan selanjutnya sebagai open source Theano akan tetap dapat diakses bebas, namun tanpa support dari MILA.
  4. Yahoo open-sources Vespa, its most important software release since Hadoop
    Oath, anak perusahaan yang dibentuk ketika Verizon Communication Inc. mengakuisisi Yahoo, membuka salah satu komponen software yang berperan penting dalam melakukan web search dan men-generate rekomendasi dan iklan. Software yang di-open source-kan tersebut bernama Vespa, digunakan untuk menangani permasalahan yang ‘tricky’ dalam hal menentukan apa yang harus ditampilkan sebagai respon dari input user. Oath menggunakan Vespa untuk lebih dari 150 aplikasinya, termasuk Flickr.com, Yahoo Mail dan beberapa aspek dari Yahoo search engine.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Oct 06 / 2017
  • Comments Off on 8 Tips Praktis Mempelajari dan Mendalami Machine Learning
Artificial Intelligece, Big Data, Implementation, machine learning

8 Tips Praktis Mempelajari dan Mendalami Machine Learning

8_tips_praktis_mempelajari_machine_learning

AI, khususnya Machine learning adalah salah satu bidang yang paling ‘sexy’ akhir-akhir ini. Raksasa teknologi seperti Google dan Baidu menginvestasikan antara 20 sampai 30 milyar US$ untuk riset, deployment dan akuisisi di bidang AI pada tahun 2016. Dan di tahun mendatang masih akan semakin banyak bidang yang memanfaatkan AI, dan semakin luas pula kesempatan kerja di bidang ini.

Saat ini sebenarnya adalah waktu yang sangat tepat untuk terjun ke dunia machine learning, karena seiring dengan pesatnya perkembangan bidang ini, banyak sekali tools dan platform yang sifatnya open-source yang dapat digunakan oleh siapapun. Di samping itu banyak pula informasi yang berupa tutorial, kuliah online, maupun berbagai tips yang bisa diakses secara gratis di internet.

Namun berlimpahnya sumber ilmu maupun alat kadang justru membuat kita merasa kewalahan dan bahkan bingung, dari mana harus memulai.

Jadi bagaimana cara memulai belajar machine learning?

Berikut ini beberapa tips yang diberikan oleh Ben Hamner, CTO dan Co-Founder Kaggle.

  1. Pilih permasalahan yang diminati
    Cara yang cepat untuk menguasai sebuah teknik, tools ataupun bahasa pemrograman adalah dengan menggunakannya untuk memecahkan permasalahan. Pilih problem yang menarik dan familiar, agar membuat kita lebih fokus dan termotivasi untuk menyelesaikannya.Mengerjakan suatu permasalahan secara langsung juga membuat kita lebih mudah memahami dan menyelami machine learning dibandingkan jika kita hanya membacanya secara pasif.
  2. Buat solusi singkat dan cepat, tidak perlu sempurna
    Solusi yang dibuat di sini tidak perlu sempurna, karena tujuan langkah ini adalah untuk menghasilkan proses dasar dan end-to-end secara cepat, mulai dari membaca dan mengunggah data, kemudian memprosesnya menjadi format yang sesuai untuk machine learning, menentukan model dan melakukan training, serta menguji model dan mengevaluasi kinerjanya.Intinya adalah memberikan pengalaman hands-on sehingga kita mendapat gambaran dasar tentang proses implementasi machine learning.
  3. Kembangkan dan perbaiki solusi tersebut
    Setelah mendapatkan gambaran dasar, mulailah menggali kreatifitas.Perbaiki tiap komponen dari solusi awal, dan lihat pengaruh dari tiap perubahan terhadap solusi yang dihasilkan, untuk menentukan bagian mana yang akan kita utamakan.
    Sering kali kita bisa mendapatkan hasil yang lebih baik dengan memperbaiki preprocessing dan data cleansing, dibandingkan dengan memperbaiki model machine learningnya sendiri.
  4. Tulis dan share solusi yang sudah dibuat
    Feedback adalah sebuah hal yang penting dalam proses belajar, dan cara terbaik untuk mendapatkan masukan adalah dengan menuliskan dan men-share-nya. Menuliskan proses dan solusi yang dibuat berarti mendalami kembali dengan perspektif lain, dan membuat kita lebih memahaminya. Dengan membagikan tulisan, kita memberi kesempatan bagi orang lain untuk memahami apa yang sudah kita kerjakan dan memberi feedback yang berguna bagi proses belajar kita.Keuntungan lain dengan rajin menulis adalah kita membangun portfolio machine learning dan menunjukkan keahlian kita, yang dapat sangat bermanfaat bagi karir di masa datang.
  5. Ulangi langkah 1-4 untuk problem yang lain
    Ulangi proses di atas dengan permasalahan dari bidang dan jenis data yang lain. Jika sebelumnya menggunakan data tabular, cobalah mengerjakan problem dengan teks yang tidak terstruktur, dan problem lain dengan image. Apakah permasalahan yang dikerjakan sebelumnya memang dirancang untuk machine learning? Cobalah mengerjakan problem dari permasalahan bisnis atau riset yang umum.Kesulitan mencari sumber data? Banyak data set yang open di internet. Salah satunya adalah Kaggle Dataset. Untuk problem yang telah terdefinisi dengan baik, bisa ditemukan di Kaggle Competition. Atau 33 sumber data yang disebutkan dalam artikel ini.
  6. Mengikuti komunitas/forum atau kompetisi secara serius
    Untuk lebih menggali pengalaman dan pengetahuan, carilah komunitas atau forum, atau ikuti kompetisi seperti Kaggle competition. Dalam kompetisi yang dibuat Kaggle, kita juga dapat membentuk team dengan orang lain. Dalam forum dan komunitas kita bisa melihat bagaimana orang menyelesaikan permasalahan dengan cara yang berbeda-beda, dan mendapatkan masukan untuk pekerjaan kita sendiri.
  7. Terapkan machine learning dalam pekerjaan
    Menerapkan machine learning dalam pekerjaan membuat kita lebih fokus dan all-out dalam menekuninya, dan membantu kita untuk lebih menguasainya.
    Tentukan role apa yang ingin diambil, dan bangunlah portfolio project yang berkaitan dengannya.
    Tidak perlu sampai mencari pekerjaan baru (ahem), namun bisa dilakukan dengan mencari project baru di posisi yang sama, mengikuti berbagai hackathon dan kegiatan-kegiatan komunitas lainnya.
  8. Mengajarkan machine learning
    Ilmu akan semakin dalam jika dibagikan, dan saat ini ada berbagai cara untuk mengajar. Pilihlah cara yang sesuai dengan karakteristik dan kemampuan kita, seperti misalnya :

    • Menulis blog dan tutorial
    • Aktif menjawab pertanyaan di forum-forum
    • Mentoring dan tutoring privat
    • Mengisi seminar, workshop atau yang sejenisnya
    • Mengajar kelas
    • Menulis buku
    • Menulis research papers
    • Dan lain sebagainya

Tentu tidak ada formula anti gagal yang bisa diterapkan kepada semua orang, karena gaya dan cara belajar masing-masing orang bisa berbeda-beda. Apa lagi tidak semua yang ingin terjun ke bidang ini punya latar belakang ilmu maupun keahlian yang sama. Yang penting adalah memulainya, karena “The journey of a thousand miles begins with one step”.

Contributor :


M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng.
Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun.
Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.
  • Oct 02 / 2017
  • Comments Off on Seputar Big Data Edisi #31
Apache, Big Data, Implementation, Uncategorized

Seputar Big Data Edisi #31

close-up-telephone-booth-pexels

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ketiga bulan September 2017

Artikel dan Berita

  1. Japan to certify big-data providers to drive innovation
    Pemerintah Jepang mengumumkan rencana untuk melakukan sertifikasi terhadap perusahaan yang mengumpulkan data dari berbagai sumber dan menyediakannya sebagai services. Sertifikasi akan berlaku untuk 5 tahun, dan perusahaan-perusahaan yang disebut sebagai big data banks ini akan mendapatkan keringanan pajak.
  2. Big Data – what’s the big deal for Procurement?
    Apa tantangan yang dihadapi oleh bagian procurement saat ini, dan bagaimana peran big data dalam mengatasinya?
  3. The Amazing Ways Burberry Is Using Artificial Intelligence And Big Data To Drive Success
    Sejak 2006, Burberry, perusahaan mode terkemuka asal Inggris, memutuskan untuk menjadi sebuah perusahaan digital “end to end”. Strategi yang mereka ambil adalah dengan menggunakan big data dan AI untuk mendongkrak penjualan dan kepuasan pelanggan.
  4. Can big data give medical affairs an edge in strategic planning?
    Salah satu bagian penting dari industri farmasi adalah medical affairs, yaitu team yang bertugas memberikan support terhadap aktivitas setelah sebuah obat disetujui dan diedarkan, baik terhadap pihak internal maupun eksternal (customer). Dengan semakin besarnya keterlibatan publik terhadap pengawasan dan penggunaan obat, maka peran medical affair menjadi semakin penting. Ketersediaan data yang melimpah menjadi sebuah tantangan dan peluang tersendiri. Bagaimana big data dapat membantu team medical affair dalam membuat perencanaan strategis?
  5. Spark and S3 storage carry forward NBC big data initiative
    NBC membuat inisiatif big data, dengan menggunakan Amazon S3 dan Spark. Keduanya dipakai untuk menggantikan HDFS dan MapReduce. Jeffrey Pinard, vice president data technology dan engineering di NBC, menjelaskan alasan di balik strategi tersebut.

Tutorial dan Pengetahuan Teknis

  1. Tensorflow Tutorial : Part 2 – Getting Started
    Melanjutkan bagian 1 pekan lalu, tutorial Tensorflow bagian 2 ini menjelaskan mengenai instalasi Tensorflow dan sebuah contoh use case sederhana.
  2. 30 Essential Data Science, Machine Learning & Deep Learning Cheat Sheets
    Sekumpulan ‘cheat sheet atau referensi singkat yang sangat bermanfaat mengenai data science, machine learning dan deep learning, dalam python, R dan SQL.
  3. A Solution to Missing Data: Imputation Using R
    Salah satu permasalahan dalam pemanfaatan data untuk machine learning maupun analisis adalah missing data. Data yang tidak lengkap dapat mengacaukan model, sedangkan penanganan missing data terutama untuk data yang besar adalah sebuah momok tersendiri bagi data analis. Artikel ini mengulas mengenai permasalahan ini dan bagaimana mengatasinya dengan menggunakan R.
  4. Apache Flink vs. Apache Spark
    Apache flink dan Apache Spark termasuk framework yang paling banyak diminati dan diadopsi saat ini. Apa perbedaan di antara keduanya, dan apa kelebihan dan kekurangan masing-masing?
  5. Featurizing images: the shallow end of deep learning
    Melakukan training terhadap model deep learning dari nol memerlukan data set dan sumber daya komputasi yang yang besar. Dengan memanfaatkan model yang sudah ditraining (pre-trained) memudahkan kita dalam membangun classifier menggunakan pendekatan standar mashine learning.
    Artikel ini menyajikan sebuah contoh kasus pemanfaatan pre-trained deep learning image classifier dari Microsoft R server 9.1 untuk menghasilkan fitur yang akan digunakan dengan pendekatan machine learning untuk menyelesaikan permasalahan yang belum pernah dilatihkan ke dalam model sebelumnya.
    Pendekatan ini memudahkan pembuatan custom classifier untuk tujuan spesifik dengan menggunakan training set yang relatif kecil.

Rilis Produk

  1. Apache Solr 7.0.0 released
    Apache Solr, platform pencarian noSQL yang populer, merilis versi 7.0.0 minggu ini. Rilis 7 ini mencakup 40 upgrade dari solr 6, 51 fitur baru, 56 bug fixes dan puluhan perubahan lainnya.
  2. Apache Arrow 0.7.0
    Mencakup 133 JIRA, fitur-fitur baru dan bug fixes untuk berbagai bahasa pemrograman.
  3. Apache PredictionIO 0.12.0-incubating Release
    Apache PredictionIO, sebuah server machine learning open source yang dibangun di atas open source stack, merilis versi 0.12.0.
  4. R 3.4.2 Released
    Rilis ini mencakup perbaikan terhadap minor bugs dan peningkatan performance. Seperti rilis minor sebelumnya, rilis ini kompatibel dengan rilis sebelumnya dalam seri R 3.4.x.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Aug 28 / 2017
  • Comments Off on 5 Contoh Penerapan Big Data dalam Bidang Kesehatan
Big Data, Forum Info, Hadoop, Implementation, Uncategorized

5 Contoh Penerapan Big Data dalam Bidang Kesehatan

Institute for Health Technology Transformation, sebuah perusahaan riset dan konsultasi berbasis New York, memperkirakan bahwa pada tahun 2011 industri kesehatan AS menghasilkan data sebesar 150 miliar GB (150 Exabytes). Data ini sebagian besar dihasilkan dari berbagai hal, seperti persyaratan peraturan, pencatatan, hingga data-data perawatan pasien. Akibat dari hal tersebut, terjadi peningkatan data yang eksponensial yang mengakibatkan pengeluaran sebesar US$ 1,2 triliun untuk solusi data dalam industri kesehatan. McKinsey memproyeksikan penggunaan Big Data di bidang kesehatan dapat mengurangi biaya pengelolaan data sebesar US$ 300 miliar - US$ 500 miliar.

Meskipun sebagian besar data di sektor pelayanan kesehatan saat ini masih disimpan dalam bentuk cetak, namun kecenderungan menuju digitalisasi terjadi dengan cepat. Terlebih dengan munculnya banyak standar, peraturan dan insentif untuk digitalisasi data dan penggunaan bersama data dalam bidang kesehatan, serta penurunan biaya teknologi penyimpanan dan pengolahan data.

Artikel ini akan mengupas beberapa contoh penerapan teknologi Big Data dalam bidang kesehatan.

  1. Teknologi Hadoop untuk Pemantauan Kondisi Vital Pasien

    Beberapa rumah sakit di seluruh dunia telah menggunakan Hadoop untuk membantu stafnya bekerja secara efisien dengan Big Data. Tanpa Hadoop, sebagian besar sistem layanan kesehatan hampir tidak mungkin menganalisis data yang tidak terstruktur.

    5_contoh_penerapan_bigdata_dlmbid_kesehatan_img

    Children's Healthcare of Atlanta merawat lebih dari 6.200 anak di unit ICU mereka. Rata-rata durasi tinggal di ICU Pediatrik bervariasi dari satu bulan sampai satu tahun. Children's Healthcare of Atlanta menggunakan sensor di samping tempat tidur yang membantu mereka terus melacak kondisi vital pasien seperti tekanan darah, detak jantung dan pernafasan. Sensor ini menghasilkan data yang sangat besar, dan sistem yang lama tidak mampu untuk menyimpan data tersebut lebih dari 3 hari karena terkendala biaya storage. Padahal rumah sakit ini perlu menyimpan tanda-tanda vital tersebut untuk dianalisa. Jika ada perubahan pola, maka perlu ada alert untuk tim dokter dan asisten lain.

    Sistem tersebut berhasil diimplementasikan dengan menggunakan komponen ekosistem Hadoop : Hive, Flume, Sqoop, Spark, dan Impala.

    Setelah keberhasilan project tersebut, project berbasis Hadoop selanjutnya yang mereka lakukan adalah riset mengenai asma dengan menggunakan data kualitas udara selama 20 tahun dari EPA (Environment Protection Agency). Tujuannya: mengurangi kunjungan IGD dan rawat inap untuk kejadian terkait asma pada anak-anak.

  2. Valence health : peningkatan kualitas layanan dan reimbursements

    Valence health menggunakan Hadoop untuk membangun data lake yang merupakan penyimpanan utama data perusahaan. Valence memproses 3000 inbound data feed dengan 45 jenis data setiap harinya. Data kritikal ini meliputi hasil tes lab, data rekam medis, resep dokter, imunisasi, obat, klaim dan pembayaran, serta klaim dari dokter dan rumah sakit, yang digunakan untuk menginformasikan keputusan dalam peningkatan baik itu pendapatan ataupun reimbursement. Pertumbuhan jumlah klien yang pesat dan peningkatan volume data terkait semakin membebani infrastruktur yang ada.

    5_contoh_penerapan_bigdata_dlmbid_kesehatan_img

    Sebelum menggunakan big data, mereka membutuhkan waktu hingga 22 jam untuk memproses 20 juta records data hasil laboratorium. Penggunaan big data memangkas waktu siklus dari 22 jam menjadi 20 menit, dengan menggunakan hardware yang jauh lebih sedikit. Valence Health juga mampu menangani permintaan pelanggan yang sebelumnya sulit untuk diselesaikan. Misalnya jika seorang klien menelpon dan mengatakan bahwa ia telah mengirimkan file yang salah 3 bulan yang lalu, dan perlu untuk menghapus data tersebut. Sebelumnya dengan solusi database tradisional, mereka memerlukan 3 sampai 4 minggu. Dengan memanfaatkan MapR snapshot yang menyediakan point-in-time recovery, Valence dapat melakukan roll-back dan menghapus file tersebut dalam hitungan menit.

  3. Hadoop dalam Pengobatan Kanker dan Genomics

    Salah satu alasan terbesar mengapa kanker belum dapat dibasmi sampai sekarang adalah karena kanker bermutasi dalam pola yang berbeda dan bereaksi dengan cara yang berbeda berdasarkan susunan genetik seseorang. Oleh karena itu, para peneliti di bidang onkologi menyatakan bahwa untuk menyembuhkan kanker, pasien perlu diberi perawatan yang disesuaikan dengan jenis kanker berdasarkan genetika masing-masing pasien.

    Ada sekitar 3 miliar pasangan nukleotida yang membentuk DNA manusia, dan diperlukan sejumlah besar data untuk diorganisir secara efektif jika kita ingin melakukan analisis. Teknologi big data, khususnya Hadoop dan ekosistemnya memberikan dukungan yang besar untuk paralelisasi dan proses pemetaan DNA.

    David Cameron, Perdana Menteri Inggris telah mengumumkan dana pemerintah sebesar £ 300 juta pada bulan Agustus, 2014 untuk proyek 4 tahun dengan target memetakan 100.000 genom manusia pada akhir tahun 2017 bekerja sama dengan perusahaan Bioteknologi Amerika Illumina dan Genomics Inggris. Tujuan utama dari proyek ini adalah memanfaatkan big data dalam dunia kesehatan untuk mengembangkan personalized medicine bagi pasien kanker.

    Arizona State University mengadakan sebuah proyek penelitian yang meneliti jutaan titik di DNA manusia untuk menemukan variasi penyebab kanker sedang berlangsung. Proyek ini merupakan bagian dari Complex Adaptive Systems Initiative (CASI), yang mendorong penggunaan teknologi untuk menciptakan solusi bagi permasalahan dunia yang kompleks.

    Dengan menggunakan Apache Hadoop, tim peneliti universitas dapat memeriksa variasi dalam jutaan lokasi DNA untuk mengidentifikasi mekanisme kanker dan bagaimana jaringan berbagai gen mendorong kecenderungan dan efek kanker pada individu.

    "Proyek kami memfasilitasi penggunaan data genomik berskala besar, sebuah tantangan bagi semua institusi penelitian yang menangani pecision medicine," kata Jay Etchings, direktur komputasi riset ASU. Ekosistem Hadoop dan struktur data lake terkait menghindarkan setiap peneliti dan pengguna klinis untuk mengelola sendiri jejak data genomik yang besar dan kompleks.

  4. UnitedHealthcare: Fraud, Waste, and Abuse

    Saat ini setidaknya 10% dari pembayaran asuransi Kesehatan terkait dengan klaim palsu. Di seluruh dunia kasus ini diperkirakan mencapai nilai miliaran dolar. Klaim palsu bukanlah masalah baru, namun kompleksitas kecurangan asuransi tampaknya meningkat secara eksponensial sehingga menyulitkan perusahaan asuransi kesehatan untuk menghadapinya.

    UnitedHealthCare adalah sebuah perusahaan asuransi yang memberikan manfaat dan layanan kesehatan kepada hampir 51 juta orang. Perusahaan ini menjalin kerja sama dengan lebih dari 850.000 orang tenaga kesehatan dan sekitar 6.100 rumah sakit di seluruh negeri. Payment Integrity group/divisi integritas pembayaran mereka memiliki tugas untuk memastikan bahwa klaim dibayar dengan benar dan tepat waktu. Sebelumnya pendekatan mereka untuk mengelola lebih dari satu juta klaim per hari (sekitar 10 TB data tiap harinya) bersifat ad hoc, sangat terikat oleh aturan, serta terhambat oleh data yang terpisah-pisah. Solusi yang diambil oleh UnitedHealthCare adalah pendekatan dual mode, yang berfokus pada alokasi tabungan sekaligus menerapkan inovasi untuk terus memanfaatkan teknologi terbaru.

    Dalam hal pengelolaan tabungan, divisi tersebut membuat “pabrik” analisis prediktif di mana mereka mengidentifikasi klaim yang tidak akurat secara sistematis dan tepat. Saat ini Hadoop merupakan data framework berplatform tunggal yang dilengkapi dengan tools untuk menganalisa informasi dari klaim, resep, plan peserta, penyedia layanan kesehatan yang dikontrak, dan hasil review klaim terkait.

    Mereka mengintegrasikan semua data dari beberapa silo di seluruh bisnis, termasuk lebih dari 36 aset data. Saat ini mereka memiliki banyak model prediktif (PCR, True Fraud, Ayasdi, dll.) yang menyediakan peringkat provider yang berpotensi melakukan kecurangan, sehingga mereka dapat mengambil tindakan yang lebih terarah dan sistematis.

  5. Liaison Technologies: Streaming System of Record for Healthcare

    Liaison Technologies menyediakan solusi berbasis cloud untuk membantu organisasi dalam mengintegrasikan, mengelola, dan mengamankan data di seluruh perusahaan. Salah satu solusi vertikal yang mereka berikan adalah untuk industri kesehatan dan life science, yang harus menjawab dua tantangan : memenuhi persyaratan HIPAA dan mengatasi pertumbuhan format dan representasi data.

    Dengan MapR Stream, permasalahan data lineage dapat terpecahkan karena stream menjadi sebuah SOR (System of Record) dengan berfungsi sebagai log yang infinite dan immutable dari setiap perubahan data. Tantangan kedua, yaitu format dan representasi data, bisa digambarkan dengan contoh berikut: rekam medis pasien dapat dilihat dengan beberapa cara yang berbeda (dokumen, grafik, atau pencarian) oleh pengguna yang berbeda, seperti perusahaan farmasi, rumah sakit, klinik, atau dokter.

    Dengan melakukan streaming terhadap perubahan data secara real-time ke basis data, grafik, dan basis data MapR-DB, HBase, MapR-DB JSON, pengguna akan selalu mendapatkan data paling mutakhir dalam format yang paling sesuai.

Kesimpulan

Meningkatkan hasil pelayanan pada pasien dengan biaya yang sama atau bahkan lebih murah adalah tantangan bagi penyedia layanan kesehatan manapun, mengingat di Amerika keseluruhan biaya perawatan kesehatan meningkat sampai sekitar 15%. Transformasi digital adalah kunci untuk membuat mewujudkan tujuan ini. Digitalisasi, peningkatan komunikasi, dan big data analytics menjadi landasan untuk mendukung usaha transformasi tersebut.

Berbagai macam use-case untuk big data analytics sangat terkait dengan kemampuan Hadoop dan ekosistemnya dalam mengolah dan menyimpan data yang beraneka ragam, serta menyajikannya untuk analisa yang mendalam.

Dalam memilih platform big data khususnya distribusi Hadoop, salah satu hal yang penting untuk dipertimbangkan adalah kemampuan untuk menangani berbagai macam tipe data dari sumber data yang terpisah-pisah : data klinis dalam satu silo, data farmasi di silo yang lain, data logistik, dan lain sebagainya. Platform yang dipilih hendaknya cukup fleksibel sehingga tenaga kesehatan dapat menggunakan data yang kompleks seperti catatan dokter, hasil scan, dan lain sebagainya untuk mendukung analisis terhadap pasien, bukan hanya untuk pengarsipan saja.

Sumber :
https://dzone.com/articles/5-examples-of-big-data-in-healthcare
https://www.dezyre.com/article/5-healthcare-applications-of-hadoop-and-big-data/85
https://www.healthdatamanagement.com/news/arizona-state-using-big-data-in-hunt-for-cancer-cure

Contributor :


M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng. Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun. Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.


Vinka Palupi
pecinta astronomi yang sejak kecil bercita-cita menjadi astronaut, setelah dewasa baru sadar kalau tinggi badannya tidak akan pernah cukup untuk lulus seleksi astronaut.
  • Jul 31 / 2017
  • Comments Off on Pertanian Kecil Bertemu Big Data
Big Data, Implementation, pertanian, Uncategorized

Pertanian Kecil Bertemu Big Data

Washington - Para peneliti telah memulai untuk membawa AI dan Big Data dalam pertanian skala kecil dan pertanian negara berkembang. Tujuannya untuk menjawab salah satu tantangan terbesar di abad 21 nanti yaitu meningkatkan sumber pangan dunia tanpa harus merusak planet ini.

Bagi Ranveer Chandra, seorang peneliti dari Microsoft, ini bagaikan kembali ke asal. Chandra menghabiskan 4 bulan dalam setahun di kebun milik keluarganya di India.“Tidak ada air, tidak ada listrik, tidak ada toilet” katanya. Kerbau digunakan untuk membajak sawah, seperti yang mereka lakukan selama berabad-abad.

Di sebagian besar negara berkembang, pertanian dikelola tidak dengan teknologi yang tinggi dan modern. Walaupun demikian tuntutan pertanian pada negara berkembang ini semakin meningkat, populasi tumbuh lebih cepat dari rata-rata.

Seiring dengan ledakan populasi global yang mendekati 10 miliar pada tahun 2050 mendatang, para petani perlu meningkatkan produksi pertanian tanpa harus melakukan pemababatan hutan atau mencemari tanah dan air dengan pupuk dan pestisida yang berlebihan.

Keakuratan Pertanian

Untuk meningkatkan produktifitas setiap meter persegi lahan pertanian yang ada, petani membutuhkan informasi yang akurat mengenai kondisi tanah. Sehingga pemberian air, pupuk ataupun pestisida hanya pada tempat yang membutuhkan

Saat ini, pertanian berskala besar telah menggunakan teknologi yang memiliki tingkat keakuratan yang tinggi. Peralatan bertani sekarang dapat menanam benih pada kepadatan tanah yang berbeda dan menerapkan jumlah pupuk yang berbeda di berbagai lahan. Pemantau air dapat memberi petani data secara real-time tentang berapa banyak air yang diterima tanaman.

Namun, alat-alat ini terlalu mahal untuk pertanian berskala kecil dan petani pada negara berkembang. Chandra berharap teknologi ini dapat dimiliki dengan biaya yg lebih terjangkau

Kecerdasan Buatan

Untuk meningkatkan produktifitas setiap meter persegi lahan pertanian yang ada, petani membutuhkan informasi yang akurat mengenai kondisi tanah. Sehingga pemberian air, pupuk ataupun pestisida hanya pada tempat yang membutuhkan

Saat ini, pertanian berskala besar telah menggunakan teknologi yang memiliki tingkat keakuratan yang tinggi. Peralatan bertani sekarang dapat menanam benih pada kepadatan tanah yang berbeda dan menerapkan jumlah pupuk yang berbeda di berbagai lahan. Pemantau air dapat memberi petani data secara real-time tentang berapa banyak air yang diterima tanaman.

Namun, alat-alat ini terlalu mahal untuk pertanian berskala kecil dan petani pada negara berkembang. Chandra berharap teknologi ini dapat dimiliki dengan biaya yg lebih terjangkau

imgs_smallfarmmeetsbigdata
Soil sensors connected to artificial intelligence map soil moisture, temperature and acidity. (Credit: Microsoft)

Artificial intelligence

Chandra mengembangkan sistem yang terkoneksi pada sensor tanah ke jaringan melalui saluran tv yang tidak terpakai. Frekuensi "white space" ini dapat memberikan koneksi internet broadband jarak jauh. Beberapa rumah sakit dan sekolah di lokasi terpencil di Afrika sudah online melalui konektivitas white space ini, kata Chandra.

Setiap sensor tanah tersebut menghasilkan gambar kondisi pada lahan pertanian. Untuk menghubungkan petak-petak lahan ke monitor, Chandra mengambil gambar menggunakan drone atau bisa juga menggunakan sebuah smartphone yang diterbangkan dengan balon.

Selanjutnya, AI membandingkan hasil foto dengan data pada sensor dan mengisi celah-celah lahan yg masih kosong, juga memetakan tanah bagian mana yg memiliki kadar asam yang tinggi atau yang membutuhkan lebih banyak air misalnya

AI juga dapat membantu memantau keadaan ternak, melalui webcam dapat diidentifikasi hewan yang sedang sakit karena tidak bergerak, misalnya.

Cikal bakal bisnis

Chandra berharap dapat membuat sistem ini dengan biaya dibawah $100. Model bisnis yang berbeda sedang dipertimbangkan juga, tambahnya. Misalnya, petani dapat berbagi sistem, atau penyedia layanan pertanian lokal dapat menyewanya kepada mereka.

Microsoft hanyalah salah satu dari sekian banyak perusahaan teknologi yang menganggap pertanian sebagai lahan subur bagi revolusi teknologi. Google berinvestasi pada sebuah perusahaan startup yang mengumpulkan data petani tentang bagaimana perbedaan varietas tanaman pada berbagai lahan pertaniandari tahun ke tahun, sehingga petani dapat membuat keputusan yang lebih baik mengenai varietas apa yang terbaik untuk mereka. Amazon mengumumkan rencana untuk membeli rantai makanan Whole Foods dan telah juga berinvestasi di ritel makanan di negara lain.

Sumber :
https://www.voanews.com/a/agriculture-technology-small-farms-big-data/3918239.html

Contributor :


Vinka Palupi
pecinta astronomi yang sejak kecil bercita-cita menjadi astronaut, setelah dewasa baru sadar kalau tinggi badannya tidak akan pernah cukup untuk lulus seleksi astronaut.

  • Jul 26 / 2017
  • Comments Off on Seputar Big Data Edisi #23
Big Data, Forum Info, Hadoop, Implementation, Uncategorized

Seputar Big Data Edisi #23

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ketiga bulan Juli 2017

Artikel dan Berita

  1. Airbus Gets A Step Closer To The Holy Grail Of Big Data And Plane Connectivity
    Salah satu kendala yang sering dihadapi oleh industri penerbangan dalam penerapan big data adalah interoperabilitas data antar berbagai peralatan dari berbagai pabrikan, serta belum adanya penyimpanan data yang terpusat. Airbus melakukan sebuah langkah besar dalam penerapan big data dengan mengumumkan Skywise, platform airline-centric berbasis cloud.
  2. The Impact of Big Data on Banking and Financial Systems
    Sektor keuangan dan perbankan termasuk bidang yang banyak menerapkan pendekatan berbasiskan data untuk mengembangkan bisnis dan meningkatkan layanan kepada pelanggan. Apa saja pengaruh dan manfaat big data untuk sektor ini?
  3. Why Startups Should Not Ignore Big Data
    Startup adalah sebuah usulan bisnis yang cukup memiliki resiko. Ini berarti bahwa jika segala sesuatunya tidak dikerjakan dengan baik dan efektif, bisnis tidak akan pernah berhasil melewati tahun pertama. Bisnis plan merupakan penentu apakah sebuah bisnis akan melewati fase startup perusahaan atau tidak
  4. The 2016 Election Was a Wake-Up Call for Marketers, Forcing Many to Rethink Big Data
    Salah satu hal yang dituding sebagai penyebab kekalahan Hillary Clinton dalam pemilihan presiden Amerika yang lalu adalah penggunaan Big Data Analytics yang tidak benar. Apa saja kesalahan yang kiranya dilakukan, dan apakah para politisi maupun marketers menjadi anti terhadap big data analytics?
  5. What AI-enhanced health care could look like in 5 years
    Sejak data kesehatan mulai didigitalisasi pada tahun 2013, jumlah data di bidang tersebut terus meningkat sekitar 48% per tahun secara global. Teknologi AI diyakini sesuai untuk mengatasi inefisiensi di bidang kesehatan, mengurangi beban bagi tenaga medis, dan menghemat biaya hingga ratusan juta US$. Artikel ini mengupas mengenai bagaimana wajah layanan kesehatan yang didukung AI lima tahun ke depan.

Tutorial dan Pengetahuan Teknis

  1. Using Apache Kafka as a Scalable, Event Driven Backbone for Service Architectures
    Artikel in imenjelaskan mengenai berbagai fitur utama Apache Kafka, lengkap dengan contoh dan diagram yang menggambarkan konsep-konsep dasarnya.
  2. implyr: R Interface for Apache Impala
    Artikel ini menjelaskan secara singkat mengenai integrasi implyr, yaitu package baru yang merupakan antarmuka R ke Impala, yang memungkinkan melakukan query ke Impala dari R menggunakan dplyr.
  3. 5 Free Resources for Getting Started with Deep Learning for Natural Language Processing
    5 link ke resource untuk mulai mempelajari deep learning untuk NLP. Ditujukan untuk memberi gambaran mengenai NLP dan deep learning, serta apa langkah selanjutnya yang perlu diambil untuk mendalaminya.
  4. How to Use the Kafka Streams API
    Kafka Streams API memungkinkan kita untuk membuat aplikasi real-time yang memperkuat bisnis utama kita. Penggunaan API merupakan cara termudah untuk memanfaatkan teknologi terbaik untuk mengolah data yang tersimpan di Kafka.
  5. When not to use deep learning
    Meskipun banyak keberhasilan dalam penerapan Deep Learning, setidaknya ada 4 situasi di mana hal ini justru menjadi penghalang, di antaranya ketika anggaran yang tersedia kecil, atau saat menjelaskan model dan fitur kepada orang awam.
  6. Ask a question, get an answer in Google Analytics
    Saat ini, Google Analytics telah berkembang sangat maju menuju masa depan. Ia mengetahui data apa yang anda butuhkan dan inginkan dengan cepat? Tanya apa saja dengan menggunakan bahasa Inggris pada Google Analytics dan dapatkan jawabannya.
  7. Random Forests in R
    Random Forest adalah sebuah tehnik Ensembling yang populer digunakan untuk memperbaiki kinerja prediktif dari Decision Trees dengan cara mengurangi varian dalam pencabangan (Trees) dengan membuat rata-ratanya.

Rilis produk

  1. Hue 4 SQL Editor improvements
    Setelah Hue 4 dirilis pada Juni lalu, kali ini Hue 4 SQL Editor mendapatkan perbaikan, di antaranya enriched autocomplete dan multi-query editing.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Jun 06 / 2017
  • Comments Off on Big Data : Institusi Pendidikan Menjawab Tantangan Kebutuhan Lapangan Kerja
Big Data, Forum Info, Implementation, Komunitas

Big Data : Institusi Pendidikan Menjawab Tantangan Kebutuhan Lapangan Kerja

Kesenjangan antara dunia industri dan dunia pendidikan masih menjadi salah satu isu utama dalam dunia pendidikan. Lulusan lembaga pendidikan diharapkan dapat mengisi posisi pekerjaan yang sesuai dengan keterampilan dan keilmuan yang dimiliki. Namun pada kenyataannya, informasi yang akurat mengenai keterampilan dan keilmuan yang dibutuhkan tidak didapatkan oleh lembaga pendidikan.

Seperti yang dikutip dari Bangkok Post, menurut penelitian Thailand Development Research Institute (TDRI), hanya 24% lulusan perguruan tinggi dan universitas di bidang sains, teknologi, teknik dan matematika yang dipekerjakan di bidang yang sesuai dengan keilmuan yang meraka miliki. Dengan kata lain, tiga dari empat lulusan tidak menggunakan pengetahuan yang mereka pelajari dari perguruan tinggi secara keseluruhan.

Salah satu tantangan terbesar bagi lembaga pendidikan adalah membuat sebuah kurikulum dan metode pengajaran yang sesuai dengan kebutuhan dunia industri yang berubah dengan cepat. Diharapkan lowongan-lowongan pekerjaan yang tersedia dapat diisi dengan lulusan dengan kemampuan dan keilmuan yang sesuai.

Sebuah riset menarik dilakukan TDRI bekerja sama dengan National Electronics and Computer Technology Centre untuk mengatasi masalah tersebut. Untuk memperoleh informasi mengenai skill-set yang dibutuhkan dunia kerja, pada tahap awal mereka mengembangkan sebuah prototype aplikasi yang mengumpulkan 100.000 lowongan kerja pada Februari lalu dari lima situs penyedia lowogan online. Dengan menggunakan Natural Languange Processing, data-data yang pada dasarnya teks tersebut ditransformasikan menjadi format database yang siap untuk dianalisa.

Untuk mendemonstrasikan ide tersebut, mereka membuat analisa mengenai skill-set yang dibutuhkan untuk pengembang perangkat lunak / situs web dari 2.712 lowongan kerja yang unik, yang dikelompokkan menjadi 5 kategori :

  1. Bbahasa pemrograman, di antaranya Java dan .NET adalah yang paling umum,
  2. Database,
  3. Bahasa script sisi klien,
  4. Pengetahuan dalam antarmuka pengguna / Pengalaman desain,
  5. Keterampilan dasar termasuk kemampuan bahasa Inggris, manajemen keterampilan dan komunikasi.

Institusi pendidikan yang selama ini tidak memiliki informasi yang akurat terhadap skill-set yang dibutuhkan industri, melalui analisa dan pengilahan data-data dari pasar kerja online diharapkan mampu merespon permintaan tersebut.

Sumber :
http://www.bangkokpost.com/opinion/opinion/1246934/big-data-makes-educational-institutes-more-responsive

Contributor :


Sigit Prasetyo
Seorang pengembara dunia maya, sangat suka mengeksplorasi dan menelusuri tautan demi tautan dalam internet untuk memperoleh hal-hal menarik. Saat ini sedang berusaha mengasah ilmu googling. Memiliki kegemaran memancing walaupun saat ini lebih sering memancing di kantor, terutama memancing emosi.

  • Apr 13 / 2017
  • Comments Off on Seputar Big Data Edisi #10
Big Data, Forum Info, Hadoop, Implementation, IoT, Komunitas

Seputar Big Data Edisi #10

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan april 2017

Artikel dan Berita

  1. UK government using R to modernize reporting of official statistics
    UK Government Digital Service, sebuah badan pemerintah Inggris, meluncurkan project untuk mengotomasi proses pelaporan statistik pemerintah dengan menggunakan R. Project ini bertujuan untuk menyederhanakan pelaporan dengan cara mengotomasi proses ekstraksi data, analisis dan pembuatan dokumen.
  2. Hadoop in finance: big data in the pursuit of big bucks
    Bagaimana Hadoop dan teknologi big data membantu industri keuangan untuk meminimalisir resiko transaksi dan memaksimalkan keuntungan.
  3. How GoDaddy powers its team with big data analytics
    GoDaddy, penyedia layanan web hosting dan registrasi domain name internet yang memiliki 14.7 juta pelanggan, memproses lebih dari 13 terabytes data. GoDaddy membangun online self service analytics dalam rangka memperbaiki layanan dan mengantisipasi berbagai issue.
  4. Predictive analytics can stop ransomware dead in its tracks
    Ransomware menjadi salah satu ancaman yang serius di era digital ini. Data penting dapat terancam hilang begitu saja jika tuntutan penjahat saiber yang menyanderanya tidak dipenuhi. Kerugian yang ditimbulkan sangatlah besar, baik dari sisi biaya, waktu, maupun reputasi. Seperti yang hampir dialami oleh pemerintah kota Livingston, Michigan 2 tahun yang lalu, ketika mereka terancam kehilangan data perpajakan selama 3 tahun. Predictive analytics dan machine learning menjadi salah satu solusi untuk mengantisipasi ancaman keamanan semacam ini.
  5. Look before you leap: 4 hard truths about IoT
    Internet of Things membuka berbagai peluang yang menarik dan disruptive, sehingga menjadi salah satu teknologi yang paling berkembang dan banyak diadopsi saat ini. Namun ada beberapa hal yang perlu diperhatikan untuk dapat memanfaatkan teknologi ini dengan maksimal, di antaranya adalah kualitas data, keamanan, dan standard yang masih terus berubah.
  6. How companies and consumers benefit from AI-powered networks
    Sebagai pemegang 12.500 lebih paten, 8 Nobel, dan pengalaman 140 tahun dalam pengembangan dan ujicoba berbagai ide 'liar', tidaklah mengherankan jika AT&T menjadi salah satu pemain penting dalam bidang AI. Apa saja penerapan AI dan machine learning dalam bisnis AT&T dan apa keuntungan yang dirasakan perusahaan maupun konsumen?

Tutorial dan pengetahuan teknis

  1. Must-Read Free Books for Data Science
    Beberapa free E-book yang berkaitan dengan data science, yang jangan sampai anda lewatkan.
  2. Python Pandas Tutorial: DataFrame Basics
    DataFrame adalah struktur data yang paling umum digunakan dalam Python Pandas. Karena itu, sangat penting untuk mempelajari berbagai hal tentang penggunaan DataFrame tersebut. Tutorial ini menjelaskan beberapa metode penggunaan DataFrame.
  3. How can I bulk-load data from HDFS to Kudu using Apache Spark?
    Seperti yang disebutkan dalam judulnya, video tutorial ini menjelaskan mengenai penggunaan Spark untuk mengunggah data secara bulk dari HDFS ke Kudu.
  4. Federated Learning: Collaborative Machine Learning without Centralized Training Data
    Google research memperkenalkan metode machine learning terbaru yaitu federated learning. Dengan metode ini, tidak perlu lagi mengumpulkan data dari device yang digunakan oleh user untuk digunakan sebagai data training. Saat ini federated learning sedang diujicobakan melalui Gboard on Android.
  5. Accordion: HBase Breathes with In-Memory Compaction
    Aplikasi-aplikasi yang menggunakan Apache HBase dituntut untuk dapat memenuhi kebutuhan kinerja dalam read-write prosesnya. Idealnya, aplikasi tersebut dapat memanfaatkan kecepatan in-memory database, dengan tetap mempertahankan jaminan reliabilitas persistent storage. Accordion adalah sebuah algoritma yang diperkenalkan dalam HBase 2.0, yang ditujukan untuk dapat memenuhi tuntutan tersebut.
  6. Feature Engineering for Churn Modeling
    Churn model dapat membantu dalam menentukan alasan utama customer berhenti menggunakan produk atau layanan anda, namun faktor apa yang akan ditest dan dimasukkan ke dalam model, tergantung keputusan dari data saintist. Proses ini disebut dengan rekayasa fitur (feature engineering).

Rilis produk

  1. Apache Zeppelin Release 0.7.1
    Beberapa perbaikan yang dilakukan dalam rilis ini adalah stabilitas proses restart interpreter, perbaikan interpreter python, perbaikan bug untuk table/chart rendering. 24 kontributor menyumbangkan lebih dari 80 patch, dan lebih dari 70 issue berhasil diselesaikan.
  2. Storm 1.1.0 released
    Rilis ini mencakup supports native Streaming SQL, perbaikan integrasi ke Apache Kafka, PMML support, Druid Integration, OpenTSDB Integration, AWS Kinesis Support, HDFS spout, Flux Improvements, dll.
  3. MapR Releases New Ecosystem Pack with Optimised Security and Performance for Apache Spark
    MEP (MapR Ecosystem Pack) adalah sekumpulan project ekosistem open source yang memungkinkan aplikasi big data untuk berjalan di atas MapR Converged Data Platform dengan kompatibilitas internal. MEP Versi 3.0 mencakup perbaikan dari sisi Spark security, konektor Spark ke MapR-DB dan HBase, update dan integrasi dengan Drill, dan versi Hive yang lebih cepat.

Contributor :


M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng. Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun. Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.

  • Feb 06 / 2017
  • Comments Off on Seputar Big Data edisi #4
Big Data, Forum Info, Hadoop, Implementation

Seputar Big Data edisi #4

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama terakhir bulan Januari 2017 dan awal Februari 2017

Artikel dan berita
  1. All You Need To Know About Business Models in Digital Transformation
    Dalam istilah yang sangat sederhana, Model Bisnis adalah bagaimana perencaam kita untuk menghasilkan uang dari bisnis yang kita jalani. Sebuah versi halus adalah bagaimana kita menciptakan dan memberikan nilai kepada pelanggan.
  2. Five Ways Data Analytics Will Storm the Stage in 2017
    Telah menjadi sesuatu yang jelas saat ini, bagaimana analisis data mengarahkan pendapatan di bidang e-commerce. Dan perkembangan ini telah memaksa perusahaan e-tailers dan e-commerce untuk mempekerjakan lebih banyak data scientist dalam rangka untuk lebih memahami bagaimana faktor pelanggan berdampak kepada pendapatan dan penjualan.
  3. Stream Processing Myths Debunked
    Stream processing menjadi bagian yang penting dalam sebuah sistem big data, dan semakin banyak aplikasi dan platform yang mendukungnya. Meskipun demikian, masih banyak miskonsepsi yang terjadi terkait dengan stream processing. Dalam artikel ini para ahli dari data Artisans mengupas dan membongkar 6 mitos dan miskonsepsi mengenai stream processing.
  4. How Madden Got So Good at Predicting Super Bowl Winners
    Bagaimana Madden, sebuah videogame, dapat memanfaatkan data untuk memprediksikan pemenang superbowl, perhelatan olahraga terbesar di Amerika, hingga 9 dari 13 kali.

Tutorial dan pengetahuan teknis

  1. The Top Predictive Analytics Pitfalls to Avoid
    Tidak dapat dipungkiri lagi bahwa predictive modelling dan machine learning memberikan kontribusi signifikan untuk bisnis, namun keduanya sangat sensitif terhadap data dan perubahan di dalamnya, sehingga pemilihan teknik yang tepat dan menghindari kesalahan dan perangkap dalam membangun model data sains. Berikut ini beberapa perangkap utama yang perlu dihindari.
  2. How to set up a Twitter bot using R
    Dalam rangka dirilisnya package R ke 10.000 di CRAN, eoda menjalankan akun Twitter yang otomatis menampilkan jumlah package yang tersedia di CRAN sampai package ke 10 ribu tercapai pada tanggal 28 Januari 2017. Artikel ini menjelaskan mengenai cara set up account Twitter tersebut dengan R script.
  3. Journey Science: Combining 18 Data Sources + 1 Billion Interactions to take UX to The Next Level
    Journey Science, yang menyatukan data dari berbagai aktifitas pelanggan, telah menjadi bagian penting bagi industri telekomunikasi. Data tersebut dapat digunakan untuk meningkatkan customer experience dan retention. Dengan menggunakan insight yang didapat dari customer journey analytics, bisnis telekomunikasi dapat mengukur user experience dengan lebih baik, dan membuat keputusan yang tepat untuk meningkatkannya. Mulai dari melakukan tindakan proaktif untuk kepuasan pelanggan, namun juga untuk memprediksi dan mengantisipasi kegagalan yang mungkin terjadi di masa datang. Berikut ini sekilas mengenai bagaimana memanfaatkan customer journey untuk meningkatkan pelayanan dan kepuasan pelanggan.
  4. Performance comparison of different file formats and storage engines in the Hadoop ecosystem
    CERN telah mempublikasikan perbandingan kinerja Apache Avro, Apache Parquet, Apache HBase dan Apache Kudu. Ujicoba ini untuk mengevaluasi efficiency, ingestion performance, analytic scans and random data lookup pada data layanan CERN Hadoop.
  5. Working with UDFs in Apache Spark
    Dalam tulisan ini, akan dijelaskan contoh yang sederhana pembuatan UDF dan UDAF pada Apache Spark menggunakan Python, Java dan Scala
  6. Perfecting Lambda Architecture with Oracle Data Integrator (and Kafka / MapR Streams)
    Artikel yang menjelaskan konfogurasi pada Oracle Data Integrator menggunakan Apache Kafka/MapR Stream untuk menangkap perubahan yang terjadi pada MySQL.

Rilis produk

  1. Google : Using Machine Learning to predict parking difficulty
    Saat ini sebagian besar waktu mengemudi dihabiskan dalam kemacetan atau berputar-putar mencari tempat parkir. Salah satu tujuan produk-produk semacam Google Maps dan Waze adalah membantu pengguna kendaraan untuk mengemudi dengan lebih mudah dan efisien. Namun sampai saat ini, belum ada tool yang khusus mengatasi permasalahan parkir. Minggu lalu, Google merilis fitur baru untuk Android Google Map, yang menawarkan prediksi kondisi perparkiran di sekitar tempat tujuan anda, sehingga anda dapat mengantisipasinya dengan lebih baik. Fitur ini memanfaatkan kombinasi antara crowdsourcing dan machine learning. Saat ini fitur tersebut baru terdapat di di 25 kota di Amerika Serikat saja.
  2. Apache Atlas 0.7.1-incubating released
    Apache Atlas 0.7.1-incubating telah dirilis. Ada banyak perbaikan bugs dan beberapa peningkatan yang bersifat minor.
  3. Cloudera Enterprise 5.10 is Now Available
    Cloudera telah mengumumkan bahwa Cloudera Enterprise 5.10 telah dirilis dengan support GA untuk Apache Kudu, peningkatan kinerja pada cloud, peningkatan pada pengelolaan data dalam Amazon S3, dan banyak lagi.
  4. Announcing The Latest Hortonworks Data Cloud Release !
    Hortonworks mengumumkan rilis baru dari Hortonworks Data Cloud for AWS. Versi 1.11 ini terus mendorong untuk membuat pengolahan data menjadi mudah dan berbiaya efektif dalam komputasi awan.
  5. Announcing Data Collector ver 2.3.0.0
    StreamSets Data Collector versi 2.3.0.0 telah dirilis. Fokus utama dari rilis kali ini adalah mulithreaded pipelines, dukungan terhadap multitable copy, MongoDB change data capture, and HTTP API untuk Elasticsearch
  6. [ANNOUNCE] Apache Bahir 2.0.2
    Apache Bahir, tools yang menyediakan ekstensi dari Apache Spark, merilis versi 2.0.2

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
Pages:1234
Tertarik dengan Big Data beserta ekosistemnya? Gabung