:::: MENU ::::

Posts Categorized / Forum Info

  • Dec 15 / 2017
  • Comments Off on Seputar Big Data Edisi #42
Apache, Artificial Intelligece, Big Data, Forum Info, Implementation, Uncategorized

Seputar Big Data Edisi #42

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu 2 bulan Desember 2017.

Artikel dan Berita

  1. How To Think About Artificial Intelligence In The Music Industry
    Ulasan mengenai penerapan AI di dalam industri musik. Jenis data apa saja yang penting, serta apa tantangan dan peluangnya, dengan berbagai contoh menarik dari Youtube, Spotify, dan lain sebagainya.
  2. Machine learning at Spotify: You are what you stream
    Wawancara dengan head of data solution Spotify. Beberapa hal yang dibahas adalah bagaimana membentuk, memanage dan mengembangkan sebuah data team, dan bagaimana Spotify membangun sistem rekomendasi mereka.
  3. Australian genome researchers solving big data problems
    Genomics merupakan sebuah bidang yang menghasilkan data luar biasa besarnya. Untuk mengatasi permasalahan tersebut para peneliti di bidang ini membangun sebuah tool berbasis cloud.
  4. Using Big Data to transform business processes
    Menurut survey IDC, investasi di bidang big data dan teknologi analytics akan mencapai 187 miliar US$ pada 2019, meningkat 50% dari tahun 2015. Dengan jumlah yang fantastis tersebut, bagaimana big data dapat bermanfaat dalam proses bisnis?
  5. Six ways (and counting) that big data systems are harming society
    Sebuah teknologi yang disruptive seperti big data tentu tidak hanya membawa manfaat bagi manusia, namun juga membawa dampak negatif. Data Justice Lab, sebuah pusat penelitian Jurnalistik, Media dan Budaya Universitas Cardiff, mencatat berbagai kasus kerugian akibat penggunaan big data, seperti misalnya penyalahgunaan informasi pribadi, diskriminasi, dan lain sebagainya.
  6. New big data trend tracks ‘digital footprints’
    ‘Process mining’ adalah salah satu teknik yang mulai banyak digunakan oleh perusahaan, termasuk diantaranya GM, Airbus, KPMG dan UBS untuk mengotomasi berbagai proses dan beradaptasi dengan digitalisasi industri. Teknik ini dimungkinkan dengan adanya pencatatan dan pengumpulan data-data digital yang didukung oleh teknologi big data.
  7. 10 Great Reads for Small Biz Owners Afraid to Conquer Big Data
    Banyak perusahaan kecil dan menengah yang menganggap bahwa big data hanya sesuai untuk perusahaan besar saja, sehingga mereka enggan untuk memanfaatkannya. Berikut ini 10 buku yang dapat memotivasi para pengusaha kecil dan menengah untuk mempelajari dan menerapkan big data bagi keunggulan kompetitif mereka.

Tutorial dan Pengetahuan Teknis

  1. Managing Machine Learning Workflows with Scikit-learn Pipelines Part 1: A Gentle Introduction
    Pengenalan singkat dan mudah tentang bagaimana menggunakan Scikit-learn Pipelines untuk membuat dan mengatur alur kerja machine learning. Merupakan bagian 1 dari sebuah artikel serial.
  2. Problems With Kafka Streams
    Kafka Stream adalah platform pemrosesan stream yang mudah dan handal. Aplikasi yang menggunakan Kafka Streams pun dapat dijalankan di hampir semua environment. Namun demikian, seperti halnya segala hal di muka bumi ini, library Kafka tidaklah sempurna. Apa saja permasalahan yang biasa dihadapi dalam penggunaan library Kafka?
  3. Difference Between Classification and Regression in Machine Learning
    Penjelasan yang sangat baik dan mudah difahami mengenai perbedaan antara klasifikasi dan regresi dalam machine learning.
  4. Connecting R to Keras and TensorFlow
    Tutorial mengenai bagaimana menghubungkan R ke Keras dan TensorFlow, lengkap dengan contoh dan dokumentasi.
  5. Big Data and Container Orchestration with Kubernetes (K8s)
    Artikel ini menjelaskan beberapa tantangan dalam mengadopsi Kubernetes (k8) untuk Hadoop stack. k8s pada dasarnya ditujukan untuk aplikasi stateless, sehingga cocok untuk HDFS dan aplikasi penyimpan data lain. Dijelaskan pula mengenai sebuah prototipe yang dibuat BlueData untuk mendeploy Hadoop dengan k8 melalui EPIC.
  6. Processing HL7 Records
    Tutorial mengenai proses ingestion dan transformasi data dari format HL7 (standar internasional untuk data kesehatan) ke dalam Apache Hive untuk dimanfaatkan dalam machine learning dan analisis pada data lake Hadoop.
  7. [FREE EBOOK] Think Stats – Probability and Statistics for Programmers
    Pengantar probabilitas dan statistik untuk programmer Python. Menekankan pada teknik-teknik sederhana yang dapat Anda gunakan untuk mengeksplorasi dataset dan menjawab berbagai pertanyaan menarik. Buku ini menyajikan studi kasus menggunakan data dari National Institutes of Health. Pembaca didorong untuk mengerjakan sebuah proyek dengan dataset yang sebenarnya.
  8. [DATASET] Default of Credit Card Clients Data Set
    Saat ini prediksi default kartu kredit dengan machine learning sudah mulai banyak dilakukan. Dataset berikut ini mencakup data demografi, riwayat pembayaran, kredit, dan data default.

Rilis Produk

  1. Druid 0.11.0
    Druid 0.11.0 mencakup beberapa fitur baru yang major, termasuk support TLS, ekstensi cache Redis, dan berbagai peningkatan untuk Druid SQL dan kinerja GroupBY.
  2. Apache MiNiFi C++ 0.3.0
    Apache MiNiFi C++ versi 0.3.0 dirilis, namun belum dianggap siap untuk production. Versi ini memiliki beberapa fitur termasuk dukungan untuk menulis langsung ke Kafka.
  3. DeepVariant: Highly Accurate Genomes With Deep Neural Networks
    Google merilis DeepVariant ke komunitas open source. DeepVariant adalah variant caller berbasis deep learning yang memanfaatkan framework Inception dari TensorFlow, yang pada mulanya digunakan untuk melakukan klasifikasi image.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Dec 04 / 2017
  • Comments Off on Seputar Big Data Edisi #40
Apache, Big Data, Blockchain, Forum Info, Hadoop, Implementation, Medical Analytics

Seputar Big Data Edisi #40

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke 4 bulan November 2017

Artikel dan Berita

  1. Nearly 40% of Data Professionals Spend Half of their Time Prepping Data Rather than Analyzing It
    Menurut survey yang dilakukan oleh TMMData bekerja sama dengan Digital Analytics Association, menemukan bahwa sekitar 40% dari para profesional yang bekerja di bidang pengolahan data, menghabiskan lebih dari 20 jam per minggu untuk mengakses, menggabungkan dan menyiapkan data daripada melakukan analisis data.
  2. Predicting Analytics: 3 Big Data Trends in Healthcare
    Perangkat wearable, sensor dan data lake menjadi suatu hal yang umum digunakan pada industri kesehatan, sehingga analisis data dapat menawarkan sistem perawatan yang lebih personal dan hemat biaya.
  3. Usai Paradise Papers, DJP Bakal Punya Big Data Pajak dari AEoI
    Direktorat Jenderal Pajak (DJP) Kementerian Keuangan akan memiliki data dengan skala besar dan valid dari otoritas pajak seluruh negara saat implementasi pertukaran data secara otomatis (Automatic Exchange of Information/AEoI) per September 2018
  4. Infrastructure 3.0: Building blocks for the AI revolution
    Saat ini kita telah memasuki era machine learning dan artificial intelligence. Gabungan antar data yang masif, sistem penyimpanan yang murah, sistem komputasi yang fleksibel dan perkembangan algoritma, terutama dalam bidang deep learning, telah menghasilkan aplikasi yang tadinya hanya ada dalam novel fiksi ilmiah

Tutorial dan Pengetahuan Teknis

  1. Using WebSockets With Apache NiFi
    Tutorial mengenai implementasi Websocket server dan client menggunakan Apache Nifi.
  2. Transactions in Apache Kafka
    Artikel lanjutan mengenai transaksi dalam Apache Kafka. Membahas mengenai berbagai aspek dari Kafka transaction API, yaitu use case, detail transaction API untuk Java client, dan pertimbangan yang perlu diambil dalam menggunakan API tersebut.
  3. A Framework for Approaching Textual Data Science Tasks
    Membahas secara singkat dan jelas mengenai kerangka kerja untuk proses-proses data sains tekstual, serta perbedaan antara NLP dan teks mining.
  4. An Introduction to Blockchain
    Popularitas blockchain saat ini semakin meningkat. Blockchain memberikan tingkat keamanan yang cukup tinggi, bahkan diklaim ‘hack resistance’
  5. Customer Analytics: Using Deep Learning With Keras To Predict Customer Churn
    Menyajikan dengan lengkap dan detail mengenai implementasi prediksi churn menggunakan R on Keras Deep Learning. Model yang dibuat adalah Artificial Neural Network, dengan akurasi sampai 82 % dengan menggunakan dataset IBM Watson Telco Customer Churn.
  6. Mapping “world cities” in R
    Tutorial mengenai data wrangling dan visualisation menggunakan R. Menampilkan peta “world cities”, yaitu kota-kota yang telah diidentifikasi oleh Jaringan Riset Globalisasi dan Kota Dunia (GaWC), sebagai kota yang sangat terhubung dan berpengaruh dalam ekonomi dunia.
  7. [DATASET] The MNIST Database of Handwritten Digits
    Kumpulan image untuk klasifikasi digit hasil tulisan tangan. Dataset ini dianggap bagus untuk deep learning karena cukup kompleks untuk digunakan dalam jaringan syaraf tiruan, namun tetap dapat diproses menggunakan sebuah CPU.
  8. [FREE EBOOK]
    Ebook dari Databricks, tentang pengenalan dasar dan praktis mengenai Spark, disertai contoh code.

Rilis Produk

  1. November Update of KSQL Developer Preview Available
    KSQL, streaming SQL engine untuk Kafka yang pada Agustus lalu diluncurkan versi developer preview-nya, merilis update pertama. Selanjutnya rilis update rencananya akan dilakukan sebulan sekali, dan program beta segera diluncurkan.
  2. Apache® Impala™ as a Top-Level Project
    Apache mengumumkan bahwa project Impala, database analitik untuk Apache Hadoop, naik statusnya menjadi top level project.

  3. Apache Kerby 1.1.0 released
    Apache Kerby adalah binding Java Kerberos yang menyediakan implementasi, library, KDC, dan berbagai fasilitas yang mengintegrasikan PKI, OTP dan token untuk environment cloud, Hadoop dan mobile.
    Versi 1.1.0 ini merupakan rilis major, yang mencakup implementasi dukungan cross-realm dan modul GSAPI.
  4.  

    Contributor :


    Tim idbigdata
    always connect to collaborate every innovation 🙂
  • Nov 16 / 2017
  • Comments Off on Seputar Big Data Edisi #38
Apache, Big Data, Forum Info, Hadoop, Storm

Seputar Big Data Edisi #38

Beberapa tema yang tersaji minggu ini adalah mencegah diminishing return big data, Bill Gates yang mendonasikan USD 50 juta untuk riset Alzheimer, bagaimana menghitung nilai ekonomi informasi sebagai aset, dan meledaknya nilai investasi big data di bidang energi. Pada bagian teknis ditampilkan tutorial TensorFlow Core API, membangun ekosistem mikroservis menggunakan Kafka dan KSQL, tutorial setting dan aktivasi Kerberos di cluster HDFS dengan Ambari, dan Free Ebook mengenai data sains. Rilis minggu ini Apache Phoenix 4.13 dan Apache CouchDB 2.1.1 serta 1.7.1.

Seputar Big Data edisi #38 adalah kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan November 2017

Artikel dan Berita

  1. What to do when big data gets too big
    Produksi data yang begitu besar pada suatu ketika mungkin mencapai titik jenuh, di mana manfaat yang didapat dari data akan mulai menurun. Ada dua pemicu utama permasalahan ini, yaitu data diproduksi tanpa tujuan atau business case yang jelas, atau data disajikan dengan kompleksitas yang sangat tinggi sehingga user kesulitan dalam penggunaannya. Artikel ini membahas langkah-langkah yang dapat diambil untuk tetap memaksimalkan manfaat data.
  2. Gates Bets on Big Data in Alzheimer’s Fight
    Bill Gates mengumumkan donasi sebesar USD 50 juta untuk mempelajari dan mengembangkan pengobatan Alzheimer, dengan menekankan pada peran big data dalam pencegahan dan pengendalian penyakit tersebut. Dana tersebut akan disalurkan ke Dementia Discovery Fund (DDF), sebuah kerja sama antara pemerintah, badan amal dan industri kesehatan.
  3. Turn Your Big Data into a Valued Corporate Asset
    Meskipun dunia telah memasuki era informasi dan banyak eksekutif dan pengambil keputusan menyadari bahwa informasi adalah salah satu aset terpenting dalam menjalankan bisnis, namun dari sisi akunting informasi masih belum dianggap sebagai aset. Hal ini berpengaruh terhadap cara pandang dan kedisiplinan dalam mengumpulkan, mengolah dan memanfaatkan informasi. Untuk itu saat ini terdapat sebuah bidang yang disebut infonomics, yaitu sebuah teori dan bidang ilmu yang menekankan dan menentukan pentingnya nilai ekonomi dari informasi. Artikel ini menjelaskan secara singkat mengenai 6 model valuasi informasi yang baru-baru ini dirumuskan Gartner bersama dengan para ahli valuasi, akuntan, dan ekonom.
  4. Big Data and Artificial Intelligence Deals in the Energy Sector Are Up Tenfold in 2017
    Investasi sektor energi di bidang big data dan AI meningkat sampai 10 kali lipat tahun ini. Laporan yang dirilis oleh BDO, sebuah perusahaan akuntansi global, menunjukkan bahwa merger dan akuisisi yang melibatkan perusahaan energi dan startup AI meningkat dari USD 500 juta di kuartal pertama 2017, ke USD 3.5 milyar pada kuartal kedua.

Tutorial dan Pengetahuan Teknis

  1. TensorFlow: What Parameters to Optimize?
    Mempelajari TensorFlow Core API, yang merupakan API level paling rendah, adalah langkah yang tepat untuk mulai mempelajari TensorFlow, karena kita dapat memahami kernel library TensorFlow. Berikut ini contoh paling sederhana dari TensorFlow Core API, di mana kita membuat dan melatih model regresi linear.
  2. Apache Storm: The Hadoop of Real-Time
    Pada dasarnya, Hadoop dan Storm digunakan untuk menganalisis data yang besar. Keduanya saling melengkapi dan berbeda dalam beberapa aspek. Apache Storm melakukan semua operasi kecuali persistensi, sementara Hadoop bagus dalam segala hal kecuali dalam perhitungan real-time.
  3. Building a Microservices Ecosystem with Kafka Streams and KSQL
    Saat ini proses bisnis dijalankan sebagai gabungan dari berbagai ekosistem : kumpulan aplikasi dan servis yang saling berinteraksi mencapai sebuah tujuan bisnis. Ada beberapa keuntungan membuat ekosistem tersebut menjadi event-driven.
    Artikel ini menjelaskan dengan baik motivasinya, dan bagaimana membangun sistem transaksional asynchronous di atas Kafka stream dan KSQL.
  4. Ambari Kerberos support for HBase Part 1
    Seri pertama dari serangkaian artikel yang menjelaskan mengenai langkah demi langkah aktivasi autentikasi Kerberos untuk cluster yang menggunakan Ambari. Blog ini secara khusus akan membahas bagaimana cara men-deploy cluster Hadoop (HDFS + YARN) dengan Kerberos aktif yang kemudian akan digunakan untuk men-deploy cluster HBase dengan Kerberos yang diaktifkan pada posting-posting berikutnya.
  5. [FREE EBOOK] Data Science Live: An Open-Source Book About Data Science, Analytics, and More
    Online ebook untuk membantu mempelajari data sains, machine learning dan data analytics, disertai berbagai contoh kasus nyata dalam R. Mencakup di antaranya : Exploratory data analysis, data preparation, pemilihan variabel, kinerja model, dan

Rilis Produk

  1. Apache Phoenix 4.13 released
    Apache Phoenix 4.13, yang mencakup perbaikan bug kritikal terkait penulisan SYSTEM.CATALOG pada saat connecting, beberapa bug fixes terkait row deletion handling, dan lain-lain.
  2. Apache CouchDB 2.1.1 and 1.7.1 released
    Apache CouchDB mengumumkan rilis 2.1.1 dan 1.7.1, yang merupakan security release yang memperbaiki beberapa isu kritikal. Update ke versi ini bersifat mandatory.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Nov 13 / 2017
  • Comments Off on Seputar Big Data Edisi #37
Apache, Artificial Intelligece, Big Data, Forum Info, Implementation, IoT, Spark

Seputar Big Data Edisi #37

Penggunaan big data untuk personalisasi pengobatan radioterapi untuk kanker prostat, Houston Astro yang memenangi World Series dengan kekuatan data, dan beberapa trend big data, AI serta Iot dalam industri transportasi adalah sebagian yang ditampilkan dalam edisi kali ini. Di seksi teknis disajikan vektorisasi UDF untuk PySpark, pengenalan Statistical Language Modeling and Neural Language Models, penggunaan Kafka untuk mentransformasi batch pipeline menjadi real time, dan pengenalan singkat mengenai dep learning. Rilis Apache Kafka 1.0, HDP 2.6.3, Apache Kylin 2.2.0 serta Apache Jena 3.5.0 menjadi berita open source rilis minggu ini.

Seputar Big Data edisi #37 adalah kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan November 2017

Artikel dan berita

  1. How big data won the 2017 World Series
    Mengulang kesuksesan Oakland Athletics yang diabadikan dalam Moneyball, tahun ini Houston Astro berhasil memenangi World Series 2017, final liga baseball paling bergengsi di dunia, dengan kekuatan data.
  2. The Future Of The Transport Industry – IoT, Big Data, AI And Autonomous Vehicles
    Beberapa trend ke depan dalam bidang AI, IoT dan Big Data yang akan membentuk wajah industri transportasi masa depan.
  3. 5 tactics to beat big data hiring challenges
    Mempekerjakan spesialis di bidang teknologi yang sedang trend sering kali menjadi tantangan tersendiri, termasuk dalam hal biaya. Tapi dengan strategi yang tepat, over-pay saat membangun tim baru dapat dihindari. Berikut ini 5 Strategi untuk merekrut talent dalam big data maupun spesialis teknologi lain yang sedang menjadi primadona.
  4. Big data analysis predicts risk of radiotherapy side effects
    Peneliti di The Institute of Cancer Research, London, untuk pertama kalinya menggunakan analisis big data untuk memprediksi resiko efek samping radioterapi, khususnya untuk pengobatan kanker prostat. Terobosan ini dapat membantu para ahli untuk mempersonalisasi pengobatan radioterapi di masa depan.

Tutorial dan Pengetahuan Teknis

  1. Introducing Vectorized UDFs for PySpark : How to run your native Python code with PySpark, fast.
    Spark 2.3 akan mencakup dukungan untuk vectorized UDF (User Defined Function) melalui integrasi menggunakan Apache Arrow.
    UDF yang dianotasi dengan menggunakan @pandas_udf dan menggunakan input atau output berupa pandas.Series memberikan peningkatan kinerja yang signifikan. Artikel ini memberikan beberapa contoh UDF, termasuk penambahan sederhana, probabilitas kumulatif, dan OLS. Artikel ini juga menyertakan sebuah microbenchmark yang menunjukkan peningkatan kecepatan 3x-100x.
  2. How to use Apache Kafka to transform a batch pipeline into a real-time one
    Blog ini menjelaskan dengan lengkap bagaimana membangun rangkaian data real-time end-to-end dengan membuat empat micro-services di atas Apache Kafka. Data ditarik dari HTTP endpoint dan dimasukkan ke dalam Kafka menggunakan Producer API. Dari sana, aplikasi Kafka Streams melakukan deteksi fraud dan menghitung statistik agregat. Akhirnya, Kafka Connect menulis data ke database PostgreSQL untuk melayani melalui REST API. Penjelasan tersebut memberikan wawasan mengenai Kafka Producer API, Avro dan Confluent Schema Registry, Kafka Streams High-Level DSL, dan Kafka Connect Sinks.
  3. Gentle Introduction to Statistical Language Modeling and Neural Language Models
    Pemodelan bahasa sangat penting bagi pemrosesan bahasa alami (Natural language processing – NLP). Model bahasa berbasis neural network telah menunjukkan kinerja yang lebih baik daripada metode klasik, baik untuk proses yang berdiri sendiri maupun sebagai bagian dari proses NLP yang lebih kompleks.
    Artikel berikut ini mengupas mengenai apa itu model bahasa dan beberapa contoh penggunaannya, serta bagaimana jaringan syaraf tiruan dapat digunakan untuk pemodelan bahasa.
  4. Want to know how Deep Learning works? Here’s a quick guide for everyone.
    AI dan Machine learning merupakan topik yang menarik banyak dibicarakan akhir-akhir ini. Salah satu metode yang banyak dimanfaatkan adalah deep learning. Artikel ini memberikan overview singkat untuk memahami apa itu deep learning dan bagaimana cara kerjanya.
  5. Kylo: Automatic Data Profiling and Search-Based Data Discovery
  6. [DATASET] Web data: Amazon reviews
    Dataset yang dapat digunakan untuk keperluan Natutal Language Processing. Mencakup ~35 juta review Amazon dalam kurun waktu 18 tahun. Termasuk di dalamnya informasi produk, user, rating dan teks review.

Rilis Produk

  1. Apache Kafka Goes 1.0
    Minggu ini, Apache Kafka versi 1.0.0 dirilis. Rilis ini mencakup peningkatan kinerja, TLS yang lebih cepat, dukungan Java 9, dan banyak lagi. Milestone-nya dibahas di blog Apache Software Foundation, sedangkan blog Confluent berikut ini menjelaskan beberapa perbaikan yang dilakukan dalam versi terbaru tersebut.
  2. Announcing the General Availability of HDP 2.6.3 and Hortonworks DataPlane Service
    Versi 2.6.3 HDP telah adalah rilis pertama yang mendukung Hortonworks DataPlane Service. Terdapat pula beberapa package versi baru (Spark, Zeppelin, Livy, Druid, Atlas, Knox, Ambari, SmartSense, dan Ranger).
  3. KSQL JDBC Driver
  4. Apache Kylin 2.2.0 released
    Apache Kylin adalah Distributed Analytics Engine yang menyediakan SQL interface dan multi-dimensional analysis (OLAP) di atas Apache Hadoop, mendukung pemrosesan datasets super besar. Rilis 2.2.0 ini adalah rilis major yang mencakup lebih dari 70 bug fixes dan berbagai peningkatan.
  5. Apache Jena 3.5.0 Released
    Apache Jena adalah framework untuk mengembangkan Semantic Web and aplikasi Linked Data dalam Java. Jena menyediakan implementasi standards W3C untuk
    RDF dan SPARQL. Rilis 3.5.0 ini memperkenalkan TDB2, sebagai peningkatan dari TDB1.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Oct 04 / 2017
  • Comments Off on MeetUp ke 17 idBigData di ITB, Bandung
meetup_17_itb
Apache, Big Data, Forum Info, Komunitas, Meet Up

MeetUp ke 17 idBigData di ITB, Bandung

meetup_17_itb

idBigData dan Institut Teknologi Bandung berkolaborasi dengan Asosiasi Ilmuwan Data Indonesia (AIDI), Bukalapak.com, Prodi Teknik Informatika ITB dan Labs247 mengadakan meetup idBigdata yang ke 17.

MeetUp tersebut diselenggarakan pada Kamis, 28 September 2017 di Auditorium Campus Center Timur ITB. Acara dimulai sekitar pukul 09.00. Dan dibuka oleh Wakil Dekan School of Electrical Engineering and Informatics ITB, Dr. Ir. Nana Rachmana Syambas M. Eng

Pembicara-pembicara pada acara ini adalah:

Dr. techn. Muhammad Zuhri Catur Candra, Institut Teknolog Bandung dengan topik “The Journey in The Data-Intensive World
Teguh Nugraha, Head of Data Bukalapak.com dengan topik “Big Data in E-commerce
Solechoel Arifin, Labs247 dengan topik “Implementasi DNA Sequence Alignment pada HGrid247
Sigit Prasetyo, idBigData dengan topik “Open Source Solution for Data Analytics Workflow

Meetup ini diikuti oleh 60 peserta, dari kalangan mahasiswa maupun profesional.

Video lengkap Meetup idBigdata #17 maupun berbagai kegiatan idBigdata sebelumnya dapat diakses di channel idBigdata.

Contributor :


M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng.
Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun.
Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.
  • Sep 14 / 2017
  • Comments Off on Seputar Big Data Edisi #29
Apache, Big Data, Forum Info, IoT

Seputar Big Data Edisi #29

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama awal bulan Agustus 2017.

Artikel dan Berita

  1. Thales Completes The Acquisition Of Guavus, One Of The Pioneers Of Real-time Big Data Analytics
    Thales, sebuah perusahaan penyedia peralatan kedirgantaraan, pertahanan, transportasi dan keamanan yang berpusat di Prancis, mengumumkan telah selesai melakukan proses akuisisi terhadap Guavus, sebuah perusahaan Silicon Valley yang memfokuskan diri pada analisa realtime big data.
  2. A rare look inside LAPD's use of data
    Dengan melakukan pengamatan dan melakukan lebih dari 100 wawancara terhadap petugas dan pegawai sipil di Departemen Kepolisian Los Angeles, Sarah Brayne, seorang profesor sosiolog di University of Texas di Austin, membuat sebuat catatan empiris bagaimana penerapan analisa Big Data mengubah pratek pengawasan polisi.
  3. Social Business Intelligence Market: Growing Usage of Social Media Is Driving the Demand for Big Data Globally
    Pendapatan yang dihasilkan dari implementasi solusi Social Business Intelligence di seluruh dunia diperkirakan mencapai hampir US $ 17 miliar pada 2017, dan diproyeksikan mencapai valuasi pasar seitar US $ 29 miliar pada tahun 2026, mencerminkan CAGR sebesar 6% selama periode perkiraan (2016-2026).
  4. ECS ICT to distribute data centre solutions by Hortonworks
    CS ICT Bhd hari ini mengumumkan telah ditunjuk sebagai distributor pertama untuk Hortonworks Data Center Solutions di Malaysia.
  5. Why Big Data is Important to Your Business
    Dalam artikel yang ditulis oleh Sheza Gary, seorang direktur teknis di Algoworks, memberikan gambaran yang meyakinkan mengenai bagaimana bisnis menggunakan secara mendalam teknologi big data dan berlanjut dengan memberikan gambaran yang lebih jelas mengenai pemanfaatan big data yang dapat digunakan untuk keuntungan bisnis.

Tutorial dan Pengetahuan Teknis

  1. K-Nearest Neighbors – the Laziest Machine Learning Technique
    K-Nearest Neighbors (K-NN) adalah salah satu algoritma Machine Learning yang paling sederhana. Seperti algoritma lainnya, K-NN terinspirasi dari penalaran manusia. Misalnya, ketika sesuatu yang signifikan terjadi dalam hidup Anda, Anda menghafal pengalaman itu dan menggunakannya sebagai pedoman untuk keputusan masa yang akan datang.
  2. Python vs R – Who Is Really Ahead in Data Science, Machine Learning?
    Berdasarkan analisa yang dihasilkan oleh Google Trend selama Januari 2012 - Agustus 2017, terlihat bahwa R sedikit lebih unggul sampai antara tahun 2014 - 2015, karena Data Science sangat populer pada saat itu. Tapi pada tahun 2017 Python mulai tampak lebih unggul popularitasnya.
  3. Open Source EHR Generator Delivers Healthcare Big Data with FHIR
    Membuat analis data kesehatan seringkali membuat frustrasi karena kurangnya akses ke data pasien , terpercaya, dan lengkap yang melimpah sekarang dapat memanfaatkan platform generator data EHR open source yang disebut Synthea.
  4. Apache Ignite: In-Memory Performance With Durability of Disk
    Sejak versi 2.1, Apache Ignite telah menjadi salah satu dari sedikit sistem komputasi in-memory yang memiliki persistence layer terdistribusi sendiri. Pada dasarnya, pengguna tidak perlu mengintegrasikan Ignite dengan database lain, walaupun mendukung fitur integrasi semacam ini didukung)
  5. An Introduction to Spatial Analytics With PostGIS, PL/R, and R
    Bagian pertama dari serangkaian tutorial mengenai penggunaan PL/R bagi pengguna PostgreSQL, bahasa prosedural yang digunakan membuat fungsi SQL dalam bahasa pemrograman R.

Rilis Produk

  1. Qubole Rolls Out Industry’s First Autonomous Data Platform
    Qubole, perusahaan penyedia layanan big data-as-a-service, mengumumkan tersedianya tiga produk baru - Enterprise Qubole Data Service (QDS) Enterprise Edition, QDS Business Edition dan Qubole Cloud Agents - komponen dari platform data otonom yang ditujukan untuk membantu organisasi memperkecil inisiatif data mereka sambil mengurangi biaya.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Sep 07 / 2017
  • Comments Off on Seputar Big Data Edisi #28
Apache, Big Data, Forum Info, Hadoop

Seputar Big Data Edisi #28

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu terakhir bulan Agustus 2017

Artikel dan Berita

  1. Big Data Startup MapR Raises M, Keeps Eyeing An IPO
    MapR mengumuman bahwa mereka memperoleh suntikan dana sebesar $56 juta dari investor-investor yang dipimpin oleh Lightspeed Venture Partners.
  2. Russia's Biggest Data Lake & How Severstal is Transforming The Steel Industry Using Machine Learning
    Sebagai bagian dari strategi transformasi digitalnya, Severstal yang merupakan salah satu produsen baja terbesar di Rusia, membuat Data Lake industri terbesar di negara tersebut. Petabyte data yg sebelumnya dibuang selama produksi ribuan ton baja setiap tahunnya sekarang akan disimpan untuk dianalisa.
  3. AUSTRAC built a big data platform for DHS to fight welfare fraud
    Departemen Pelayanan Kependudukan Australia berhasil membongkar lebih dari $ 25 juta pembayaran kesejahteraan palsu menggunakan platform analisis data open source yang dikembangkan oleh lembaga anti pencucian uang AUSTRAC.
  4. Putin says the nation that leads in AI ‘will be the ruler of the world’
    Pada awal September lalu, di depan para pelajar dalam rangka awal tahun ajaran baru, Presiden Rusia Vladimir Putin meramalkan bahwa negara mana pun yang memimpin dalam penelitian AI akan menguasai dunia. Ia juga memperingatkan bahwa kecerdasan buatan menawarkan 'peluang kolosal' dan juga sekaligus bahayanya.

Tutorial dan Pengetahuan Teknis

  1. Detecting Facial Features Using Deep Learning
    Dulu merupakan sebuah tantangan yang cukup sulit untuk melakukan deteksi wajah dan ciri khas lainnya seperti mata, hidung, mulut, dan bahkan untuk mengenali emosi seseorang dari ekspresinya. Tapi saat ini hal tersebut dapat dilakukan dengan lebih cepat menggunakan Deep Learning.
  2. A Vision for Making Deep Learning Simple
    Artikel ini memperkenalkan Deep Learning Pipelines dari Databricks, library open-source baru yang bertujuan untuk memudahkan siapapun, mulai dari praktisi machine learning sampai bisnis analis, dalam mengintegrasikan deep learning ke dalam berbagai workflow.
  3. From Lambda to Kappa: A Guide on Real-Time Big Data Architectures
    Saat ini banyak pilihan dalam menentukan arsitektur real-time big data. Jika sebelumnya ada istilah arsitektur Lambda, maka saat ini terdapat pula jenis arsitektur-arsitektur lainnya. Dalam serial artikel ini akan dibahas beberapa diantaranya, dan melakukan perbandingan menggunakan use case yang relevan. Jadi, bagaimana kita memilih arsitektur yang tepat untuk project real-time kita? Simak artikel ini!
  4. Data Science 101 (Getting started in NLP): Tokenization tutorial
    Dalam tutorial ini anda akan mempelajari beberapa hal: membaca text ke dalam R, memilih baris yang diperlukan dari teks tersebut, melakukan tokenisasi menggunakan package tidytext, menghitung frekuensi token, menulis fungsi yang reusable untuk melakukan pekerjaan-pekerjaan tersebut, dan menghasilkan pekerjaan yang reproducible.
  5. Stream Processing with Apache Flink and DC/OS
    Artikel ini menjelaskan secara singkat mengenai cara menjalankan job streaming Apache Flink di atas Mesos menggunakan DC/OS.

Rilis Produk

  1. Announcing the release of Apache Samza 0.13.1
    Apache Samza mengumumkan versi 0.31.1. Rilis ini mencakup beberapa penyempurnaan dan perbaikan bug, dalam 29 tiket JIRA.
  2. Hortonworks extends IaaS offering on Azure with Cloudbreak
    Microsoft Azure mengumumkan service Hortonwork Cloudbreak untuk melakukan provisioning cluster HDP. Sebuah controller VM Cloudbreak dapat mengatur beberapa klaster serta mengkonfigurasi Kerberos dan Apache Knox secara otomatis untuk mengamankan klaster. Cloudbreak tersedia melalui Azure Marketplace.
  3. Announcing GA Release of CDAP 4.3 – Use Cases, Features and Capabilities
    Cask mengumumkan CDAP versi 4.3. Dalam rilis ini terdapat banyak fitur baru, yang mencakup fitur baru untuk persiapan data, integrasi ETL, Apache Ranger, dan dukungan Spark Dataframe.
  4. Introducing the MapR Orbit Cloud Suite
    MapR mengumumkan MapR Orbit Cloud Suite, yang menyediakan fungsionalitas cross-cloud (kombinasi public dan private cloud), object-tiering (yang dapat meng-offload data ke penyimpanan cloud object, dan manajemen native cloud (provisioning VM dalam AWS dan Microsoft Azure).
  5. Announcing Data Collector v2.7.1.0
    Dalam StreamSets versi 2.7.1.0 terdapat penambahkan dukungan baru untuk Microsoft Azure, selain perbaikan dan penyempurnaan lainnya.
  6. Apache MADlib v1.12 released
    Dalam rilis baru machine learning untuk SQL ini terdapat penambahkan sejumlah algoritma grafik, termasuk perbaikan pada decision tree dan implementasi random forest dan memiliki dukungan yang lebih baik untuk perhitungan akhir.
  7. Apache Atlas 0.8.1
    Tim Apache Atlas mengumumkan versi terbaru yaitu 0.8.1

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Aug 31 / 2017
  • Comments Off on Seputar Big Data Edisi #27
Big Data, Forum Info, Hadoop, Komunitas, Uncategorized

Seputar Big Data Edisi #27

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke 4 bulan Agustus 2017

Artikel dan berita

  1. Big data in financial services: 9 companies to watch
    Daftar beberapa perusahaan yang membawa Big Data ke sektor jasa keuangan dan bagaimana mereka mengubah lanskap menjadi pemikiran yang lebih maju dan lebih siap menghadapi masa depan keuangan.
  2. Big Data Analytics to Disrupt U.S. Next-generation Sequencing Informatics Market with Double-digit Growth
    Dalam laporan riset pasar Frost & Sullivan, "Transformation and Growth Opportunities in the US Next-generation Sequencing Informatics Market, Forecast to 2021," ditemukan bahwa pasar IT untuk NGS Amerika menghasilkan pendapatan sebesar $ 416 juta pada tahun 2016 dan diharapkan untuk mencatat tingkat pertumbuhan tahunan gabungan (CAGR) sebesar 19,0 persen sampai tahun 2021.
  3. Groupon is a massive data-driven experiment — this team helps run it
    Groupon telah melakukan tweak dan menguji setiap bagian platform e-commerce yang dimilikinya untuk mengetahui secara tepat apa yang membuat pelanggan melakukan sebuah klik. Namun demikian Groupon terus melakukan ujicoba untuk menambahkan fitur baru yang meningkatkan bisnis dan membuang fitur yang tidak sesuai.
  4. Report shows that AI is more important to IoT than big data insights
    Sebuah survey yang dilakukan menunjukkan bahwa sebagian besar perusahaan yang menerapkan IoT mengalami kesulitan karena besarnya biaya pemeliharaan. Apakah big data analysis tidak cukup sebagai solusinya? Bagaimana peran AI dalam hal ini?
  5. 6 Ways Big Data is enhancing the global supply chain
    Seiring dengan semakin kompleksnya sistem supply chain di seluruh dunia dan semakin besarnya tuntutan pelanggan, makin sengit pula persaingan dalam penyediaan aplikasi dan sistem yang dapat mengelola secara efektif dengan memanfaatkan bermilyar-milyar gigabyte data yang dihasilkan setiap harinya. Berikut ini 6 aspek di mana big data dapat mengubah dan mendukung supply chain secara global.
  6. Five Big Data solutions to manage chronic diseases
    Beberapa hal yang dapat dilakukan dengan menggunakan solusi Big Data untuk membantu mengelola dan melakukan perawatan ketika mengalami kondisi kronis suatu penyakit.

Tutorial dan Pengetahuan Teknis

  1. Apache Spark vs. MapReduce
    Spark mengklaim bahwa kemampuannya untuk "menjalankan program hingga 100x lebih cepat daripada Hadoop MapReduce di memori, atau 10x lebih cepat pada disk." Klaim ini didasarkan pada kemampuan Spark melakukan pemrosesan dalam memori dan mencegah operasi I/O yang tidak perlu ke dalam disk.
  2. Introducing KSQL: Open Source Streaming SQL for Apache Kafka
    KSQL merupakan SQL query engine open source yang memungkinkan untuk melakukan query secara interaktif pada Apache Kafka. Tidak lagi diperlukan untuk melakukan pemrograman menggunakan Java ataupun Phyton.
  3. Packages to simplify mapping in R
    Sharon Machlis telah membuat tutorial yang sangat berguna untuk membuat peta data geografis dengan menggunakan R. Ada beberapa paket dan API data terbaru yang dapat digunakan untuk mempermudah melakukan hal tersebut.
  4. Running Apache Spark Applications in Docker Containers
    Sekumpulan tips untuk membantu mempersiapkan klaster Spark dengan menggunakan Docker.

Rilis Produk

  1. Open sourcing DoctorKafka: Kafka cluster healing and workload balancing
    Pinterest mengopensourcekan aplikasi bernama DoctorKafka yang berfungsi untuk mempermudah operasional, optimasi dan memonitor sebuah klaster Kafka.
  2. Announcing Data Collector v2.7.0.0
    StreamSets Data Collector versi 2.7.0.0 telah dirilis. Dalam rilis ini mencakup konektor untuk Google Cloud, CDC untuk SQL Server, konektor ke JMS, integrasi dengan Cloudera Navigator untuk melakukan pelacakan silsilah, dan eksekutor pada Amazon S3.
  3. The Apache Kylin 2.1.0
    Apache Kylin versi 2.1.0, sebuah OLAP engine untuk Hadoop, dirilis. Rilis baru ini menambahkan dukungan untuk sumber data RDMBS, otorisasi queri pada tingkat proyek, dan lebih dari 100 perbaikan bug.
  4. Apache Knox 0.13.0
    Apache Knox 0.13.0 dirilis dan menyertakan sejumlah fitur baru, seperti integrasi dengan REST API Kafka, dukungan Spark Thriftserver UI, Apache Atlas Proxying, dan banyak perbaikan bug.Apache Knox 0.13.0 dirilis dan menyertakan sejumlah fitur baru, seperti integrasi dengan REST API Kafka, dukungan Spark Thriftserver UI, Apache Atlas Proxying, dan banyak perbaikan bug.
  5. Apache HBase 1.1.12
    Apache HBase 1.1.12 merupakan sebuah rilis perbaikan terhadap sekitar 10 bug.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Aug 28 / 2017
  • Comments Off on 5 Contoh Penerapan Big Data dalam Bidang Kesehatan
Big Data, Forum Info, Hadoop, Implementation, Uncategorized

5 Contoh Penerapan Big Data dalam Bidang Kesehatan

Institute for Health Technology Transformation, sebuah perusahaan riset dan konsultasi berbasis New York, memperkirakan bahwa pada tahun 2011 industri kesehatan AS menghasilkan data sebesar 150 miliar GB (150 Exabytes). Data ini sebagian besar dihasilkan dari berbagai hal, seperti persyaratan peraturan, pencatatan, hingga data-data perawatan pasien. Akibat dari hal tersebut, terjadi peningkatan data yang eksponensial yang mengakibatkan pengeluaran sebesar US$ 1,2 triliun untuk solusi data dalam industri kesehatan. McKinsey memproyeksikan penggunaan Big Data di bidang kesehatan dapat mengurangi biaya pengelolaan data sebesar US$ 300 miliar - US$ 500 miliar.

Meskipun sebagian besar data di sektor pelayanan kesehatan saat ini masih disimpan dalam bentuk cetak, namun kecenderungan menuju digitalisasi terjadi dengan cepat. Terlebih dengan munculnya banyak standar, peraturan dan insentif untuk digitalisasi data dan penggunaan bersama data dalam bidang kesehatan, serta penurunan biaya teknologi penyimpanan dan pengolahan data.

Artikel ini akan mengupas beberapa contoh penerapan teknologi Big Data dalam bidang kesehatan.

  1. Teknologi Hadoop untuk Pemantauan Kondisi Vital Pasien

    Beberapa rumah sakit di seluruh dunia telah menggunakan Hadoop untuk membantu stafnya bekerja secara efisien dengan Big Data. Tanpa Hadoop, sebagian besar sistem layanan kesehatan hampir tidak mungkin menganalisis data yang tidak terstruktur.

    5_contoh_penerapan_bigdata_dlmbid_kesehatan_img

    Children's Healthcare of Atlanta merawat lebih dari 6.200 anak di unit ICU mereka. Rata-rata durasi tinggal di ICU Pediatrik bervariasi dari satu bulan sampai satu tahun. Children's Healthcare of Atlanta menggunakan sensor di samping tempat tidur yang membantu mereka terus melacak kondisi vital pasien seperti tekanan darah, detak jantung dan pernafasan. Sensor ini menghasilkan data yang sangat besar, dan sistem yang lama tidak mampu untuk menyimpan data tersebut lebih dari 3 hari karena terkendala biaya storage. Padahal rumah sakit ini perlu menyimpan tanda-tanda vital tersebut untuk dianalisa. Jika ada perubahan pola, maka perlu ada alert untuk tim dokter dan asisten lain.

    Sistem tersebut berhasil diimplementasikan dengan menggunakan komponen ekosistem Hadoop : Hive, Flume, Sqoop, Spark, dan Impala.

    Setelah keberhasilan project tersebut, project berbasis Hadoop selanjutnya yang mereka lakukan adalah riset mengenai asma dengan menggunakan data kualitas udara selama 20 tahun dari EPA (Environment Protection Agency). Tujuannya: mengurangi kunjungan IGD dan rawat inap untuk kejadian terkait asma pada anak-anak.

  2. Valence health : peningkatan kualitas layanan dan reimbursements

    Valence health menggunakan Hadoop untuk membangun data lake yang merupakan penyimpanan utama data perusahaan. Valence memproses 3000 inbound data feed dengan 45 jenis data setiap harinya. Data kritikal ini meliputi hasil tes lab, data rekam medis, resep dokter, imunisasi, obat, klaim dan pembayaran, serta klaim dari dokter dan rumah sakit, yang digunakan untuk menginformasikan keputusan dalam peningkatan baik itu pendapatan ataupun reimbursement. Pertumbuhan jumlah klien yang pesat dan peningkatan volume data terkait semakin membebani infrastruktur yang ada.

    5_contoh_penerapan_bigdata_dlmbid_kesehatan_img

    Sebelum menggunakan big data, mereka membutuhkan waktu hingga 22 jam untuk memproses 20 juta records data hasil laboratorium. Penggunaan big data memangkas waktu siklus dari 22 jam menjadi 20 menit, dengan menggunakan hardware yang jauh lebih sedikit. Valence Health juga mampu menangani permintaan pelanggan yang sebelumnya sulit untuk diselesaikan. Misalnya jika seorang klien menelpon dan mengatakan bahwa ia telah mengirimkan file yang salah 3 bulan yang lalu, dan perlu untuk menghapus data tersebut. Sebelumnya dengan solusi database tradisional, mereka memerlukan 3 sampai 4 minggu. Dengan memanfaatkan MapR snapshot yang menyediakan point-in-time recovery, Valence dapat melakukan roll-back dan menghapus file tersebut dalam hitungan menit.

  3. Hadoop dalam Pengobatan Kanker dan Genomics

    Salah satu alasan terbesar mengapa kanker belum dapat dibasmi sampai sekarang adalah karena kanker bermutasi dalam pola yang berbeda dan bereaksi dengan cara yang berbeda berdasarkan susunan genetik seseorang. Oleh karena itu, para peneliti di bidang onkologi menyatakan bahwa untuk menyembuhkan kanker, pasien perlu diberi perawatan yang disesuaikan dengan jenis kanker berdasarkan genetika masing-masing pasien.

    Ada sekitar 3 miliar pasangan nukleotida yang membentuk DNA manusia, dan diperlukan sejumlah besar data untuk diorganisir secara efektif jika kita ingin melakukan analisis. Teknologi big data, khususnya Hadoop dan ekosistemnya memberikan dukungan yang besar untuk paralelisasi dan proses pemetaan DNA.

    David Cameron, Perdana Menteri Inggris telah mengumumkan dana pemerintah sebesar £ 300 juta pada bulan Agustus, 2014 untuk proyek 4 tahun dengan target memetakan 100.000 genom manusia pada akhir tahun 2017 bekerja sama dengan perusahaan Bioteknologi Amerika Illumina dan Genomics Inggris. Tujuan utama dari proyek ini adalah memanfaatkan big data dalam dunia kesehatan untuk mengembangkan personalized medicine bagi pasien kanker.

    Arizona State University mengadakan sebuah proyek penelitian yang meneliti jutaan titik di DNA manusia untuk menemukan variasi penyebab kanker sedang berlangsung. Proyek ini merupakan bagian dari Complex Adaptive Systems Initiative (CASI), yang mendorong penggunaan teknologi untuk menciptakan solusi bagi permasalahan dunia yang kompleks.

    Dengan menggunakan Apache Hadoop, tim peneliti universitas dapat memeriksa variasi dalam jutaan lokasi DNA untuk mengidentifikasi mekanisme kanker dan bagaimana jaringan berbagai gen mendorong kecenderungan dan efek kanker pada individu.

    "Proyek kami memfasilitasi penggunaan data genomik berskala besar, sebuah tantangan bagi semua institusi penelitian yang menangani pecision medicine," kata Jay Etchings, direktur komputasi riset ASU. Ekosistem Hadoop dan struktur data lake terkait menghindarkan setiap peneliti dan pengguna klinis untuk mengelola sendiri jejak data genomik yang besar dan kompleks.

  4. UnitedHealthcare: Fraud, Waste, and Abuse

    Saat ini setidaknya 10% dari pembayaran asuransi Kesehatan terkait dengan klaim palsu. Di seluruh dunia kasus ini diperkirakan mencapai nilai miliaran dolar. Klaim palsu bukanlah masalah baru, namun kompleksitas kecurangan asuransi tampaknya meningkat secara eksponensial sehingga menyulitkan perusahaan asuransi kesehatan untuk menghadapinya.

    UnitedHealthCare adalah sebuah perusahaan asuransi yang memberikan manfaat dan layanan kesehatan kepada hampir 51 juta orang. Perusahaan ini menjalin kerja sama dengan lebih dari 850.000 orang tenaga kesehatan dan sekitar 6.100 rumah sakit di seluruh negeri. Payment Integrity group/divisi integritas pembayaran mereka memiliki tugas untuk memastikan bahwa klaim dibayar dengan benar dan tepat waktu. Sebelumnya pendekatan mereka untuk mengelola lebih dari satu juta klaim per hari (sekitar 10 TB data tiap harinya) bersifat ad hoc, sangat terikat oleh aturan, serta terhambat oleh data yang terpisah-pisah. Solusi yang diambil oleh UnitedHealthCare adalah pendekatan dual mode, yang berfokus pada alokasi tabungan sekaligus menerapkan inovasi untuk terus memanfaatkan teknologi terbaru.

    Dalam hal pengelolaan tabungan, divisi tersebut membuat “pabrik” analisis prediktif di mana mereka mengidentifikasi klaim yang tidak akurat secara sistematis dan tepat. Saat ini Hadoop merupakan data framework berplatform tunggal yang dilengkapi dengan tools untuk menganalisa informasi dari klaim, resep, plan peserta, penyedia layanan kesehatan yang dikontrak, dan hasil review klaim terkait.

    Mereka mengintegrasikan semua data dari beberapa silo di seluruh bisnis, termasuk lebih dari 36 aset data. Saat ini mereka memiliki banyak model prediktif (PCR, True Fraud, Ayasdi, dll.) yang menyediakan peringkat provider yang berpotensi melakukan kecurangan, sehingga mereka dapat mengambil tindakan yang lebih terarah dan sistematis.

  5. Liaison Technologies: Streaming System of Record for Healthcare

    Liaison Technologies menyediakan solusi berbasis cloud untuk membantu organisasi dalam mengintegrasikan, mengelola, dan mengamankan data di seluruh perusahaan. Salah satu solusi vertikal yang mereka berikan adalah untuk industri kesehatan dan life science, yang harus menjawab dua tantangan : memenuhi persyaratan HIPAA dan mengatasi pertumbuhan format dan representasi data.

    Dengan MapR Stream, permasalahan data lineage dapat terpecahkan karena stream menjadi sebuah SOR (System of Record) dengan berfungsi sebagai log yang infinite dan immutable dari setiap perubahan data. Tantangan kedua, yaitu format dan representasi data, bisa digambarkan dengan contoh berikut: rekam medis pasien dapat dilihat dengan beberapa cara yang berbeda (dokumen, grafik, atau pencarian) oleh pengguna yang berbeda, seperti perusahaan farmasi, rumah sakit, klinik, atau dokter.

    Dengan melakukan streaming terhadap perubahan data secara real-time ke basis data, grafik, dan basis data MapR-DB, HBase, MapR-DB JSON, pengguna akan selalu mendapatkan data paling mutakhir dalam format yang paling sesuai.

Kesimpulan

Meningkatkan hasil pelayanan pada pasien dengan biaya yang sama atau bahkan lebih murah adalah tantangan bagi penyedia layanan kesehatan manapun, mengingat di Amerika keseluruhan biaya perawatan kesehatan meningkat sampai sekitar 15%. Transformasi digital adalah kunci untuk membuat mewujudkan tujuan ini. Digitalisasi, peningkatan komunikasi, dan big data analytics menjadi landasan untuk mendukung usaha transformasi tersebut.

Berbagai macam use-case untuk big data analytics sangat terkait dengan kemampuan Hadoop dan ekosistemnya dalam mengolah dan menyimpan data yang beraneka ragam, serta menyajikannya untuk analisa yang mendalam.

Dalam memilih platform big data khususnya distribusi Hadoop, salah satu hal yang penting untuk dipertimbangkan adalah kemampuan untuk menangani berbagai macam tipe data dari sumber data yang terpisah-pisah : data klinis dalam satu silo, data farmasi di silo yang lain, data logistik, dan lain sebagainya. Platform yang dipilih hendaknya cukup fleksibel sehingga tenaga kesehatan dapat menggunakan data yang kompleks seperti catatan dokter, hasil scan, dan lain sebagainya untuk mendukung analisis terhadap pasien, bukan hanya untuk pengarsipan saja.

Sumber :
https://dzone.com/articles/5-examples-of-big-data-in-healthcare
https://www.dezyre.com/article/5-healthcare-applications-of-hadoop-and-big-data/85
https://www.healthdatamanagement.com/news/arizona-state-using-big-data-in-hunt-for-cancer-cure

Contributor :


M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng. Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun. Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.


Vinka Palupi
pecinta astronomi yang sejak kecil bercita-cita menjadi astronaut, setelah dewasa baru sadar kalau tinggi badannya tidak akan pernah cukup untuk lulus seleksi astronaut.
  • Aug 21 / 2017
  • Comments Off on Seputar Big Data Edisi #26
Apache, Big Data, Forum Info, Hadoop, Uncategorized

Seputar Big Data Edisi #26

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan Agustus 2017

Artikel dan Berita

  1. Steering Big Data Projects in the Modern Enterprise
    Meskipun penerapan big data bukanlah hal mudah, namun semakin banyak perusahaan yang mengimplementasi atau mempertimbangkan big data sebagai competitive advantage mereka. Secara garis besar inisiasi implementasi big data dapat dibagi menjadi 3 tahap : assesment awal, perencanaan langkah strategis, dan penentuan sasaran yang spesifik dan dapat dijangkau. Artikel ini mengupas mengenai 5 tingkatan big data maturity model yang dapat dijadikan acuan dalam adopsi big data ke dalam proses bisnis.
  2. Merchant attrition is a big problem. Can big data help?
    Bagi penyedia layanan pembayaran seperti kartu kredit, salah satu permasalahan yang dihadapi adalah mundurnya merchant, atau disebut juga merchant attrition. Langkah untuk mengatasi hal ini tidak selalu mudah, karena tidak semua merchant menunjukkan tanda-tanda yang jelas. Oleh karena itu untuk dapat mendeteksi secara dini dan mengambil tindakan preventif, para acquirer menggunakan big data analytics.
  3. Intel, NERSC and University Partners Launch New Big Data Center
    Intel bekerja sama dengan Pusat Komputasi Ilmiah Riset Energi Nasional (NERSC) milik Departemen Energi Amerika Serikat, dan 5 Intel Parallel Computing Centers (IPCC), membuat sebuah Big Data Center. Pusat big data ini akan melakukan modernisasi kode sekaligus menangani tantangan-tantangan sains yang aplikatif.
  4. How Big Data Analytics Companies Support Value-Based Healthcare
    Layanan kesehatan merupakan salah satu bidang yang sangat penting, tidak terkecuali di Amerika Serikat. Pelayanan kesehatan berbasis fee-for-service yang saat ini digunakan dipandang tidak efektif dan tidak tepat sasaran, oleh karena itu banyak pihak mulai beralih ke layanan kesehatan berbasis nilai (value based healthcare atau VBH). Pada dasarnya VBH menganggap setiap episode konsultasi, pemeriksaan lab, rawat inap, dan prosedur lain sebagai satu kesatuan. Untuk itu perlu integrasi dari berbagai sumber data dan mungkin organisasi yang saat ini masih banyak terpisah-pisah. Salah satu solusi yang dapat mengatasi kebutuhan tersebut adalah big data analytics.
  5. Toyota, Intel and others form big data group for automotive tech
    Sebuah konsorsium yang terdiri dari beberapa nama besar seperti Denso, Ericsson, Intel and NTT Docomo, bekerja sama dengan Toyota mengembangkan sistem Big Data untuk mendukung program mobil yang mampu berjalan sendiri (sefl-driving car) dan teknologi otomotif masa depan lainnya.

Tutorial dan Pengetahuan Teknis

  1. Cassandra to Kafka Data Pipeline (Part 1)
    Artikel ini menunjukkan dengan cukup jelas langkah demi langkah pembuatan sistem dengan Cassandra cluster dan Kafka sebagai event source tanpa downtime.
  2. DeepMind papers at ICML 2017 (part one)
    Beberapa paper mengenai DeepMind yang disampaikan pada ICML 2017, diantaranya mengenai decoupling antarmuka dalam neural netwok menggunakan synthetic gradient, reinforcement learning menggunakan minimax regret bounds, dan lain sebagainya.
  3. New R Course: Spatial Statistics in R
    Salah satu bidang yang banyak digunakan dalam berbagai aplikasi saat ini, terutama yang berkaitan dengan IoT dan berbagai aplikasi berbasis lokasi adalah statistik spasial. Topik “Spatial Statistics in R” merupakan course terbaru yang diluncurkan oleh Datacamp, sebuah platform online learning.
  4. Update Hive Tables the Easy Way
    Pada awalnya memastikan kemutakhiran data dalam Apache Hive membutuhkan pembuatn aplikasi custom yang kompleks, tidak efisien dan sulit di-maintain. Blog ini menunjukkan bagaimana mengatasi permasalahan data manajemen yang umumnya dihadapi, seperti misalnya sinkronisasi data Hive dengan sumber data di RDBMS, update partisi dalam Hive, dan masking atau purging data secara selektif di Hive.
  5. Implementing Temporal Graphs with Apache TinkerPop and HGraphDB
    Big Data bagi sebagian besar orang dibayangkan sebagai data-data yang tidak terstruktur. Walaupun demikian, selalu ada data-data terstruktur dan memiliki relasi diantaranya (relational data). Berdasarkan relasi keterkaikan antar data tersebut, dibutuhkan satu atau lebih skema untuk menangani jenis data tersebut. Pola umum yang sering terlihat adalah sebuah hirarki atau representasi hubungan antar data.
  6. An Introduction to Apache Flink
    Salah satu platform pemrosesan big data streaming yang paling banyak digunakan saat ini adalah Apache Flink. Artikel ini merupakan bagian pertama dari serangkain artikel yang menjelaskan dasar-dasar implementasi Apache Flink.

Rilis Produk

  1. Apache Hadoop 2.7.4 Release
    Rilis Apache Hadoop 2.7.4, yang merupakan penerus dari seri Hadoop 2.7.3, mencakup 264 perbaikan baik perbaikan bugs yang bersifat kritis, maupun optimasi.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
Tertarik dengan Big Data beserta ekosistemnya? Gabung