:::: MENU ::::

Posts Categorized / Uncategorized

  • Oct 18 / 2017
  • Comments Off on Seputar Big Data Edisi #34
Big Data, Hadoop, Implementation, Storage, Uncategorized

Seputar Big Data Edisi #34

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama terakhir bulan Januari 2017 dan awal Februari 2017

Artikel dan Berita

  1. Big Data Is the New Push for Bank Indonesia
    Seperti halnya bank central di negara lain seperti Rusia, China, Inggris dan lainnya, Bank Indonesia beralih menggunakan mesin atau yang sering disebut dengan istilah Big Data, untuk membantu membuat kebijakan menjadi lebih efektif.
  2. Why Blockchain-as-a-Service Should Replace Servers and the Cloud
    Blockchain dan Big Data sangat mirip dalam hal penggunaan: ini semua tentang bagaimana kita menggunakannya. Sama seperti istilah Force dalam film Star Wars, blockchain dan big data adalah alat yang bisa digunakan untuk hal buruk atau hal baik.
  3. How Big Data is Helping Predict Heart Disease
    Penyakit jantung merupaka salah satu penyebab utama kematian di Amerika Serikat. Satu dari 4 orang yang meninggal dunia disebabkan oleh penyakit jantung. Berkat Big Data, para dokter dan ilmuwan telah membuat kemajuan dalam penelitian mengenai prediksi serangan jantung dan pengobatan yang efektif
  4. Saving Snow Leopards with Artificial Intelligence
    Microsoft Azure Machine Learning bekerja sama Snow Leopard Trust, membangun sistem klasifikasi otomatis menggunakan Convolutional Neural Network (CNN) untuk mengklasifikasi gambar yang tertangkap kamera.

Tutorial dan Pengetahuan Teknis

  1. Random Forests(r), Explained
    Random Forest, salah satu metode ensemble paling populer yang digunakan pada implementasi Machine Learning saat ini. Postingan berikut merupakan pengantar algoritma semacam itu dan memberikan gambaran singkat cara kerjanya.
  2. Data Visualization Using Apache Zeppelin
    Apache Zeppelin merupakan sebuah platform open-source untuk analisa data dan visualisasi data. Aplikasi ini yang dapat membantu untuk mendapatkan insight untuk memperbaiki dan meningkatkan performa dalam pengambilan keputusan.
  3. Anomaly Detection With Kafka Streams
    Postingan berikut merupakan studi kasus untuk melakukan deteksi anomali menggunakan Streaming Kafka. Dengan contoh kasus pada situs pembayaran pinjaman, yang akan mengirimkan notifikasi peringatan jika terjadi pembayaran yang terlalu tinggi.
  4. Top 30 big data tools for data analysis
    Saat ini banyak sekali tool Big Data yang digunakan untuk menganalisa data baik yang open-source, gratis maupun berbayar. Analisa data disini adalah proses untuk pemeriksaan, pembersihan, transformasi, dan pemodelan data dengan tujuan untuk menemukan informasi yang berguna, membantu memberikan kesimpulan, dan mendukung pengambilan keputusan.
  5. Kafka Racing: Know the Circuit
    Berikut merupakan postingan pertama dalam rangkaian blog yang didedikasikan untuk Apache Kafka dan penggunaannya untuk memecahkan masalah di domain data yang besar.
  6. Getting Started With Batch Processing Using Apache Flink
    Apache Flink adalah alat pengolah data generasi baru yang dapat memproses kumpulan data yang terbatas (ini disebut juga batch processing) atau aliran data yang berpotensi tak terbatas (stream processing).

Rilis Produk

  1. Apache Phoenix 4.12 released
    Apache Phoenix merilis versi 4.12.0, yang di antaranya mencakup : peningkatan skalabilitas dan reliabilitas untuk global mutable secondary index, support untuk table sampling, stabilisasi unit test run, perbaikan terhadap lebih dari 100 issue.
  2. Apache Solr™ 7.1.0 available
    The Lucene PMC dengan bangga mengumumkan perilisan Apache Solr 7.1.0 yang mencakup banyak fitur baru lainnya serta banyak optimasi dan perbaikan bug.
  3. Apache Rya 3.2.11-incubating released
    Ini adalah rilis Apache Rya yang kedua, versi 3.2.11.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Oct 02 / 2017
  • Comments Off on Seputar Big Data Edisi #31
Apache, Big Data, Implementation, Uncategorized

Seputar Big Data Edisi #31

close-up-telephone-booth-pexels

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ketiga bulan September 2017

Artikel dan Berita

  1. Japan to certify big-data providers to drive innovation
    Pemerintah Jepang mengumumkan rencana untuk melakukan sertifikasi terhadap perusahaan yang mengumpulkan data dari berbagai sumber dan menyediakannya sebagai services. Sertifikasi akan berlaku untuk 5 tahun, dan perusahaan-perusahaan yang disebut sebagai big data banks ini akan mendapatkan keringanan pajak.
  2. Big Data – what’s the big deal for Procurement?
    Apa tantangan yang dihadapi oleh bagian procurement saat ini, dan bagaimana peran big data dalam mengatasinya?
  3. The Amazing Ways Burberry Is Using Artificial Intelligence And Big Data To Drive Success
    Sejak 2006, Burberry, perusahaan mode terkemuka asal Inggris, memutuskan untuk menjadi sebuah perusahaan digital “end to end”. Strategi yang mereka ambil adalah dengan menggunakan big data dan AI untuk mendongkrak penjualan dan kepuasan pelanggan.
  4. Can big data give medical affairs an edge in strategic planning?
    Salah satu bagian penting dari industri farmasi adalah medical affairs, yaitu team yang bertugas memberikan support terhadap aktivitas setelah sebuah obat disetujui dan diedarkan, baik terhadap pihak internal maupun eksternal (customer). Dengan semakin besarnya keterlibatan publik terhadap pengawasan dan penggunaan obat, maka peran medical affair menjadi semakin penting. Ketersediaan data yang melimpah menjadi sebuah tantangan dan peluang tersendiri. Bagaimana big data dapat membantu team medical affair dalam membuat perencanaan strategis?
  5. Spark and S3 storage carry forward NBC big data initiative
    NBC membuat inisiatif big data, dengan menggunakan Amazon S3 dan Spark. Keduanya dipakai untuk menggantikan HDFS dan MapReduce. Jeffrey Pinard, vice president data technology dan engineering di NBC, menjelaskan alasan di balik strategi tersebut.

Tutorial dan Pengetahuan Teknis

  1. Tensorflow Tutorial : Part 2 – Getting Started
    Melanjutkan bagian 1 pekan lalu, tutorial Tensorflow bagian 2 ini menjelaskan mengenai instalasi Tensorflow dan sebuah contoh use case sederhana.
  2. 30 Essential Data Science, Machine Learning & Deep Learning Cheat Sheets
    Sekumpulan ‘cheat sheet atau referensi singkat yang sangat bermanfaat mengenai data science, machine learning dan deep learning, dalam python, R dan SQL.
  3. A Solution to Missing Data: Imputation Using R
    Salah satu permasalahan dalam pemanfaatan data untuk machine learning maupun analisis adalah missing data. Data yang tidak lengkap dapat mengacaukan model, sedangkan penanganan missing data terutama untuk data yang besar adalah sebuah momok tersendiri bagi data analis. Artikel ini mengulas mengenai permasalahan ini dan bagaimana mengatasinya dengan menggunakan R.
  4. Apache Flink vs. Apache Spark
    Apache flink dan Apache Spark termasuk framework yang paling banyak diminati dan diadopsi saat ini. Apa perbedaan di antara keduanya, dan apa kelebihan dan kekurangan masing-masing?
  5. Featurizing images: the shallow end of deep learning
    Melakukan training terhadap model deep learning dari nol memerlukan data set dan sumber daya komputasi yang yang besar. Dengan memanfaatkan model yang sudah ditraining (pre-trained) memudahkan kita dalam membangun classifier menggunakan pendekatan standar mashine learning.
    Artikel ini menyajikan sebuah contoh kasus pemanfaatan pre-trained deep learning image classifier dari Microsoft R server 9.1 untuk menghasilkan fitur yang akan digunakan dengan pendekatan machine learning untuk menyelesaikan permasalahan yang belum pernah dilatihkan ke dalam model sebelumnya.
    Pendekatan ini memudahkan pembuatan custom classifier untuk tujuan spesifik dengan menggunakan training set yang relatif kecil.

Rilis Produk

  1. Apache Solr 7.0.0 released
    Apache Solr, platform pencarian noSQL yang populer, merilis versi 7.0.0 minggu ini. Rilis 7 ini mencakup 40 upgrade dari solr 6, 51 fitur baru, 56 bug fixes dan puluhan perubahan lainnya.
  2. Apache Arrow 0.7.0
    Mencakup 133 JIRA, fitur-fitur baru dan bug fixes untuk berbagai bahasa pemrograman.
  3. Apache PredictionIO 0.12.0-incubating Release
    Apache PredictionIO, sebuah server machine learning open source yang dibangun di atas open source stack, merilis versi 0.12.0.
  4. R 3.4.2 Released
    Rilis ini mencakup perbaikan terhadap minor bugs dan peningkatan performance. Seperti rilis minor sebelumnya, rilis ini kompatibel dengan rilis sebelumnya dalam seri R 3.4.x.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Aug 31 / 2017
  • Comments Off on Seputar Big Data Edisi #27
Big Data, Forum Info, Hadoop, Komunitas, Uncategorized

Seputar Big Data Edisi #27

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke 4 bulan Agustus 2017

Artikel dan berita

  1. Big data in financial services: 9 companies to watch
    Daftar beberapa perusahaan yang membawa Big Data ke sektor jasa keuangan dan bagaimana mereka mengubah lanskap menjadi pemikiran yang lebih maju dan lebih siap menghadapi masa depan keuangan.
  2. Big Data Analytics to Disrupt U.S. Next-generation Sequencing Informatics Market with Double-digit Growth
    Dalam laporan riset pasar Frost & Sullivan, "Transformation and Growth Opportunities in the US Next-generation Sequencing Informatics Market, Forecast to 2021," ditemukan bahwa pasar IT untuk NGS Amerika menghasilkan pendapatan sebesar $ 416 juta pada tahun 2016 dan diharapkan untuk mencatat tingkat pertumbuhan tahunan gabungan (CAGR) sebesar 19,0 persen sampai tahun 2021.
  3. Groupon is a massive data-driven experiment — this team helps run it
    Groupon telah melakukan tweak dan menguji setiap bagian platform e-commerce yang dimilikinya untuk mengetahui secara tepat apa yang membuat pelanggan melakukan sebuah klik. Namun demikian Groupon terus melakukan ujicoba untuk menambahkan fitur baru yang meningkatkan bisnis dan membuang fitur yang tidak sesuai.
  4. Report shows that AI is more important to IoT than big data insights
    Sebuah survey yang dilakukan menunjukkan bahwa sebagian besar perusahaan yang menerapkan IoT mengalami kesulitan karena besarnya biaya pemeliharaan. Apakah big data analysis tidak cukup sebagai solusinya? Bagaimana peran AI dalam hal ini?
  5. 6 Ways Big Data is enhancing the global supply chain
    Seiring dengan semakin kompleksnya sistem supply chain di seluruh dunia dan semakin besarnya tuntutan pelanggan, makin sengit pula persaingan dalam penyediaan aplikasi dan sistem yang dapat mengelola secara efektif dengan memanfaatkan bermilyar-milyar gigabyte data yang dihasilkan setiap harinya. Berikut ini 6 aspek di mana big data dapat mengubah dan mendukung supply chain secara global.
  6. Five Big Data solutions to manage chronic diseases
    Beberapa hal yang dapat dilakukan dengan menggunakan solusi Big Data untuk membantu mengelola dan melakukan perawatan ketika mengalami kondisi kronis suatu penyakit.

Tutorial dan Pengetahuan Teknis

  1. Apache Spark vs. MapReduce
    Spark mengklaim bahwa kemampuannya untuk "menjalankan program hingga 100x lebih cepat daripada Hadoop MapReduce di memori, atau 10x lebih cepat pada disk." Klaim ini didasarkan pada kemampuan Spark melakukan pemrosesan dalam memori dan mencegah operasi I/O yang tidak perlu ke dalam disk.
  2. Introducing KSQL: Open Source Streaming SQL for Apache Kafka
    KSQL merupakan SQL query engine open source yang memungkinkan untuk melakukan query secara interaktif pada Apache Kafka. Tidak lagi diperlukan untuk melakukan pemrograman menggunakan Java ataupun Phyton.
  3. Packages to simplify mapping in R
    Sharon Machlis telah membuat tutorial yang sangat berguna untuk membuat peta data geografis dengan menggunakan R. Ada beberapa paket dan API data terbaru yang dapat digunakan untuk mempermudah melakukan hal tersebut.
  4. Running Apache Spark Applications in Docker Containers
    Sekumpulan tips untuk membantu mempersiapkan klaster Spark dengan menggunakan Docker.

Rilis Produk

  1. Open sourcing DoctorKafka: Kafka cluster healing and workload balancing
    Pinterest mengopensourcekan aplikasi bernama DoctorKafka yang berfungsi untuk mempermudah operasional, optimasi dan memonitor sebuah klaster Kafka.
  2. Announcing Data Collector v2.7.0.0
    StreamSets Data Collector versi 2.7.0.0 telah dirilis. Dalam rilis ini mencakup konektor untuk Google Cloud, CDC untuk SQL Server, konektor ke JMS, integrasi dengan Cloudera Navigator untuk melakukan pelacakan silsilah, dan eksekutor pada Amazon S3.
  3. The Apache Kylin 2.1.0
    Apache Kylin versi 2.1.0, sebuah OLAP engine untuk Hadoop, dirilis. Rilis baru ini menambahkan dukungan untuk sumber data RDMBS, otorisasi queri pada tingkat proyek, dan lebih dari 100 perbaikan bug.
  4. Apache Knox 0.13.0
    Apache Knox 0.13.0 dirilis dan menyertakan sejumlah fitur baru, seperti integrasi dengan REST API Kafka, dukungan Spark Thriftserver UI, Apache Atlas Proxying, dan banyak perbaikan bug.Apache Knox 0.13.0 dirilis dan menyertakan sejumlah fitur baru, seperti integrasi dengan REST API Kafka, dukungan Spark Thriftserver UI, Apache Atlas Proxying, dan banyak perbaikan bug.
  5. Apache HBase 1.1.12
    Apache HBase 1.1.12 merupakan sebuah rilis perbaikan terhadap sekitar 10 bug.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Aug 28 / 2017
  • Comments Off on 5 Contoh Penerapan Big Data dalam Bidang Kesehatan
Big Data, Forum Info, Hadoop, Implementation, Uncategorized

5 Contoh Penerapan Big Data dalam Bidang Kesehatan

Institute for Health Technology Transformation, sebuah perusahaan riset dan konsultasi berbasis New York, memperkirakan bahwa pada tahun 2011 industri kesehatan AS menghasilkan data sebesar 150 miliar GB (150 Exabytes). Data ini sebagian besar dihasilkan dari berbagai hal, seperti persyaratan peraturan, pencatatan, hingga data-data perawatan pasien. Akibat dari hal tersebut, terjadi peningkatan data yang eksponensial yang mengakibatkan pengeluaran sebesar US$ 1,2 triliun untuk solusi data dalam industri kesehatan. McKinsey memproyeksikan penggunaan Big Data di bidang kesehatan dapat mengurangi biaya pengelolaan data sebesar US$ 300 miliar - US$ 500 miliar.

Meskipun sebagian besar data di sektor pelayanan kesehatan saat ini masih disimpan dalam bentuk cetak, namun kecenderungan menuju digitalisasi terjadi dengan cepat. Terlebih dengan munculnya banyak standar, peraturan dan insentif untuk digitalisasi data dan penggunaan bersama data dalam bidang kesehatan, serta penurunan biaya teknologi penyimpanan dan pengolahan data.

Artikel ini akan mengupas beberapa contoh penerapan teknologi Big Data dalam bidang kesehatan.

  1. Teknologi Hadoop untuk Pemantauan Kondisi Vital Pasien

    Beberapa rumah sakit di seluruh dunia telah menggunakan Hadoop untuk membantu stafnya bekerja secara efisien dengan Big Data. Tanpa Hadoop, sebagian besar sistem layanan kesehatan hampir tidak mungkin menganalisis data yang tidak terstruktur.

    5_contoh_penerapan_bigdata_dlmbid_kesehatan_img

    Children's Healthcare of Atlanta merawat lebih dari 6.200 anak di unit ICU mereka. Rata-rata durasi tinggal di ICU Pediatrik bervariasi dari satu bulan sampai satu tahun. Children's Healthcare of Atlanta menggunakan sensor di samping tempat tidur yang membantu mereka terus melacak kondisi vital pasien seperti tekanan darah, detak jantung dan pernafasan. Sensor ini menghasilkan data yang sangat besar, dan sistem yang lama tidak mampu untuk menyimpan data tersebut lebih dari 3 hari karena terkendala biaya storage. Padahal rumah sakit ini perlu menyimpan tanda-tanda vital tersebut untuk dianalisa. Jika ada perubahan pola, maka perlu ada alert untuk tim dokter dan asisten lain.

    Sistem tersebut berhasil diimplementasikan dengan menggunakan komponen ekosistem Hadoop : Hive, Flume, Sqoop, Spark, dan Impala.

    Setelah keberhasilan project tersebut, project berbasis Hadoop selanjutnya yang mereka lakukan adalah riset mengenai asma dengan menggunakan data kualitas udara selama 20 tahun dari EPA (Environment Protection Agency). Tujuannya: mengurangi kunjungan IGD dan rawat inap untuk kejadian terkait asma pada anak-anak.

  2. Valence health : peningkatan kualitas layanan dan reimbursements

    Valence health menggunakan Hadoop untuk membangun data lake yang merupakan penyimpanan utama data perusahaan. Valence memproses 3000 inbound data feed dengan 45 jenis data setiap harinya. Data kritikal ini meliputi hasil tes lab, data rekam medis, resep dokter, imunisasi, obat, klaim dan pembayaran, serta klaim dari dokter dan rumah sakit, yang digunakan untuk menginformasikan keputusan dalam peningkatan baik itu pendapatan ataupun reimbursement. Pertumbuhan jumlah klien yang pesat dan peningkatan volume data terkait semakin membebani infrastruktur yang ada.

    5_contoh_penerapan_bigdata_dlmbid_kesehatan_img

    Sebelum menggunakan big data, mereka membutuhkan waktu hingga 22 jam untuk memproses 20 juta records data hasil laboratorium. Penggunaan big data memangkas waktu siklus dari 22 jam menjadi 20 menit, dengan menggunakan hardware yang jauh lebih sedikit. Valence Health juga mampu menangani permintaan pelanggan yang sebelumnya sulit untuk diselesaikan. Misalnya jika seorang klien menelpon dan mengatakan bahwa ia telah mengirimkan file yang salah 3 bulan yang lalu, dan perlu untuk menghapus data tersebut. Sebelumnya dengan solusi database tradisional, mereka memerlukan 3 sampai 4 minggu. Dengan memanfaatkan MapR snapshot yang menyediakan point-in-time recovery, Valence dapat melakukan roll-back dan menghapus file tersebut dalam hitungan menit.

  3. Hadoop dalam Pengobatan Kanker dan Genomics

    Salah satu alasan terbesar mengapa kanker belum dapat dibasmi sampai sekarang adalah karena kanker bermutasi dalam pola yang berbeda dan bereaksi dengan cara yang berbeda berdasarkan susunan genetik seseorang. Oleh karena itu, para peneliti di bidang onkologi menyatakan bahwa untuk menyembuhkan kanker, pasien perlu diberi perawatan yang disesuaikan dengan jenis kanker berdasarkan genetika masing-masing pasien.

    Ada sekitar 3 miliar pasangan nukleotida yang membentuk DNA manusia, dan diperlukan sejumlah besar data untuk diorganisir secara efektif jika kita ingin melakukan analisis. Teknologi big data, khususnya Hadoop dan ekosistemnya memberikan dukungan yang besar untuk paralelisasi dan proses pemetaan DNA.

    David Cameron, Perdana Menteri Inggris telah mengumumkan dana pemerintah sebesar £ 300 juta pada bulan Agustus, 2014 untuk proyek 4 tahun dengan target memetakan 100.000 genom manusia pada akhir tahun 2017 bekerja sama dengan perusahaan Bioteknologi Amerika Illumina dan Genomics Inggris. Tujuan utama dari proyek ini adalah memanfaatkan big data dalam dunia kesehatan untuk mengembangkan personalized medicine bagi pasien kanker.

    Arizona State University mengadakan sebuah proyek penelitian yang meneliti jutaan titik di DNA manusia untuk menemukan variasi penyebab kanker sedang berlangsung. Proyek ini merupakan bagian dari Complex Adaptive Systems Initiative (CASI), yang mendorong penggunaan teknologi untuk menciptakan solusi bagi permasalahan dunia yang kompleks.

    Dengan menggunakan Apache Hadoop, tim peneliti universitas dapat memeriksa variasi dalam jutaan lokasi DNA untuk mengidentifikasi mekanisme kanker dan bagaimana jaringan berbagai gen mendorong kecenderungan dan efek kanker pada individu.

    "Proyek kami memfasilitasi penggunaan data genomik berskala besar, sebuah tantangan bagi semua institusi penelitian yang menangani pecision medicine," kata Jay Etchings, direktur komputasi riset ASU. Ekosistem Hadoop dan struktur data lake terkait menghindarkan setiap peneliti dan pengguna klinis untuk mengelola sendiri jejak data genomik yang besar dan kompleks.

  4. UnitedHealthcare: Fraud, Waste, and Abuse

    Saat ini setidaknya 10% dari pembayaran asuransi Kesehatan terkait dengan klaim palsu. Di seluruh dunia kasus ini diperkirakan mencapai nilai miliaran dolar. Klaim palsu bukanlah masalah baru, namun kompleksitas kecurangan asuransi tampaknya meningkat secara eksponensial sehingga menyulitkan perusahaan asuransi kesehatan untuk menghadapinya.

    UnitedHealthCare adalah sebuah perusahaan asuransi yang memberikan manfaat dan layanan kesehatan kepada hampir 51 juta orang. Perusahaan ini menjalin kerja sama dengan lebih dari 850.000 orang tenaga kesehatan dan sekitar 6.100 rumah sakit di seluruh negeri. Payment Integrity group/divisi integritas pembayaran mereka memiliki tugas untuk memastikan bahwa klaim dibayar dengan benar dan tepat waktu. Sebelumnya pendekatan mereka untuk mengelola lebih dari satu juta klaim per hari (sekitar 10 TB data tiap harinya) bersifat ad hoc, sangat terikat oleh aturan, serta terhambat oleh data yang terpisah-pisah. Solusi yang diambil oleh UnitedHealthCare adalah pendekatan dual mode, yang berfokus pada alokasi tabungan sekaligus menerapkan inovasi untuk terus memanfaatkan teknologi terbaru.

    Dalam hal pengelolaan tabungan, divisi tersebut membuat “pabrik” analisis prediktif di mana mereka mengidentifikasi klaim yang tidak akurat secara sistematis dan tepat. Saat ini Hadoop merupakan data framework berplatform tunggal yang dilengkapi dengan tools untuk menganalisa informasi dari klaim, resep, plan peserta, penyedia layanan kesehatan yang dikontrak, dan hasil review klaim terkait.

    Mereka mengintegrasikan semua data dari beberapa silo di seluruh bisnis, termasuk lebih dari 36 aset data. Saat ini mereka memiliki banyak model prediktif (PCR, True Fraud, Ayasdi, dll.) yang menyediakan peringkat provider yang berpotensi melakukan kecurangan, sehingga mereka dapat mengambil tindakan yang lebih terarah dan sistematis.

  5. Liaison Technologies: Streaming System of Record for Healthcare

    Liaison Technologies menyediakan solusi berbasis cloud untuk membantu organisasi dalam mengintegrasikan, mengelola, dan mengamankan data di seluruh perusahaan. Salah satu solusi vertikal yang mereka berikan adalah untuk industri kesehatan dan life science, yang harus menjawab dua tantangan : memenuhi persyaratan HIPAA dan mengatasi pertumbuhan format dan representasi data.

    Dengan MapR Stream, permasalahan data lineage dapat terpecahkan karena stream menjadi sebuah SOR (System of Record) dengan berfungsi sebagai log yang infinite dan immutable dari setiap perubahan data. Tantangan kedua, yaitu format dan representasi data, bisa digambarkan dengan contoh berikut: rekam medis pasien dapat dilihat dengan beberapa cara yang berbeda (dokumen, grafik, atau pencarian) oleh pengguna yang berbeda, seperti perusahaan farmasi, rumah sakit, klinik, atau dokter.

    Dengan melakukan streaming terhadap perubahan data secara real-time ke basis data, grafik, dan basis data MapR-DB, HBase, MapR-DB JSON, pengguna akan selalu mendapatkan data paling mutakhir dalam format yang paling sesuai.

Kesimpulan

Meningkatkan hasil pelayanan pada pasien dengan biaya yang sama atau bahkan lebih murah adalah tantangan bagi penyedia layanan kesehatan manapun, mengingat di Amerika keseluruhan biaya perawatan kesehatan meningkat sampai sekitar 15%. Transformasi digital adalah kunci untuk membuat mewujudkan tujuan ini. Digitalisasi, peningkatan komunikasi, dan big data analytics menjadi landasan untuk mendukung usaha transformasi tersebut.

Berbagai macam use-case untuk big data analytics sangat terkait dengan kemampuan Hadoop dan ekosistemnya dalam mengolah dan menyimpan data yang beraneka ragam, serta menyajikannya untuk analisa yang mendalam.

Dalam memilih platform big data khususnya distribusi Hadoop, salah satu hal yang penting untuk dipertimbangkan adalah kemampuan untuk menangani berbagai macam tipe data dari sumber data yang terpisah-pisah : data klinis dalam satu silo, data farmasi di silo yang lain, data logistik, dan lain sebagainya. Platform yang dipilih hendaknya cukup fleksibel sehingga tenaga kesehatan dapat menggunakan data yang kompleks seperti catatan dokter, hasil scan, dan lain sebagainya untuk mendukung analisis terhadap pasien, bukan hanya untuk pengarsipan saja.

Sumber :
https://dzone.com/articles/5-examples-of-big-data-in-healthcare
https://www.dezyre.com/article/5-healthcare-applications-of-hadoop-and-big-data/85
https://www.healthdatamanagement.com/news/arizona-state-using-big-data-in-hunt-for-cancer-cure

Contributor :


M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng. Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun. Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.


Vinka Palupi
pecinta astronomi yang sejak kecil bercita-cita menjadi astronaut, setelah dewasa baru sadar kalau tinggi badannya tidak akan pernah cukup untuk lulus seleksi astronaut.
  • Aug 21 / 2017
  • Comments Off on Seputar Big Data Edisi #26
Apache, Big Data, Forum Info, Hadoop, Uncategorized

Seputar Big Data Edisi #26

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan Agustus 2017

Artikel dan Berita

  1. Steering Big Data Projects in the Modern Enterprise
    Meskipun penerapan big data bukanlah hal mudah, namun semakin banyak perusahaan yang mengimplementasi atau mempertimbangkan big data sebagai competitive advantage mereka. Secara garis besar inisiasi implementasi big data dapat dibagi menjadi 3 tahap : assesment awal, perencanaan langkah strategis, dan penentuan sasaran yang spesifik dan dapat dijangkau. Artikel ini mengupas mengenai 5 tingkatan big data maturity model yang dapat dijadikan acuan dalam adopsi big data ke dalam proses bisnis.
  2. Merchant attrition is a big problem. Can big data help?
    Bagi penyedia layanan pembayaran seperti kartu kredit, salah satu permasalahan yang dihadapi adalah mundurnya merchant, atau disebut juga merchant attrition. Langkah untuk mengatasi hal ini tidak selalu mudah, karena tidak semua merchant menunjukkan tanda-tanda yang jelas. Oleh karena itu untuk dapat mendeteksi secara dini dan mengambil tindakan preventif, para acquirer menggunakan big data analytics.
  3. Intel, NERSC and University Partners Launch New Big Data Center
    Intel bekerja sama dengan Pusat Komputasi Ilmiah Riset Energi Nasional (NERSC) milik Departemen Energi Amerika Serikat, dan 5 Intel Parallel Computing Centers (IPCC), membuat sebuah Big Data Center. Pusat big data ini akan melakukan modernisasi kode sekaligus menangani tantangan-tantangan sains yang aplikatif.
  4. How Big Data Analytics Companies Support Value-Based Healthcare
    Layanan kesehatan merupakan salah satu bidang yang sangat penting, tidak terkecuali di Amerika Serikat. Pelayanan kesehatan berbasis fee-for-service yang saat ini digunakan dipandang tidak efektif dan tidak tepat sasaran, oleh karena itu banyak pihak mulai beralih ke layanan kesehatan berbasis nilai (value based healthcare atau VBH). Pada dasarnya VBH menganggap setiap episode konsultasi, pemeriksaan lab, rawat inap, dan prosedur lain sebagai satu kesatuan. Untuk itu perlu integrasi dari berbagai sumber data dan mungkin organisasi yang saat ini masih banyak terpisah-pisah. Salah satu solusi yang dapat mengatasi kebutuhan tersebut adalah big data analytics.
  5. Toyota, Intel and others form big data group for automotive tech
    Sebuah konsorsium yang terdiri dari beberapa nama besar seperti Denso, Ericsson, Intel and NTT Docomo, bekerja sama dengan Toyota mengembangkan sistem Big Data untuk mendukung program mobil yang mampu berjalan sendiri (sefl-driving car) dan teknologi otomotif masa depan lainnya.

Tutorial dan Pengetahuan Teknis

  1. Cassandra to Kafka Data Pipeline (Part 1)
    Artikel ini menunjukkan dengan cukup jelas langkah demi langkah pembuatan sistem dengan Cassandra cluster dan Kafka sebagai event source tanpa downtime.
  2. DeepMind papers at ICML 2017 (part one)
    Beberapa paper mengenai DeepMind yang disampaikan pada ICML 2017, diantaranya mengenai decoupling antarmuka dalam neural netwok menggunakan synthetic gradient, reinforcement learning menggunakan minimax regret bounds, dan lain sebagainya.
  3. New R Course: Spatial Statistics in R
    Salah satu bidang yang banyak digunakan dalam berbagai aplikasi saat ini, terutama yang berkaitan dengan IoT dan berbagai aplikasi berbasis lokasi adalah statistik spasial. Topik “Spatial Statistics in R” merupakan course terbaru yang diluncurkan oleh Datacamp, sebuah platform online learning.
  4. Update Hive Tables the Easy Way
    Pada awalnya memastikan kemutakhiran data dalam Apache Hive membutuhkan pembuatn aplikasi custom yang kompleks, tidak efisien dan sulit di-maintain. Blog ini menunjukkan bagaimana mengatasi permasalahan data manajemen yang umumnya dihadapi, seperti misalnya sinkronisasi data Hive dengan sumber data di RDBMS, update partisi dalam Hive, dan masking atau purging data secara selektif di Hive.
  5. Implementing Temporal Graphs with Apache TinkerPop and HGraphDB
    Big Data bagi sebagian besar orang dibayangkan sebagai data-data yang tidak terstruktur. Walaupun demikian, selalu ada data-data terstruktur dan memiliki relasi diantaranya (relational data). Berdasarkan relasi keterkaikan antar data tersebut, dibutuhkan satu atau lebih skema untuk menangani jenis data tersebut. Pola umum yang sering terlihat adalah sebuah hirarki atau representasi hubungan antar data.
  6. An Introduction to Apache Flink
    Salah satu platform pemrosesan big data streaming yang paling banyak digunakan saat ini adalah Apache Flink. Artikel ini merupakan bagian pertama dari serangkain artikel yang menjelaskan dasar-dasar implementasi Apache Flink.

Rilis Produk

  1. Apache Hadoop 2.7.4 Release
    Rilis Apache Hadoop 2.7.4, yang merupakan penerus dari seri Hadoop 2.7.3, mencakup 264 perbaikan baik perbaikan bugs yang bersifat kritis, maupun optimasi.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Aug 11 / 2017
  • Comments Off on Seputar Big Data Edisi #25
Uncategorized

Seputar Big Data Edisi #25

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama awal bulan Agustus 2017.

Artikel dan Berita

  1. Predicting and Preventing Power Outages Using Big Data
    Peneliti Universitas Texas A & M telah mengembangkan sebuah model AI dengan menganalisa dampak dari petensi kerusakan sistem pembangkit listrik dan dampak cuaca terhadap gangguan sistem tenaga listrik. Melalui analisa tersebut, para peneliti dapat memprediksi di mana dan kapan terjadi pemadaman listrik.
  2. McKinsey’s State Of Machine Learning And AI, 2017
    McKensey menerbitkan sebuat makalah hasil dari wawancara terhadap 3.000 eksekutif senior mengenai penggunaan teknologi AI, prospek perusahaan mereka untuk penyebaran lebih lanjut, dan dampak AI terhadap pasar, pemerintah, dan individu.

Tutorial dan Pengetahuan Teknis

  1. Getting Started With Apache Ignite (Part 7)
    Fokus utama pada seri ke 7 ini adalah penggunaan Machine Learning pada Apache Ignite. Walaupun fitur Machine Learning masih dalam pengembangan, namun sudah menawarkan sejumlah kemampuan yang mungkin sangat bermanfaat bagi data scientist.
  2. Turbocharge your Apache Hive Queries on Amazon EMR using LLAP
    Artikel ini memberikan gambaran umum tentang Hive LLAP, termasuk arsitektur dan kasus penggunaan umum untuk meningkatkan kinerja query. Akan dijelaskan bagaimana menginstal dan mengkonfigurasi Hive LLAP di cluster EMR Amazon dan menjalankan query pada LLAP.
  3. Text categorization with deep learning, in R
    Angus Taylor, seorang data science dari Microsoft, mendemonstrasikan bagaimana membangun model kategorisasi teks di R. Ia mengimplementasikan jaringan saraf konvolusi yang dilatih menggunakan R pada platform deep learning MXNET
  4. Using Airflow to Manage Talend ETL Jobs
    Sebuah tutorial tentang bagaimana menjadwalkan dan mengeksekusi sebuah job Talend dengan menggunakan Airflow, sebuah platform open source yang secara pemrograman mengatur alur kerja sebagai direct acyclic graphs.
  5. Using scikit-learn to find bullies
    Sebuah tutorial yang merupakan salah satu solusi dari tantangan yang ada pada laman kaggle.com. Tantangan yang akan dipecahkan adalah bagaimana mengidentifikasi apakah sebuah komentar akan dianggap menghina anggota lain dalam sebuah forum diskusi.

Rilis produk

  1. Storm 1.1.1 Released
    Storm 1.1.1 adalah maintenance release, yang mencakup beberapa perbaikan performance, stabilitas dan fault tolerance. User yang menggunakan rilis sebelumnya disarankan untuk mengupgrade ke versi ini.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Aug 01 / 2017
  • Comments Off on Pertanyaan Wajib Ketika Memilih SQL-on-Hadoop
Big Data, Forum Info, Hadoop, Uncategorized

Pertanyaan Wajib Ketika Memilih SQL-on-Hadoop

Meskipun Hadoop telah terbukti memberikan solusi yang scalable dan cost effective, namun banyak perusahaan yang masih belum yakin untuk mengadopsinya. Salah satu hambatan bagi perusahaan maupun organisasi yang ingin mengimplementasi Hadoop adalah kebutuhan akan sumber daya yang cukup ‘mumpuni’ untuk dapat menggunakan dan memanfaatkannya secara maksimal. Saat ini kebanyakandata analisis sudah cukup familiar dengan SQL, sehingga solusi SQL-on-Hadoop merupakan sebuah pilihan yang banyak digunakan.

Apache Hive adalah SQL engine di atas Hadoop yang muncul pertama kali, dan banyak penggunanya. Saat ini sudah banyak berkembang engine SQL lain yang dibuat untuk Hadoop dan Big Data, diantaranya adalah:
  • Hive on Spark
  • Hive on Tez
  • Spark SQL
  • Presto
  • Apache Drill
  • Apache HAWQ
  • Apache Impala
  • Apache Phoenix
  • MemSQL

Dengan begitu banyak pilihan, apa saja hal yang harus dipertimbangkan dalam memilih solusi SQL untuk Big Data?

Setidaknya ada 3 hal penting yang perlu diperhatikan dalam memilih solusi SQL on Hadoop, yaitu:
  • Kinerja dalam mengolah data besar : apakah engine dapat memproses data sampai jutaan bahkan miliaran record dengan konsisten, tanpa terjadi error, dengan waktu response yang cepat
  • Kecepatan dalam pengolahan data berukuran kecil : SQL engine dapat memberikan hasil query secara interaktif untuk data yang relatif kecil (ribuan sampai jutaan records)
  • Stabilitas untuk banyak concurrent user : tetap handal ketika diakses secara bersamaan oleh banyak pengguna (puluhan, ratusan atau bahkan ribuan), dengan load kerja yang tinggi

Di samping ketiga kriteria di atas, beberapa pertanyaan lain yang perlu kita ajukan ketika mengevaluasi solusi SQL on Hadoop adalah sebagai berikut:

  1. Solusi proprietary atau open-source?
  2. Bagaimana tingkat skalabilitasnya?
  3. Solusi mana yang memberikan dukungan terlengkap untuk berbagai query SQL?
  4. Versi SQL apa yang perlu disupport?
  5. Bagaimana arsitektur solusinya? Di atas Hive dan MapReduce? In-memory?
  6. Apakah solusi SQL tersebut terikat pada distribusi Hadoop yang spesifik dari vendor tertentu?
  7. Seberapa banyak support yang tersedia?
  8. Seberapa fleksibel jenis eksplorasi data yang perlu disupport?
  9. Seberapa mudah dan baik solusi tersebut diintegrasikan dengan datawarehouse atau sistem lain yang sudah ada? API apa saja yang disupport? Apakah mensupport REST-ful API?
  10. Berapa banyak training yang akan dibutuhkan user untuk dapat menggunakannya?

Referensi :
https://zdatainc.com/2016/12/sql-hadoop-paradox-choice/
http://blog.atscale.com/how-different-sql-on-hadoop-engines-satisfy-bi-workloads

Contributor :


M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng. Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun. Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.

  • Jul 31 / 2017
  • Comments Off on Pertanian Kecil Bertemu Big Data
Big Data, Implementation, pertanian, Uncategorized

Pertanian Kecil Bertemu Big Data

Washington - Para peneliti telah memulai untuk membawa AI dan Big Data dalam pertanian skala kecil dan pertanian negara berkembang. Tujuannya untuk menjawab salah satu tantangan terbesar di abad 21 nanti yaitu meningkatkan sumber pangan dunia tanpa harus merusak planet ini.

Bagi Ranveer Chandra, seorang peneliti dari Microsoft, ini bagaikan kembali ke asal. Chandra menghabiskan 4 bulan dalam setahun di kebun milik keluarganya di India.“Tidak ada air, tidak ada listrik, tidak ada toilet” katanya. Kerbau digunakan untuk membajak sawah, seperti yang mereka lakukan selama berabad-abad.

Di sebagian besar negara berkembang, pertanian dikelola tidak dengan teknologi yang tinggi dan modern. Walaupun demikian tuntutan pertanian pada negara berkembang ini semakin meningkat, populasi tumbuh lebih cepat dari rata-rata.

Seiring dengan ledakan populasi global yang mendekati 10 miliar pada tahun 2050 mendatang, para petani perlu meningkatkan produksi pertanian tanpa harus melakukan pemababatan hutan atau mencemari tanah dan air dengan pupuk dan pestisida yang berlebihan.

Keakuratan Pertanian

Untuk meningkatkan produktifitas setiap meter persegi lahan pertanian yang ada, petani membutuhkan informasi yang akurat mengenai kondisi tanah. Sehingga pemberian air, pupuk ataupun pestisida hanya pada tempat yang membutuhkan

Saat ini, pertanian berskala besar telah menggunakan teknologi yang memiliki tingkat keakuratan yang tinggi. Peralatan bertani sekarang dapat menanam benih pada kepadatan tanah yang berbeda dan menerapkan jumlah pupuk yang berbeda di berbagai lahan. Pemantau air dapat memberi petani data secara real-time tentang berapa banyak air yang diterima tanaman.

Namun, alat-alat ini terlalu mahal untuk pertanian berskala kecil dan petani pada negara berkembang. Chandra berharap teknologi ini dapat dimiliki dengan biaya yg lebih terjangkau

Kecerdasan Buatan

Untuk meningkatkan produktifitas setiap meter persegi lahan pertanian yang ada, petani membutuhkan informasi yang akurat mengenai kondisi tanah. Sehingga pemberian air, pupuk ataupun pestisida hanya pada tempat yang membutuhkan

Saat ini, pertanian berskala besar telah menggunakan teknologi yang memiliki tingkat keakuratan yang tinggi. Peralatan bertani sekarang dapat menanam benih pada kepadatan tanah yang berbeda dan menerapkan jumlah pupuk yang berbeda di berbagai lahan. Pemantau air dapat memberi petani data secara real-time tentang berapa banyak air yang diterima tanaman.

Namun, alat-alat ini terlalu mahal untuk pertanian berskala kecil dan petani pada negara berkembang. Chandra berharap teknologi ini dapat dimiliki dengan biaya yg lebih terjangkau

imgs_smallfarmmeetsbigdata
Soil sensors connected to artificial intelligence map soil moisture, temperature and acidity. (Credit: Microsoft)

Artificial intelligence

Chandra mengembangkan sistem yang terkoneksi pada sensor tanah ke jaringan melalui saluran tv yang tidak terpakai. Frekuensi "white space" ini dapat memberikan koneksi internet broadband jarak jauh. Beberapa rumah sakit dan sekolah di lokasi terpencil di Afrika sudah online melalui konektivitas white space ini, kata Chandra.

Setiap sensor tanah tersebut menghasilkan gambar kondisi pada lahan pertanian. Untuk menghubungkan petak-petak lahan ke monitor, Chandra mengambil gambar menggunakan drone atau bisa juga menggunakan sebuah smartphone yang diterbangkan dengan balon.

Selanjutnya, AI membandingkan hasil foto dengan data pada sensor dan mengisi celah-celah lahan yg masih kosong, juga memetakan tanah bagian mana yg memiliki kadar asam yang tinggi atau yang membutuhkan lebih banyak air misalnya

AI juga dapat membantu memantau keadaan ternak, melalui webcam dapat diidentifikasi hewan yang sedang sakit karena tidak bergerak, misalnya.

Cikal bakal bisnis

Chandra berharap dapat membuat sistem ini dengan biaya dibawah $100. Model bisnis yang berbeda sedang dipertimbangkan juga, tambahnya. Misalnya, petani dapat berbagi sistem, atau penyedia layanan pertanian lokal dapat menyewanya kepada mereka.

Microsoft hanyalah salah satu dari sekian banyak perusahaan teknologi yang menganggap pertanian sebagai lahan subur bagi revolusi teknologi. Google berinvestasi pada sebuah perusahaan startup yang mengumpulkan data petani tentang bagaimana perbedaan varietas tanaman pada berbagai lahan pertaniandari tahun ke tahun, sehingga petani dapat membuat keputusan yang lebih baik mengenai varietas apa yang terbaik untuk mereka. Amazon mengumumkan rencana untuk membeli rantai makanan Whole Foods dan telah juga berinvestasi di ritel makanan di negara lain.

Sumber :
https://www.voanews.com/a/agriculture-technology-small-farms-big-data/3918239.html

Contributor :


Vinka Palupi
pecinta astronomi yang sejak kecil bercita-cita menjadi astronaut, setelah dewasa baru sadar kalau tinggi badannya tidak akan pernah cukup untuk lulus seleksi astronaut.

  • Jul 26 / 2017
  • Comments Off on Seputar Big Data Edisi #23
Big Data, Forum Info, Hadoop, Implementation, Uncategorized

Seputar Big Data Edisi #23

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ketiga bulan Juli 2017

Artikel dan Berita

  1. Airbus Gets A Step Closer To The Holy Grail Of Big Data And Plane Connectivity
    Salah satu kendala yang sering dihadapi oleh industri penerbangan dalam penerapan big data adalah interoperabilitas data antar berbagai peralatan dari berbagai pabrikan, serta belum adanya penyimpanan data yang terpusat. Airbus melakukan sebuah langkah besar dalam penerapan big data dengan mengumumkan Skywise, platform airline-centric berbasis cloud.
  2. The Impact of Big Data on Banking and Financial Systems
    Sektor keuangan dan perbankan termasuk bidang yang banyak menerapkan pendekatan berbasiskan data untuk mengembangkan bisnis dan meningkatkan layanan kepada pelanggan. Apa saja pengaruh dan manfaat big data untuk sektor ini?
  3. Why Startups Should Not Ignore Big Data
    Startup adalah sebuah usulan bisnis yang cukup memiliki resiko. Ini berarti bahwa jika segala sesuatunya tidak dikerjakan dengan baik dan efektif, bisnis tidak akan pernah berhasil melewati tahun pertama. Bisnis plan merupakan penentu apakah sebuah bisnis akan melewati fase startup perusahaan atau tidak
  4. The 2016 Election Was a Wake-Up Call for Marketers, Forcing Many to Rethink Big Data
    Salah satu hal yang dituding sebagai penyebab kekalahan Hillary Clinton dalam pemilihan presiden Amerika yang lalu adalah penggunaan Big Data Analytics yang tidak benar. Apa saja kesalahan yang kiranya dilakukan, dan apakah para politisi maupun marketers menjadi anti terhadap big data analytics?
  5. What AI-enhanced health care could look like in 5 years
    Sejak data kesehatan mulai didigitalisasi pada tahun 2013, jumlah data di bidang tersebut terus meningkat sekitar 48% per tahun secara global. Teknologi AI diyakini sesuai untuk mengatasi inefisiensi di bidang kesehatan, mengurangi beban bagi tenaga medis, dan menghemat biaya hingga ratusan juta US$. Artikel ini mengupas mengenai bagaimana wajah layanan kesehatan yang didukung AI lima tahun ke depan.

Tutorial dan Pengetahuan Teknis

  1. Using Apache Kafka as a Scalable, Event Driven Backbone for Service Architectures
    Artikel in imenjelaskan mengenai berbagai fitur utama Apache Kafka, lengkap dengan contoh dan diagram yang menggambarkan konsep-konsep dasarnya.
  2. implyr: R Interface for Apache Impala
    Artikel ini menjelaskan secara singkat mengenai integrasi implyr, yaitu package baru yang merupakan antarmuka R ke Impala, yang memungkinkan melakukan query ke Impala dari R menggunakan dplyr.
  3. 5 Free Resources for Getting Started with Deep Learning for Natural Language Processing
    5 link ke resource untuk mulai mempelajari deep learning untuk NLP. Ditujukan untuk memberi gambaran mengenai NLP dan deep learning, serta apa langkah selanjutnya yang perlu diambil untuk mendalaminya.
  4. How to Use the Kafka Streams API
    Kafka Streams API memungkinkan kita untuk membuat aplikasi real-time yang memperkuat bisnis utama kita. Penggunaan API merupakan cara termudah untuk memanfaatkan teknologi terbaik untuk mengolah data yang tersimpan di Kafka.
  5. When not to use deep learning
    Meskipun banyak keberhasilan dalam penerapan Deep Learning, setidaknya ada 4 situasi di mana hal ini justru menjadi penghalang, di antaranya ketika anggaran yang tersedia kecil, atau saat menjelaskan model dan fitur kepada orang awam.
  6. Ask a question, get an answer in Google Analytics
    Saat ini, Google Analytics telah berkembang sangat maju menuju masa depan. Ia mengetahui data apa yang anda butuhkan dan inginkan dengan cepat? Tanya apa saja dengan menggunakan bahasa Inggris pada Google Analytics dan dapatkan jawabannya.
  7. Random Forests in R
    Random Forest adalah sebuah tehnik Ensembling yang populer digunakan untuk memperbaiki kinerja prediktif dari Decision Trees dengan cara mengurangi varian dalam pencabangan (Trees) dengan membuat rata-ratanya.

Rilis produk

  1. Hue 4 SQL Editor improvements
    Setelah Hue 4 dirilis pada Juni lalu, kali ini Hue 4 SQL Editor mendapatkan perbaikan, di antaranya enriched autocomplete dan multi-query editing.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Jul 21 / 2017
  • Comments Off on Seputar Big Data Edisi #22
Big Data, Forum Info, Hadoop, Komunitas, Uncategorized

Seputar Big Data Edisi #22

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan Juli 2017

Artikel dan berita

  1. Stanford researchers find intriguing clues about obesity by counting steps via smartphones
    Sebuah penelitian global berdasarkan berapa jumlah langkah perhari, dicatat menggunakan smartphone, menunjukkan adanya "ketimpangan aktivitas". Hal ini bisa dianggap serupa dengan ketimpangan pendapatan, di mana "kemiskinan langkah" menyebabkan kecenderungan obesitas, sedangkan "kekayaan langkah" menghasilkan kebugaran dan kesehatan.
  2. A better approach to disease prediction through big data analytics
    Bagaimana penggunaan data hasil crowdsourcing dan analytics big data dapat meningkatkan kualitas prediksi kesehatan.
  3. How a new wave of machine learning will impact today’s enterprise
    AI dan machine learning menjadi sebuah kebutuhan bagi perkembangan dan persaingan bisnis. Bagaimana trend terbaru penerapan machine learning, dan apa yang perlu dilakukan perusahaan untuk dapat mengambil manfaat sebesar-besarnya?
  4. How Colleges Can Use Big Data to Encourage Better Management
    Pengelolaan sebuah institusi pendidikan tidak hanya berkaitan dengan unsur pendidikan saja, namun juga bagaimana me-manage dan menciptakan lingkungan kerja yang kondusif bagi para staf. Artikel ini membahas bagaimana institusi pendidikan tinggi memanfaatkan big data untuk dapat meningkatkan kualitas manajemen mereka.

Tutorial dan pengetahuan teknis

  1. Facets: An Open Source Visualization Tool for Machine Learning Training Data
    Bekerjasama dengan PAIR initiative, google team merilis Facets, sebuah tools open source visualisasi yang dapat digunakan untuk membantu memahami dan menganalisa data XML. Facets terdiri dari dua visualisasi yang memungkinkan pengguna untuk memperoleh gambaran holistik dari data-data yang dimiliki.
  2. The Modern Problem of Collecting Network Data
    Big Data tidak hanya mengenai sekumpulan informasi yang telah ada sebelumnya, serta bukan hanya melempar konten digital ke dalam database untuk diproses nantinya. Akan tetapi Big Data juga harus melibatkan pembangunan sistem yang dapat digunakan untuk mengumpulkan lebih banyak aset, seperti statistik, angka-angka, pola pengguna dan berbagai hal detail lainnya dari berbagai sumber.
  3. Text Classifier Algorithms in Machine Learning
    Salah satu problem dalam machine learning adalah klasifikasi teks, yang banyak digunakan mulai dari deteksi spam, penentuan topik sebuah artikel, dan lain sebagainya. Artikel ini membahas mengenai beberapa algoritma klasifikasi teks lengkap dengan use case-nya. Disertakan pula link menuju resource dan tutorial untuk pembaca yang ingin mempelajari lebih dalam.
  4. Advanced Machine Learning with Basic Excel
    Implementasi machine learning tidak harus selalu menggunakan bahasa pemrograman seperti R, Scala, atau Python misalnya, namun dapat juga dilakukan menggunakan Microsoft Excel, bahkan dengan menggunakan fitur dasarnya saja (tanpa macros), seperti yang ditampilkan dengan gamblang di dalam artikel ini.
  5. Artificial Intelligence Explained Part 1
    Satu lagi artikel yang mengupas mengenai AI, yang ditujukan untuk pembaca tanpa latar belakang matematika ataupun pemrograman.

Risil Produk

  1. Apache HAWQ 2.2.0.0-incubating Released
    Rilis ini mencakup CentOS 7.x Support, Ranger Integration, PXF ORC Profile dan Bug Fixes.
  2. Apache Hive 2.3.0 Released
    Fitur baru yang tercakup di antaranya peningkatan vektorisasi untuk ACID dengan menghilangkan row-by-row stitching, menambahkan UDF untuk uniontype values, dan menambahkan StrictRegexWriter untuk RegexSerializer di Flume Hive Sink. Di samping itu tercakup pula 8 perbaikan dan lebih dari 125 bug fixing.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
Pages:12345
Tertarik dengan Big Data beserta ekosistemnya? Gabung