:::: MENU ::::

Posts Categorized / Apache

  • Oct 04 / 2017
  • Comments Off on MeetUp ke 17 idBigData di ITB, Bandung
meetup_17_itb
Apache, Big Data, Forum Info, Komunitas, Meet Up

MeetUp ke 17 idBigData di ITB, Bandung

meetup_17_itb

idBigData dan Institut Teknologi Bandung berkolaborasi dengan Asosiasi Ilmuwan Data Indonesia (AIDI), Bukalapak.com, Prodi Teknik Informatika ITB dan Labs247 mengadakan meetup idBigdata yang ke 17.

MeetUp tersebut diselenggarakan pada Kamis, 28 September 2017 di Auditorium Campus Center Timur ITB. Acara dimulai sekitar pukul 09.00. Dan dibuka oleh Wakil Dekan School of Electrical Engineering and Informatics ITB, Dr. Ir. Nana Rachmana Syambas M. Eng

Pembicara-pembicara pada acara ini adalah:

Dr. techn. Muhammad Zuhri Catur Candra, Institut Teknolog Bandung dengan topik “The Journey in The Data-Intensive World
Teguh Nugraha, Head of Data Bukalapak.com dengan topik “Big Data in E-commerce
Solechoel Arifin, Labs247 dengan topik “Implementasi DNA Sequence Alignment pada HGrid247
Sigit Prasetyo, idBigData dengan topik “Open Source Solution for Data Analytics Workflow

Meetup ini diikuti oleh 60 peserta, dari kalangan mahasiswa maupun profesional.

Video lengkap Meetup idBigdata #17 maupun berbagai kegiatan idBigdata sebelumnya dapat diakses di channel idBigdata.

Contributor :


M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng.
Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun.
Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.
  • Oct 02 / 2017
  • Comments Off on Seputar Big Data Edisi #31
Apache, Big Data, Implementation, Uncategorized

Seputar Big Data Edisi #31

close-up-telephone-booth-pexels

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ketiga bulan September 2017

Artikel dan Berita

  1. Japan to certify big-data providers to drive innovation
    Pemerintah Jepang mengumumkan rencana untuk melakukan sertifikasi terhadap perusahaan yang mengumpulkan data dari berbagai sumber dan menyediakannya sebagai services. Sertifikasi akan berlaku untuk 5 tahun, dan perusahaan-perusahaan yang disebut sebagai big data banks ini akan mendapatkan keringanan pajak.
  2. Big Data – what’s the big deal for Procurement?
    Apa tantangan yang dihadapi oleh bagian procurement saat ini, dan bagaimana peran big data dalam mengatasinya?
  3. The Amazing Ways Burberry Is Using Artificial Intelligence And Big Data To Drive Success
    Sejak 2006, Burberry, perusahaan mode terkemuka asal Inggris, memutuskan untuk menjadi sebuah perusahaan digital “end to end”. Strategi yang mereka ambil adalah dengan menggunakan big data dan AI untuk mendongkrak penjualan dan kepuasan pelanggan.
  4. Can big data give medical affairs an edge in strategic planning?
    Salah satu bagian penting dari industri farmasi adalah medical affairs, yaitu team yang bertugas memberikan support terhadap aktivitas setelah sebuah obat disetujui dan diedarkan, baik terhadap pihak internal maupun eksternal (customer). Dengan semakin besarnya keterlibatan publik terhadap pengawasan dan penggunaan obat, maka peran medical affair menjadi semakin penting. Ketersediaan data yang melimpah menjadi sebuah tantangan dan peluang tersendiri. Bagaimana big data dapat membantu team medical affair dalam membuat perencanaan strategis?
  5. Spark and S3 storage carry forward NBC big data initiative
    NBC membuat inisiatif big data, dengan menggunakan Amazon S3 dan Spark. Keduanya dipakai untuk menggantikan HDFS dan MapReduce. Jeffrey Pinard, vice president data technology dan engineering di NBC, menjelaskan alasan di balik strategi tersebut.

Tutorial dan Pengetahuan Teknis

  1. Tensorflow Tutorial : Part 2 – Getting Started
    Melanjutkan bagian 1 pekan lalu, tutorial Tensorflow bagian 2 ini menjelaskan mengenai instalasi Tensorflow dan sebuah contoh use case sederhana.
  2. 30 Essential Data Science, Machine Learning & Deep Learning Cheat Sheets
    Sekumpulan ‘cheat sheet atau referensi singkat yang sangat bermanfaat mengenai data science, machine learning dan deep learning, dalam python, R dan SQL.
  3. A Solution to Missing Data: Imputation Using R
    Salah satu permasalahan dalam pemanfaatan data untuk machine learning maupun analisis adalah missing data. Data yang tidak lengkap dapat mengacaukan model, sedangkan penanganan missing data terutama untuk data yang besar adalah sebuah momok tersendiri bagi data analis. Artikel ini mengulas mengenai permasalahan ini dan bagaimana mengatasinya dengan menggunakan R.
  4. Apache Flink vs. Apache Spark
    Apache flink dan Apache Spark termasuk framework yang paling banyak diminati dan diadopsi saat ini. Apa perbedaan di antara keduanya, dan apa kelebihan dan kekurangan masing-masing?
  5. Featurizing images: the shallow end of deep learning
    Melakukan training terhadap model deep learning dari nol memerlukan data set dan sumber daya komputasi yang yang besar. Dengan memanfaatkan model yang sudah ditraining (pre-trained) memudahkan kita dalam membangun classifier menggunakan pendekatan standar mashine learning.
    Artikel ini menyajikan sebuah contoh kasus pemanfaatan pre-trained deep learning image classifier dari Microsoft R server 9.1 untuk menghasilkan fitur yang akan digunakan dengan pendekatan machine learning untuk menyelesaikan permasalahan yang belum pernah dilatihkan ke dalam model sebelumnya.
    Pendekatan ini memudahkan pembuatan custom classifier untuk tujuan spesifik dengan menggunakan training set yang relatif kecil.

Rilis Produk

  1. Apache Solr 7.0.0 released
    Apache Solr, platform pencarian noSQL yang populer, merilis versi 7.0.0 minggu ini. Rilis 7 ini mencakup 40 upgrade dari solr 6, 51 fitur baru, 56 bug fixes dan puluhan perubahan lainnya.
  2. Apache Arrow 0.7.0
    Mencakup 133 JIRA, fitur-fitur baru dan bug fixes untuk berbagai bahasa pemrograman.
  3. Apache PredictionIO 0.12.0-incubating Release
    Apache PredictionIO, sebuah server machine learning open source yang dibangun di atas open source stack, merilis versi 0.12.0.
  4. R 3.4.2 Released
    Rilis ini mencakup perbaikan terhadap minor bugs dan peningkatan performance. Seperti rilis minor sebelumnya, rilis ini kompatibel dengan rilis sebelumnya dalam seri R 3.4.x.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Sep 25 / 2017
  • Comments Off on Seputar Big Data Edisi #30
Seputar Big Data edisi #30
Apache, Big Data, Hadoop, IoT, Storage, Storm

Seputar Big Data Edisi #30

Seputar Big Data edisi #30

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan september 2017

Artikel dan Berita

  1. The Amazing Ways Coca Cola Uses Artificial Intelligence (AI) And Big Data To Drive Success
    Big data merevolusi sektor kesehatan dengan sangat cepat. Baru-baru ini Sophia Genetics, sebuah perusahaan yang membangun data analytics dan diagnostik genomik berhasil mendapatkan pendanaan sebesar $30 juta untuk meningkatkan database mereka, dari 125.000 menjadi satu juta pada 2020. Untuk mengakses data tersebut, rumah sakit yang menjadi partner akan men-share data DNA pasien mereka ke sistem Sophia, yang dapat digunakan untuk mengidentifikasi pola genetik di balik penyakit-penyakit genetis seperti cystic fibrosis, jantung dan beberapa jenis kanker. Hal ini menimbulkan beberapa isu, terutama yang berkaitan dengan privacy dan kerahasiaan data pasien.
  2. Seagate and Baidu Sign Strategic Cooperation Agreement for Big Data Analysis and Advanced Storage Implementation
    Seagate Technology, penyedia solusi storage kelas dunia, mengumumkan penandatanganan perjanjian kerjasama strategis dengan Baidu, penyedia internet search berbahasa Cina. Kerjasama tersebut mencakup bidang IT, analisis big data, dan pengembangan serta penerapan sistem storage tingkat tinggi.
  3. £30m National Innovation Centre for Data launched
    Pemerintah Inggris dan Universitas Newcastle bekerja sama membangun pusat big data sebesar 30 juta Poundsterling. Pusat big data ini akan bertugas menjalin kerjasama antara akademisi, penyedia IT, dan sektor publik, yang bertujuan untuk memecahkan permasalahan di dunia nyata dengan memanfaatkan berbagai kemajuan di bidang data sains.
  4. Balderton joins M Series D for big data biotech platform play, Sophia Genetics
    SaaS startup Sophia Genetics membangun platform data analytics yang memanfaatkan keahlian tenaga medis untuk mengembangkan genomic diagnostic melalui algoritma AI, bertujuan mendapatkan diagnosis yang lebih cepat. Perusahaan tersebut baru-baru ini mengumumkan pendanaan series D sebesar $30 juta, menambahkan Balderton Capital ke dalam daftar investornya.

Tutorial dan Pengetahuan Teknis

  1. Tensorflow Tutorial : Part 1 – Introduction
    Dalam 3 seri artikel ini akan ditampilkan tutorial Tensorflow. Bagian pertama menyajikan pengenalan dan dasar-dasar Tensorflow, arsitekturnya, dan beberapa contoh penerapannya.
  2. Creating a Yelling App in Kafka Streams
    Memberikan pengenalan yang komprehensif mengenai apa dan bagaimana cara kerja Kafka Stream, lengkap dengan contoh implementasinya menggunakan aplikasi sangat sederhana. Aplikasi yang dibuat menerima input berupa pesan teks dan menghasilkan mengeluarkan teks tersebut dalam huruf kapital, seolah-olah aplikasi ini 'berteriak' kepada pembaca pesannya, sehingga disebut "Yelling App".
  3. Using SparkR to Analyze Citi Bike Data
    Sebuah tutorial yang cukup bagus mengenai penggunaan dplyr, sebuah library R, untuk menganalisis data jalur dan perjalanan sepeda di NYC. Untuk skalabilitasnya memanfaatkan Amazon EMR dan Spark.
  4. PyTorch vs TensorFlow — spotting the difference
    Saat ini terdapat beberapa framework untuk deep learning yang cukup populer. Dua di antaranya adalah PyTorch dan Tensorflow. Artikel ini mengupas perbedaan di antara keduanya, lengkap dengan Jupyter notebook untuk membandingkan kinerja keduanya dalam beberapa aplikasi.
  5. Benchmark Apache HBase vs Apache Cassandra on SSD in a Cloud Environment
    Hortonworks melakukan analisa kinerja terhadap Apache HBase dan Apache Cassandra menggunakan Yahoo Cloud Serving Benchmark. Hasilnya HBase lebih cepat dalam hal read dan Cassandra lebih baik untuk workflow yang banyak memerlukan write.

Rilis Produk

  1. Build your own Machine Learning Visualizations with the new TensorBoard API
    Google merilis sekumpulan API yang memungkinkan developer menambahkan plugin visualisasi custom ke TensorBoard.
  2. Apache Kafka 0.11.0.1
    Apache Kafka 0.11.0.1 dirilis dengan beberapa bug fixing dan perbaikan minor.
  3. Apache Impala (incubating) has released version 2.10.0
    Apache Impala merilis versi 2.10.0 dengan sekitar 250 tiket untuk fitur baru, penyempurnaan, perbaikan, dan lain-lain.
  4. Apache OpenNLP version 1.8.2
    Rilis ini mengandung beberapa perbaikan dan penyempurnaan minor.
  5. Storm 1.0.5 Released
    Rilis maintenance mencakup sekitar 7 perbaikan bugs yang penting, berhubungan dengan peningkatan kinerja, stabilitas dan fault tolerance.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂

  • Sep 14 / 2017
  • Comments Off on Seputar Big Data Edisi #29
Apache, Big Data, Forum Info, IoT

Seputar Big Data Edisi #29

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama awal bulan Agustus 2017.

Artikel dan Berita

  1. Thales Completes The Acquisition Of Guavus, One Of The Pioneers Of Real-time Big Data Analytics
    Thales, sebuah perusahaan penyedia peralatan kedirgantaraan, pertahanan, transportasi dan keamanan yang berpusat di Prancis, mengumumkan telah selesai melakukan proses akuisisi terhadap Guavus, sebuah perusahaan Silicon Valley yang memfokuskan diri pada analisa realtime big data.
  2. A rare look inside LAPD's use of data
    Dengan melakukan pengamatan dan melakukan lebih dari 100 wawancara terhadap petugas dan pegawai sipil di Departemen Kepolisian Los Angeles, Sarah Brayne, seorang profesor sosiolog di University of Texas di Austin, membuat sebuat catatan empiris bagaimana penerapan analisa Big Data mengubah pratek pengawasan polisi.
  3. Social Business Intelligence Market: Growing Usage of Social Media Is Driving the Demand for Big Data Globally
    Pendapatan yang dihasilkan dari implementasi solusi Social Business Intelligence di seluruh dunia diperkirakan mencapai hampir US $ 17 miliar pada 2017, dan diproyeksikan mencapai valuasi pasar seitar US $ 29 miliar pada tahun 2026, mencerminkan CAGR sebesar 6% selama periode perkiraan (2016-2026).
  4. ECS ICT to distribute data centre solutions by Hortonworks
    CS ICT Bhd hari ini mengumumkan telah ditunjuk sebagai distributor pertama untuk Hortonworks Data Center Solutions di Malaysia.
  5. Why Big Data is Important to Your Business
    Dalam artikel yang ditulis oleh Sheza Gary, seorang direktur teknis di Algoworks, memberikan gambaran yang meyakinkan mengenai bagaimana bisnis menggunakan secara mendalam teknologi big data dan berlanjut dengan memberikan gambaran yang lebih jelas mengenai pemanfaatan big data yang dapat digunakan untuk keuntungan bisnis.

Tutorial dan Pengetahuan Teknis

  1. K-Nearest Neighbors – the Laziest Machine Learning Technique
    K-Nearest Neighbors (K-NN) adalah salah satu algoritma Machine Learning yang paling sederhana. Seperti algoritma lainnya, K-NN terinspirasi dari penalaran manusia. Misalnya, ketika sesuatu yang signifikan terjadi dalam hidup Anda, Anda menghafal pengalaman itu dan menggunakannya sebagai pedoman untuk keputusan masa yang akan datang.
  2. Python vs R – Who Is Really Ahead in Data Science, Machine Learning?
    Berdasarkan analisa yang dihasilkan oleh Google Trend selama Januari 2012 - Agustus 2017, terlihat bahwa R sedikit lebih unggul sampai antara tahun 2014 - 2015, karena Data Science sangat populer pada saat itu. Tapi pada tahun 2017 Python mulai tampak lebih unggul popularitasnya.
  3. Open Source EHR Generator Delivers Healthcare Big Data with FHIR
    Membuat analis data kesehatan seringkali membuat frustrasi karena kurangnya akses ke data pasien , terpercaya, dan lengkap yang melimpah sekarang dapat memanfaatkan platform generator data EHR open source yang disebut Synthea.
  4. Apache Ignite: In-Memory Performance With Durability of Disk
    Sejak versi 2.1, Apache Ignite telah menjadi salah satu dari sedikit sistem komputasi in-memory yang memiliki persistence layer terdistribusi sendiri. Pada dasarnya, pengguna tidak perlu mengintegrasikan Ignite dengan database lain, walaupun mendukung fitur integrasi semacam ini didukung)
  5. An Introduction to Spatial Analytics With PostGIS, PL/R, and R
    Bagian pertama dari serangkaian tutorial mengenai penggunaan PL/R bagi pengguna PostgreSQL, bahasa prosedural yang digunakan membuat fungsi SQL dalam bahasa pemrograman R.

Rilis Produk

  1. Qubole Rolls Out Industry’s First Autonomous Data Platform
    Qubole, perusahaan penyedia layanan big data-as-a-service, mengumumkan tersedianya tiga produk baru - Enterprise Qubole Data Service (QDS) Enterprise Edition, QDS Business Edition dan Qubole Cloud Agents - komponen dari platform data otonom yang ditujukan untuk membantu organisasi memperkecil inisiatif data mereka sambil mengurangi biaya.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Sep 07 / 2017
  • Comments Off on Seputar Big Data Edisi #28
Apache, Big Data, Forum Info, Hadoop

Seputar Big Data Edisi #28

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu terakhir bulan Agustus 2017

Artikel dan Berita

  1. Big Data Startup MapR Raises M, Keeps Eyeing An IPO
    MapR mengumuman bahwa mereka memperoleh suntikan dana sebesar $56 juta dari investor-investor yang dipimpin oleh Lightspeed Venture Partners.
  2. Russia's Biggest Data Lake & How Severstal is Transforming The Steel Industry Using Machine Learning
    Sebagai bagian dari strategi transformasi digitalnya, Severstal yang merupakan salah satu produsen baja terbesar di Rusia, membuat Data Lake industri terbesar di negara tersebut. Petabyte data yg sebelumnya dibuang selama produksi ribuan ton baja setiap tahunnya sekarang akan disimpan untuk dianalisa.
  3. AUSTRAC built a big data platform for DHS to fight welfare fraud
    Departemen Pelayanan Kependudukan Australia berhasil membongkar lebih dari $ 25 juta pembayaran kesejahteraan palsu menggunakan platform analisis data open source yang dikembangkan oleh lembaga anti pencucian uang AUSTRAC.
  4. Putin says the nation that leads in AI ‘will be the ruler of the world’
    Pada awal September lalu, di depan para pelajar dalam rangka awal tahun ajaran baru, Presiden Rusia Vladimir Putin meramalkan bahwa negara mana pun yang memimpin dalam penelitian AI akan menguasai dunia. Ia juga memperingatkan bahwa kecerdasan buatan menawarkan 'peluang kolosal' dan juga sekaligus bahayanya.

Tutorial dan Pengetahuan Teknis

  1. Detecting Facial Features Using Deep Learning
    Dulu merupakan sebuah tantangan yang cukup sulit untuk melakukan deteksi wajah dan ciri khas lainnya seperti mata, hidung, mulut, dan bahkan untuk mengenali emosi seseorang dari ekspresinya. Tapi saat ini hal tersebut dapat dilakukan dengan lebih cepat menggunakan Deep Learning.
  2. A Vision for Making Deep Learning Simple
    Artikel ini memperkenalkan Deep Learning Pipelines dari Databricks, library open-source baru yang bertujuan untuk memudahkan siapapun, mulai dari praktisi machine learning sampai bisnis analis, dalam mengintegrasikan deep learning ke dalam berbagai workflow.
  3. From Lambda to Kappa: A Guide on Real-Time Big Data Architectures
    Saat ini banyak pilihan dalam menentukan arsitektur real-time big data. Jika sebelumnya ada istilah arsitektur Lambda, maka saat ini terdapat pula jenis arsitektur-arsitektur lainnya. Dalam serial artikel ini akan dibahas beberapa diantaranya, dan melakukan perbandingan menggunakan use case yang relevan. Jadi, bagaimana kita memilih arsitektur yang tepat untuk project real-time kita? Simak artikel ini!
  4. Data Science 101 (Getting started in NLP): Tokenization tutorial
    Dalam tutorial ini anda akan mempelajari beberapa hal: membaca text ke dalam R, memilih baris yang diperlukan dari teks tersebut, melakukan tokenisasi menggunakan package tidytext, menghitung frekuensi token, menulis fungsi yang reusable untuk melakukan pekerjaan-pekerjaan tersebut, dan menghasilkan pekerjaan yang reproducible.
  5. Stream Processing with Apache Flink and DC/OS
    Artikel ini menjelaskan secara singkat mengenai cara menjalankan job streaming Apache Flink di atas Mesos menggunakan DC/OS.

Rilis Produk

  1. Announcing the release of Apache Samza 0.13.1
    Apache Samza mengumumkan versi 0.31.1. Rilis ini mencakup beberapa penyempurnaan dan perbaikan bug, dalam 29 tiket JIRA.
  2. Hortonworks extends IaaS offering on Azure with Cloudbreak
    Microsoft Azure mengumumkan service Hortonwork Cloudbreak untuk melakukan provisioning cluster HDP. Sebuah controller VM Cloudbreak dapat mengatur beberapa klaster serta mengkonfigurasi Kerberos dan Apache Knox secara otomatis untuk mengamankan klaster. Cloudbreak tersedia melalui Azure Marketplace.
  3. Announcing GA Release of CDAP 4.3 – Use Cases, Features and Capabilities
    Cask mengumumkan CDAP versi 4.3. Dalam rilis ini terdapat banyak fitur baru, yang mencakup fitur baru untuk persiapan data, integrasi ETL, Apache Ranger, dan dukungan Spark Dataframe.
  4. Introducing the MapR Orbit Cloud Suite
    MapR mengumumkan MapR Orbit Cloud Suite, yang menyediakan fungsionalitas cross-cloud (kombinasi public dan private cloud), object-tiering (yang dapat meng-offload data ke penyimpanan cloud object, dan manajemen native cloud (provisioning VM dalam AWS dan Microsoft Azure).
  5. Announcing Data Collector v2.7.1.0
    Dalam StreamSets versi 2.7.1.0 terdapat penambahkan dukungan baru untuk Microsoft Azure, selain perbaikan dan penyempurnaan lainnya.
  6. Apache MADlib v1.12 released
    Dalam rilis baru machine learning untuk SQL ini terdapat penambahkan sejumlah algoritma grafik, termasuk perbaikan pada decision tree dan implementasi random forest dan memiliki dukungan yang lebih baik untuk perhitungan akhir.
  7. Apache Atlas 0.8.1
    Tim Apache Atlas mengumumkan versi terbaru yaitu 0.8.1

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Aug 21 / 2017
  • Comments Off on Seputar Big Data Edisi #26
Apache, Big Data, Forum Info, Hadoop, Uncategorized

Seputar Big Data Edisi #26

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan Agustus 2017

Artikel dan Berita

  1. Steering Big Data Projects in the Modern Enterprise
    Meskipun penerapan big data bukanlah hal mudah, namun semakin banyak perusahaan yang mengimplementasi atau mempertimbangkan big data sebagai competitive advantage mereka. Secara garis besar inisiasi implementasi big data dapat dibagi menjadi 3 tahap : assesment awal, perencanaan langkah strategis, dan penentuan sasaran yang spesifik dan dapat dijangkau. Artikel ini mengupas mengenai 5 tingkatan big data maturity model yang dapat dijadikan acuan dalam adopsi big data ke dalam proses bisnis.
  2. Merchant attrition is a big problem. Can big data help?
    Bagi penyedia layanan pembayaran seperti kartu kredit, salah satu permasalahan yang dihadapi adalah mundurnya merchant, atau disebut juga merchant attrition. Langkah untuk mengatasi hal ini tidak selalu mudah, karena tidak semua merchant menunjukkan tanda-tanda yang jelas. Oleh karena itu untuk dapat mendeteksi secara dini dan mengambil tindakan preventif, para acquirer menggunakan big data analytics.
  3. Intel, NERSC and University Partners Launch New Big Data Center
    Intel bekerja sama dengan Pusat Komputasi Ilmiah Riset Energi Nasional (NERSC) milik Departemen Energi Amerika Serikat, dan 5 Intel Parallel Computing Centers (IPCC), membuat sebuah Big Data Center. Pusat big data ini akan melakukan modernisasi kode sekaligus menangani tantangan-tantangan sains yang aplikatif.
  4. How Big Data Analytics Companies Support Value-Based Healthcare
    Layanan kesehatan merupakan salah satu bidang yang sangat penting, tidak terkecuali di Amerika Serikat. Pelayanan kesehatan berbasis fee-for-service yang saat ini digunakan dipandang tidak efektif dan tidak tepat sasaran, oleh karena itu banyak pihak mulai beralih ke layanan kesehatan berbasis nilai (value based healthcare atau VBH). Pada dasarnya VBH menganggap setiap episode konsultasi, pemeriksaan lab, rawat inap, dan prosedur lain sebagai satu kesatuan. Untuk itu perlu integrasi dari berbagai sumber data dan mungkin organisasi yang saat ini masih banyak terpisah-pisah. Salah satu solusi yang dapat mengatasi kebutuhan tersebut adalah big data analytics.
  5. Toyota, Intel and others form big data group for automotive tech
    Sebuah konsorsium yang terdiri dari beberapa nama besar seperti Denso, Ericsson, Intel and NTT Docomo, bekerja sama dengan Toyota mengembangkan sistem Big Data untuk mendukung program mobil yang mampu berjalan sendiri (sefl-driving car) dan teknologi otomotif masa depan lainnya.

Tutorial dan Pengetahuan Teknis

  1. Cassandra to Kafka Data Pipeline (Part 1)
    Artikel ini menunjukkan dengan cukup jelas langkah demi langkah pembuatan sistem dengan Cassandra cluster dan Kafka sebagai event source tanpa downtime.
  2. DeepMind papers at ICML 2017 (part one)
    Beberapa paper mengenai DeepMind yang disampaikan pada ICML 2017, diantaranya mengenai decoupling antarmuka dalam neural netwok menggunakan synthetic gradient, reinforcement learning menggunakan minimax regret bounds, dan lain sebagainya.
  3. New R Course: Spatial Statistics in R
    Salah satu bidang yang banyak digunakan dalam berbagai aplikasi saat ini, terutama yang berkaitan dengan IoT dan berbagai aplikasi berbasis lokasi adalah statistik spasial. Topik “Spatial Statistics in R” merupakan course terbaru yang diluncurkan oleh Datacamp, sebuah platform online learning.
  4. Update Hive Tables the Easy Way
    Pada awalnya memastikan kemutakhiran data dalam Apache Hive membutuhkan pembuatn aplikasi custom yang kompleks, tidak efisien dan sulit di-maintain. Blog ini menunjukkan bagaimana mengatasi permasalahan data manajemen yang umumnya dihadapi, seperti misalnya sinkronisasi data Hive dengan sumber data di RDBMS, update partisi dalam Hive, dan masking atau purging data secara selektif di Hive.
  5. Implementing Temporal Graphs with Apache TinkerPop and HGraphDB
    Big Data bagi sebagian besar orang dibayangkan sebagai data-data yang tidak terstruktur. Walaupun demikian, selalu ada data-data terstruktur dan memiliki relasi diantaranya (relational data). Berdasarkan relasi keterkaikan antar data tersebut, dibutuhkan satu atau lebih skema untuk menangani jenis data tersebut. Pola umum yang sering terlihat adalah sebuah hirarki atau representasi hubungan antar data.
  6. An Introduction to Apache Flink
    Salah satu platform pemrosesan big data streaming yang paling banyak digunakan saat ini adalah Apache Flink. Artikel ini merupakan bagian pertama dari serangkain artikel yang menjelaskan dasar-dasar implementasi Apache Flink.

Rilis Produk

  1. Apache Hadoop 2.7.4 Release
    Rilis Apache Hadoop 2.7.4, yang merupakan penerus dari seri Hadoop 2.7.3, mencakup 264 perbaikan baik perbaikan bugs yang bersifat kritis, maupun optimasi.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Jul 12 / 2017
  • Comments Off on Seputar Big Data Edisi #21
Apache, Big Data, Forum Info, Hadoop, Komunitas

Seputar Big Data Edisi #21

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan Juli 2017

Artikel dan Berita

  1. DataOps: How To Use Big Data To Achieve A Data-Driven Enterprise
    Banyak perusahaan sangat menyadari akan manfaat yang didapat dari Big Data bagi perusahaan. Mendapatkan pemahaman yang lebih baik tentang perilaku pelanggan dan membuat keputusan bisnis yang lebih baik, hanya sebagian manfaat yang didapat oleh suatu perusahaan atau organisasi berbasis data.
  2. What Does the Customer Want? Big Data Knows
    Dunia e-comerce saat ini, produk dirancang berdasarkan analisa perilaku konsumen, dimana kebutuhan pelanggan terpenuhi sebelum mereka menyadari bahwa mereka memilikinya. Produsen mungkin tidak dapat membaca pikiran, tetapi dengan next generation big data, seolah-olah pembacaan pikiran dapat dilakukan.
  3. Open Source Is The New Normal In Data and Analytics
    Dengan menggunakan Hadoop sebagai teknologi utama, arsitektur data open source telah mencapai tingkat kestabilan dan adopsi yang cukup baik, namun demikian belum sepenuhnya dapat dinikmati oleh perusahaan-perusahaan.
  4. Five big data trends in healthcare
    Penyedia jasa kesehatan memanfaatkan big data untuk memperbaiki hasil perawatan terhadap pasien serta menurunkan biaya. Pada tahun 2017 ini, industri kesehatan akan melihat lima tren dari pemanfaatan big data.
  5. Better Buy: Hortonworks vs. Cloudera
    Dua Hadoop distro berhadapan dalam persaingan untuk sebuah pasar yang sangat besar. Mana yang lebih baik untuk dibeli ?
  6. The 10 Coolest Big Data Startups Of 2017 (So Far)
    Banyak startup yang bermain di area big data memfokuskan diri untuk memberikan solusi terhadap masalah dalam menghubungkan sumber data yang berbeda dan memindahan data ke dalam cloud untuk memudahkan akses dan analisa. Ada juga tren yang sedang berkembang yaitu penggunaan machine learnig dan artificial intelligence dalam aplikasi big data untuk membuat sistem yang lebih cerdas.

Tutorial dan Pengetahuan Teknis

  1. Medical Image Analysis with Deep Learning Part 4
    Tulisan ini merupakan bagian keempat dan akan membahas mengenai gambar medis dan komponennya, format gambar medis dan konversi formatnya. Tujuannya adalah untuk mengembangkan pengetahuan untuk membantu dalam menganalisa citra medis dengan menggunakan deep learning
  2. Five Steps to Tackling Big Data with Natural Language Processing
    Apa 5 langkah mendasar yang harus diambil untuk menangani project Big Data dengan Natural Language Processing? Bagaimana tools-tools NLP dan teknik-tekniknya membantu proses bisnis, menganalisa, dan memahami data secara efektif dan proaktif?
  3. Visualizing Smog Sensor Data With Vert.x, Prometheus, and Grafana
    Sebuah tutorial singkat menggunakan data-data yang dikumpulkan dari sensor asap di Jerman ke server lokal sehingga dapat digunakan untuk memvisualisasikan tren jangka panjang
  4. Exploratory Data Analysis in Python
    Sebuah tutorial yang dibuat berdasarkan presentasi dari Jonathan Whitmore yang berjudul Exploratory Data Analysis in Python pada PyCon 2017 di Portland, Oregon.
  5. Data Cleaning and Wrangling With R
    Salah satu permasalahan utama dalam pengolahan data adalah menggabungkan dan 'membersihkan' berbagai dataset dari sumber data yang berbeda-beda. Dalam artikel ini ditampilkan 10 tips untuk melakukan data cleansing dan wrangling menggunakan R.

Rilis Produk

  1. Spark Release 2.2.0
    Apache Spark 2.2.0 merupakan rilis ketiga untuk versi 2.x. Pada rilis ini tag eksperimental dihapus dari Structured Streaming. Selain itu, rilis ini lebih berfokus pada kegunaan, stabilitas dan penyempurnaan, serta menyelesaikan lebih dari 1100 tiket perbaikan.
  2. Apache Phoenix 4.11
    Tercakup dalam rilis ini di antaranya adalah: support untuk HBase 1.3.1, local index hardening dan peningkatan kinerja, lebih dan 50 bug-fixes, dan lain sebagainya.
  3. Apache OpenNLP 1.8.1 Release
    The Apache OpenNLP library adalah machine learning toolkit untuk melakukan pemrosesan bahasa alami (NLP). Mendukung proses dasar NLP seperti tokenization, segmentasi kalimat, part-of-speech tagging, named entity extraction, chunking, parsing, dan coreference resolution. Rilis 1.8.1 ini mencakup peningkatan kinerja, beberapa fitur baru, dan bug-fixes.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • May 29 / 2017
  • Comments Off on Seputar Big Data edisi #15
Apache, Big Data, Forum Info, Hadoop, Komunitas

Seputar Big Data edisi #15

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu 3 bulan mei 2017

Artikel dan berita

  1. How Traditional Industries Are Using Machine Learning and Deep Learning to Gain Strategic Business Insights
    Pengaruh AI di bidang industri tidak bisa lagi dianggap trend sesaat belaka. Bagaimana langkah industri dalam mengadopsi AI ke dalam proses bisnis dan pengambilan keputusan mereka? Beberapa use case nyata disajikan dalam artikel ini.
  2. How Artificial Intelligence will Transform IT Operations and DevOps
    Penerapan big data membawa tantangan yang besar bagi IT Operation dan DevOps. Di antaranya adalah bagaimana mereka harus bisa menemukan akar masalah, bahkan mengantisipasinya sedini mungkin, di tengah lautan data yang begitu besar. Artikel ini menjelaskan bagaimana AI menjadi salah satu solusi yang akan mengubah ‘wajah’ Operasional IT dan DevOps. Salah satu konsep yang sering disebut adalah ‘Cognitive Insights’, yaitu menggunakan machine learning untuk mengolah log dan data dari berbagai sumber untuk menemukan solusi bagi masalah-masalah yang dihadapi DevOps dan Operasional IT.
  3. Neural Network-Generated Illustrations in Allo
    Sebuah fitur menarik yang diperkenalkan Google di aplikasi Allo, yang mengubah foto selfie menjadi stiker ilustrasi, menggunakan kombinasi antara neural network dan hasil karya seniman.
  4. Using Twitter as a data source: an overview of social media research tools (updated for 2017)
    Tinjauan dan pembahasan singkat mengenai metode dan tools yang dapat digunakan oleh ilmuwan bidang sosial untuk menganalisis data sosial media. List yang sangat bermanfaat jika anda ingin melakukan penelitian yang memanfaatkan data sosial media.
  5. NHS gave DeepMind patient records on an ‘inappropriate legal basis’
    Sebuah pelajaran berharga dari dugaan pelanggaran privacy dalam kasus data sharing antara NHS dengan DeepMind. Mengingatkan kita kepada pentingnya memahami regulasi yang harus dipenuhi apa saja yang harus diantisipasi, dan batasan apa yang harus ditaati dalam pemanfaatan data-data sensitif dan pribadi untuk keperluan analisis dan machine learning.
  6. Four Lessons In The Adoption Of Machine Learning In Health Care
    AI dan machine learning berpotensi sangat besar untuk perbaikan kualitas pelayanan kesehatan, namun mengapa saat ini pemanfaatannya di dunia kesehatan masih sangat terbatas? Berikut ini beberapa poin penting yang perlu diperhatikan, dari mulai jenis task apa yang paling sesuai, bagaimana membangun kepercayaan dan dukungan dari tenaga medis sendiri, bagaimana memilih vendor, dan perubahan apa yang perlu dilakukan dari sisi layanan kesehatan agar dapat memperoleh manfaat sebesar-besarnya dari teknologi ini.
  7. Special Ops battle with ‘big data’
    Komandan Komando Operasi Khusus Amerika Serikat (SOCOM) berbicara mengenai pentingnya Big Data, dan apa yang dilakukan untuk memanfaatkan data bagi operasi-operasi intelelejen, terutama yang bersifat kritikal.
  8. Big Data: The Ultimate in Customer Tracking
    Big Data identik dengan pelacakan dan pengumpulan data pengguna, dari setiap titik transaksi, profil WiFi, situs yang dikunjungi, dan lain sebagainya. Hal ini menimbulkan kekhawatiran bahwa Big Data identik dengan ‘Big Brother’. Namun sebetulnya Big Data lebih dekat perbandingannya dengan ‘Moneyball’, yaitu sebuah film mengenai pemanfaatan big data untuk memenangkan kompetisi baseball terbesar di dunia, Superbowl.

Tutorial dan pengetahuan teknis

  1. Event-time Aggregation and Watermarking in Apache Spark’s Structured Streaming
    Artikel ini merupakan seri ke 4 dari serangkaian artikel mengenai pemrosesan yang kompleks terhadap data streaming menggunakan Spark. Di sini dijelaskan mengenai bagaimana meng-agregasi data real time dengan Structured Streaming, dan mengenai bagaimana menangani event yang terlambat masuk dengan mekanisme Watermarking.
  2. Detecting Abuse at Scale: Locality Sensitive Hashing at Uber Engineering
    Menjelaskan mengenai Locality Sensitive Hashing, yaitu algoritma near neighbor search dalam ruang dimensi tinggi. Uber ddan Databrick bekerjasama dalam kontribusi implementasi LSH ke dalam Spark. Uber menggunakan LSH terutama untuk medeteksi pengemudi yang curang berdasar data perjalanan. Dijelaskan juga apa motivasi Uber menggunakan LSH di atas Spark, bagaimana penerapannya, dan apa rencana pengembangan ke depan.
  3. Home advantages and wanderlust
    Menganalisa data Premier League, untuk menentukan kesebelasan mana prosentase poinnya paling banyak didapat dari pertandingan kandang. Analisis dilakukan menggunakan R, yaitu package engsoccerdata. Dalam artikel ini ditunjukkan bagaimana teknik-teknik analisis dan visualisasi data dapat menjadi sesuatu yang menarik, apalagi jika dipadukan dengan data yang sesuai dengan bidang yang digemari.
  4. hive-druid-part-1-3/">Ultra-fast OLAP Analytics with Apache Hive and Druid – Part 1 of 3
    Bagian pertama dari 3 seri tulisan mengenai bagaimana melakukan OLAP analisis super cepat menggunakan Apache Hive dan Druid. Druid adalah data store terdistribusi berorientasi kolom, yang sesuai untuk low latency analytics.
  5. How-to: Backup and disaster recovery for Apache Solr (part I)
    Satu lagi artikel yang menjadi bagian dari serial, kali ini membahas mengenai backup dan disaster recovery Apache Solr. Artikel ini menjelaskan dasar-dasar backup dan recovery Solr dengan cukup detail dan jelas.
  6. Using 'Faked' Data is Key to Allaying Big Data Privacy Concerns
    Salah satu issue terbesar dalam penggunaan data untuk machine learning adalah privacy. Data yang digunakan dalam proses learning seringkali mengandung informasi pribadi yang sensitif, bahkan ketika data tersebut sudah di-anonimisasi. Untuk mengatasi permasalahan MIT membuat sebuah gebrakan, yaitu sistem machine learning yang men-generate ‘data sintetis’ berdasar model data asli. Data sintetis initidak mengandung informasi asli apapun, namun tetap dapat ‘berperilaku’ serupa dengan data asli di dalam analisis dan stress tes, sehingga dapat menjadi pengganti ideal bagi data asli. Algoritma yang digunakan disebut dengan “recursive conditional parameter aggregation”.
  7. An Impatient Start With the Apache Ignite Machine Learning Grid
    Baru-baru ini Apache Ignite merilis in memory machine learning grid mereka, dalam tahap beta version. Rilis beta ini dapat melakukan operasi vektor lokal dan terdistribusi, dekomposisi, dan matriks. Artikel menunjukkan secara singkat dan padat, bagaimana mendownload Apache Ignite 2.0 release, kemudian mem-build dan mengeksekusi contoh programnya.
  8. Balancing Bias and Variance to Control Errors in Machine Learning
    Di dunia machine learning, akurasi adalah hal utama. Berbagai cara dilakukan untuk membangun model seakurat mungkin, dengan cara menyesuaikan parameter-parameternya. Artikel ini mengupas dengan cukup detail mengenai apa yang harus diperhatikan untuk meminimalisir error dengan mengontrol bias dan variansi.
  9. Deep Learning – Past, Present, and Future
    Perjalanan perkembangan deep learning dari masa ke masa.

Rilis produk

  1. The Apache Software Foundation Announces Apache® Samza™ v0.13
    Samza adalah framework pemrosesan Big Data stream terdistribusi, yang saat ini digunakan oleh Intuit, LinkedIn, Netflix, Optimizely, Redfin, Uber dan lain-lain.

    Rilis v0.13 mencakup :
    • Higher level API yang dapat merepresentasikan pipeline pemrosesan stream yang kompleks dengan lebih ringkas
    • Support untuk menjalankan aplikasi Samza sebagai lightweight embedded library tanpa mengandalkan YARN
    • Deployment yang lebih fleksibel
    • Peningkatan monitoring dan deteksi kegagalan menggunakan mekanisme heart-beating yang built-in
    • Integrasi yang lebih baik dengan framework manajemen cluster yang lain
    • Beberapa bug-fixes yang meningkatkan keandalan, stabilitas, dan kekuatan pemrosesan data
  2. Build Intelligent Apps Faster with Visual Studio and the Data Science Workload
    Versi terbaru Visual Studio 2017 memiliki built-in support untuk pemrograman R dan Python. Pada versi terdahulu, dukungan untuk bahasa-bahasa ini telah tersedia melalui RTVS dan PTVS add-in, namun dengan Data Science Workloads support R dan Python tidak lagi memerlukan add-in. Fitur ini tersedia di semua edisi, termasuk Visual Studio Community 2017 yang bisa anda download secara gratis.
  3. Apache Arrow 0.3.0
    Rilis 0.3.0 ini mencakup 306 JIRA yang diresolve dari 23 kontributor.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • May 08 / 2017
  • Comments Off on Seputar Big Data Edisi #13
Apache, Big Data, Forum Info, Hadoop, Komunitas

Seputar Big Data Edisi #13

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan Mei 2017.

Artikel dan berita

  1. Data Driven: 5 Ways Automakers Use Big Data to Improve Their Products
    Di era data-driven ini big data memegang peran yang semakin penting dalam bisnis otomotif, bahkan mcKinsey memperkirakan, data-data otomotif akan bernilai 450 to 750 milyar dolar di tahun 2030. Apa saja yang dilakukan produsen otomotif dalam pemanfaatan big data untuk memperbaiki produk mereka?
  2. How Companies Say They’re Using Big Data
    Hasil survey terhadap eksekutif perusahaan-perusahaan Fortune 1000 mengenai bagaimana mereka mengimplementasikan dan menggunakan big data.
  3. The Big Data Market Will account for over Billion by the end of 2020
    Investasi di bidang yang terkait big data semakin meningkat di seluruh dunia. SNS Research memprakirakan bahwa investasi big data akan mencapai lebih dari 57 miliar US$ untuk tahun 2017, dan 76 miliar US$ pada 2020.
  4. PSU, Eversource to use big data to better predict storms that cause power outages
    Kerja sama antara Plymouth State University dan Eversource dalam pemanfaatan big data untuk memprediksikan cuaca, dalam usaha mengurangi padamnya listrik. Beberapa hal yang menjadi perhatian adalah suhu, curah hujan, dan kemungkinan adanya badai, bahkan jenis pepohonan apakah yang mungkin menjadi potensi masalah untuk jalur listrik jika terjadi badai.
  5. The new paradigm for big data governance
    Data saintis menggunakan sandbox untuk mengeksplorasi data dan menggali insight. Meskipun penggunaan sandbox dapat meningkatkan produktivitas, namun memindahkannya ke production environment bisa menjadi masalah. Penggunaan bahasa pemrograman dan struktur data yang masih relatif asing untuk dunia IT pun memperumit permasalahan. Oleh karenanya, perlu penerapan data governance dalam big data sains. Akan tetapi, berbeda dengan data governance pada umumnya, big data analytics memiliki karakteristik dan kebutuhan tersendiri.
  6. The new paradigm for big data governance
    Data saintis menggunakan sandbox untuk mengeksplorasi data dan menggali insight. Meskipun penggunaan sandbox dapat meningkatkan produktivitas, namun memindahkannya ke production environment bisa menjadi masalah. Penggunaan bahasa pemrograman dan struktur data yang masih relatif asing untuk dunia IT pun memperumit permasalahan. Oleh karenanya, perlu penerapan data governance dalam big data sains. Akan tetapi, berbeda dengan data governance pada umumnya, big data analytics memiliki karakteristik dan kebutuhan tersendiri.
  7. Making the Most of Big Data in Biomedicine
    The Biomedical Big Data to Knowledge Training (B2D2K), sebuah program untuk melatih ilmuwan di bidang biomedis dalam penggunaan big data, diluncurkan di Amerika. Program berbiaya 2.4 juta US$ ini adalah kerjasama antara Geisinger Health System, Penn State University dan Penn State Hershey, didanai oleh National Library of Medicine, National Institutes of Health sebesar 1.4 juta US$, dan Penn State sebesar 1 juta US$.
  8. Big data research awards show the potential of international collaboration
    The Trans-Atlantic Platform, sebuah konsorsium organisasi-organisasi ilmu sosial dan kemanusiaan dari Amerika Utara, Amerika Selatan dan Eropa, mengumumkan pemenang kompetisi riset big data yang diberi nama Digging into Data Challenge. Kompetisi yang telah memasuki putaran ke empat ini menunjukkan besarnya potensi kerjasama internasional dalam bidang big data.
  9. In a world of bots, AI and big data, how can employees and businesses survive?
    Revolusi industri keempat, yang ditandai dengan ledakan digital di dunia ekonomi membawa tantangan tersendiri bagi bisnis. AI, bot dan big data merambah semakin luas ke setiap segi kehidupan. Bagaimana bisnis dan tenaga kerja dapat bertahan menghadapi gelombang digitalisasi dan otomasi?

Tutorial dan pengetahuan teknis

  1. Hail: Scalable Genomics Analysis with Apache Spark
    Salah satu tantangan terbesar dalam analisis data genomics adalah skalabilitas. Ukuran data genome sangatlah besar, bahkan dalam paper “Big Data: Astronomical or Genomical?” diperkirakan bahwa “pada tahun 2025 genome manusia yang disekuens dapat mencapai antara 100 juta sampai 2 milyar”, membutuhkan sekitar 2-40 exabyte storage. Permasalahan utama pemrosesan data besar adalah performance. Hail muncul sebagai salah satu solusi analisis genome yang memanfaatkan keunggulan kinerja dan skalabilitas Apache Spark.
  2. Building and Exploring a Map of Reddit with Python
    Memetakan dan menganalisis 10.000 subreddit paling populer di Reddit, dalam Python.
  3. Machine Learning Classification with C5.0 Decision Tree Algorithm
    Tutorial klasifikasi menggunakan algoritma c5.0 decision tree, mengidentifikasi pinjaman bank yang beresiko, menggunakan R.
  4. Understanding Machine Learning
    Apa sebenarnya machine learning? Berikut ini artikel singkat dilengkapi ilustrasi yang memberikan pengenalan dasar mengenai machine learning dan metode-metodenya
  5. What Do Frameworks Offer Data Scientists that Programming Languages Lack?
    Saat ini makin banyak programmer dan data saintis yang lebih memilih bekerja menggunakan framework daripada bahasa pemrograman, dan menganggapnya sebagai pilihan yang lebih modern dan canggih. Apa sebenarnya kelebihan framework yang tidak dimiliki oleh bahasa pemrograman?
  6. Visualizing Tennis Grand Slam Winners Performances
    Data visualization of sports historical results is one of the means by which champions strengths and weaknesses comparison can be outlined. In this tutorial, we show what plots flavors may help in champions performances comparison, timeline visualization, player-to-player and player-to-tournament relationships. We are going to use the Tennis Grand Slam Tournaments results as outlined by the ESP Visualisasi data dalam bidang olah raga adalah salah satu cara untuk membandingkan kekuatan dan kelemahan para juara dari masa ke masa. Dalam tutorial ini ditunjukkan bagaimana plot dan grafik dapat membantu dalam membandingkan performance pemain tersebut. Data yang digunakan adalah data Tennis Grand Slam Tournaments yang ditampilkan situs ESP di tabel ESPN site tennis history.
  7. Advanced Apache NiFi Flow Techniques
    Tutorial mengenai bagaimana memback-up Apache Nifi flow yang sedang berjalan, menyimpannya ke dalam disk, untuk kemudian menggabungkannya kembali dengan data dan metadata, dan melanjutkan eksekusinya atau me-restart-nya di waktu yang akan datang.

Rilis produk

  1. Apache Scio versi 0.3.0
    Apache Scio, Scala API untuk Apache Beam dirilis versi 0.3.0-nya. Ini merupakan rilis non-beta yang pertama yang dibuat di atas Apache Beam SDK, sedangkan rilis sebelumnya dibangun di atas Google Cloud Dataflow SDK.
  2. Apache Kafka 0.10.2.1
    Rilis ini adalah bug-fix, yang me-resolve 29 issue dari rilis sebelumnya.
  3. Apache Kylin 2.0.0 released
    Apache Kylin adalah Engine Analytics terdistribusi, menyediakan SQL interface dan OLAP untuk Hadoop.
  4. Apache Mahout 0.13.0
    Mencakup : Peningkatan kemudahan dalam melakukan komputasi matrix langsung di GPU yang menghasilkan peningkatan kinerja yang signifikan, penyederhanaan framework untuk menambahkan algoritma baru, dll.
  5. Apache® CarbonData™ as a Top-Level Project
    Apache CarbobData adalah format file kolumnar terindeks untuk melakukan data analytics di atas platform Big Data (Apache Hadoop, Apache Spark, dll) yang mempercepat query pada data berskala petabytes.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Feb 13 / 2017
  • Comments Off on Seputar Big Data Edisi #5
Apache, Big Data, Forum Info, Hadoop, Social Media

Seputar Big Data Edisi #5

Seputar Big Data edisi #5

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke dua bulan Februari 2017

Artikel dan berita

  1. A Very Short History of Artificial Intelligence (AI)
    Sejarah singkat mengenai perkembangan kecerdasan buatan (AI) dari masa ke masa
  2. Chicken Wings or Pizza? Adobe Discusses Super Bowl Insights
    Adobe melakukan penggalian dan analisa pada data mobile ads, sentimen sosial media dan transaksi pembelian untuk mendapatkan tren yang terjadi menjelang pertandingan pada Sunday's Super Bowl antara Atlanta Falcons melawan New England Patriots
  3. 5 Major Big Data Predictions for 2017
    Seputar prediksi area yang akan berkembang dalam penggunaan dan pemanfaatan layanan komputasi awan pada tahun ini 2017.
  4. How to Boost Your Career in Big Data and Analytics
    Saat ini adalah era digital, segala sesuatu dapat menjadi data digital, sehingga peran penting Big Data dan Data Analytics terus meningkat dan tumbuh kedepannya. Ini merupakan kesempatan untuk berkarir di area ini.
  5. How Facebook Is Getting Better at Recognizing Your Photo
    Awal Februari ini Facebook mengupdate fitur pencarian foto menggunakan platform computer vision mereka. Sekarang anda dapat mencari foto di Facebook menggunakan keyword yang mendeskripsikan isi foto.
  6. Big data, financial services and privacy : Should our bankers and insurers be our Facebook friends?
    Bank dan perusahaan asuransi biasanya mendasarkan penilaian mereka pada apa yang dilaporkan oleh customer dan agen mereka. Namun akhir-akhir ini mereka mulai menggunakan sumber-sumber lain yang lebih personal seperti data aplikasi website dan mobile-banking. Bahkan sumber yang tidak konvensional semacam profil media sosial, web browsing, maupun phone location tracker. Dalam sebuah percobaan, FICO, penilai kredit terkemuka di Amerika, menemukan bahwa status Facebook seseorang dapat membantu memprediksi kelayakan kredit seseorang. Saat ini mereka bahkan berusaha mempelajari ekspresi dan nada suara seseorang untuk menentukan resiko kreditnya. Hal ini di samping menjadi peluang, namun juga mengundang beberapa kritik, terutama dari sisi privacy maupun kemungkinan financial exclusion.
  7. How nonprofits use big data to change the world
    Bagaimana organisasi-organisasi nirlaba memanfaatkan data untuk mendukung kegiatan mereka.
  8. Healthcare DATA Integration: The Foundation for Population Health
    Integrasi data dalam pelayanan kesehatan merupakan sebuah hal yang sangat penting, terutama untuk memberikan layanan kesehatan yang terbaik dan terintegrasi untuk masyarakat. Artikel ini membahas mengenai apa saja sumber data yang penting dalam bidang kesehatan, dan apa saja use case yang penting untuk diimplementasikan.

Tutorial dan pengetahuan teknis

  1. Automatically Segmenting Data With Clustering
    Dalam tutorial ini dijelaskan secara singkat mengenai algoritma K-Means Clustering, dan bagaimana mengukur keakuratannya, dan bagaimana memilih segmen yang dihasilkan
  2. You Want Data Science, Now What?
    Langkah-langkah praktis bagi sebuah organisasi yang ingin memulai implementasi data science.
  3. ModernDive: A free introduction to statistics and data science with R
    Sebuah open source textbook mengenai statistik dan data science dalam R. Menjelaskan dengan komprehensif mengenai : menggunakan R untuk mengeksplor dan memvisualisasikan data, menggunakan randomizaation dan simulasi untuk membangun ide inferensial, dan membangun sebuah 'cerita' menggunakan ide-ide tersebut dan menampilkannya ke audiens umum. Menariknya, buku ini sendiri ditulis dalam R, menggunakan package bookdown.
  4. 5 Data Science Books You Should Read in 2017
    5 buku yang perlu dibaca untuk anda yang ingin mengenal atau memperdalam pengetahuan dalam bidang data sains dan big data.
  5. Text mining and word cloud fundamentals in R : 5 simple steps you should know
    Metode text mining memungkinkan kita untuk menyoroti kata kunci yang paling sering digunakan dalam sebuah teks. Untuk menampilkannya dapat digunakan word cloud, juga disebut sebagai text cloud atau tag cloud, yang merupakan representasi visual dari data teks. Artikel ini akan menjelaskan langkah demi langkah cara untuk menghasilkan word cloud dengan menggunakan R.
  6. Fueling the Gold Rush: The Greatest Public Datasets for AI
    Saat ini makin mudah bagi kita untuk membangun sebuah sistem berbasis AI atau machine learning, terutama dengan semakin banyaknya open source tools semacam Tensorflow, Torch, Spark, dan lain sebagainya. Faktor lain yang tidak kalah penting dalam pembuatan sistem berbasis AI adalah data. Berikut ini daftar open dataset dalam berbagai format, yang tidak boleh dilewatkan untuk penggiat dan peminat AI.

Rilis produk

  1. Welcome to Apache Zeppelin 0.7.0
    Rilis Apache Zeppelin 0.7.0 dengan beberapa perbaikan dan penambahan fitur, di antaranya adalah peningkatan multi user, pluggable visualisation, peningkatan dukungan untuk Apache Spark dan security.
  2. The Apache Software Foundation Announces Apache® Ranger™ as a Top-Level Project
    Awal Februari ini Apache Foundation mengumumkan bahwa Apache Ranger ‘lulus’ dari status incubating menjadi sebuah top level project (TLP). Apache Ranger menyediakan cara sederhana dan efektif untuk setting access control dan mengaudit akses data di seluruh Hadoop stack. Salah satu manfaat utama dari Ranger adalah bahwa access control policies dapat dikelola oleh security administrator secara konsisten di seluruh ekosistem Hadoop. Dengan arsitektur plugin yang kuat, Ranger juga memungkinkan komunitas untuk menambahkan sistem baru untuk otorisasi bahkan di luar ekosistem Hadoop, dengan effort yang minimal.
  3. Google is Set to Open Source Google Earth Enterprise
    Google mengumumkan bahwa mereka akan segera membuka seluruh core Google Earth Enterprise (GEE) tools mereka menjadi open source. Rencananya langkah ini akan dilakukan pada bulan maret mendatang.
  4. Apache OpenNLP 1.7.2 released
    Rilis Apache OpenNLP versi 1.2.7. Apache OpenNLP library adalah toolkit berbasis machine learning untuk pengolahan teks bahasa alami. Mendukung task NLP yang paling umum, seperti tokenization, segmentasi kalimat, part-of-speech tagging, named entity extraction, chunking, parsing, dan coreference resolution.
  5.  

    Contributor :

    Tim idbigdata
    always connect to collaborate every innovation 🙂
Tertarik dengan Big Data beserta ekosistemnya? Gabung