:::: MENU ::::

Posts By / admin

  • Dec 04 / 2017
  • Comments Off on Seputar Big Data Edisi #40
Apache, Big Data, Blockchain, Forum Info, Hadoop, Implementation, Medical Analytics

Seputar Big Data Edisi #40

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke 4 bulan November 2017

Artikel dan Berita

  1. Nearly 40% of Data Professionals Spend Half of their Time Prepping Data Rather than Analyzing It
    Menurut survey yang dilakukan oleh TMMData bekerja sama dengan Digital Analytics Association, menemukan bahwa sekitar 40% dari para profesional yang bekerja di bidang pengolahan data, menghabiskan lebih dari 20 jam per minggu untuk mengakses, menggabungkan dan menyiapkan data daripada melakukan analisis data.
  2. Predicting Analytics: 3 Big Data Trends in Healthcare
    Perangkat wearable, sensor dan data lake menjadi suatu hal yang umum digunakan pada industri kesehatan, sehingga analisis data dapat menawarkan sistem perawatan yang lebih personal dan hemat biaya.
  3. Usai Paradise Papers, DJP Bakal Punya Big Data Pajak dari AEoI
    Direktorat Jenderal Pajak (DJP) Kementerian Keuangan akan memiliki data dengan skala besar dan valid dari otoritas pajak seluruh negara saat implementasi pertukaran data secara otomatis (Automatic Exchange of Information/AEoI) per September 2018
  4. Infrastructure 3.0: Building blocks for the AI revolution
    Saat ini kita telah memasuki era machine learning dan artificial intelligence. Gabungan antar data yang masif, sistem penyimpanan yang murah, sistem komputasi yang fleksibel dan perkembangan algoritma, terutama dalam bidang deep learning, telah menghasilkan aplikasi yang tadinya hanya ada dalam novel fiksi ilmiah

Tutorial dan Pengetahuan Teknis

  1. Using WebSockets With Apache NiFi
    Tutorial mengenai implementasi Websocket server dan client menggunakan Apache Nifi.
  2. Transactions in Apache Kafka
    Artikel lanjutan mengenai transaksi dalam Apache Kafka. Membahas mengenai berbagai aspek dari Kafka transaction API, yaitu use case, detail transaction API untuk Java client, dan pertimbangan yang perlu diambil dalam menggunakan API tersebut.
  3. A Framework for Approaching Textual Data Science Tasks
    Membahas secara singkat dan jelas mengenai kerangka kerja untuk proses-proses data sains tekstual, serta perbedaan antara NLP dan teks mining.
  4. An Introduction to Blockchain
    Popularitas blockchain saat ini semakin meningkat. Blockchain memberikan tingkat keamanan yang cukup tinggi, bahkan diklaim ‘hack resistance’
  5. Customer Analytics: Using Deep Learning With Keras To Predict Customer Churn
    Menyajikan dengan lengkap dan detail mengenai implementasi prediksi churn menggunakan R on Keras Deep Learning. Model yang dibuat adalah Artificial Neural Network, dengan akurasi sampai 82 % dengan menggunakan dataset IBM Watson Telco Customer Churn.
  6. Mapping “world cities” in R
    Tutorial mengenai data wrangling dan visualisation menggunakan R. Menampilkan peta “world cities”, yaitu kota-kota yang telah diidentifikasi oleh Jaringan Riset Globalisasi dan Kota Dunia (GaWC), sebagai kota yang sangat terhubung dan berpengaruh dalam ekonomi dunia.
  7. [DATASET] The MNIST Database of Handwritten Digits
    Kumpulan image untuk klasifikasi digit hasil tulisan tangan. Dataset ini dianggap bagus untuk deep learning karena cukup kompleks untuk digunakan dalam jaringan syaraf tiruan, namun tetap dapat diproses menggunakan sebuah CPU.
  8. [FREE EBOOK]
    Ebook dari Databricks, tentang pengenalan dasar dan praktis mengenai Spark, disertai contoh code.

Rilis Produk

  1. November Update of KSQL Developer Preview Available
    KSQL, streaming SQL engine untuk Kafka yang pada Agustus lalu diluncurkan versi developer preview-nya, merilis update pertama. Selanjutnya rilis update rencananya akan dilakukan sebulan sekali, dan program beta segera diluncurkan.
  2. Apache® Impala™ as a Top-Level Project
    Apache mengumumkan bahwa project Impala, database analitik untuk Apache Hadoop, naik statusnya menjadi top level project.

  3. Apache Kerby 1.1.0 released
    Apache Kerby adalah binding Java Kerberos yang menyediakan implementasi, library, KDC, dan berbagai fasilitas yang mengintegrasikan PKI, OTP dan token untuk environment cloud, Hadoop dan mobile.
    Versi 1.1.0 ini merupakan rilis major, yang mencakup implementasi dukungan cross-realm dan modul GSAPI.
  4.  

    Contributor :


    Tim idbigdata
    always connect to collaborate every innovation 🙂
  • Nov 23 / 2017
  • Comments Off on Seputar Big Data Edisi #39
Artificial Intelligece, Big Data, Blockchain, Hadoop

Seputar Big Data Edisi #39

Beberapa tema yang tersaji minggu ini, Rilis Hadoop 2.9.0, bagaimana AI mempercepat pengembangan obat, potensi blockchain dan big data, hingga [FREE BOOK] memahami dasar-dasar algoritma machine learning yang dapat difahami oleh siswa ataupun pembaca non-expert.

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ketiga bulan November 2017

Artikel dan Berita

  1. Big data and machine learning algorithms could increase risk of collusion: ACCC
    Anggapan yang umum selama ini adalah, penggunaan data dan teknologi informasi dapat meningkatkan transparansi dan fairness, namun ternyata hal sebaliknya dapat juga terjadi. Komisi pengawasan persaingan usaha dan perlindungan konsumen Australia (ACCC) memberikan ikhtisar mengenai kemungkinan terjadinya kasus di mana algoritma machine learning dapat digunakan sebagai alat untuk melakukan pelanggaran hukum dalam persaingan usaha.
  2. The Big Idea Behind Big Data
    Salah satu teori yang sangat powerful dan banyak digunakan, terutama dalam big data, adalah network theory. Mulai dari bagaimana ‘memotong’ penyebaran penyakit menular, memahami dan memprediksi perekonomian, mendeteksi jaringan teroris, sampai dengan meningkatkan penjualan. Artikel ini mengupas dengan menarik mengenai teori ini.
  3. Belong partners with American Cancer Society to help beat cancer with AI
    Hari ini, Belong: Beating Cancer Together – aplikasi chat yang menghubungkan antara pasien dengan dokter dan profesional – telah mengumumkan kemitraan dengan American Cancer Society. Belong bukan hanya aplikasi chat dan komunikasi, tetapi juga mengkombinasikan AI, Machine Learning dan Big Data, yang membantu pasien untuk memperoleh informasi, edukasi dan bantuan pribadi.
  4. How AI Is Helping Speed Drug Development
    Pengembangan obat adalah proses yang rumit dan memakan waktu yang lama. Untuk sebuah obat sampai dapat dikonsumsi pasien rata-rata memerlukan waktu 12 tahun. Bagaimana AI dapat membantu mempercepatnya?
  5. Blockchain and Big Data: When Two Super Technologies Meet, What Happens?
    Blockchain menjadi fenomena baru yang berkembang dengan pesat. Apa itu blockchain, apa hubungannya dengan big data, bagaimana pemanfaatannya dan bagaimana peluangnya di masa depan?
  6. China: Police ‘Big Data’ Systems Violate Privacy, Target Dissent
    Big Data adalah alat yang dapat digunakan untuk kebaikan, namun juga dapat digunakan untuk mengekang hak asasi manusi. HRW menyerukan Pemerintah China untuk menghentikan pemantauan dan pengumpulan data terhadap masyarakatnya, sebelum mereka memiliki hukum yang jelas mengenai perlindungan privasi. Saat ini pemerintah China mengawasi dan mencatat berbagai detail informasi dari ratusan juta rakyat biasa, dan menggunakan data tersebut untuk mengidentifikasi mereka yang memiliki pemikiran yang tidak sejalan dengan pemerintah. Selanjutnya pemerintah melakukan pengintaian terhadap orang-orang tersebut.

Tutorial dan pengetahuan teknis

  1. Cassandra to Kafka Data Pipeline (Part 2)
    Tutorial berikut merupakan bagian kedua dari pemanfaatan Cassandra dan Kafka. Pada bagian ini akan dijelaskan mengenai Change Data Capture pada Cassandra.
  2. How to Build a Geographic Dashboard with Real-Time Data
    Dalam posting ini, diperlihatkan bagaimana membangun dashboard geografis interaktif menggunakan Displayr, Plotly dan R. Hal ini sangat menarik karena menggunakan studi kasus untuk melacak posisi real-time pesawat militer.
  3. How to Prepare a Photo Caption Dataset for Training a Deep Learning Model
    Dalam tutorial ini akan diperlihatkan bagaimana mempersiapkan foto dan deskripsi tekstual yang siap dalam mengembangkan model deep learning untuk membuat foto caption otomatis.
  4. [DATASET] YouTube-8M Dataset
    Open dataset kali ini adalah YouTube-8M, yaitu kumpulan video yang sudah ditandai, terdiri dari jutaan ID video YouTube dan label terkait dari beragam kosa kata dari 4700+ entitas visual. Google menyatakan bahwa data ini dirancang untuk dapat digunakan untuk melakukan training model dasar dalam waktu satu hari dengan satu mesin, maupun untuk melakukan berbagai eksplorasi mendalam dengan model yang lebih kompleks, yang dapat memakan waktu berhari-hari bahkan berminggu-minggu.
  5. [FREE EBOOK] Understanding Machine Learning: From Theory to Algorithms
    Machine learning adalah salah satu bidang ilmu yang paling cepat berkembang, dengan aplikasi yang luas. Buku ini memberikan penjelasan teoritis tentang gagasan yang mendasari machine learning dan derivasi matematis yang mengubahnya menjadi algoritma praktis. Buku ini menyajikan dasar-dasar dan algoritma machine learning dengan cara yang dapat difahami oleh siswa maupun pembaca non-expert dalam bidang statistik, ilmu komputer, matematika, dan teknik.

Rilis produk

  1. Apache Hadoop 2.9.0 released
    Apache Hadoop 2.9.0 dirilis baru-baru ini. Ini merupakan rilis pertama dari Hadoop 2.9.x, dan mencakup fitur-fitur baru yang bersifat major seperti misalnya Timeline Service, YARN Federation, YARN Web UI, HDFS, dan CapacityScheduler API
  2. Apache Kafka 0.11.0.2 Released
    Apache Kafka versi 0.11.0.2 telah dirilis. Di dalamnya meliputi beberapa perbaikan penting termasuk satu bug fixing yang berkaitan dengan data loss.
  3. Apache ZooKeeper 3.4.11
    Rilis 3.4.11 Apache Zookeper mencakup beberapa bug fixes dan perbaikan.
  4. Apache Phoenix 4.13 released
    Apache Phoenix memungkinkan OLTP berbasis SQL dan analytics operasional untuk Apache Hadoop menggunakan Apache HBase sebagai penyimpanan, dan menyediakan integrasi dengan ekosistem Apache lain seperti Spark, Hive, Pig, Flume, dan MapReduce.
    Phoenix versi 4.x kompatibel dengan HBase 0,98 dan 1,3. Rilis 4.13.0 ini mencakup perbaikan pencatatan statistik, perbaikan bug kritikal untuk pembuatan snapshot, dan perbaikan bug lainnya.
  5. Apache Hive 2.3.2 Released
    Apache Hive 2.3.2 dirilis minggu ini. Rilis ini mencakup bug fix di beberapa sub komponen, termasuk klien metastore Hive dan Kerberos.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Nov 21 / 2017
  • Comments Off on [Belajar Machine Learning 1] – Mempersiapkan Environment Python dengan Anaconda untuk Machine Learning
Artificial Intelligece, Big Data, machine learning, Uncategorized

[Belajar Machine Learning 1] – Mempersiapkan Environment Python dengan Anaconda untuk Machine Learning

Dalam beberapa seri artikel ke depan akan disajikan panduan praktis untuk memulai machine learning (dan deep learning) menggunakan Python.

Banyak di antara kita yang ingin belajar namun bingung dari mana harus memulainya. Mempelajari Machine learning, seperti dibahas pada artikel sebelumnya, paling cepat dilakukan dengan cara mengerjakan sebuah project. Rangkaian artikel ini akan memberikan beberapa arahan atau ide untuk anda.

Mengapa menggunakan python? Saat ini Python termasuk bahasa pemrograman yang paling banyak digunakan dalam data science dan machine learning.

Pada seri pertama ini akan dibahas mengenai bagaimana mempersiapkan environment Python untuk membuat program machine learning, dengan menggunakan Anaconda. Langkahnya adalah sbb:

  1. Download Anaconda
  2. Install Anaconda
  3. Start dan Update Anaconda
  4. Menggunakan dan me-manage conda environment untuk versi python yang berbeda-beda

  1. Download Anaconda
  2. Bagian ini mengenai bagaimana mendownload package Anaconda Python untuk platform anda.

    • Kunjungi download page Anaconda
    • Pilih installer yang sesuai dengan platform anda (Windows, OSX, atau Linux)
    • Pilih Python 3.x (dalam hal ini 3.6), proses download installer akan langsung berjalan
      Catatan : Saat ini terdapat dua major version Python yang masih bayak digunakan, yaitu 2.x dan 3.x, namun mengingat trend dewasa ini lebih mayoritas implementasi dan pengembangan dilakukan dengan dan untuk python 3.x, dan support untuk versi 2.x sudah akan berakhir pada 2020, maka disarankan menggunakan versi ini. Python 2.x hanya digunakan untuk kebutuhan khusus yang tidak/belum disupport python 3.x.
    • Untuk windows 64 bit, installer python 3.6 berukuran kurang lebih 515 MB dengan nama file Anaconda3-5.0.1-Windows-x86_64.exe

  3. Install Anaconda
  4. Untuk menginstall Anaconda, double-click file installer yang sudah diunduh pada langkah 1 di atas. Sebelumnya, pastikan anda memiliki priviledge yang cukup untuk menginstall software baru di sistem anda.

    Setelah doubleclick, akan muncul aplikasi installer, ikuti langkah-langkah yang muncul. Waktu instalasi biasanya di bawah 10 menit dan memerlukan disk space antara 1 atau 2 GB.

    gambar_01

    Anaconda Navigator dan environment grafis Anaconda akan sangat berguna nanti, namun untuk saat ini kita akan memulai dengan environment command line Anaconda yang disebut conda.

    gambar_02
    Anaconda Navigator

    Conda cukup cepat dan simple, serta menampilkan hampir semua eror message, sehingga akan lebih mudah untuk mengetahui apakah environment yang anda install sudah dapat bekerja dengan baik dan benar.

    1. Cek instalasi dan versi python
    2. Untuk mengecek apakah conda terinstall dengan baik, lakukan langkah ini:

      • Buka terminal (command line window)
      • Cek instalasi dengan mengetikkan : conda -V
      • Cek versi Python dengan : python -V

      Outputnya kurang lebih sebagaimana berikut:

      gambar_03

      Untuk memastikan environment conda sudah up-to-date, lakukan update dengan cara:

      conda update conda

      conda update anaconda

    3. Cek environment SciPy
    4. Langkah berikutnya adalah memeriksa versi library-library yang umumnya digunakan untuk pemrograman machine learning, yaitu: scipy, numpy, matplotlib, pandas, statsmodels, dan scikit-learn.

      Untuk melakukannya, masuk ke python prompt, dan jalankan perintah-perintah berikut ini:

      # scipy
      import scipy
      print(‘scipy: %s’ % scipy.__version__)
      # numpy
      import numpy
      print(‘numpy: %s’ % numpy.__version__)
      # matplotlib
      import matplotlib
      print(‘matplotlib: %s’ % matplotlib.__version__)
      # pandas
      import pandas
      print(‘pandas: %s’ % pandas.__version__)
      # statsmodels
      import statsmodels
      print(‘statsmodels: %s’ % statsmodels.__version__)
      # scikit-learn
      import sklearn
      print(‘sklearn: %s’ % sklearn.__version__)

      Outputnya kurang lebih sbb (di bawah ini adalah versi yang terakhir pada saat artikel ini dibuat) :

      gambar_04

      Untuk memutakhirkan versi library yang digunakan, bisa dilakukan secara individual dari command prompt, misalnya untuk scikit-learn, lakukan:

      conda update scikit-learn

      Sekarang anda sudah siap untuk mulai membuat project machine learning dalam Python.

  5. Menggunakan Environment Anaconda

  6. Dalam Anaconda, anda dapat menggunakan beberapa versi python dan library pendukung yang berbeda-beda dalam Anaconda. Caranya adalah dengan menggunakan conda environment.

    Untuk melihat environment yang ada, gunakan:

    conda env list

    Untuk membuat environment baru, misalnya dengan nama myenv, lakukan langkah berikut:

    conda create –name myenv

    Anda bisa membuat environment dengan memilih versi python yang diperlukan, misalnya python 2.7 untuk environment dengan nama myenv27, dengan cara

    conda create -n myenv27 python=2.7

Versi lengkapnya dapat dilihat di anaconda user guide bagian Managing Environment.

Sumber :
https://machinelearningmastery.com/setup-python-environment-machine-learning-deep-learning-anaconda/

Contributor :


M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng.
Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun.
Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.
  • Nov 16 / 2017
  • Comments Off on Seputar Big Data Edisi #38
Apache, Big Data, Forum Info, Hadoop, Storm

Seputar Big Data Edisi #38

Beberapa tema yang tersaji minggu ini adalah mencegah diminishing return big data, Bill Gates yang mendonasikan USD 50 juta untuk riset Alzheimer, bagaimana menghitung nilai ekonomi informasi sebagai aset, dan meledaknya nilai investasi big data di bidang energi. Pada bagian teknis ditampilkan tutorial TensorFlow Core API, membangun ekosistem mikroservis menggunakan Kafka dan KSQL, tutorial setting dan aktivasi Kerberos di cluster HDFS dengan Ambari, dan Free Ebook mengenai data sains. Rilis minggu ini Apache Phoenix 4.13 dan Apache CouchDB 2.1.1 serta 1.7.1.

Seputar Big Data edisi #38 adalah kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan November 2017

Artikel dan Berita

  1. What to do when big data gets too big
    Produksi data yang begitu besar pada suatu ketika mungkin mencapai titik jenuh, di mana manfaat yang didapat dari data akan mulai menurun. Ada dua pemicu utama permasalahan ini, yaitu data diproduksi tanpa tujuan atau business case yang jelas, atau data disajikan dengan kompleksitas yang sangat tinggi sehingga user kesulitan dalam penggunaannya. Artikel ini membahas langkah-langkah yang dapat diambil untuk tetap memaksimalkan manfaat data.
  2. Gates Bets on Big Data in Alzheimer’s Fight
    Bill Gates mengumumkan donasi sebesar USD 50 juta untuk mempelajari dan mengembangkan pengobatan Alzheimer, dengan menekankan pada peran big data dalam pencegahan dan pengendalian penyakit tersebut. Dana tersebut akan disalurkan ke Dementia Discovery Fund (DDF), sebuah kerja sama antara pemerintah, badan amal dan industri kesehatan.
  3. Turn Your Big Data into a Valued Corporate Asset
    Meskipun dunia telah memasuki era informasi dan banyak eksekutif dan pengambil keputusan menyadari bahwa informasi adalah salah satu aset terpenting dalam menjalankan bisnis, namun dari sisi akunting informasi masih belum dianggap sebagai aset. Hal ini berpengaruh terhadap cara pandang dan kedisiplinan dalam mengumpulkan, mengolah dan memanfaatkan informasi. Untuk itu saat ini terdapat sebuah bidang yang disebut infonomics, yaitu sebuah teori dan bidang ilmu yang menekankan dan menentukan pentingnya nilai ekonomi dari informasi. Artikel ini menjelaskan secara singkat mengenai 6 model valuasi informasi yang baru-baru ini dirumuskan Gartner bersama dengan para ahli valuasi, akuntan, dan ekonom.
  4. Big Data and Artificial Intelligence Deals in the Energy Sector Are Up Tenfold in 2017
    Investasi sektor energi di bidang big data dan AI meningkat sampai 10 kali lipat tahun ini. Laporan yang dirilis oleh BDO, sebuah perusahaan akuntansi global, menunjukkan bahwa merger dan akuisisi yang melibatkan perusahaan energi dan startup AI meningkat dari USD 500 juta di kuartal pertama 2017, ke USD 3.5 milyar pada kuartal kedua.

Tutorial dan Pengetahuan Teknis

  1. TensorFlow: What Parameters to Optimize?
    Mempelajari TensorFlow Core API, yang merupakan API level paling rendah, adalah langkah yang tepat untuk mulai mempelajari TensorFlow, karena kita dapat memahami kernel library TensorFlow. Berikut ini contoh paling sederhana dari TensorFlow Core API, di mana kita membuat dan melatih model regresi linear.
  2. Apache Storm: The Hadoop of Real-Time
    Pada dasarnya, Hadoop dan Storm digunakan untuk menganalisis data yang besar. Keduanya saling melengkapi dan berbeda dalam beberapa aspek. Apache Storm melakukan semua operasi kecuali persistensi, sementara Hadoop bagus dalam segala hal kecuali dalam perhitungan real-time.
  3. Building a Microservices Ecosystem with Kafka Streams and KSQL
    Saat ini proses bisnis dijalankan sebagai gabungan dari berbagai ekosistem : kumpulan aplikasi dan servis yang saling berinteraksi mencapai sebuah tujuan bisnis. Ada beberapa keuntungan membuat ekosistem tersebut menjadi event-driven.
    Artikel ini menjelaskan dengan baik motivasinya, dan bagaimana membangun sistem transaksional asynchronous di atas Kafka stream dan KSQL.
  4. Ambari Kerberos support for HBase Part 1
    Seri pertama dari serangkaian artikel yang menjelaskan mengenai langkah demi langkah aktivasi autentikasi Kerberos untuk cluster yang menggunakan Ambari. Blog ini secara khusus akan membahas bagaimana cara men-deploy cluster Hadoop (HDFS + YARN) dengan Kerberos aktif yang kemudian akan digunakan untuk men-deploy cluster HBase dengan Kerberos yang diaktifkan pada posting-posting berikutnya.
  5. [FREE EBOOK] Data Science Live: An Open-Source Book About Data Science, Analytics, and More
    Online ebook untuk membantu mempelajari data sains, machine learning dan data analytics, disertai berbagai contoh kasus nyata dalam R. Mencakup di antaranya : Exploratory data analysis, data preparation, pemilihan variabel, kinerja model, dan

Rilis Produk

  1. Apache Phoenix 4.13 released
    Apache Phoenix 4.13, yang mencakup perbaikan bug kritikal terkait penulisan SYSTEM.CATALOG pada saat connecting, beberapa bug fixes terkait row deletion handling, dan lain-lain.
  2. Apache CouchDB 2.1.1 and 1.7.1 released
    Apache CouchDB mengumumkan rilis 2.1.1 dan 1.7.1, yang merupakan security release yang memperbaiki beberapa isu kritikal. Update ke versi ini bersifat mandatory.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Nov 13 / 2017
  • Comments Off on Seputar Big Data Edisi #37
Apache, Artificial Intelligece, Big Data, Forum Info, Implementation, IoT, Spark

Seputar Big Data Edisi #37

Penggunaan big data untuk personalisasi pengobatan radioterapi untuk kanker prostat, Houston Astro yang memenangi World Series dengan kekuatan data, dan beberapa trend big data, AI serta Iot dalam industri transportasi adalah sebagian yang ditampilkan dalam edisi kali ini. Di seksi teknis disajikan vektorisasi UDF untuk PySpark, pengenalan Statistical Language Modeling and Neural Language Models, penggunaan Kafka untuk mentransformasi batch pipeline menjadi real time, dan pengenalan singkat mengenai dep learning. Rilis Apache Kafka 1.0, HDP 2.6.3, Apache Kylin 2.2.0 serta Apache Jena 3.5.0 menjadi berita open source rilis minggu ini.

Seputar Big Data edisi #37 adalah kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan November 2017

Artikel dan berita

  1. How big data won the 2017 World Series
    Mengulang kesuksesan Oakland Athletics yang diabadikan dalam Moneyball, tahun ini Houston Astro berhasil memenangi World Series 2017, final liga baseball paling bergengsi di dunia, dengan kekuatan data.
  2. The Future Of The Transport Industry – IoT, Big Data, AI And Autonomous Vehicles
    Beberapa trend ke depan dalam bidang AI, IoT dan Big Data yang akan membentuk wajah industri transportasi masa depan.
  3. 5 tactics to beat big data hiring challenges
    Mempekerjakan spesialis di bidang teknologi yang sedang trend sering kali menjadi tantangan tersendiri, termasuk dalam hal biaya. Tapi dengan strategi yang tepat, over-pay saat membangun tim baru dapat dihindari. Berikut ini 5 Strategi untuk merekrut talent dalam big data maupun spesialis teknologi lain yang sedang menjadi primadona.
  4. Big data analysis predicts risk of radiotherapy side effects
    Peneliti di The Institute of Cancer Research, London, untuk pertama kalinya menggunakan analisis big data untuk memprediksi resiko efek samping radioterapi, khususnya untuk pengobatan kanker prostat. Terobosan ini dapat membantu para ahli untuk mempersonalisasi pengobatan radioterapi di masa depan.

Tutorial dan Pengetahuan Teknis

  1. Introducing Vectorized UDFs for PySpark : How to run your native Python code with PySpark, fast.
    Spark 2.3 akan mencakup dukungan untuk vectorized UDF (User Defined Function) melalui integrasi menggunakan Apache Arrow.
    UDF yang dianotasi dengan menggunakan @pandas_udf dan menggunakan input atau output berupa pandas.Series memberikan peningkatan kinerja yang signifikan. Artikel ini memberikan beberapa contoh UDF, termasuk penambahan sederhana, probabilitas kumulatif, dan OLS. Artikel ini juga menyertakan sebuah microbenchmark yang menunjukkan peningkatan kecepatan 3x-100x.
  2. How to use Apache Kafka to transform a batch pipeline into a real-time one
    Blog ini menjelaskan dengan lengkap bagaimana membangun rangkaian data real-time end-to-end dengan membuat empat micro-services di atas Apache Kafka. Data ditarik dari HTTP endpoint dan dimasukkan ke dalam Kafka menggunakan Producer API. Dari sana, aplikasi Kafka Streams melakukan deteksi fraud dan menghitung statistik agregat. Akhirnya, Kafka Connect menulis data ke database PostgreSQL untuk melayani melalui REST API. Penjelasan tersebut memberikan wawasan mengenai Kafka Producer API, Avro dan Confluent Schema Registry, Kafka Streams High-Level DSL, dan Kafka Connect Sinks.
  3. Gentle Introduction to Statistical Language Modeling and Neural Language Models
    Pemodelan bahasa sangat penting bagi pemrosesan bahasa alami (Natural language processing – NLP). Model bahasa berbasis neural network telah menunjukkan kinerja yang lebih baik daripada metode klasik, baik untuk proses yang berdiri sendiri maupun sebagai bagian dari proses NLP yang lebih kompleks.
    Artikel berikut ini mengupas mengenai apa itu model bahasa dan beberapa contoh penggunaannya, serta bagaimana jaringan syaraf tiruan dapat digunakan untuk pemodelan bahasa.
  4. Want to know how Deep Learning works? Here’s a quick guide for everyone.
    AI dan Machine learning merupakan topik yang menarik banyak dibicarakan akhir-akhir ini. Salah satu metode yang banyak dimanfaatkan adalah deep learning. Artikel ini memberikan overview singkat untuk memahami apa itu deep learning dan bagaimana cara kerjanya.
  5. Kylo: Automatic Data Profiling and Search-Based Data Discovery
  6. [DATASET] Web data: Amazon reviews
    Dataset yang dapat digunakan untuk keperluan Natutal Language Processing. Mencakup ~35 juta review Amazon dalam kurun waktu 18 tahun. Termasuk di dalamnya informasi produk, user, rating dan teks review.

Rilis Produk

  1. Apache Kafka Goes 1.0
    Minggu ini, Apache Kafka versi 1.0.0 dirilis. Rilis ini mencakup peningkatan kinerja, TLS yang lebih cepat, dukungan Java 9, dan banyak lagi. Milestone-nya dibahas di blog Apache Software Foundation, sedangkan blog Confluent berikut ini menjelaskan beberapa perbaikan yang dilakukan dalam versi terbaru tersebut.
  2. Announcing the General Availability of HDP 2.6.3 and Hortonworks DataPlane Service
    Versi 2.6.3 HDP telah adalah rilis pertama yang mendukung Hortonworks DataPlane Service. Terdapat pula beberapa package versi baru (Spark, Zeppelin, Livy, Druid, Atlas, Knox, Ambari, SmartSense, dan Ranger).
  3. KSQL JDBC Driver
  4. Apache Kylin 2.2.0 released
    Apache Kylin adalah Distributed Analytics Engine yang menyediakan SQL interface dan multi-dimensional analysis (OLAP) di atas Apache Hadoop, mendukung pemrosesan datasets super besar. Rilis 2.2.0 ini adalah rilis major yang mencakup lebih dari 70 bug fixes dan berbagai peningkatan.
  5. Apache Jena 3.5.0 Released
    Apache Jena adalah framework untuk mengembangkan Semantic Web and aplikasi Linked Data dalam Java. Jena menyediakan implementasi standards W3C untuk
    RDF dan SPARQL. Rilis 3.5.0 ini memperkenalkan TDB2, sebagai peningkatan dari TDB1.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Nov 02 / 2017
  • Comments Off on Seputar Big Data Edisi #36
Apache, Big Data, Blockchain, Hadoop, Implementation, Spark

Seputar Big Data Edisi #36

Beberapa artikel teknis menarik mengenai Keras – sebuah Python Deep Learning library, pemanfaatan Apache Flink untuk risk engine, perbandingan antara Apache Arrow, Parquet dan ORC, serta tutorial mengenai penggunaan Spark dan SparkSQL untuk memproses file csv. Dari segmen news ditampilkan penerapan big data analytics oleh PT Pos Indonesia, MIT yang membangun FeatureHub untuk crowdsourcing big data analytics, dan implikasi blockchain bagi industri asuransi. Tidak ketinggalan juga beberapa rilis open source, diantaranya yaitu Apache Spark 2.1.2. Hive, Pandas, dan OpenNLP.

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu 4 bulan Oktober 2017.

Artikel dan Berita

  1. The Amazing Ways Spotify Uses Big Data, AI And Machine Learning To Drive Business Success
    Spotify, layanan musik on-demand terbesar di dunia, dikenal sebagai pendobrak batas teknologi. Perusahaan musik digital dengan lebih dari 100 juta pengguna ini terus meningkatkan kemampuan layanan dan teknologinya melalui beberapa akuisisi serta pemanfaatan big data, kecerdasan buatan dan machine learning.
  2. Crowdsourcing big-data analysis
    Langkah pertama dalam proses analisis big data dalah identifikasi fitur, yaitu data poin yang memiliki nilai prediktif, yang berguna dalam proses analisis. Langkah ini biasanya memerlukan intuisi manusia. Peneliti MIT membangun sebuah sistem kolaborasi, yang diberi nama FeatureHub. Dengan alat ini diharapkan proses identifikasi fitur dapat dilakukan secara efisien dan efektif. Dengan FeatureHub, para data saintis dan domain expert dapat masuk ke dalam sebuah situs untuk mereview permasalahan dan mengajukan fitur yang akan digunakan. FeatureHub kemudian akan melakukan pengetesan berbagai kemungkinan kombinasi fitur tersebut terhadap target data, untuk menentukan kombinasi mana yang paling tepat untuk permasalahan tertentu.
  3. Keuangan Inklusif, PT Pos Bangun Big Data Analytic
    Hingga kini, baru 36 persen masyarakat Indonesia yang memiliki akun bank. Sedangkan 64 persen masyarakat yang tinggal di pelosok belum tersentuh keuangan inklusif karena sulitnya akses ke perbankan. Untuk membantu masyarakat tersebut, PT Pos tengah membangun big data analytic. Lewat big data analytic, Pos akan membuat kredit skoring yang nantinya bisa dikerjasamakan dengan perbankan untuk penyaluran pembiayaan.
  4. What PredictionIO does for machine learning and Spark
    Apache PredictionIO dibangun di atas Spark dan Hadoop, dan menyediakan template yang dapat dikustomisasi untuk task-task yang umum.
    Aplikasi mengirimkan data ke server event untuk melakukan training model, kemudian meng-query engine untuk mendapatkan prediksi berdasarkan model tersebut. Kemudahan apa yang ditawarkan oleh Apache PredictionIO?
  5. Blockchain Implications Every Insurance Company Needs To Consider Now
    Teknologi blockchain sangat berpotensi mengguncang industri asuransi dan mengubah cara berbagi data, memproses klaim dan mencegah fraud. Namun implementasinya di industri asuransi saat ini masih dalam tahap eksplorasi awal. Untuk dapat merealisasikan potensi blockchain yang sangat besar implikasinya tersebut, Industri asuransi perlu secara aktif bekerja sama dengan para pionir, regulator, dan pakar-pakar industri. Perusahaan-perusahaan asuransi pun harus mulai mencoba memanfaatkan blockchain dalam proses internal mereka untuk mendapatkan pembelajaran guna memanfaatkan teknologi ini.

Tutorial dan Pengetahuan Teknis

  1. 7 Steps to Mastering Deep Learning with Keras
    Apakah anda tertarik untuk mempelajari Keras? Apakah Anda sudah memiliki pemahaman tentang bagaimana neural network bekerja? Artikel berikut ini menyajikan tujuh langkah praktis untuk menguasai dasar-dasar Keras dengan mudah dan cepat.
  2. StreamING Machine Learning Models: How ING Adds Fraud Detection Models at Runtime with Apache Flink®
    Artikel ini menjelaskan bagaimana ING menggunakan Apache Flink untuk risk engine mereka. Mereka menggunakan Apache Spark, Knime, dan Apache Zeppelin untuk training model secara batch dan menggunakan Flink untuk komponen real-time. Mereka menggunakan data PMML, yang dikirim melalui Kafka, untuk memperbarui aplikasi Flink. Arsitektur yang digunakan memungkinkan mereka menerapkan algoritma baru dengan zero downtime, seketika.
  3. Apache Arrow vs. Parquet and ORC: Do we really need a third Apache project for columnar data representation?
    Setelah Apache Parquet dan ORC, muncullah Apache Arrow sebagai representasi format data kolumnar. Apakah kemunculan Arrow menawarkan kelebihan atau perbedaan dibanding dua format yang lainnya? Artikel ini membahas dengan detail mengenai kolumnar data format dan perbandingan di antara ketiga format tersebut, lengkap dengan benchmark.
  4. ETL Pipeline to Transform, Store and Explore Healthcare Dataset With Spark SQL, JSON and MapR-DB
    Tutorial ini menjelaskan cara menggunakan Spark untuk membaca data dari file CSV, mengubahnya menjadi skema yang terdefinisi dengan baik (dalam hal ini Scala Case Class), dan melakukan query menggunakan SparkSQL. Ada juga contoh kode untuk menyimpan data di MapR-DB dan membacanya kembali.

Rilis Produk

  1. Spark Release 2.1.2
    Spark 2.1.2 baru saja dirilis. Ada lebih dari 100 perbaikan bug dan berbagai penyempurnaan pada versi ini.
  2. Pandas v0.21.0
    Ini adalah major rilis dari 0,20,3 mencakup sejumlah perubahan, deprecation, fitur baru, penyempurnaan, dan peningkatan kinerja API serta sejumlah besar perbaikan bug. User sangat disarankan melakukan upgrade ke versi ini.
  3. Hive – Version 2.3.1
    Hive versi 2.3.1 dirilis minggu lalu dengan beberapa bug fixing dan penyempurnaan.
  4. Apache OpenNLP 1.8.3
    Rilis ini memperkenalkan beberapa fitur baru, perbaikan bug, dan penyempurnaan. Versi ini memerlukan Java 1.8 dan Maven 3.3.9.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Oct 31 / 2017
  • Comments Off on Teknologi Blokchain akan Menghubungkan Seluruh Industri
Artificial Intelligece, Big Data, Blockchain, Implementation, IoT, Uncategorized

Teknologi Blokchain akan Menghubungkan Seluruh Industri

Blockchain adalah topik yang hangat dan diminati banyak orang saat ini. Teknologi blockchain dianggap mampu mengatasi berbagai permasalahan yang berkaitan dengan teknologi, profesional maupun personal. Blockchain dipandang sebagai solusi yang elegan dan aman, yang dapat membuka berbagai kemungkinan transaksi. Namun meskipun trend adopsi blockchain ini cukup agresif, masih belum banyak pembahasan mengenai potensi pengaruhnya terhadap proses transaksi di berbagai sektor industri.

Blockchain banyak disebut dalam konteks pembahasan cryptocurrency, namun sesungguhnya kekuatan blockchain adalah pada fleksibilitas transaksionalnya, dan kegunaannya jauh lebih luas daripada sekedar pertukaran mata uang saja.

Blockchain bersifat ‘transaction agnostic’.
Hampir semua transaksi di dunia saat ini melibatkan banyak pihak di dalam setiap prosesnya. Misalnya dalam proses jual beli rumah atau penandatanganan kontrak, banyak orang atau elemen terlibat di dalamnya.

Industri-industri perbankan, real estat, pinjaman hipotek, semuanya dibangun di atas jutaan transaksi kecil semacam ini. Dari transaksi-transaksi kecil tersebut akan timbul sejumlah pajak dan biaya-biaya lain. Penggunaan blockchain dapat menghilangkan ‘serpihan’ transaksi semacam ini, sehingga memangkas biaya dan waktu yang diperlukan, dan menghilangkan banyak perantara yang terlibat dalam sebuah transaksi.

Seperti yang di jelaskan oleh François Zaninotto : “Blockchain adalah buku besar fakta, direplikasi di beberapa komputer yang dipasang di jaringan peer-to-peer. Fakta bisa berupa apapun, mulai dari transaksi moneter hingga signature konten. Anggota jaringan adalah individu anonim yang disebut nodes. Semua komunikasi di dalam jaringan memanfaatkan kriptografi untuk mengidentifikasi pengirim dan penerima dengan aman. Bila sebuah node ingin menambahkan fakta ke buku besar, sebuah konsensus terbentuk dalam jaringan untuk menentukan di mana fakta ini seharusnya muncul di buku besar; Konsensus ini disebut block.”
Teknologi ini secara konseptual bisa dipandang sebagai sebuah jaringan terdistribusi yang aman, yang terbentuk dari orang-orang yang terverifikasi.

Penerapan aplikasi teknologi blockchain lebih luas dari yang dibayangkan sebelumnya, dan sudah ada beberapa indikasi pengembangannya. Salah satunya adalah adanya platform prototipe dan aplikasi yang sudah di deploy. Indikasi lain adalah adanya investasi berkelanjutan oleh banyak VC, dan pengembangan berbagai platform aplikasi. Dan yang tidak kalah pentingnya, proses pembentukan konsorsium dan kemitraan juga sudah berjalan. IBM saat ini sedang bekerja sama dengan tujuh bank Eropa untuk mengembangkan platform blockchain, dan konsorsium R3CEV dibentuk untuk memajukan teknologi blockchain terutama di bidang keuangan.

Topik blockchain ini menjadi salah satu tema yang dikupas pada meetUp ke #18 idbigdata yang diselenggarakan di Bina Nusantara University beberapa waktu lalu. Deden Hasanudin (Solution Lead IBM Global Business Services- IBM) membawa judul “Berkenalan dengan Blockchain, Teknologi dibalik Bitcoin”, dapat idbigdata-ers saksikan kembali di channel youtube idbigdata.


Sumber : https://www.forbes.com/sites/steveandriole/2017/10/25/blockchain-ai-will-rewire-whole-industries/#653563ad1e89

Contributor :


Vinka
pecinta astronomi yang sejak kecil bercita-cita menjadi astronaut, setelah dewasa baru sadar kalau tinggi badannya tidak akan pernah cukup untuk lulus seleksi astronaut.

M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng.
Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun.
Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.
  • Oct 27 / 2017
  • Comments Off on Seputar Big Data Edisi #35
Uncategorized

Seputar Big Data Edisi #35

Berita minggu ini adalah mengenai CDLA, yaitu lisensi open source untuk data yang digagas Linux Foundation, penggunaan big data oleh kepolisian, beberapa artikel teknis mengenai Kafka dan KSQL, streaming SQL engine untuk Apache Kafka, tips kombinasi PySpark dengan Pandas dan library lainnya, serta beberapa rilis open source.

Seputar Big Data edisi #35 adalah kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu 3 bulan Oktober 2017

Artikel dan Berita

  1. Open-sourcing data will make big data bigger than ever
    Software open source telah menjadi penggerak kemajuan teknologi informasi masa kini. Pesatnya perkembangan big data pun tidak bisa dilepaskan dari pengaruh open source. Setelah software open source, kini Linux Foundation menciptakan sebuah framework lisensi terbuka serupa untuk data, yaitu CDLA (Community Data License Agreement). Dengan adanya CDLA ini diprediksikan akan semakin mendorong big data dan artificial intelligence untuk tumbuh semakin pesat. Artikel ini menjelaskan latar belakang dan isi dari lisensi CDLA tersebut.
  2. The rise of big data policing
    Di tengah kontroversi seputar privacy dan bias dalam penggunaan data dalam pencegahan dan penanggulangan kejahatan, tidak bisa dipungkiri lagi bahwa big data telah mulai digunakan secara luas oleh kepolisian di berbagai negara. Salah satunya adalah dibentuknya divisi RACR (Real-Time Analysis Critical Response) di Kepolisian Los Angeles. Bekerja sama dengan Palantir, mereka menggabungkan dan menganalisis berbagai petunjuk yang tersembunyi dari berbagai data source dari berbagai organisasi penegak hukum.
  3. Why Space Data Is The New Big Data
    Dengan semakin terjangkaunya biaya layanan satelit, muncul pula kebutuhan penggunaan 'data angkasa' dalam berbagai bidang industri. Misalnya dalam bidang pertanian, data satelit digunakan untuk memonitor faktor-faktor yang mempengaruhi hasil panen, dalam bidang real estat, digunakan untuk mengenali area yang rawan banjir. Dalam bidang retail, lalu lintas pejalan kaki di sekitar pusat perbelanjaan dapat dimonitor secara real time, untuk mendapatkan gambaran perilaku konsumen secara nyata.
  4. How AI Will Affect the Travel Industry
    Artificial Intelligence (AI) sepertinya akan merubah wajah industri perjalanan dan pariwisata. AI dapat membantu konsumen dan perusahaan penyedia jasa untuk dapat menyederhanakan pembuatan pengaturan perjalanan dan memperlancar proses bisnis.

Tutorial dan Pengetahuan Teknis

  1. Efficient UD(A)Fs with PySpark
    Menggabungkan PySpark dengan Pandas atau python library lainnya bisa menjadi tantangan tersendiri. Artikel berikut ini menjelaskan mengapa, dan menyediakan beberapa code untuk mengonversi data dari tipe numpy ke tipe yang kompatibel dengan PySpark, dan sebaliknya, untuk implementasi custom function. Artikel ini juga mengupas PySpark dengan cukup mendalam.
  2. Predicting Flight Arrivals with the Apache Kafka Streams API
    Membangun machine learning model yang dapat beradaptasi secara real time kini dapat dilakukan dengan lebih mudah. Kafka Streams memungkinkan kita untuk menggunakan code yang sama untuk training online dan offline. Artikel ini menunjukkan langkah-langkah membangun evaluasi dan training pipeline real time.
  3. KSQL: Streaming SQL for Apache Kafka
    Intro yang komprehensif dan menarik mengenai KSQL untuk Apache Kafka. Artikel ini menyajikan sebuah contoh agregasi data Twitter dengan SQL dan melakukan penggabungan stream. Terdapat pula beberapa diagram yang menjelaskan mengenai semantik KSQL.
  4. Top 10 Machine Learning Algorithms for Beginners
    Pengantar untuk pemula, mengenai 10 algoritma terpopuler, lengkap dengan gambar dan contoh untuk memudahkan pemahaman.
  5. Getting Started with Cloudera’s Cybersecurity Solution
    Cloudera telah bermitra dengan Arcadia Data dan StreamSets agar lebih mudah bagi Chief Information Security Officers (CISOs) untuk mengambil langkah awal dalam penerapan studi kasus dengan memanfaatkan sumber data yang umum di berbagai sumber.

Rilis Produk

  1. Apache Pulsar 1.20.0-incubating Released
    Apache Pulsar versi 1.20.0-incubating dirilis, mencakup enkripsi end-to-end, support untuk event time, deduplikasi pesan, dan lain sebagainya.
  2. Introducing the Natural Language Processing Library for Apache Spark
    The John Snow Labs NLP library adalah framework open source untuk pemrosesan bahasa alami di atas Apache Spark. Artikel ini menjelaskannya dengan detail, termasuk bagaimana library tersebut melengkapi library-library ML Spark dan memberikan performance yang lebih baik.
  3. The Apache Software Foundation Announces Apache® PredictionIO™ as a Top-Level Project
    Apache PredictionIO, server Machine Learning open source yang memungkinkan developer memanage dan mendeploy servis-servis prediktif untuk berbagai macam pekerjaan Machine Learning. Project ini menyediakan koleksi template engine, di mana developer dapat memilih template dan mempersiapkan solusi machine learning untuk use case mereka secara cepat. Tiap template didesain untuk skenario machine learning tertentu.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Oct 18 / 2017
  • Comments Off on Seputar Big Data Edisi #34
Big Data, Hadoop, Implementation, Storage, Uncategorized

Seputar Big Data Edisi #34

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama awal Februari 2017

Artikel dan Berita

  1. Big Data Is the New Push for Bank Indonesia
    Seperti halnya bank central di negara lain seperti Rusia, China, Inggris dan lainnya, Bank Indonesia beralih menggunakan mesin atau yang sering disebut dengan istilah Big Data, untuk membantu membuat kebijakan menjadi lebih efektif.
  2. Why Blockchain-as-a-Service Should Replace Servers and the Cloud
    Blockchain dan Big Data sangat mirip dalam hal penggunaan: ini semua tentang bagaimana kita menggunakannya. Sama seperti istilah Force dalam film Star Wars, blockchain dan big data adalah alat yang bisa digunakan untuk hal buruk atau hal baik.
  3. How Big Data is Helping Predict Heart Disease
    Penyakit jantung merupaka salah satu penyebab utama kematian di Amerika Serikat. Satu dari 4 orang yang meninggal dunia disebabkan oleh penyakit jantung. Berkat Big Data, para dokter dan ilmuwan telah membuat kemajuan dalam penelitian mengenai prediksi serangan jantung dan pengobatan yang efektif
  4. Saving Snow Leopards with Artificial Intelligence
    Microsoft Azure Machine Learning bekerja sama Snow Leopard Trust, membangun sistem klasifikasi otomatis menggunakan Convolutional Neural Network (CNN) untuk mengklasifikasi gambar yang tertangkap kamera.

Tutorial dan Pengetahuan Teknis

  1. Random Forests(r), Explained
    Random Forest, salah satu metode ensemble paling populer yang digunakan pada implementasi Machine Learning saat ini. Postingan berikut merupakan pengantar algoritma semacam itu dan memberikan gambaran singkat cara kerjanya.
  2. Data Visualization Using Apache Zeppelin
    Apache Zeppelin merupakan sebuah platform open-source untuk analisa data dan visualisasi data. Aplikasi ini yang dapat membantu untuk mendapatkan insight untuk memperbaiki dan meningkatkan performa dalam pengambilan keputusan.
  3. Anomaly Detection With Kafka Streams
    Postingan berikut merupakan studi kasus untuk melakukan deteksi anomali menggunakan Streaming Kafka. Dengan contoh kasus pada situs pembayaran pinjaman, yang akan mengirimkan notifikasi peringatan jika terjadi pembayaran yang terlalu tinggi.
  4. Top 30 big data tools for data analysis
    Saat ini banyak sekali tool Big Data yang digunakan untuk menganalisa data baik yang open-source, gratis maupun berbayar. Analisa data disini adalah proses untuk pemeriksaan, pembersihan, transformasi, dan pemodelan data dengan tujuan untuk menemukan informasi yang berguna, membantu memberikan kesimpulan, dan mendukung pengambilan keputusan.
  5. Kafka Racing: Know the Circuit
    Berikut merupakan postingan pertama dalam rangkaian blog yang didedikasikan untuk Apache Kafka dan penggunaannya untuk memecahkan masalah di domain data yang besar.
  6. Getting Started With Batch Processing Using Apache Flink
    Apache Flink adalah alat pengolah data generasi baru yang dapat memproses kumpulan data yang terbatas (ini disebut juga batch processing) atau aliran data yang berpotensi tak terbatas (stream processing).

Rilis Produk

  1. Apache Phoenix 4.12 released
    Apache Phoenix merilis versi 4.12.0, yang di antaranya mencakup : peningkatan skalabilitas dan reliabilitas untuk global mutable secondary index, support untuk table sampling, stabilisasi unit test run, perbaikan terhadap lebih dari 100 issue.
  2. Apache Solr™ 7.1.0 available
    The Lucene PMC dengan bangga mengumumkan perilisan Apache Solr 7.1.0 yang mencakup banyak fitur baru lainnya serta banyak optimasi dan perbaikan bug.
  3. Apache Rya 3.2.11-incubating released
    Ini adalah rilis Apache Rya yang kedua, versi 3.2.11.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Oct 13 / 2017
  • Comments Off on Seputar Big Data Edisi #33
Apache, Big Data, Hadoop

Seputar Big Data Edisi #33

Tiga teknologi perintis terkini dan perusahaan di belakang mereka, yaitu Lidar, Hadoop dan 5G., 5 kesalahan umum yang menyebabkan visualisasi data menjadi tidak baik., hingga Rilis HUE 4.1, semua tersaji khusus dalam Seputar Big Data Edisi #33. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan Oktober 2017

Artikel dan Berita

  1. Top 10 Big Data Jobs
    Big Data, tentu saja, menciptakan banyak pekerjaan. Robert Half baru saja merilis dokumen berjudul “2018 Salary Guide for Technology Professionals” yang memprediksi bahwa pekerjaan yang berhubungan dengan Big Dataseperti analis bisnis intelijen (BI), data science dan database developer akan menjadi salah satu pekerjaan paling banyak dibutuhkan di tahun yang akan datang.
  2. 3 Essential Technologies for the Next 10 Years
    Dalam artikel ini dibahas mengenai tiga teknologi perintis terkini dan perusahaan di belakang mereka, yaitu Lidar, Hadoop dan 5G.
  3. How Quantum Computers Will Revolutionize Artificial Intelligence and Big Data
    Pada awalnya, menyelesaikan masalah big data dapat menggunakan komputer desktop. Dengan semakin besarnya data, komputasi Quantum yang dilengkapi dengan algoritma lanjutan tidak memadai lagi jika menggunakan memori pada komputer tradisional.

Tutorial dan Pengetahuan Teknis

  1. The 5 Common Mistakes That Lead to Bad Data Visualization
    Berikut adalah 5 kesalahan umum yang menyebabkan visualisasi data menjadi tidak baik. Hindari ini untuk mendapatkan hasil maksimal dari visualisasi data Anda.
  2. Using Kafka Streams API for predictive budgeting
    Blog Pinterest Engineering telah memposting bagaimana Pinterest menggunakan Kafka Stream untuk melakukan prediksi realtime menggunakan pemrosesan stream
  3. [DATASET] New York city TLC Trip Record Data
    The New York City Taxi & Limousine Commission merilis kumpulan data historis yang sangat detail, mencakup lebih dari 1,1 miliar perjalanan taksi di kota tersebut mulai Januari 2009 sampai Juni 2015.
  4. [FREE EBOOK] Python Data Science Handbook
    Menjelaskan dengan sistematis mengenai data science dan penerapannya dengan Python. Disajikan dalam bentuk Jupyter Notebook, sehingga pembacanya dapat langsung mencoba langkah demi langkah.

Rilis Produk

  1. Bitwise Launches Hadoop Adaptor for Mainframe Data
    Bitwise, sebuah perusahaan konsultan manajemen data berbasis di Chicago, hari ini, 10 Oktober, mengumumkan peluncuran Adaptor Hadoop untuk Data Mainframe untuk mengubah data mainframe dalam format EBCDIC menjadi format yang dikenal Hadoop seperti ASCII, Avro dan Parket.
  2. Announcing dplyrXdf 1.0
    Paket dplyrXdf versi 1.0 diumumkan peluncurannya. Semula dplyrXdf merupakan backend sederhana ke dplyr untuk format file XFS Microsoft Machine Learning Server / Microsoft R Server, namun kini telah menjadi perangkat yang lebih luas untuk mempermudah bekerja dengan file format Xdf.
  3. Hue 4.1 is out!
    HUE versi 4.1 dirilis dengan sekitar 250 perbaikan bugs
  4. Apache Flume 1.8.0 released
    Apache Flume 1.8.0 dirilis dengan 3 fitur minor baru dan 8 peningkatan kinerja, serta berbagai perbaikan bugs.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
Pages:1234567...12
Tertarik dengan Big Data beserta ekosistemnya? Gabung