:::: MENU ::::

Posts Categorized / IoT

  • Dec 29 / 2017
  • Comments Off on Seputar Big Data Edisi #44 [Kilas Balik 2017]
Apache, Artificial Intelligece, Big Data, Blockchain, Hadoop, Implementation, IoT

Seputar Big Data Edisi #44 [Kilas Balik 2017]

Edisi terkahir di tahun 2017 akan menampilkan beberapa berita yang dikutip dari berbagai site selama tahun 2017 yang akan sangat menarik jika dibaca kembali. Mulai dengan rilis baru Hadoop 3.0, penerapan Big Data di pemerintahan Indonesia seperti BI, Dirjen Pajak dan PT POS hingga berita tentang sebuah robot yang memperoleh status kewarganegaraan.

  1. The Apache Software Foundation Announces Apache® Hadoop® v3.0.0 General Availability
    Apache Hadoop 3.0.0 akhirnya dirilis minggu lalu. Beberapa fitur penting yang ditambahkan adalah HDFS erasure encoding, a preview dari v2 YARN Timeline Service, peningkatan YARN/HDFS Federation, dan lain sebagainya.
  2. Big Data Is the New Push for Bank Indonesia
    Seperti halnya bank central di negara lain seperti Rusia, China, Inggris dan lainnya, Bank Indonesia beralih menggunakan mesin atau yang sering disebut dengan istilah Big Data, untuk membantu membuat kebijakan menjadi lebih efektif.
  3. Usai Paradise Papers, DJP Bakal Punya Big Data Pajak dari AEoI
    Direktorat Jenderal Pajak (DJP) Kementerian Keuangan akan memiliki data dengan skala besar dan valid dari otoritas pajak seluruh negara saat implementasi pertukaran data secara otomatis (Automatic Exchange of Information/AEoI) per September 2018
  4. PT Pos Bangun Big Data Analytic
    Hingga kini, baru 36 persen masyarakat Indonesia yang memiliki akun bank. Sedangkan 64 persen masyarakat yang tinggal di pelosok belum tersentuh keuangan inklusif karena sulitnya akses ke perbankan. Untuk membantu masyarakat tersebut, PT Pos tengah membangun big data analytic. Lewat big data analytic, Pos akan membuat kredit skoring yang nantinya bisa dikerjasamakan dengan perbankan untuk penyaluran pembiayaan.
  5. Saudi Arabia grants citizenship to a robot for the first time ever
    Sebuah berita cukup menjadi sorotan, dimana sebuah robot bernama Sophia diberi status kewarganegaraan oleh pemerintah Arab Saudi. Hal ini merupakan sebuah tonggak sejarah akan kebangkitan teknologi AI.
  6. Top Trends in the Gartner Hype Cycle for Emerging Technologies, 2017
    Garner merilis The Gartner Hype Cycle for Emerging Technologies 2017, yang berfokus pada 3 mega trend, yaitu Artificial Intelligent, Transparently Immersive Experiences dan Digital Platforms. Para arsitek dan inovator teknologi harus mengeksplorasi dan memahami 3 mega trend tersebut untuk dapat melihat dampaknya terhadap bisnis.
  7. How Big Data Mines Personal Info to Craft Fake News and Manipulate Voters
    Banyak orang memasang atau membagikan status dan content lain di media sosial dengan maksud mempengaruhi orang lain. Tapi bagaimana jika justru status dan posting kita itu dipergunakan untuk mempengaruhi kita sendiri? Cambridge Analytica, salah satu perusahaan di balik kampanye Donald Trump, mengungkapkan mengenai “psychographic profiling”, yaitu memanfaatkan data-data sosial media untuk membentuk kampanye yang sesuai dengan profil emosi dan psikologis pengguna sosial media.
  8. The 10 Coolest Big Data Startups Of 2017 (So Far)
    Banyak startup yang bermain di area big data memfokuskan diri untuk memberikan solusi terhadap masalah dalam menghubungkan sumber data yang berbeda dan memindahan data ke dalam cloud untuk memudahkan akses dan analisa. Ada juga tren yang sedang berkembang yaitu penggunaan machine learnig dan artificial intelligence dalam aplikasi big data untuk membuat sistem yang lebih cerdas.
  9. What Amazon taught us this week: Data-centric companies will devour competitors
    Apa sebenarnya keuntungan yang bisa didapatkan Amazon dengan akuisisi jaringan retail Whole Foods, terutama dari sisi penguasaan data dan pemanfaatannya? Berikut ini analisis dan beberapa pelajaran yang didapat dari langkah yang diambil Amazon tersebut.
  10. Guizhou to become China’s ‘Big Data Valley’
    Akhir Mei lalu puluhan ribu pengunjung memadati “International Big Data Industry Expo 2017” yang diselenggarakan di Guizhou, China. Saat ini Guizhou dikembangkan sebagai “Big Data Valley”-nya China, yang menjadi tempat yang menarik bukan hanya bagi start-up, namun juga bagi industri besar seperti misalnya Alibaba, Qualcomm, IBM, Huawei, Tencent, Baidu, Lenovo dan Foxconn.
  11. Cloudera Announces Pricing of Initial Public Offering, Marking its Debut as a Public Company
    Cloudera memulai hari sebagai sebuah perusahaan terbuka dengan melakukan penawaran saham perdana seharga $15. Pada akhir hari mengalami peningkatan harga sebesar 20%.
  12. Firing on All Cylinders: The 2017 Big Data Landscape
    Pada tahun 2017 ini adalah sebuah phase penerapan Big Data dalam segala bidang, yang membuat istilah Big Data itu sendiri berangsur menghilang. “Big Data + AI” menjadi suatu pasangan yang digunakan banyak aplikasi modern yang dibangun, baik untuk penerapan terhadap konsumen maupun perusahaan.
  13. Gartner’s 2017 Take on Data Science Software
    Gartner telah merilis Gartner Magic Quadran for Data Science Platforms 2017. Dari sekitar 100 perusahaan yang menjual software data sains, Gartner memilih 16 perussahaan yang memiliki pendapatan tinggi atau pendapatan rendah tetapi pertumbuhan yang tinggi. Setelah mendapat masukan baik dari pelanggan maupun perwakilan perusahaan, Gartner memberikan nilai pada perusahaan dengan kriteria “kelengkapan visi” dan “kemampuan untuk melaksanakan” visi tersebut.
  14.  

    Contributor :


    Tim idbigdata
    always connect to collaborate every innovation 🙂
  • Dec 14 / 2017
  • Comments Off on Seputar Big Data Edisi #41
Apache, Big Data, IoT, Spark, Uncategorized

Seputar Big Data Edisi #41

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan Desember 2017

Artikel dan Berita

  1. Uber’s Uber Breach: A Stunning Failure In Corporate Governance And Culture
    Ketika Uber mengetahui data mereka bocor di akhir 2016 lalu, selain tidak memperingatkan pihak-pihak yang terkena dampaknya, mereka juga berusaha berkonspirasi untuk menutupi kasus tersebut. Bahkan mereka pun bersedia membayar hacker/pemeras yang membobol data mereka dalam usaha menyembunyikannya. Dalam artikel ini Forrester mengupas mengenai kasus tersebut.
  2. The Marine Biologist Using Big Data to Protect Ocean Wildlife
    Bagaimana para ahli biologi kelautan menggunakan big data untuk menjaga keragaman dan keseimbangan hayati kelautan dengan membangun beberapa platform untuk memonitor berbagai ancaman terhadap ekosistem laut.
  3. Big Data in Marketing; 5 Use Cases – There Are a Lot More Than Just Five
    5 contoh penggunaan big data dalam bidang marketing.
  4. Big data: Three ways to turn business intelligence into a business advantage
    Besarnya informasi yang dimiliki sebuah organisasi tidak selalu sejalan dengan jumlah insight yang mereka dapatkan. Dalam artikel ini CIO perusahaan retail House of Fraser memaparkan mengenai strategi mereka dalam menempatkan BI dan AI sebagai pendukung utama dalam pengambilan keputusan dalam perusahaan.

Tutorial dan Pengetahuan Teknis

  1. Graph Analytics Using Big Data
    Sebuah overview dan tutorial singkat mengenai bagaimana melakukan analisis graph menggunakan Apache Spark, graphframe dan Java.
  2. From lambda to kappa and dataflow paradigms
    Sebuah tinjauan singkat mengenai evolusi kerangka pemrosesan data dalam beberapa tahun terakhir ini, mulai dari framework yang sudah muncul lebih dulu (misalnya Storm dan Samza) serta beberapa framework baru seperti Beam, Spark, dan Flink.
  3. Comparing Pulsar and Kafka: unified queuing and streaming
    Overview mengenai Apache Pulsar (incubating) dan perbandingannya dengan Apache Kafka.
  4. scikit-learn: Creating a Matrix of Named Entity Counts
    Artikel yang menjelaskan mengenai implementasi model menggunakan named entities dan polyglot NLP library dari scikit-learn untuk mengikuti kompetisi Kaggle Spooky Author Identification.
  5. Transfer learning from multiple pre-trained computer vision models
    Dalam deep learning, sebuah model perlu dilatih menggunakan data yang besar untuk dapat digunakan. Semakin besar data yang digunakan untuk training model, semakin baik kinerjanya untuk data baru. Salah satu metode yang paling murah dan praktis adalah dengan ‘transfer learning’. Artikel ini menjelaskan bagaimana menggunakan model computer vision yang sudah ditraining, dalam keras TensorFlow abstraction library.
  6. Data acquisition in R (3/4)
    Seri ke 3 dari 4 artikel yang menjelaskan dengan sangat baik mengenai akuisisi data (loading, preproses, analisis dan visualisasi) dalam R, terutama data-data yang berhubungan dengan demografi.
  7. [FREE EBOOK] The Ultimate Guide to Basic Data Cleaning
    Data cleansing atau data cleaning merupakan langkah yang sangat penting dalam pengolahan data, karena kualitas insight yang dihasilkan dari proses analisis tergantung dari kualitas datanya. Ebook ini menjelaskan mengenai dasar-dasar data cleaning dalam 8 bab yang singkat, dilengkapi dengan contoh kasus.
  8. [DATASET] IMDB 5000 Movie Dataset
    Dataset yang digunakan untuk mengeksplorasi kemungkinan untuk memprediksi popularitas sebuah film sebelum film tersebut dirilis.

Rilis Produk

  1. Apache ZooKeeper 3.4.11
    Rilis Apache ZooKeeper 3.4.11 mencakup beberapa bug fixes dan peningkatan kinerja.
  2. Apache BooKeeper 4.5.1 Released
    Versi 4.5.1 dari Apache BooKeeper dirilis minggu ini. Di dalamnya terdapat penyelesaian terhadap beberapa bug kritikal.
  3. Apache Bigtop 1.2.1
    Apache Bigtop 1.2.1 dibangun di atas JDK8 dan mencakup Docker provisioner serta peningkatan pada beberapa project ekosistemnya.
  4. Burrow 1.0.0 Released
    Burrow adalah tool monitoring untuk Apache Kafka. Versi 1.0.0 yang baru-baru ini dirilis mencakup beberapa fitur baru dan perbaikan bugs.
  5. StreamSets Data Collector 3.0
    StreamSet merilis versi 3.0 dari SDC (StreamSet Data Collector), dan Data Collector Edge yang baru. Data Collector Edge adalah versi lightweight binary dari SDC. SDC versi 3.0 mencakup beberapa fitur baru yang berhubungan dengan Kafka, Google Cloud, Oracle CDC, MapR, dan lain sebagainya.
  • Nov 13 / 2017
  • Comments Off on Seputar Big Data Edisi #37
Apache, Artificial Intelligece, Big Data, Forum Info, Implementation, IoT, Spark

Seputar Big Data Edisi #37

Penggunaan big data untuk personalisasi pengobatan radioterapi untuk kanker prostat, Houston Astro yang memenangi World Series dengan kekuatan data, dan beberapa trend big data, AI serta Iot dalam industri transportasi adalah sebagian yang ditampilkan dalam edisi kali ini. Di seksi teknis disajikan vektorisasi UDF untuk PySpark, pengenalan Statistical Language Modeling and Neural Language Models, penggunaan Kafka untuk mentransformasi batch pipeline menjadi real time, dan pengenalan singkat mengenai dep learning. Rilis Apache Kafka 1.0, HDP 2.6.3, Apache Kylin 2.2.0 serta Apache Jena 3.5.0 menjadi berita open source rilis minggu ini.

Seputar Big Data edisi #37 adalah kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan November 2017

Artikel dan berita

  1. How big data won the 2017 World Series
    Mengulang kesuksesan Oakland Athletics yang diabadikan dalam Moneyball, tahun ini Houston Astro berhasil memenangi World Series 2017, final liga baseball paling bergengsi di dunia, dengan kekuatan data.
  2. The Future Of The Transport Industry – IoT, Big Data, AI And Autonomous Vehicles
    Beberapa trend ke depan dalam bidang AI, IoT dan Big Data yang akan membentuk wajah industri transportasi masa depan.
  3. 5 tactics to beat big data hiring challenges
    Mempekerjakan spesialis di bidang teknologi yang sedang trend sering kali menjadi tantangan tersendiri, termasuk dalam hal biaya. Tapi dengan strategi yang tepat, over-pay saat membangun tim baru dapat dihindari. Berikut ini 5 Strategi untuk merekrut talent dalam big data maupun spesialis teknologi lain yang sedang menjadi primadona.
  4. Big data analysis predicts risk of radiotherapy side effects
    Peneliti di The Institute of Cancer Research, London, untuk pertama kalinya menggunakan analisis big data untuk memprediksi resiko efek samping radioterapi, khususnya untuk pengobatan kanker prostat. Terobosan ini dapat membantu para ahli untuk mempersonalisasi pengobatan radioterapi di masa depan.

Tutorial dan Pengetahuan Teknis

  1. Introducing Vectorized UDFs for PySpark : How to run your native Python code with PySpark, fast.
    Spark 2.3 akan mencakup dukungan untuk vectorized UDF (User Defined Function) melalui integrasi menggunakan Apache Arrow.
    UDF yang dianotasi dengan menggunakan @pandas_udf dan menggunakan input atau output berupa pandas.Series memberikan peningkatan kinerja yang signifikan. Artikel ini memberikan beberapa contoh UDF, termasuk penambahan sederhana, probabilitas kumulatif, dan OLS. Artikel ini juga menyertakan sebuah microbenchmark yang menunjukkan peningkatan kecepatan 3x-100x.
  2. How to use Apache Kafka to transform a batch pipeline into a real-time one
    Blog ini menjelaskan dengan lengkap bagaimana membangun rangkaian data real-time end-to-end dengan membuat empat micro-services di atas Apache Kafka. Data ditarik dari HTTP endpoint dan dimasukkan ke dalam Kafka menggunakan Producer API. Dari sana, aplikasi Kafka Streams melakukan deteksi fraud dan menghitung statistik agregat. Akhirnya, Kafka Connect menulis data ke database PostgreSQL untuk melayani melalui REST API. Penjelasan tersebut memberikan wawasan mengenai Kafka Producer API, Avro dan Confluent Schema Registry, Kafka Streams High-Level DSL, dan Kafka Connect Sinks.
  3. Gentle Introduction to Statistical Language Modeling and Neural Language Models
    Pemodelan bahasa sangat penting bagi pemrosesan bahasa alami (Natural language processing – NLP). Model bahasa berbasis neural network telah menunjukkan kinerja yang lebih baik daripada metode klasik, baik untuk proses yang berdiri sendiri maupun sebagai bagian dari proses NLP yang lebih kompleks.
    Artikel berikut ini mengupas mengenai apa itu model bahasa dan beberapa contoh penggunaannya, serta bagaimana jaringan syaraf tiruan dapat digunakan untuk pemodelan bahasa.
  4. Want to know how Deep Learning works? Here’s a quick guide for everyone.
    AI dan Machine learning merupakan topik yang menarik banyak dibicarakan akhir-akhir ini. Salah satu metode yang banyak dimanfaatkan adalah deep learning. Artikel ini memberikan overview singkat untuk memahami apa itu deep learning dan bagaimana cara kerjanya.
  5. Kylo: Automatic Data Profiling and Search-Based Data Discovery
  6. [DATASET] Web data: Amazon reviews
    Dataset yang dapat digunakan untuk keperluan Natutal Language Processing. Mencakup ~35 juta review Amazon dalam kurun waktu 18 tahun. Termasuk di dalamnya informasi produk, user, rating dan teks review.

Rilis Produk

  1. Apache Kafka Goes 1.0
    Minggu ini, Apache Kafka versi 1.0.0 dirilis. Rilis ini mencakup peningkatan kinerja, TLS yang lebih cepat, dukungan Java 9, dan banyak lagi. Milestone-nya dibahas di blog Apache Software Foundation, sedangkan blog Confluent berikut ini menjelaskan beberapa perbaikan yang dilakukan dalam versi terbaru tersebut.
  2. Announcing the General Availability of HDP 2.6.3 and Hortonworks DataPlane Service
    Versi 2.6.3 HDP telah adalah rilis pertama yang mendukung Hortonworks DataPlane Service. Terdapat pula beberapa package versi baru (Spark, Zeppelin, Livy, Druid, Atlas, Knox, Ambari, SmartSense, dan Ranger).
  3. KSQL JDBC Driver
  4. Apache Kylin 2.2.0 released
    Apache Kylin adalah Distributed Analytics Engine yang menyediakan SQL interface dan multi-dimensional analysis (OLAP) di atas Apache Hadoop, mendukung pemrosesan datasets super besar. Rilis 2.2.0 ini adalah rilis major yang mencakup lebih dari 70 bug fixes dan berbagai peningkatan.
  5. Apache Jena 3.5.0 Released
    Apache Jena adalah framework untuk mengembangkan Semantic Web and aplikasi Linked Data dalam Java. Jena menyediakan implementasi standards W3C untuk
    RDF dan SPARQL. Rilis 3.5.0 ini memperkenalkan TDB2, sebagai peningkatan dari TDB1.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Oct 31 / 2017
  • Comments Off on Teknologi Blokchain akan Menghubungkan Seluruh Industri
Artificial Intelligece, Big Data, Blockchain, Implementation, IoT, Uncategorized

Teknologi Blokchain akan Menghubungkan Seluruh Industri

Blockchain adalah topik yang hangat dan diminati banyak orang saat ini. Teknologi blockchain dianggap mampu mengatasi berbagai permasalahan yang berkaitan dengan teknologi, profesional maupun personal. Blockchain dipandang sebagai solusi yang elegan dan aman, yang dapat membuka berbagai kemungkinan transaksi. Namun meskipun trend adopsi blockchain ini cukup agresif, masih belum banyak pembahasan mengenai potensi pengaruhnya terhadap proses transaksi di berbagai sektor industri.

Blockchain banyak disebut dalam konteks pembahasan cryptocurrency, namun sesungguhnya kekuatan blockchain adalah pada fleksibilitas transaksionalnya, dan kegunaannya jauh lebih luas daripada sekedar pertukaran mata uang saja.

Blockchain bersifat ‘transaction agnostic’.
Hampir semua transaksi di dunia saat ini melibatkan banyak pihak di dalam setiap prosesnya. Misalnya dalam proses jual beli rumah atau penandatanganan kontrak, banyak orang atau elemen terlibat di dalamnya.

Industri-industri perbankan, real estat, pinjaman hipotek, semuanya dibangun di atas jutaan transaksi kecil semacam ini. Dari transaksi-transaksi kecil tersebut akan timbul sejumlah pajak dan biaya-biaya lain. Penggunaan blockchain dapat menghilangkan ‘serpihan’ transaksi semacam ini, sehingga memangkas biaya dan waktu yang diperlukan, dan menghilangkan banyak perantara yang terlibat dalam sebuah transaksi.

Seperti yang di jelaskan oleh François Zaninotto : “Blockchain adalah buku besar fakta, direplikasi di beberapa komputer yang dipasang di jaringan peer-to-peer. Fakta bisa berupa apapun, mulai dari transaksi moneter hingga signature konten. Anggota jaringan adalah individu anonim yang disebut nodes. Semua komunikasi di dalam jaringan memanfaatkan kriptografi untuk mengidentifikasi pengirim dan penerima dengan aman. Bila sebuah node ingin menambahkan fakta ke buku besar, sebuah konsensus terbentuk dalam jaringan untuk menentukan di mana fakta ini seharusnya muncul di buku besar; Konsensus ini disebut block.”
Teknologi ini secara konseptual bisa dipandang sebagai sebuah jaringan terdistribusi yang aman, yang terbentuk dari orang-orang yang terverifikasi.

Penerapan aplikasi teknologi blockchain lebih luas dari yang dibayangkan sebelumnya, dan sudah ada beberapa indikasi pengembangannya. Salah satunya adalah adanya platform prototipe dan aplikasi yang sudah di deploy. Indikasi lain adalah adanya investasi berkelanjutan oleh banyak VC, dan pengembangan berbagai platform aplikasi. Dan yang tidak kalah pentingnya, proses pembentukan konsorsium dan kemitraan juga sudah berjalan. IBM saat ini sedang bekerja sama dengan tujuh bank Eropa untuk mengembangkan platform blockchain, dan konsorsium R3CEV dibentuk untuk memajukan teknologi blockchain terutama di bidang keuangan.

Topik blockchain ini menjadi salah satu tema yang dikupas pada meetUp ke #18 idbigdata yang diselenggarakan di Bina Nusantara University beberapa waktu lalu. Deden Hasanudin (Solution Lead IBM Global Business Services- IBM) membawa judul “Berkenalan dengan Blockchain, Teknologi dibalik Bitcoin”, dapat idbigdata-ers saksikan kembali di channel youtube idbigdata.


Sumber : https://www.forbes.com/sites/steveandriole/2017/10/25/blockchain-ai-will-rewire-whole-industries/#653563ad1e89

Contributor :


Vinka Palupi
pecinta astronomi yang sejak kecil bercita-cita menjadi astronaut, setelah dewasa baru sadar kalau tinggi badannya tidak akan pernah cukup untuk lulus seleksi astronaut.

M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng.
Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun.
Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.
  • Sep 25 / 2017
  • Comments Off on Seputar Big Data Edisi #30
Seputar Big Data edisi #30
Apache, Big Data, Hadoop, IoT, Storage, Storm

Seputar Big Data Edisi #30

Seputar Big Data edisi #30

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan september 2017

Artikel dan Berita

  1. The Amazing Ways Coca Cola Uses Artificial Intelligence (AI) And Big Data To Drive Success
    Big data merevolusi sektor kesehatan dengan sangat cepat. Baru-baru ini Sophia Genetics, sebuah perusahaan yang membangun data analytics dan diagnostik genomik berhasil mendapatkan pendanaan sebesar $30 juta untuk meningkatkan database mereka, dari 125.000 menjadi satu juta pada 2020. Untuk mengakses data tersebut, rumah sakit yang menjadi partner akan men-share data DNA pasien mereka ke sistem Sophia, yang dapat digunakan untuk mengidentifikasi pola genetik di balik penyakit-penyakit genetis seperti cystic fibrosis, jantung dan beberapa jenis kanker. Hal ini menimbulkan beberapa isu, terutama yang berkaitan dengan privacy dan kerahasiaan data pasien.
  2. Seagate and Baidu Sign Strategic Cooperation Agreement for Big Data Analysis and Advanced Storage Implementation
    Seagate Technology, penyedia solusi storage kelas dunia, mengumumkan penandatanganan perjanjian kerjasama strategis dengan Baidu, penyedia internet search berbahasa Cina. Kerjasama tersebut mencakup bidang IT, analisis big data, dan pengembangan serta penerapan sistem storage tingkat tinggi.
  3. £30m National Innovation Centre for Data launched
    Pemerintah Inggris dan Universitas Newcastle bekerja sama membangun pusat big data sebesar 30 juta Poundsterling. Pusat big data ini akan bertugas menjalin kerjasama antara akademisi, penyedia IT, dan sektor publik, yang bertujuan untuk memecahkan permasalahan di dunia nyata dengan memanfaatkan berbagai kemajuan di bidang data sains.
  4. Balderton joins M Series D for big data biotech platform play, Sophia Genetics
    SaaS startup Sophia Genetics membangun platform data analytics yang memanfaatkan keahlian tenaga medis untuk mengembangkan genomic diagnostic melalui algoritma AI, bertujuan mendapatkan diagnosis yang lebih cepat. Perusahaan tersebut baru-baru ini mengumumkan pendanaan series D sebesar $30 juta, menambahkan Balderton Capital ke dalam daftar investornya.

Tutorial dan Pengetahuan Teknis

  1. Tensorflow Tutorial : Part 1 – Introduction
    Dalam 3 seri artikel ini akan ditampilkan tutorial Tensorflow. Bagian pertama menyajikan pengenalan dan dasar-dasar Tensorflow, arsitekturnya, dan beberapa contoh penerapannya.
  2. Creating a Yelling App in Kafka Streams
    Memberikan pengenalan yang komprehensif mengenai apa dan bagaimana cara kerja Kafka Stream, lengkap dengan contoh implementasinya menggunakan aplikasi sangat sederhana. Aplikasi yang dibuat menerima input berupa pesan teks dan menghasilkan mengeluarkan teks tersebut dalam huruf kapital, seolah-olah aplikasi ini 'berteriak' kepada pembaca pesannya, sehingga disebut "Yelling App".
  3. Using SparkR to Analyze Citi Bike Data
    Sebuah tutorial yang cukup bagus mengenai penggunaan dplyr, sebuah library R, untuk menganalisis data jalur dan perjalanan sepeda di NYC. Untuk skalabilitasnya memanfaatkan Amazon EMR dan Spark.
  4. PyTorch vs TensorFlow — spotting the difference
    Saat ini terdapat beberapa framework untuk deep learning yang cukup populer. Dua di antaranya adalah PyTorch dan Tensorflow. Artikel ini mengupas perbedaan di antara keduanya, lengkap dengan Jupyter notebook untuk membandingkan kinerja keduanya dalam beberapa aplikasi.
  5. Benchmark Apache HBase vs Apache Cassandra on SSD in a Cloud Environment
    Hortonworks melakukan analisa kinerja terhadap Apache HBase dan Apache Cassandra menggunakan Yahoo Cloud Serving Benchmark. Hasilnya HBase lebih cepat dalam hal read dan Cassandra lebih baik untuk workflow yang banyak memerlukan write.

Rilis Produk

  1. Build your own Machine Learning Visualizations with the new TensorBoard API
    Google merilis sekumpulan API yang memungkinkan developer menambahkan plugin visualisasi custom ke TensorBoard.
  2. Apache Kafka 0.11.0.1
    Apache Kafka 0.11.0.1 dirilis dengan beberapa bug fixing dan perbaikan minor.
  3. Apache Impala (incubating) has released version 2.10.0
    Apache Impala merilis versi 2.10.0 dengan sekitar 250 tiket untuk fitur baru, penyempurnaan, perbaikan, dan lain-lain.
  4. Apache OpenNLP version 1.8.2
    Rilis ini mengandung beberapa perbaikan dan penyempurnaan minor.
  5. Storm 1.0.5 Released
    Rilis maintenance mencakup sekitar 7 perbaikan bugs yang penting, berhubungan dengan peningkatan kinerja, stabilitas dan fault tolerance.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂

  • Sep 14 / 2017
  • Comments Off on Seputar Big Data Edisi #29
Apache, Big Data, Forum Info, IoT

Seputar Big Data Edisi #29

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama awal bulan Agustus 2017.

Artikel dan Berita

  1. Thales Completes The Acquisition Of Guavus, One Of The Pioneers Of Real-time Big Data Analytics
    Thales, sebuah perusahaan penyedia peralatan kedirgantaraan, pertahanan, transportasi dan keamanan yang berpusat di Prancis, mengumumkan telah selesai melakukan proses akuisisi terhadap Guavus, sebuah perusahaan Silicon Valley yang memfokuskan diri pada analisa realtime big data.
  2. A rare look inside LAPD's use of data
    Dengan melakukan pengamatan dan melakukan lebih dari 100 wawancara terhadap petugas dan pegawai sipil di Departemen Kepolisian Los Angeles, Sarah Brayne, seorang profesor sosiolog di University of Texas di Austin, membuat sebuat catatan empiris bagaimana penerapan analisa Big Data mengubah pratek pengawasan polisi.
  3. Social Business Intelligence Market: Growing Usage of Social Media Is Driving the Demand for Big Data Globally
    Pendapatan yang dihasilkan dari implementasi solusi Social Business Intelligence di seluruh dunia diperkirakan mencapai hampir US $ 17 miliar pada 2017, dan diproyeksikan mencapai valuasi pasar seitar US $ 29 miliar pada tahun 2026, mencerminkan CAGR sebesar 6% selama periode perkiraan (2016-2026).
  4. ECS ICT to distribute data centre solutions by Hortonworks
    CS ICT Bhd hari ini mengumumkan telah ditunjuk sebagai distributor pertama untuk Hortonworks Data Center Solutions di Malaysia.
  5. Why Big Data is Important to Your Business
    Dalam artikel yang ditulis oleh Sheza Gary, seorang direktur teknis di Algoworks, memberikan gambaran yang meyakinkan mengenai bagaimana bisnis menggunakan secara mendalam teknologi big data dan berlanjut dengan memberikan gambaran yang lebih jelas mengenai pemanfaatan big data yang dapat digunakan untuk keuntungan bisnis.

Tutorial dan Pengetahuan Teknis

  1. K-Nearest Neighbors – the Laziest Machine Learning Technique
    K-Nearest Neighbors (K-NN) adalah salah satu algoritma Machine Learning yang paling sederhana. Seperti algoritma lainnya, K-NN terinspirasi dari penalaran manusia. Misalnya, ketika sesuatu yang signifikan terjadi dalam hidup Anda, Anda menghafal pengalaman itu dan menggunakannya sebagai pedoman untuk keputusan masa yang akan datang.
  2. Python vs R – Who Is Really Ahead in Data Science, Machine Learning?
    Berdasarkan analisa yang dihasilkan oleh Google Trend selama Januari 2012 - Agustus 2017, terlihat bahwa R sedikit lebih unggul sampai antara tahun 2014 - 2015, karena Data Science sangat populer pada saat itu. Tapi pada tahun 2017 Python mulai tampak lebih unggul popularitasnya.
  3. Open Source EHR Generator Delivers Healthcare Big Data with FHIR
    Membuat analis data kesehatan seringkali membuat frustrasi karena kurangnya akses ke data pasien , terpercaya, dan lengkap yang melimpah sekarang dapat memanfaatkan platform generator data EHR open source yang disebut Synthea.
  4. Apache Ignite: In-Memory Performance With Durability of Disk
    Sejak versi 2.1, Apache Ignite telah menjadi salah satu dari sedikit sistem komputasi in-memory yang memiliki persistence layer terdistribusi sendiri. Pada dasarnya, pengguna tidak perlu mengintegrasikan Ignite dengan database lain, walaupun mendukung fitur integrasi semacam ini didukung)
  5. An Introduction to Spatial Analytics With PostGIS, PL/R, and R
    Bagian pertama dari serangkaian tutorial mengenai penggunaan PL/R bagi pengguna PostgreSQL, bahasa prosedural yang digunakan membuat fungsi SQL dalam bahasa pemrograman R.

Rilis Produk

  1. Qubole Rolls Out Industry’s First Autonomous Data Platform
    Qubole, perusahaan penyedia layanan big data-as-a-service, mengumumkan tersedianya tiga produk baru - Enterprise Qubole Data Service (QDS) Enterprise Edition, QDS Business Edition dan Qubole Cloud Agents - komponen dari platform data otonom yang ditujukan untuk membantu organisasi memperkecil inisiatif data mereka sambil mengurangi biaya.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Aug 03 / 2017
  • Comments Off on Seputar Big Data Edisi #24
Big Data, Forum Info, Hadoop, IoT

Seputar Big Data Edisi #24

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu terakhir bulan Juli 2017

Artikel dan berita

  1. Mark Zuckerberg, Priscilla Chan Donate $ 10M to Advance Health Using Big Data
    Priscilla Chan (yang juga alumni Fakultas Kedokteran UCSF) dan Mark Zuckerberg mendonasikan dana sekitar $10 juta untuk mendukung berbagai penelitian pada Institute for Computational Health Sciences, University of California San Francisco (UCSF). Termasuk didalamnya adalah pengembangan UCSF’s Spoke Knowledge Network, semacam 'otak' untuk pengobatan yang lebih presisi yang memberikan para peneliti akses ke data-data dari berbagai sumber yang berbeda-beda, seperti percobaan laboratorium, uji klinis, EHR dari perangkat digital seorang pasien.
  2. Scientists turn to big data in hunt for minerals, oil and gas
    Dari Reuters OSLO, Para ilmuwan yang mencari segala sesuatu mulai dari minyak bumi dan gas, hingga tembaga dan emas, mulai mengadopsi teknik yang digunakan oleh perusahaan seperti Netflix dan Amazon untuk mengolah data yang berukuran sangat besar.
  3. How BMW Uses Artificial Intelligence And Big Data To Design And Build Cars Of Tomorrow
    BMW menciptakan beberapa mobil berteknologi tinggi yang belum pernah kita lihat. Berkat Kecerdasan Buatan (AI), data-driven predictive analytics dan teknologi terdepan lainnya, BMW mampu membangun mobil yang diperkirakan merupakan mobil masa depan.
  4. Are the world's highest paid football players overpaid? Big data says yes
    Para pakar komputer menggunakan machine learning dan data science untuk menganalisa gaji para pemain sepak bola professional. Model komputasi dikembangkan untuk menunjukkan pemain mana digaji terlalu besar atau terlalu rendah, dan juga untuk dapat mengidentifikasi keterampilan dan kemampuan yang dapat meningkatkan gaji pemain.
  5. Musk vs. Zuckerberg: Who’s Right About AI?
    Elon Musk dan Mark Zuckerberg memperdebatkan apa, tepatnya, akan terjadi dalam hubungan antara kecerdasan buatan dan manusia di masa depan, dan apakah kemajuan robot AI akan memerlukan peraturan agar manusia tidak terganggu oleh AI di masa depan.

Tutorial dan Pengetahuan Teknis

  1. Self-Learning Kafka Streams With Scala: Part 1
    Tutorial untuk mengenal Apache Kafka dengan menggunakan Scala
  2. Machine Learning Exercises in Python: An Introductory Tutorial Series
    Sebuah artikel yang menyajikan ringkasan dari rangkaian tutorial dan latihan mengenai Machine Learning yang dibuat oleh Andrew Ng dalam site Coursera. Tutorial ini menggunakan bahasa pemrograman Python.
  3. The Internet of Things: An Introductory Tutorial Series
    Sebuah seri tutorial mengenai pengenalan Internet of Things yang membahas mengenai konsep-konsep dasar, teknologi dan aplikasinya, dengan menggunakan gaya bahasa yang cukup untuk mudah dipahami oleh orang non teknis.
  4. Classifying traffic signs with Apache MXNet: An introduction to computer vision with neural networks
    Meskipun telah banyak framework mengenai deep learning, seperti TensorFlow, Keras, Torch, dan Caffe, Apache MXNet pada khususnya mulai populer karena skalabilitasnya di beberapa GPU. Dalam blog ini, akan dibahas mengenai computer vision yaitu mengklasifikasikan rambu lalu lintas di Jerman menggunakan jaringan saraf tiruan konvolusi (convolutional neural network). Jaringan mengambil foto berwarna yang berisi gambar tanda lalu lintas sebagai masukan, dan mencoba untuk mengidentifikasi jenis tanda.

Rilis Produk

  1. Solix Launches Data-driven Healthcare
    Solix Technologies, Inc. (www.solix.com), penyedia aplikasi Big Data terkemuka, hari ini mengumumkan Data-driven Healthcare, sebuah framework aplikasi yang menggunakan Solix Common Data Platform (CDP), sebuah solusi manajemen data yang memberikan Information Lifecycle Management (ILM), penyimpanan data berbiaya rendah dan analisis data lanjutan.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Apr 13 / 2017
  • Comments Off on Seputar Big Data Edisi #10
Big Data, Forum Info, Hadoop, Implementation, IoT, Komunitas

Seputar Big Data Edisi #10

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan april 2017

Artikel dan Berita

  1. UK government using R to modernize reporting of official statistics
    UK Government Digital Service, sebuah badan pemerintah Inggris, meluncurkan project untuk mengotomasi proses pelaporan statistik pemerintah dengan menggunakan R. Project ini bertujuan untuk menyederhanakan pelaporan dengan cara mengotomasi proses ekstraksi data, analisis dan pembuatan dokumen.
  2. Hadoop in finance: big data in the pursuit of big bucks
    Bagaimana Hadoop dan teknologi big data membantu industri keuangan untuk meminimalisir resiko transaksi dan memaksimalkan keuntungan.
  3. How GoDaddy powers its team with big data analytics
    GoDaddy, penyedia layanan web hosting dan registrasi domain name internet yang memiliki 14.7 juta pelanggan, memproses lebih dari 13 terabytes data. GoDaddy membangun online self service analytics dalam rangka memperbaiki layanan dan mengantisipasi berbagai issue.
  4. Predictive analytics can stop ransomware dead in its tracks
    Ransomware menjadi salah satu ancaman yang serius di era digital ini. Data penting dapat terancam hilang begitu saja jika tuntutan penjahat saiber yang menyanderanya tidak dipenuhi. Kerugian yang ditimbulkan sangatlah besar, baik dari sisi biaya, waktu, maupun reputasi. Seperti yang hampir dialami oleh pemerintah kota Livingston, Michigan 2 tahun yang lalu, ketika mereka terancam kehilangan data perpajakan selama 3 tahun. Predictive analytics dan machine learning menjadi salah satu solusi untuk mengantisipasi ancaman keamanan semacam ini.
  5. Look before you leap: 4 hard truths about IoT
    Internet of Things membuka berbagai peluang yang menarik dan disruptive, sehingga menjadi salah satu teknologi yang paling berkembang dan banyak diadopsi saat ini. Namun ada beberapa hal yang perlu diperhatikan untuk dapat memanfaatkan teknologi ini dengan maksimal, di antaranya adalah kualitas data, keamanan, dan standard yang masih terus berubah.
  6. How companies and consumers benefit from AI-powered networks
    Sebagai pemegang 12.500 lebih paten, 8 Nobel, dan pengalaman 140 tahun dalam pengembangan dan ujicoba berbagai ide 'liar', tidaklah mengherankan jika AT&T menjadi salah satu pemain penting dalam bidang AI. Apa saja penerapan AI dan machine learning dalam bisnis AT&T dan apa keuntungan yang dirasakan perusahaan maupun konsumen?

Tutorial dan pengetahuan teknis

  1. Must-Read Free Books for Data Science
    Beberapa free E-book yang berkaitan dengan data science, yang jangan sampai anda lewatkan.
  2. Python Pandas Tutorial: DataFrame Basics
    DataFrame adalah struktur data yang paling umum digunakan dalam Python Pandas. Karena itu, sangat penting untuk mempelajari berbagai hal tentang penggunaan DataFrame tersebut. Tutorial ini menjelaskan beberapa metode penggunaan DataFrame.
  3. How can I bulk-load data from HDFS to Kudu using Apache Spark?
    Seperti yang disebutkan dalam judulnya, video tutorial ini menjelaskan mengenai penggunaan Spark untuk mengunggah data secara bulk dari HDFS ke Kudu.
  4. Federated Learning: Collaborative Machine Learning without Centralized Training Data
    Google research memperkenalkan metode machine learning terbaru yaitu federated learning. Dengan metode ini, tidak perlu lagi mengumpulkan data dari device yang digunakan oleh user untuk digunakan sebagai data training. Saat ini federated learning sedang diujicobakan melalui Gboard on Android.
  5. Accordion: HBase Breathes with In-Memory Compaction
    Aplikasi-aplikasi yang menggunakan Apache HBase dituntut untuk dapat memenuhi kebutuhan kinerja dalam read-write prosesnya. Idealnya, aplikasi tersebut dapat memanfaatkan kecepatan in-memory database, dengan tetap mempertahankan jaminan reliabilitas persistent storage. Accordion adalah sebuah algoritma yang diperkenalkan dalam HBase 2.0, yang ditujukan untuk dapat memenuhi tuntutan tersebut.
  6. Feature Engineering for Churn Modeling
    Churn model dapat membantu dalam menentukan alasan utama customer berhenti menggunakan produk atau layanan anda, namun faktor apa yang akan ditest dan dimasukkan ke dalam model, tergantung keputusan dari data saintist. Proses ini disebut dengan rekayasa fitur (feature engineering).

Rilis produk

  1. Apache Zeppelin Release 0.7.1
    Beberapa perbaikan yang dilakukan dalam rilis ini adalah stabilitas proses restart interpreter, perbaikan interpreter python, perbaikan bug untuk table/chart rendering. 24 kontributor menyumbangkan lebih dari 80 patch, dan lebih dari 70 issue berhasil diselesaikan.
  2. Storm 1.1.0 released
    Rilis ini mencakup supports native Streaming SQL, perbaikan integrasi ke Apache Kafka, PMML support, Druid Integration, OpenTSDB Integration, AWS Kinesis Support, HDFS spout, Flux Improvements, dll.
  3. MapR Releases New Ecosystem Pack with Optimised Security and Performance for Apache Spark
    MEP (MapR Ecosystem Pack) adalah sekumpulan project ekosistem open source yang memungkinkan aplikasi big data untuk berjalan di atas MapR Converged Data Platform dengan kompatibilitas internal. MEP Versi 3.0 mencakup perbaikan dari sisi Spark security, konektor Spark ke MapR-DB dan HBase, update dan integrasi dengan Drill, dan versi Hive yang lebih cepat.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Jan 09 / 2017
  • Comments Off on Seputar Big Data edisi #1
Apache, Big Data, Hadoop, Implementation, IoT, Social Media, Storage, Storm, Uncategorized

Seputar Big Data edisi #1

Seputar Big Data edisi #1

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan Januari 2017.

Artikel dan berita

  1. datafloq.com - 4 Industries Leading the Way in IoT Integration
    Perkembangan Internet of Thing saat ini sangat pesat. Diprediksi dalam waktu dekat, hampir semua perangkat akan terkoneksi satu sama lainnya untuk membuat hidup kita lebih mudah. Ada 4 industri yang diperkirakan akan mengambil manfaat dari IoT.
  2. AWS Big Data Blog - Decreasing Game Churn: How Upopa used ironSource Atom and Amazon ML to Engage Users
    Apakah pernah mengalami kesulitan untuk menjaga loyalitas pengguna supaya tidak meninggalkan game atau aplikasi, setelah bersusah untuk menarik pengguna? Upopa, sebuah studio game yang memanfaatkan machine learning untuk memprediksi perilaku para pengguna game
  3. oreilly.com - 7 AI trends to watch in 2017
    Pada tahun 2016 lalu, banyak terjadi inovasi-inovasi yang luar biasa, banyak investasi di bidang Artificial Intelligent baik pada perusahaan besar maupun startup. Bagaimana dengan tahun 2017?
  4. DZone - Understanding Machine Learning
    Apa sebetulnya Machine Learning? Sebuah penjelasan mengenai machine learning, cara kerjanya dan bagaimana penggunaannya.
  5. Yahoo Finance - Hadoop Big Data Analytics Market Worth 40.69 Billion USD by 2021
    Menurut sebuah laporan market research yang dipublikasikan oleh MarketsandMarkets, pasar big data analytics akan berkembang dari USD 6.71 miliar di tahun 2016 akan menjadi USD 40.69 miliar di tahun 2021.
  6. insideBIGDATA - Loggly Introduces Gamut™ Search for Massive-Scale Log Analysis
    Loggly, perusahaan di balik, kelas enterprise layanan manajemen log berbasis cloud, memperkenalkan Gamut ™ Search, teknologi analisa log yang khusus dirancang untuk merespon langsung pencarian pada data bervolume sangat besar dan dalam periode waktu yang lama.
  7. BrightPlanet - Social Media Data – Instagram Pulls Back on API Access
    Program pemantauan sosial media perlu melakukan perubahan dan terbuka untuk opsi lain pada data open-source. Seperti Instagram melakukan beberapa perubahan akses API, dan akses ke data-data akan dibatasi.

 

Tutorial dan pengetahuan teknis

  1. ZDNet - Hands-on with Azure Data Lake: How to get productive fast
    Microsoft Azure Data Lake saat ini telah tersedia secara umum, tapi apa fungsinya, dan bagaimana cara kerjanya? Artikel berikut merupakan overview seputar tools dan kemampuan layanan, untuk membantu memahami dan meningkatkan produktifitas.
  2. KDnuggets - Internet of Things Tutorial: WSN and RFID – The Forerunners
    Wireless Sensor Network dan RFID adalah kunci utama untuk memahami konsep-konsep yang lebih kompleks dari IoT dan teknologinya.
  3. KDnuggets - Internet of Things Tutorial: WSN and RFID – The Forerunners
    Wireless Sensor Network dan RFID adalah kunci utama untuk memahami konsep-konsep yang lebih kompleks dari IoT dan teknologinya.
  4. IBM Big Data Hub - How to build an all-purpose big data engine with Hadoop and Spark
    Beberapa organisasi sering salah dalam mengoptimalkan penggunakan Hadoop dan Spark bersama-sama, terutama karena masalah kompleksitas. Padalah kombinasi keduanya memungkinkan untuk analisa data yang lebih luas dan mendukung use case yang lebih banyak.
  5. DZone Big Data - Kafka Avro Scala Example
    Tutorial mengenai cara menulis dan membaca pesan dalam format Avro dari/ke Kafka. Bagaimana cara menghasilkan pesan untuk dikodekan menggunakan Avro, cara mengirim pesan tersebut ke Kafka, dan bagaimana untuk mengkonsumsi dengan konsumen dan akhirnya bagaimana untuk dibaca dan digunakan.
  6. IBM Hadoop Dev - Enable Snappy Compression for Improved Performance in Big SQL and Hive
    Ketika loading data ke dalam tabel Parquet, Big SQL akan menggunakan kompresi Snappy secara default. Pada Hive, secara default kompresi tidak diaktifkan, akibatnya tabel bisa secara signifikan menjadi lebih besar
  7. KDnuggets - Generative Adversarial Networks – Hot Topic in Machine Learning
    Apa Generative Adversarial Networks (GAN)? Ilustratif sederhana dari GAN adalah dengan mengambil contoh seperti memprediksi frame berikutnya dalam urutan video atau memprediksi kata berikutnya saat mengetik di google search.
  8. MapR - Monitoring Real-Time Uber Data Using Spark Machine Learning, Streaming, and the Kafka API (Part 2)
    Ini merupakan bagian kedua dari tutorial untuk membuat pemantauan secara realtime mobil-mobil yang digunakan oleh Uber. Tutorial ini menggunakan algoritma k-means pada Apache Spark untuk melakukan pengelompokan data secara realtime
  9. LinkedIn Engineering - Asynchronous Processing and Multithreading in Apache Samza, Part I: Design and Architecture
    Apache Samza terus digunakan oleh LinkedIn dan perusahaan lain untuk melakukan pemrosesan stream. Pada sistem pengolahan stream lainnya menyederhanakan model pemrograman untuk menjadi synchronous and stream/event-based, sedangkan Samza mengembangkan model asynchronous.
  10. MapR - Processing Image Documents on MapR at Scale
    Sebuah tutorial dari MapR untuk pemrosesan gambar dengan menggunakan Apache Spark dan Tesseract OCR engine

 

Rilis produk

  1. GitHub - kafka-utilities
    Sebuah project yang dishare oleh wushujames di hithub.com yang memberikan script untuk menganalisa keadaan klaster Kafka, untuk menentukan broker yang dapat digunakan untuk partisi under-replicated
  2. GitHub - burry
    Burry adalah backup recovery tool yang digunakan untuk membackup dan mengembalikan service pada Zookeepr dan etcd. Tools ini dibuat oleh Michael Hausenblas dan dapat diunduh pada github.com

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Jun 27 / 2016
  • Comments Off on Twitter Open Source-kan Heron, Framework Real Time Stream Processing
Big Data, Forum Info, Implementation, IoT

Twitter Open Source-kan Heron, Framework Real Time Stream Processing

Satu lagi framework yang bergabung ke dalam ekosistem Big Data Open Source. Meramaikan percaturan dalam pemrosesan Big Data, khususnya real-time streaming data processing, bulan Mei lalu Twitter mengumumkan bahwa mereka meng-open-source-kan Heron, sistem real-time stream processing yang mereka kembangkan untuk menggantikan Apache Storm.

Setelah sebelumnya mengumumkan bahwa mereka mengganti framework pemrosesan real-time streaming mereka dari Storm ke Heron, dan menerbitkan paper mengenai arsitekturnya, baru setahun kemudian publik dapat ikut menggunakan dan mengembangkannya.

Alasan Twitter mengembangkan Heron pada awalnya adalah karena beberapa kesulitan yang mereka hadapi ketika menggunakan Storm, terutama ketika sistem yang mereka deploy sudah sangat besar. Beberapa kesulitan yang dihadapi di antaranya adalah kesulitan dalam hal profiling dan reasoning mengenai Storm worker di tingkat data dan tingkat topologi, alokasi resource yang bersifat statis, tidak adanya dukungan back-pressure, dan lain sebagainya.

Mengapa saat itu Twitter tidak beralih ke Apache Spark streaming atau Apache Flink misalnya, dan justru memutuskan untuk mengembangkan sendiri sistemnya secara internal? Alasan utamanya adalah peralihan framework tersebut akan menyebabkan mereka harus menulis ulang banyak sekali code dari sistem mereka yang sudah sangat besar. Sebab, sebagai pihak yang mengembangkan Storm, Twitter adalah pengguna Apache Storm yang paling lama, jauh sebelum Storm menjadi open source.

Heron didesain sebagai sebuah sistem yang memiliki backward compatibility dengan Apache Storm. Hal ini merupakan sebuah keputusan yang strategis, bukan saja untuk Twitter sendiri, namun juga untuk pengguna yang sudah mengimplementasikan Apache Storm, mereka dapat beralih ke Heron dengan relatif mudah.

Paradigma pemrosesan Heron sangat mirip dengan Apache Storm, di mana dasarnya adalah DAG (Direct Acyclic Diagram) yang disebut topology, dengan komponennya berupa spout dan bolt.

Heron dibangun dengan perubahan mendasar dalam arsitektur streamingnya, dari sistem berbasis thread, menjadi sebuah sistem berbasis proses. Heron juga didesain untuk deployment dalam cluster dengan mengintegrasikannya dengan scheduler open source yang powerful seperti Apache Mesos, Apache Aurora, Apache REEF atau Slurm.

Banyak yang dijanjikan dengan Heron, seperti misalnya 2-5 kali efisiensi, kemudahan dan stabilitas, dan lain sebagainya. Salah satu kelebihan utama Heron adalah sudah dibuktikan dalam skala yang besar di Twitter sendiri, dan kompatibilitasnya dengan Storm sebagai framework yang sudah banyak diimplementasi sebelumnya. Namun apakah masyarakat Big Data akan dengan serta merta mengadopsinya sebagai framework pilihan mereka, masih harus kita lihat bagaimana perkembangannya ke depan. Karena saat ini banyak sekali framework open source untuk pemrosesan streaming yang ada dan berkompetisi untuk menjadi yang terdepan, seperti misalnya Apache Spark, Apache Flink, Apache Samza, Apache Apex, atau bahkan Apache Storm sendiri yang juga telah me-release versi 1.0 dengan banyak perubahan dan perbaikan.

Baca juga : APACHE STORM 1.0 PENINGKATAN PERFORMA DAN SARAT FITUR BARU

Contributor :


M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng. Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun. Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.

Pages:12
Tertarik dengan Big Data beserta ekosistemnya? Gabung