Forum Info Archives - Page 4 of 6

Apr 13 / 2017
Comments Off on Seputar Big Data Edisi #10

Big Data, Forum Info, Hadoop, Implementation, IoT, Komunitas

Seputar Big Data Edisi #10

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan april 2017

Artikel dan Berita

UK government using R to modernize reporting of official statistics
UK Government Digital Service, sebuah badan pemerintah Inggris, meluncurkan project untuk mengotomasi proses pelaporan statistik pemerintah dengan menggunakan R. Project ini bertujuan untuk menyederhanakan pelaporan dengan cara mengotomasi proses ekstraksi data, analisis dan pembuatan dokumen.
Hadoop in finance: big data in the pursuit of big bucks
Bagaimana Hadoop dan teknologi big data membantu industri keuangan untuk meminimalisir resiko transaksi dan memaksimalkan keuntungan.
How GoDaddy powers its team with big data analytics
GoDaddy, penyedia layanan web hosting dan registrasi domain name internet yang memiliki 14.7 juta pelanggan, memproses lebih dari 13 terabytes data. GoDaddy membangun online self service analytics dalam rangka memperbaiki layanan dan mengantisipasi berbagai issue.
Predictive analytics can stop ransomware dead in its tracks
Ransomware menjadi salah satu ancaman yang serius di era digital ini. Data penting dapat terancam hilang begitu saja jika tuntutan penjahat saiber yang menyanderanya tidak dipenuhi. Kerugian yang ditimbulkan sangatlah besar, baik dari sisi biaya, waktu, maupun reputasi. Seperti yang hampir dialami oleh pemerintah kota Livingston, Michigan 2 tahun yang lalu, ketika mereka terancam kehilangan data perpajakan selama 3 tahun. Predictive analytics dan machine learning menjadi salah satu solusi untuk mengantisipasi ancaman keamanan semacam ini.
Look before you leap: 4 hard truths about IoT
Internet of Things membuka berbagai peluang yang menarik dan disruptive, sehingga menjadi salah satu teknologi yang paling berkembang dan banyak diadopsi saat ini. Namun ada beberapa hal yang perlu diperhatikan untuk dapat memanfaatkan teknologi ini dengan maksimal, di antaranya adalah kualitas data, keamanan, dan standard yang masih terus berubah.
How companies and consumers benefit from AI-powered networks
Sebagai pemegang 12.500 lebih paten, 8 Nobel, dan pengalaman 140 tahun dalam pengembangan dan ujicoba berbagai ide 'liar', tidaklah mengherankan jika AT&T menjadi salah satu pemain penting dalam bidang AI. Apa saja penerapan AI dan machine learning dalam bisnis AT&T dan apa keuntungan yang dirasakan perusahaan maupun konsumen?

Tutorial dan pengetahuan teknis

Must-Read Free Books for Data Science
Beberapa free E-book yang berkaitan dengan data science, yang jangan sampai anda lewatkan.
Python Pandas Tutorial: DataFrame Basics
DataFrame adalah struktur data yang paling umum digunakan dalam Python Pandas. Karena itu, sangat penting untuk mempelajari berbagai hal tentang penggunaan DataFrame tersebut. Tutorial ini menjelaskan beberapa metode penggunaan DataFrame.
How can I bulk-load data from HDFS to Kudu using Apache Spark?
Seperti yang disebutkan dalam judulnya, video tutorial ini menjelaskan mengenai penggunaan Spark untuk mengunggah data secara bulk dari HDFS ke Kudu.
Federated Learning: Collaborative Machine Learning without Centralized Training Data
Google research memperkenalkan metode machine learning terbaru yaitu federated learning. Dengan metode ini, tidak perlu lagi mengumpulkan data dari device yang digunakan oleh user untuk digunakan sebagai data training. Saat ini federated learning sedang diujicobakan melalui Gboard on Android.
Accordion: HBase Breathes with In-Memory Compaction
Aplikasi-aplikasi yang menggunakan Apache HBase dituntut untuk dapat memenuhi kebutuhan kinerja dalam read-write prosesnya. Idealnya, aplikasi tersebut dapat memanfaatkan kecepatan in-memory database, dengan tetap mempertahankan jaminan reliabilitas persistent storage. Accordion adalah sebuah algoritma yang diperkenalkan dalam HBase 2.0, yang ditujukan untuk dapat memenuhi tuntutan tersebut.
Feature Engineering for Churn Modeling
Churn model dapat membantu dalam menentukan alasan utama customer berhenti menggunakan produk atau layanan anda, namun faktor apa yang akan ditest dan dimasukkan ke dalam model, tergantung keputusan dari data saintist. Proses ini disebut dengan rekayasa fitur (feature engineering).

Rilis produk

Apache Zeppelin Release 0.7.1
Beberapa perbaikan yang dilakukan dalam rilis ini adalah stabilitas proses restart interpreter, perbaikan interpreter python, perbaikan bug untuk table/chart rendering. 24 kontributor menyumbangkan lebih dari 80 patch, dan lebih dari 70 issue berhasil diselesaikan.
Storm 1.1.0 released
Rilis ini mencakup supports native Streaming SQL, perbaikan integrasi ke Apache Kafka, PMML support, Druid Integration, OpenTSDB Integration, AWS Kinesis Support, HDFS spout, Flux Improvements, dll.
MapR Releases New Ecosystem Pack with Optimised Security and Performance for Apache Spark
MEP (MapR Ecosystem Pack) adalah sekumpulan project ekosistem open source yang memungkinkan aplikasi big data untuk berjalan di atas MapR Converged Data Platform dengan kompatibilitas internal. MEP Versi 3.0 mencakup perbaikan dari sisi Spark security, konektor Spark ke MapR-DB dan HBase, update dan integrasi dengan Drill, dan versi Hive yang lebih cepat.

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂

Mar 15 / 2017
Comments Off on Paralel DNA Sequence Alignment Diatas Hadoop [Bagian 2]

Big Data, Forum Info, Hadoop, Uncategorized

Paralel DNA Sequence Alignment Diatas Hadoop [Bagian 2]

ini merupakan lanjutan dari artikel PARALEL DNA SEQUENCE ALIGNMENT DIATAS HADOOP [BAGIAN 1]

Implementasi

Implementasi dilakukan dengan memanfaatkan HGrid247 sebagai Big Data engineering tools, yang mendukung pemrosesan dengan MapReduce. Dengan memanfaatkan HGrid247, implementasi sequence alignment dapat dilakukan secara modular, dan dapat memanfaatkan komponen-komponen yang telah ada di HGrid247.

Untuk mengimplementasikan sequence alignment workflow, penulis menambahkan beberapa komponen, yaitu komponen parsing input data, komponen untuk proses alignment, dan komponen untuk formatting output.

Workflow yang dihasilkan adalah seperti di bawah ini:

Secara garis besar, proses yang dilakukan adalah sbb:

Data preprocessing : pemrosesan data genbank dan data sample (data input yang akan diproses), sebelum dilakukan alignment.
Filter data genbank, berdasar panjang sekuens yang akan di-align, ditentukan dengan batas atas dan batas bawah. Untuk proses global alignment, idealnya dilakukan antar sekuens yang panjangnya hampir sama, sebab untuk sekuens dengan selisih panjang yang besar, hasil score alignment akan kurang bagus dan akan tersisihkan.
Alignment dan formatting output.

Hasil uji coba

Ujicoba dilakukan pada dua environment, yaitu :

Local Node
Hadoop cluster

Software yang digunakan adalah HGrid247-2.3.2, dan cluster menggunakan Hadoop version 2.5.0 (distro Cloudera versi 5.2.0).

Hasil uji coba pada local node

Hasil di atas menunjukkan peningkatan yang signifikan dengan menggunakan metode pemrograman dinamik (iteratif). Di mana pada penelitian sebelumnya yang menggunakan metode rekursif, terjadi stack overflow disaat melakukan alignment untuk panjang sekuens pertama 214 residu dan sekuens kedua 208 residu, dengan menggunakan scoring scheme yaitu Matc h : 2, Mismatch - 3, Gap Opening : 0 dan Gap Extension :0. Sedangkanpada penelitian ini terjadi out of memory saat panjang sekuens pertama dan kedua 5300 residu. Keterbatasan ini disebabkan oleh kapasitas memori perangkat yang digunakan.

Hasil uji coba pada cluster

Dalam uji coba ini digunakan data sample berupa sekuens yang berasal dari mamalia yaitu locus X71497, definition B.taurus microsatellite sequence INRA053. Accession X71497, version X71497.1 GI:509111, dan source Bos taurus (cattle).

Pada uji coba ini yang divariasikan adalah batas atas dan batas bawah yang menentukan data reference yang akan diikutsertakan dalam proses multipairwise alignment. Semakin besar nilainya, maka jumlah record dari genbank yang akan dibandingkan dengan data sample akan semakin besar.

Uji coba dengan variasi jumlah node

Pada uji coba ini jumlah node yang digunakan dalam cluster divariasikan.

Dari implementasi dan uji coba tersebut, didapatkan kesimpulan bahwa :

Dengan menggunakan teknik iteratif pada algoritma Needleman Wunsch, kejadian stack overflow dapat dihindari.

Penggunaan paralel processing memungkinkan dilakukannya multipairwise alignment dengan waktu yang jauh lebih singkat. Waktu yang diperlukan untuk melakukan alignment berbanding terbalik dengan jumlah node yang digunakan. Dengan arsitektur Hadoop yang scalable secara linear, penambahan kapasitas pemrosesan cukup dilakukan dengan penambahan node saja.

Dengan memanfaatkan HGrid247 sebagai tools data processing, dapat meminimalisasi implementasi, dengan cara memanfaatkan komponen-komponen yang telah ada dan dapat menambahkan komponen yang belum ada jika diperlukan. Antarmuka grafis memudahkanvariasi proses, di mana perubahan flow dan parameter dapat dilakukan dengan relatif lebih mudah.

Dari sisi algoritma, untuk melakukan multipairwise alignment cukup dengan melakukan 1 kali traceback dengan kondisi parameter input untuk gap opening dan gap extension sama. Hal ini dikarenakan traceback dimulai dari nilai optimum, dan nilai tersebut merupakan nilai optimum score alignment, sehingga semua traceback akan memiliki nilai score alignment yang sama.

Feb 27 / 2017
Comments Off on Seputar Big Data edisi #7

Big Data, Forum Info, Hadoop

Seputar Big Data edisi #7

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ketiga Februari 2017

Artikel dan berita

Gartner’s 2017 Take on Data Science Software
Gartner telah merilis Gartner Magic Quadran for Data Science Platforms 2017. Dari sekitar 100 perusahaan yang menjual software data sains, Gartner memilih 16 perussahaan yang memiliki pendapatan tinggi atau pendapatan rendah tetapi pertumbuhan yang tinggi. Setelah mendapat masukan baik dari pelanggan maupun perwakilan perusahaan, Gartner memberikan nilai pada perusahaan dengan kriteria "kelengkapan visi" dan "kemampuan untuk melaksanakan" visi tersebut.
Big Data Opportunties
Peluang-peluang besar dalam area Big Data pada saat ini yang merupakan hasil perbincangan dengan 22 eksekutif dari 20 perusahaan yang bekerja dalam bidang Big Data.
IBM, Hortonworks tackle big data in Hadoop analytics partnership
IBM dan Hortonworks telah bermitra untuk menawarkan penggunaan IBM Storage dengan Hadoop. Melalui kemitraan ini, keduanya akan menawarkan Hortonworks Data Platform (HDP) untuk IBM elastis Storage Server (ESS) dan IBM Spectrum Skala. Ini berarti bahwa klien IBM akan dapat menjalankan analisis Hadoop langsung di IBM Storage tanpa perlu melakukan pemisahan antar media penyimpanan khusus untuk analytics.
Machine 4.0: Making your Factory, Production and Maintenance Data Work
Untuk memanfaatkan potesi Big Data, perusahaan manufaktur harus mampu dengan baik mengintegrasikan dan menghubungkan sumber-sumber data pada sebuah platform terpadu dan menggunakan machine learning untuk mengambil insight, menganalisa dan mendapatkan hasilnya

Tutorial dan pengetahuan teknis

What is a Support Vector Machine, and Why Would I Use it?
Support Vector Machine saat ini menjadi salah satu algoritma yang popular. Dalam artikel ini dijelaskan bagaimana cara kerja SVM dan beberapa contoh menggunakan Python Scikits libraries.
How To Set Up a Shared Amazon RDS as Your Hive Metastore
Mulai CDH 5.10 dan selanjutnya, cluster di AWS cloud dapat menggunakan secara bersama-sama sebuah instance RDS persistence sebagai HMS backend database. Hal ini memungkinkan sharing metadata melampaui life cycle cluster, sehingga cluster berikutnya tidak perlu men-generate ulang metadatanya. Berikut ini bagaimana mengkonfigurasi RDS sebagai backend database untuk shared Hive Metastore.
Prophet: How Facebook operationalizes time series forecasting at scale
Facebook merilis prophet, sebuah open source package untuk R dan Python yang mengimplementasikan metodologi time-series yang digunakan Facebook di production sistem mereka untuk melakukan ‘forecasting at scale’.
Moving from R to Python: The Libraries You Need to Know
Berikut ini daftar library yang ada di R, dan counterpart-nya di Python, untuk anda yang perlu melakukan migrasi dari R ke Python.

Rilis Produk

Announcing ggraph: A grammar of graphics for relational data
ggraph, ekstensi dari ggplot2 API untuk mendukung data relasional seperti network dan tree, dirilis di CRAN repository.
Announcing the release of Apache Samza 0.12.0
Apache Samza adalah kerangka kerja pemrosesan stream terdistribusi, menggunakan Kafka untuk messaging dan Apache Hadoop YARN untuk fault tolerance, processor isolation, keamanan, dan manajemen resource. Release 0.12.0 ini menambahkan beberapa fitur untuk meningkatkan stabilitas, kinerja dan kemudahan penggunaan.

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂

Feb 13 / 2017
Comments Off on Seputar Big Data Edisi #5

Apache, Big Data, Forum Info, Hadoop, Social Media

Seputar Big Data Edisi #5

Seputar Big Data edisi #5

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke dua bulan Februari 2017

Artikel dan berita

A Very Short History of Artificial Intelligence (AI)
Sejarah singkat mengenai perkembangan kecerdasan buatan (AI) dari masa ke masa
Chicken Wings or Pizza? Adobe Discusses Super Bowl Insights
Adobe melakukan penggalian dan analisa pada data mobile ads, sentimen sosial media dan transaksi pembelian untuk mendapatkan tren yang terjadi menjelang pertandingan pada Sunday's Super Bowl antara Atlanta Falcons melawan New England Patriots
5 Major Big Data Predictions for 2017
Seputar prediksi area yang akan berkembang dalam penggunaan dan pemanfaatan layanan komputasi awan pada tahun ini 2017.
How to Boost Your Career in Big Data and Analytics
Saat ini adalah era digital, segala sesuatu dapat menjadi data digital, sehingga peran penting Big Data dan Data Analytics terus meningkat dan tumbuh kedepannya. Ini merupakan kesempatan untuk berkarir di area ini.
How Facebook Is Getting Better at Recognizing Your Photo
Awal Februari ini Facebook mengupdate fitur pencarian foto menggunakan platform computer vision mereka. Sekarang anda dapat mencari foto di Facebook menggunakan keyword yang mendeskripsikan isi foto.
Big data, financial services and privacy : Should our bankers and insurers be our Facebook friends?
Bank dan perusahaan asuransi biasanya mendasarkan penilaian mereka pada apa yang dilaporkan oleh customer dan agen mereka. Namun akhir-akhir ini mereka mulai menggunakan sumber-sumber lain yang lebih personal seperti data aplikasi website dan mobile-banking. Bahkan sumber yang tidak konvensional semacam profil media sosial, web browsing, maupun phone location tracker. Dalam sebuah percobaan, FICO, penilai kredit terkemuka di Amerika, menemukan bahwa status Facebook seseorang dapat membantu memprediksi kelayakan kredit seseorang. Saat ini mereka bahkan berusaha mempelajari ekspresi dan nada suara seseorang untuk menentukan resiko kreditnya. Hal ini di samping menjadi peluang, namun juga mengundang beberapa kritik, terutama dari sisi privacy maupun kemungkinan financial exclusion.
How nonprofits use big data to change the world
Bagaimana organisasi-organisasi nirlaba memanfaatkan data untuk mendukung kegiatan mereka.
Healthcare DATA Integration: The Foundation for Population Health
Integrasi data dalam pelayanan kesehatan merupakan sebuah hal yang sangat penting, terutama untuk memberikan layanan kesehatan yang terbaik dan terintegrasi untuk masyarakat. Artikel ini membahas mengenai apa saja sumber data yang penting dalam bidang kesehatan, dan apa saja use case yang penting untuk diimplementasikan.

Tutorial dan pengetahuan teknis

Automatically Segmenting Data With Clustering
Dalam tutorial ini dijelaskan secara singkat mengenai algoritma K-Means Clustering, dan bagaimana mengukur keakuratannya, dan bagaimana memilih segmen yang dihasilkan
You Want Data Science, Now What?
Langkah-langkah praktis bagi sebuah organisasi yang ingin memulai implementasi data science.
ModernDive: A free introduction to statistics and data science with R
Sebuah open source textbook mengenai statistik dan data science dalam R. Menjelaskan dengan komprehensif mengenai : menggunakan R untuk mengeksplor dan memvisualisasikan data, menggunakan randomizaation dan simulasi untuk membangun ide inferensial, dan membangun sebuah 'cerita' menggunakan ide-ide tersebut dan menampilkannya ke audiens umum. Menariknya, buku ini sendiri ditulis dalam R, menggunakan package bookdown.
5 Data Science Books You Should Read in 2017
5 buku yang perlu dibaca untuk anda yang ingin mengenal atau memperdalam pengetahuan dalam bidang data sains dan big data.
Text mining and word cloud fundamentals in R : 5 simple steps you should know
Metode text mining memungkinkan kita untuk menyoroti kata kunci yang paling sering digunakan dalam sebuah teks. Untuk menampilkannya dapat digunakan word cloud, juga disebut sebagai text cloud atau tag cloud, yang merupakan representasi visual dari data teks. Artikel ini akan menjelaskan langkah demi langkah cara untuk menghasilkan word cloud dengan menggunakan R.
Fueling the Gold Rush: The Greatest Public Datasets for AI
Saat ini makin mudah bagi kita untuk membangun sebuah sistem berbasis AI atau machine learning, terutama dengan semakin banyaknya open source tools semacam Tensorflow, Torch, Spark, dan lain sebagainya. Faktor lain yang tidak kalah penting dalam pembuatan sistem berbasis AI adalah data. Berikut ini daftar open dataset dalam berbagai format, yang tidak boleh dilewatkan untuk penggiat dan peminat AI.

Rilis produk

Welcome to Apache Zeppelin 0.7.0
Rilis Apache Zeppelin 0.7.0 dengan beberapa perbaikan dan penambahan fitur, di antaranya adalah peningkatan multi user, pluggable visualisation, peningkatan dukungan untuk Apache Spark dan security.
The Apache Software Foundation Announces Apache® Ranger™ as a Top-Level Project
Awal Februari ini Apache Foundation mengumumkan bahwa Apache Ranger ‘lulus’ dari status incubating menjadi sebuah top level project (TLP). Apache Ranger menyediakan cara sederhana dan efektif untuk setting access control dan mengaudit akses data di seluruh Hadoop stack. Salah satu manfaat utama dari Ranger adalah bahwa access control policies dapat dikelola oleh security administrator secara konsisten di seluruh ekosistem Hadoop. Dengan arsitektur plugin yang kuat, Ranger juga memungkinkan komunitas untuk menambahkan sistem baru untuk otorisasi bahkan di luar ekosistem Hadoop, dengan effort yang minimal.
Google is Set to Open Source Google Earth Enterprise
Google mengumumkan bahwa mereka akan segera membuka seluruh core Google Earth Enterprise (GEE) tools mereka menjadi open source. Rencananya langkah ini akan dilakukan pada bulan maret mendatang.
Apache OpenNLP 1.7.2 released
Rilis Apache OpenNLP versi 1.2.7. Apache OpenNLP library adalah toolkit berbasis machine learning untuk pengolahan teks bahasa alami. Mendukung task NLP yang paling umum, seperti tokenization, segmentasi kalimat, part-of-speech tagging, named entity extraction, chunking, parsing, dan coreference resolution.

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂

Feb 06 / 2017
Comments Off on Seputar Big Data edisi #4

Big Data, Forum Info, Hadoop, Implementation

Seputar Big Data edisi #4

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama terakhir bulan Januari 2017 dan awal Februari 2017

Artikel dan berita

All You Need To Know About Business Models in Digital Transformation
Dalam istilah yang sangat sederhana, Model Bisnis adalah bagaimana perencaam kita untuk menghasilkan uang dari bisnis yang kita jalani. Sebuah versi halus adalah bagaimana kita menciptakan dan memberikan nilai kepada pelanggan.
Five Ways Data Analytics Will Storm the Stage in 2017
Telah menjadi sesuatu yang jelas saat ini, bagaimana analisis data mengarahkan pendapatan di bidang e-commerce. Dan perkembangan ini telah memaksa perusahaan e-tailers dan e-commerce untuk mempekerjakan lebih banyak data scientist dalam rangka untuk lebih memahami bagaimana faktor pelanggan berdampak kepada pendapatan dan penjualan.
Stream Processing Myths Debunked
Stream processing menjadi bagian yang penting dalam sebuah sistem big data, dan semakin banyak aplikasi dan platform yang mendukungnya. Meskipun demikian, masih banyak miskonsepsi yang terjadi terkait dengan stream processing. Dalam artikel ini para ahli dari data Artisans mengupas dan membongkar 6 mitos dan miskonsepsi mengenai stream processing.
How Madden Got So Good at Predicting Super Bowl Winners
Bagaimana Madden, sebuah videogame, dapat memanfaatkan data untuk memprediksikan pemenang superbowl, perhelatan olahraga terbesar di Amerika, hingga 9 dari 13 kali.

Tutorial dan pengetahuan teknis

The Top Predictive Analytics Pitfalls to Avoid
Tidak dapat dipungkiri lagi bahwa predictive modelling dan machine learning memberikan kontribusi signifikan untuk bisnis, namun keduanya sangat sensitif terhadap data dan perubahan di dalamnya, sehingga pemilihan teknik yang tepat dan menghindari kesalahan dan perangkap dalam membangun model data sains. Berikut ini beberapa perangkap utama yang perlu dihindari.
How to set up a Twitter bot using R
Dalam rangka dirilisnya package R ke 10.000 di CRAN, eoda menjalankan akun Twitter yang otomatis menampilkan jumlah package yang tersedia di CRAN sampai package ke 10 ribu tercapai pada tanggal 28 Januari 2017. Artikel ini menjelaskan mengenai cara set up account Twitter tersebut dengan R script.
Journey Science: Combining 18 Data Sources + 1 Billion Interactions to take UX to The Next Level
Journey Science, yang menyatukan data dari berbagai aktifitas pelanggan, telah menjadi bagian penting bagi industri telekomunikasi. Data tersebut dapat digunakan untuk meningkatkan customer experience dan retention. Dengan menggunakan insight yang didapat dari customer journey analytics, bisnis telekomunikasi dapat mengukur user experience dengan lebih baik, dan membuat keputusan yang tepat untuk meningkatkannya. Mulai dari melakukan tindakan proaktif untuk kepuasan pelanggan, namun juga untuk memprediksi dan mengantisipasi kegagalan yang mungkin terjadi di masa datang. Berikut ini sekilas mengenai bagaimana memanfaatkan customer journey untuk meningkatkan pelayanan dan kepuasan pelanggan.
Performance comparison of different file formats and storage engines in the Hadoop ecosystem
CERN telah mempublikasikan perbandingan kinerja Apache Avro, Apache Parquet, Apache HBase dan Apache Kudu. Ujicoba ini untuk mengevaluasi efficiency, ingestion performance, analytic scans and random data lookup pada data layanan CERN Hadoop.
Working with UDFs in Apache Spark
Dalam tulisan ini, akan dijelaskan contoh yang sederhana pembuatan UDF dan UDAF pada Apache Spark menggunakan Python, Java dan Scala
Perfecting Lambda Architecture with Oracle Data Integrator (and Kafka / MapR Streams)
Artikel yang menjelaskan konfogurasi pada Oracle Data Integrator menggunakan Apache Kafka/MapR Stream untuk menangkap perubahan yang terjadi pada MySQL.

Rilis produk

Google : Using Machine Learning to predict parking difficulty
Saat ini sebagian besar waktu mengemudi dihabiskan dalam kemacetan atau berputar-putar mencari tempat parkir. Salah satu tujuan produk-produk semacam Google Maps dan Waze adalah membantu pengguna kendaraan untuk mengemudi dengan lebih mudah dan efisien. Namun sampai saat ini, belum ada tool yang khusus mengatasi permasalahan parkir. Minggu lalu, Google merilis fitur baru untuk Android Google Map, yang menawarkan prediksi kondisi perparkiran di sekitar tempat tujuan anda, sehingga anda dapat mengantisipasinya dengan lebih baik. Fitur ini memanfaatkan kombinasi antara crowdsourcing dan machine learning. Saat ini fitur tersebut baru terdapat di di 25 kota di Amerika Serikat saja.
Apache Atlas 0.7.1-incubating released
Apache Atlas 0.7.1-incubating telah dirilis. Ada banyak perbaikan bugs dan beberapa peningkatan yang bersifat minor.
Cloudera Enterprise 5.10 is Now Available
Cloudera telah mengumumkan bahwa Cloudera Enterprise 5.10 telah dirilis dengan support GA untuk Apache Kudu, peningkatan kinerja pada cloud, peningkatan pada pengelolaan data dalam Amazon S3, dan banyak lagi.
Announcing The Latest Hortonworks Data Cloud Release !
Hortonworks mengumumkan rilis baru dari Hortonworks Data Cloud for AWS. Versi 1.11 ini terus mendorong untuk membuat pengolahan data menjadi mudah dan berbiaya efektif dalam komputasi awan.
Announcing Data Collector ver 2.3.0.0
StreamSets Data Collector versi 2.3.0.0 telah dirilis. Fokus utama dari rilis kali ini adalah mulithreaded pipelines, dukungan terhadap multitable copy, MongoDB change data capture, and HTTP API untuk Elasticsearch
[ANNOUNCE] Apache Bahir 2.0.2
Apache Bahir, tools yang menyediakan ekstensi dari Apache Spark, merilis versi 2.0.2

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂

Feb 02 / 2017
Comments Off on Meetup #12 : Sinergi IDBigData, ITERA dan AIDI

Big Data, Forum Info, Hadoop, Implementation, Komunitas

Meetup #12 : Sinergi IDBigData, ITERA dan AIDI

Menggandeng ITERA (Institut Teknologi Sumatra) dan AIDI (Asosiasi Ilmuwan Data Indonesia, IDBigData menggelar meetup yang pertama di tahun 2017 di kampus ITERA, Lampung.

Meetup dibuka oleh Wakil Rektor I ITERA, Prof. Dr.-Ing. Mitra Djamal, dan menampilkan topik-topik menarik dan terkini yang terkait dengan big data.

Pembicara yang tampil di antaranya adalah Dr. Masayu Leylia Khodra dari ITB, memaparkan mengenai "Text Mining: Peringkasan Teks Bahasa Indonesia". Dalam era di mana pertumbuhan data dan informasi terjadi secara luar biasa, muncul fenomena yang biasa disebut "Information Overload", atau kebanjiran informasi. Orang tidak mungkin lagi membaca semua informasi yang ditemui. Untuk mengatasi hal ini, peringkasan teks menjadi sebuah proses yang penting dan sangat memudahkan bagi manusia untuk menyerap sebanyak mungkin informasi dalam waktu yang terbatas.

Pembicara lain adalah Andry Alamsyah, S.Si, M.Sc, Chairman dari Asosiasi Ilmuwan Data Indonesia (AIDI), menjelaskan mengenai Data Sains dalam perspektif bisnis. Dalam paparannya Andry menyampaikan banyak sekali use case yang menarik yang berkaitan dengan pengolahan data dan opportunity yang dapat digali dan diciptakan dari data.

Tampil pula Ir. Beno K Pradekso MSc.EE, CEO SOLUSI247, membawa tema "Big Data untuk Kedaulatan Data Indonesia", dan tidak ketinggalan pula, Sigit Prasetyo, ketua IDBigData, yang mengajak peserta untuk berkenalan dengan YAVA, distro Hadoop buatan anak bangsa.

Meetup #12 ini dihadiri oleh 89 peserta, yang berasal dari kalangan universitas, pemerintahan dan industri, di antaranya dari ITERA, Unila, Bapeda Lampung dan Bank Lampung.

Selain seminar singkat, di hari ke 2 diadakan pula workshop yang merupakan kerja sama dengan Lab247, yang memberikan kesempatan pada para peserta untuk mendapatkan hands on experience dengan big data tools dan platform seperti Chanthel (distributed document management), dan HGrid (big data engineering).

Untuk rekan-rekan yang belum berkesempatan mengikutinya, rekaman meetup ke 12 ini dapat disaksikan melalui channel IDBigData.

Meetup ke 13 rencananya akan dilaksanakan pada bulan Februari 2017, bekerja sama dengan Universitas Indonesia.

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂

Jan 30 / 2017
Comments Off on Seputar Big Data edisi #3

Big Data, Forum Info

Seputar Big Data edisi #3

Artikel dan Berita

Scourge of unsecure database deletions spreading : Hadoop instances deleted with no ransom sought.
Serangan ransomware yang mulai sejak akhir tahun lalu, dan pada awalnya menimpa MongoDB, kemudian ElasticSearch, minggu lalu kembali meluas. Kali ini melibatkan juga server-server CouchDB dan Hadoop. Berbeda dengan serangan sebelumnya, serangan ke Hadoop cluster ini tidak disertai tuntutan tebusan atau catatan apapun. Ahli security Victor Gevers menyebutkan bahwa insiden ini sepertinya vandalisme. Serangan ini dikhawatirkan masih akan meluas, mengingat sampai tanggal 20 Januari lalu terhitung 34500 MongoDB, 4600 Elasticsearch, dan 126 Hadoop instances dihapus. Kejadian ini adalah akibat dari instalasi database tanpa mengaktifkan security, pada cluster yang terhubung ke internet.
How MTV And Nickelodeon Use Real-Time Big Data Analytics To Improve Customer Experience
Viacom, pemegang merk-merk ternama seperti Comedy Central, Nickelodeon dan MTV, merupakan salah satu perusahaan media terbesar di dunia, yang menyajikan lebih dari 170 saluran di 160 negara. Untuk dapat bersaing dalam kompetisi global, Viacom berusaha memposisikan diri sebagai perusahaan yang 'data driven', dengan memaksimalkan penggunaan data dalam pengambilan keputusan. Dan Morris, direktur senior product analytics Viacom, menguraikan mengenai bagaimana mereka menggabungkan berbagai data yang mereka miliki dengan teknik real-time analytics yang mutakhir, untuk memperbaiki viewer experience dan meningkatkan customer retention.
Using Big Data to predict talent
Kathleen Yu, salah satu pemenang Mansmith Young Market Masters Awards (YMMA) 2017, akan berbagi pengalaman mengenai bagaimana penggunaan analisa big data bagi sebuah talent management.
5 Solid Use Cases of IOT Analytics that Makes it Truly Innovative!
IoT adalah teknologi dimana perangkat terhubung satu sama lainnya, dan dimana data dari semua perangkat ini dikumpulkan untuk suatu kebutuhan. IoT Analytics adalah kunci yang akan membantu untuk memperoleh nilai yang terkandung didalamnya dari data-data yang mengalir setiap harinya.
How These Banking, Energy, and Pharma Firms Use Spark
Spark merupakan salah satu framework yang banyak diadopsi kalangan industri, dan menjadi salah satu teknologi yang banyak digunakan untuk kebutuhan analytics. Beberapa perusahaan besar yang memanfaatkan Spark adalah perusahaan kartu kredit Capital One, raksasa obat Roche, dan DNV GL, sebuah perusahaan consulting di bidang energi. Berikut ini pengalaman mereka dalam memanfaatkan Spark untuk kebutuhan analytics mereka.
4 Ways Uber Movement Data Can Be Used
Awal bulan ini Uber merilis Uber Movement, layanan data yang menyajikan data pergerakan armada Uber. Langkah ini disambut dengan sangat antusias oleh para pengelola kota dan pengambil kebijakan, sebab meskipun dipandang masih sangat terbatas dan teragregasi, data tersebut dapat memberi manfaat pada perencanaan kota. Berikut ini beberapa cara data Uber tersebut dapat dimanfaatkan.
Text analysis of Trump's tweets confirms he writes only the (angrier) Android half
David Robinson, data scientist di Stack Overflow menganalisis tweet dari account Donald Trump (@therealdonaldtrump), dan menemukan pola bahwa tweet-tweet tersebut dibuat oleh 2 orang yang berbeda, dengan 2 device berbeda : android dan iphone. Dalam tulisannya David menunjukkan analisis yang dilakukan, lengkap dengan contoh tweet, source code dan library R yang digunakannya.
The State of Big Data 2017
Di awal tahun 2017 ini banyak artikel yang menulis mengenai perkiraan posisi atau status big data dan teknologinya di tahun 2017 ini. Artikel ini salah satu yang memaparkan beberapa prediksi mengenai perkembangan dan adopsi big data di tahun 2017.

Tutorial dan pengetahuan teknis

6 areas of AI and Machine Learning to watch closely
Artificial Intelligence adalah teknologi yang berkembang sangat pesat, dan melibatkan banyak bidang ilmu dalam implementasinya. Artikel ini menjelaskan mengenai definisi umum AI dan apa saja 6 bidang yang perlu kita cermati dalam perkembangan teknologi ini di masa depan.
Great Collection of Minimal and Clean Implementations of Machine Learning Algorithms
Anda tertarik untuk memahami dan mengimplementasikan sendiri algoritma machine learning? Perlu contoh-contoh untuk mengimplementasikannya? Beberapa alasan mengapa kita mungkin ingin mengimplementasikan sendiri sebuah algoritma adalah : a) memahami cara kerja sebuah algoritma, b) mengimplementasikannya dengan cara yang lebih efisien, c) menambahkan fitur, d) mengatasi isu lisensi maupun platform, e) mengintegrasikan secara lebih 'natural' ke dalam software library, dan lain sebagainya. Artikel ini mengumpulkan beberapa algoritma dasar machine learning, yang diimplementasikan secara sederhana dan ‘clean’. Di antaranya adalah: deep learning, regresi, random forest, SVM, k-nearest neighbor, naive bayes, dan k-means clustering.
Exploring Apache Spark 2.1 and Zeppelin in Hortonworks
Apache Spark 2.1 telah dirilis pada bulan Desember 2016 lalu. Fokus utama dari rilis ini adalah perbaikan dalam Structured Streaming dan Machine Learning.
CRAN now has 10,000 R packages. Here's how to find the ones you need.
CRAN yang merupakan repositori global paket open source untuk menambah kemampuan R, telah mencapai sebuah tonggak sejarah. Lebih dari 10.000 paket R tersedia untuk di download.
Performance Tuning of an Apache Kafka/Spark Streaming System
Pada artikel ini akan dijelaskan bagaimana meningkatkan performance hingga 10 x pada aplikasi Apache Kafka/Spark Stream/Apache ignite.
A Visual Introduction to Machine Learning
Dalam machine learning, komputer menerapkan teknik-teknik statistik untuk mengidentifikasi pola dalam data secara otomatis. Teknik ini dapat digunakan untuk membuat prediksi yang sangat akurat. Menggunakan kumpulan data tentang perumahan, dibuatlah model machine learning untuk membedakan antara pemukiman di New York dan San Francisco. Dalam tutorial ini ditunjukkan dengan jelas bagaimana langkah yang diambil dalam merancang sebuah proses machine learning, dan bagaimana membaca data yang dihasilkan, serta apa yang harus dilakukan untuk mendapatkan hasil yang dibutuhkan.
Pandas Cheat Sheet: Data Science and Data Wrangling in Python
Pengenalan singkat mengenai bagaimana menggunakan Pandas untuk melakukan data wrangling dengan Python.

Rilis produk

The Apache Software Foundation Announces Apache® Eagle™ as a Top-Level Project
The Apache software Foundation (ASF) pada 10 Jan 2017 lalu mengumumkan bahwa Apache Eagle telah meningkat dari status incubating menjadi TLP (top level project). Apache Eagle adalah solusi monitoring dan alerting untuk mengidentifikasi isu-isu yang terkait dengan security dan performance dalam platform-platform big data seperti Hadoop, Spark, dan lain sebagainya.
Intel Open-Sources BigDL, Distributed Deep Learning Library for Apache Spark
ntel meng-opensource-kan BigDL, sebuah library deep learning terdistribusi yang berjalan di atas Apache Spark. BigDL memanfaatkan cluster Spark untuk menjalankan perhitungan deep learning dan menyederhanakan data loading dari dataset besar yang disimpan di Hadoop. Library BigDL mendukung Spark versi 1.5, 1.6 dan 2.0 dan memungkinkan deep learning untuk dimasukkan ke dalam program berbasis Spark yang sudah dibuat. BigDL berisi metode untuk mengkonversi RDDS Spark ke BigDL DataSet dan dapat digunakan langsung dengan Spark ML Pipelines.

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂

Jan 16 / 2017
Comments Off on Seputar Big Data edisi #2

Big Data, Forum Info, Komunitas

Seputar Big Data edisi #2

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan Januari 2017.

Artikel dan Berita

DZone Big Data - Generating Values From Big Data Analytics for Your Business in 2017
Beberapa hal yang dapat dilakukan dalam pemanfaatan big data pada toko online atau marketplace
McKinsey - Unlocking the power of data in sales
Bagaimana memanfaatkan data untuk memaksimalkan performa dalam B2B sales.
Simplified Analytics - This is how Analytics is changing the game of Sports!!
Big Data dan Analisa Data telah membuat banyak perubahan pada berbagai industri, tak terkecuali pada bidang olahraga. Selama beberapa tahun terakhir, dunia olahraga telah mengalami ledakan dalam penggunaan analisa data.
DZone Big Data - The Role of Big Data in Finance and Trading
Industri keuangan dan perdagangan valuta maupun saham selalu mengandalkan data yang kuat dan masukan yang akurat dalam pengambilan keputusan. Memasuki tahun 2017 ini, sangat jelas bahwa big data merevolusi industri keuangan dan perdagangan baik dari dalam ke luar.
Yahoo Finance - Big Data Market to Reach 3 Billion by 2025: Increased Adoption of Cloud Computing - Research and Markets
Research and Markets dalam laporannya "Big Data Market Analysis 2014 - 2025" menyatakan bahwa pasar big data diharapkan akan mencapai USD 123.2 miliar pada tahun 2025.
Smart Data Collective - 3 Sweet Big Data Lies
Big Data menjadi sebuah buzzword sampai hari ini. Walaupun memang petensinya cukup besar dalam menyelesaikan masalah, namun ada beberapa pemahaman yang kurang tepat terhadap big data.
The Register - Hadoop hurler Hortonworks votes Tibco veteran for president
Hortonworks menunjuk nama baru sebagai sebagai President dan COO pada perusahaan tersebut. Ia adalah Raj Verma yang sebelumnya merupakan COO pada enterprise software bussiness TIBCO dan telah terbukti kesuksesannya dalam mengakselearsi peningkatan revenue yang signifikan.

Tutorial dan Pengetahuan Teknis

DZone Big Data - Quick Tips: Apache Phoenix and Zeppelin
Sebuah tips mengenai query pada Apache Phoenix menggunakan Zeppelin, dan dengan cepat menambahkan grafis untuk tabel Zeppelin tersebut
AWS Big Data Blog - Create a Healthcare Data Hub with AWS and Mirth Connect
Pemanfaatan Mirth Connect yang merupakan teknologi open source pada Amazon Web Services untuk membangun sebuah sistem untuk mengintegrasikan informasi-informasi dalam bidang kesehatan.
Creating Data Visualization in Matplotlib
Matplotlib adalah library data visualization untuk Python yang paling banyak digunakan. Overview ini mencakup beberapa grafik yang bermanfaat untuk berbagai macam analisis, dan bagaimana sebaiknya grafik tersebut disajikan agar data anda dapat 'bercerita'.
DZone Big Data - Parsing and Querying CSVs With Apache Spark
Pada artikel ini akan dijelaskan bagaimana memecah dan mengquery data berformat CSV menggunakan Apache Spark. SQLContext akan memudahkan query pada data CSV.
MapR - Real-time Smart City Traffic Monitoring Using Microservices-based Streaming Architecture (Part 2)
Artikel ini merupakan seri lanjutan dari pemanfaatan Complex Event Processing (CEP). Kasus ini akan memanfaatkan sensor tunggal yang dapat mengukur kecepatan kendaraan yang melewatinya. Dengan menggunakan data sensor tersebut kita dapat memprediksikan kemacetan secara realtime
Cloudera Engineering Blog - How-to: Fuzzy Name Indexing in Apache Hadoop with Rosette and Cloudera Search
Pada tutorial ini akan dipelajari cara menggunakan Coudera Search dan Rosette untuk melakukan pencarian nama secara fuzzy pada berbagai bahasa dan dokumen.

KDnuggets - The Most Popular Language For Machine Learning and Data Science Is …
Ketika melakukan pemilihan bahasa pemrograman untuk proyek Data Analytics, banyak terjadi perbedaan pendapat yang tentunya sangat bergantung pada latar belakang dan area yang digeluti.

Rilis produk

Apache Beam - Apache Beam established as a new top-level project
Apache Software Foundation mengumumkan bahwa Apache Beam telah menjadi Top-Level Project pada apache project. Sebelumnya Apache Beam merilis versi terbaru yaitu versi 0.4.0
Apache Calcite - Release 1.11.0
Hampir tiga bulan setelah rilis sebelumnya, terdapat daftar panjang perbaikan software termasuk perbaikan bug.

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂

Dec 23 / 2016
Comments Off on Persembahan idBigData untuk Indonesia

Big Data, Forum Info, Komunitas, Uncategorized

Persembahan idBigData untuk Indonesia

Komunitas big data Indonesia telah sukses menggelar konferensi big data terbesar di Indonesia untuk yang ke 3 kalinya pada 7 dan 8 Desember 2016 lalu. Konferensi yang dihadiri sekitar 400 peserta ini diselenggarakan di di Auditorium Gedung BPPT, Jakarta, dan menampilkan 30 pembicara.

Konferensi Big Data Indonesia merupakan event tahunan yang diadakan oleh idBigdata, dan selama 3 tahun ini selalu konsisten dalam usaha mendorong perkembangan dan pemanfaatan big data di Indonesia. Menurut Sigit Prasetyo, chairman IDBigData sekaligus ketua panitia, KBI2016 adalah ajang show-off bagi berbagai pihak di dalam negeri untuk menunjukkan bahwa bangsa Indonesia sangat mampu untuk mengembangkan dan menerapkan big data dan berbagai teknologi yang mendukungnya.

Besarnya potensi data dan kebutuhan teknologi big data di dalam negeri diungkapkan Neil L Himam dari Bekraf, bahwa pada tahun 2020 mendatang di Indonesia diperkirakan akan ada sekitar 1,7 milyar perangkat terhubung ke internet of things, yang tentunya akan memproduksi data yang sangat besar. Nilai komersialisasi data sendiri bukanlah jumlah yang kecil, misalnya kapitalisasi pasar Facebook saat ini adalah USD 340 miliar, sedangkan ‘warga’ Facebook dari Indonesia sebanyak 77 juta, setara dengan USD 15 miliar atau Rp. 200 Triliun. Contoh lain adalah GOJEK, dengan jumlah pengemudi lebih dari 20 ribu dan aplikasi terinstall melebihi 10 juta, saat ini membukukan setidaknya 20 juta transaksi per bulan. Hal tersebut menunjukkan potensi pemanfaatan big data untuk mendorong tumbuhnya ekonomi kreatif sangat besar.

Indonesia sebenarnya memiliki banyak potensi dan kemampuan dalam pengembangan maupun penerapan big data, seperti disampaikan oleh Beno K. Pradekso, CEO Solusi247, bahwa big data yang banyak didukung oleh teknologi open source, memungkinkan siapapun untuk dapat mengembangkan dan memanfaatkannya. Seperti yang selama ini sudah dilakukan oleh Solusi247, yang telah berhasil membuat berbagai tools untuk big data processing, maupun big data analytics, yang sudah diimplementasikan oleh beberapa perusahaan besar di Indonesia.

Wisnu Jatmiko, Manager Riset Fakultas Ilmu Komputer Universitas Indonesia menyampaikan hal senada, yaitu bahwa Indonesia sebenarnya sangat mampu untuk mengembangkan berbagai peralatan, algoritma maupun berbagai teknologi modern lainnya, seperti misalnya yang telah dikembangkan oleh team peneliti dari indonesia dalam bidang telehealth. Dalam serangkaian penelitian ini telah berhasil dikembangkan berbagai alat maupun algoritma yang dapat digunakan untuk melakukan USG maupun EKG secara otomatis, bahkan alat EKG ini telah berhasil mendapat penghargaan di level asia pasifik.

Tampil pula Oskar Riandi, CEO Bahasa Kita, yang menampilkan teknologi voice analytics. Oskar menyampaikan bahwa multimedia adalah bagian terbesar dari big data, namun saat ini penggalian dan pengolahannya masih sangat minim. Dalam pemaparannya disampaikan mengenai berbagai contoh pemanfaatan dan pengolahan data suara, khususnya yang telah berhasil dilakukan dengan menggunakan tools yang dibuat oleh Bahasa Kita.

Konferensi Big Data Indonesia 2016 juga menampilkan beberapa pembicara yang membagi pengalaman, tip dan insight mengenai implementasi big data dalam perusahaan mereka, di antaranya adalah Tina Lusiana, IT Data Analyst dari PT Telkomsel, perusahaan yang saat ini memiliki cluster Hadoop terbesar di Indonesia dengan lebih dari 300 nodes. Telkomsel merupakan operator telekomunikasi terbesar ke-15 di dunia, sehingga data yang diproses sangat besar, dan big data, khususnya Hadoop menjadi solusi pengolahan data yang ekonomis untuk diterapkan dalam skala besar. Hadoop cluster dapat mendukung kebutuhan pengolahan data dan analytics untuk memperbaiki layanan, merumuskan strategi marketing, maupun mendeteksi fraud. Salah satu peningkatan yang didapatkan dengan penggunaan customer profiling dan campaign, adalah adanya peningkatan recharge sebesar 13 Milyar rupiah.

Pemanfaatan big data untuk pembangunan kota, yang biasa disebut dengan smart city disampaikan oleh Setiaji, Head of Jakarta Smart City. Pembicara lain yaitu Aldila Septiadi, Digital & Data Analytics Manager, PT Danone Indonesia, yang menyampaikan mengenai inovasi disruptive dalam bisnis FMCG. Dari bidang perbankan, tampil Febrianto, Team Leader Data Analyst and Insight PT. Bank Mandiri, menyampaikan mengenai transformasi bisnis melalui data analytics yang dilakukan oleh bank Mandiri.

Dari sisi pembentukan sumber daya, khususnya data scientist, tampil Komang Budi Aryasa, Deputy Research & Big Data, Pt Telkom Indonesia, mengulas mengenai peran seorang Chief Data Scientist. Menurut Komang, seorang data scientist memiliki peran yang luas dalam proses bisnis modern, baik dari sisi teknis maupun bisnis, mulai dari pendefinisian produk dan visi, sampai pada penerapan teknologi untuk memaksimalkan gross margin. Tampil pula Ainun Najib, Head Of Data, Traveloka, yang membawakan mengenai role dan skillset yang diperlukan dalam sebuah data team.

Dihadirkan pula beberapa showcase yang diantara menampilkan pemanfaatan tools maupun platform big data, di antaranya Big Data Lake, Big Data Document, Business Data Science, dan Big Data for Geospatial, yang disampaikan oleh pembicara-pembicara dari Labs247, Montis Advisory, dan Badan Informasi Geospatial Indonesia (BIG).

Untuk lebih lengkapnya, dapat dilihat melalui channel IDBigData, di (https://www.youtube.com/watch?v=GF16B6uepC0&list=PLzPU503u40ymTwuknU3yKgMPWN2d_6XpM)

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂

Oct 26 / 2016
Comments Off on [Flashback video 2015]

Big Data, Forum Info, Komunitas, Uncategorized

[Flashback video 2015]

Saat ini makin banyak perusahaan yang beralih ke teknologi open source. Bahkan vendor-vendor besar pun mulai ikut terjun dalam penggunaan dan pengembangan software open source.

Beberapa motivasinya adalah:

akses source code, dan menjamin keberlangsungannya meskipun jika vendor penyedianya tidak survive
kemudahan integrasi
tidak ada vendor lock-in
lebih cost efficient karena tidak ada biaya license

Dan lain sebagainya.

Big Data sebagai teknologi yang banyak didukung software open source membuat biaya investasi untuk implementasi lebih rendah. Hortonwork menyatakan, penggunaan Hadoop dapat memberikan penghematan sampai 100x. Seperti yang kita ketahui, Hadoop dapat menggunakan server commodity atau server berbiaya ekonomis, sehingga di samping penghematan dari sisi software terdapat penghematan dari sisi hardware.

Big data adalah teknologi yang akan sustain, karena digunakan oleh banyak perusahaan besar. Yahoo! misalnya, saat ini memiliki lebih dari 40.000 nodes. Di Indonesia sendiri, di tahun 2015 cluster Hadoop terbesar dimiliki oleh Telkomsel, yaitu sekitar 300 nodes.

Demikian yang dikatakan oleh salah satu pembicara dalam Konferensi Big Data Indonesia 2015, Beno Kunto Pradekso, CEO Solusi247.

Disampaikan juga contoh kasus dari Splice Machine, yang mengklaim dirinya sebagai “the first Hadoop RDBMS”. Splice Machine menyatakan dapat menggantikan Oracle dengan kecepatan 20x dan biaya ¼-nya. Dan jika dilihat komponen di dalam Splice Machine, ternyata banyak di antaranya adalah software-software open source dari Apache.org. Hal semacam ini sebenarnya mungkin sekali untuk dilakukan di dalam negeri. Lisensi Apache.org memungkinkan siapapun untuk mengembangkan dan memasarkan software open source tersebut.

Penggunaan software open source sendiri bukan berarti tidak ada biaya sama sekali, sebab di samping implementasi, hampir semua perusahaan mensyaratkan adanya support resmi untuk softwarenya. Support inilah yang saat ini sebagian besar masih didapatkan dari luar negeri. Padahal cluster Hadoop biasanya terdiri dari puluhan bahkan ratusan node.

Dengan kondisi nilai tukar Rupiah yang kurang stabil seperti akhir-akhir ini, mengurangi komponen mata uang asing dalam pembiayaan, khususnya untuk support software, menjadi sebuah langkah yang perlu dilakukan. Satu-satunya jalan adalah dengan mendorong munculnya distro atau distribusi lokal, yang tentunya menyediakan support secara lokal pula.

Beberapa keuntungan dari support lokal yaitu:

cost effective
responsive
on site
talkable

Berbeda dengan support dari luar negeri yang umumnya hanya dilakukan lewat telepon dan email, support lokal dapat memberikan respon yang lebih baik, seperti misalnya teknisi yang datang langsung ke lokasi jika terjadi masalah.

Belajar dari pengalaman perusahaan yang mengembangkan software open source, ada beberapa hal yang perlu dimiliki :

Research & Development : perusahaan open source biasanya memiliki RnD yang kuat, untuk mengembangkan core competencies and tools untuk data engineering, analytics, visualization & compute platform
Distro & support : memiliki distro sendiri dan menyediakan support, termasuk training
Community : komunitas yang aktif diperlukan untuk sharing pengalaman, pengetahuan dan programming codes
Customers : basis customer yang baik berarti income, yang pasti diperlukan untuk mendorong dan menjalankan semua aktifitas di atas

Big data, jika tidak dapat dipenuhi sendiri, bisa berarti big investment. Oleh karenanya perlu didorong munculnya perusahaan-perusahaan lokal yang dapat mengembangkan dan menyediakan support secara lokal sehingga kita mandiri secara teknologi.

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂

Pages:‹1 2 345 6 ›

Posts Categorized / Forum Info

Seputar Big Data Edisi #10

Paralel DNA Sequence Alignment Diatas Hadoop [Bagian 2]

Seputar Big Data edisi #7

Seputar Big Data edisi #4

Meetup #12 : Sinergi IDBigData, ITERA dan AIDI

Seputar Big Data edisi #3

Seputar Big Data edisi #2

Persembahan idBigData untuk Indonesia

[Flashback video 2015]

Why Local Distro?