Forum Info Archives - Page 3 of 6

Aug 03 / 2017
Comments Off on Seputar Big Data Edisi #24

Seputar Big Data Edisi #24

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu terakhir bulan Juli 2017

Artikel dan berita

Mark Zuckerberg, Priscilla Chan Donate $ 10M to Advance Health Using Big Data
Priscilla Chan (yang juga alumni Fakultas Kedokteran UCSF) dan Mark Zuckerberg mendonasikan dana sekitar $10 juta untuk mendukung berbagai penelitian pada Institute for Computational Health Sciences, University of California San Francisco (UCSF). Termasuk didalamnya adalah pengembangan UCSF’s Spoke Knowledge Network, semacam 'otak' untuk pengobatan yang lebih presisi yang memberikan para peneliti akses ke data-data dari berbagai sumber yang berbeda-beda, seperti percobaan laboratorium, uji klinis, EHR dari perangkat digital seorang pasien.
Scientists turn to big data in hunt for minerals, oil and gas
Dari Reuters OSLO, Para ilmuwan yang mencari segala sesuatu mulai dari minyak bumi dan gas, hingga tembaga dan emas, mulai mengadopsi teknik yang digunakan oleh perusahaan seperti Netflix dan Amazon untuk mengolah data yang berukuran sangat besar.
How BMW Uses Artificial Intelligence And Big Data To Design And Build Cars Of Tomorrow
BMW menciptakan beberapa mobil berteknologi tinggi yang belum pernah kita lihat. Berkat Kecerdasan Buatan (AI), data-driven predictive analytics dan teknologi terdepan lainnya, BMW mampu membangun mobil yang diperkirakan merupakan mobil masa depan.
Are the world's highest paid football players overpaid? Big data says yes
Para pakar komputer menggunakan machine learning dan data science untuk menganalisa gaji para pemain sepak bola professional. Model komputasi dikembangkan untuk menunjukkan pemain mana digaji terlalu besar atau terlalu rendah, dan juga untuk dapat mengidentifikasi keterampilan dan kemampuan yang dapat meningkatkan gaji pemain.
Musk vs. Zuckerberg: Who’s Right About AI?
Elon Musk dan Mark Zuckerberg memperdebatkan apa, tepatnya, akan terjadi dalam hubungan antara kecerdasan buatan dan manusia di masa depan, dan apakah kemajuan robot AI akan memerlukan peraturan agar manusia tidak terganggu oleh AI di masa depan.

Tutorial dan Pengetahuan Teknis

Self-Learning Kafka Streams With Scala: Part 1
Tutorial untuk mengenal Apache Kafka dengan menggunakan Scala
Machine Learning Exercises in Python: An Introductory Tutorial Series
Sebuah artikel yang menyajikan ringkasan dari rangkaian tutorial dan latihan mengenai Machine Learning yang dibuat oleh Andrew Ng dalam site Coursera. Tutorial ini menggunakan bahasa pemrograman Python.
The Internet of Things: An Introductory Tutorial Series
Sebuah seri tutorial mengenai pengenalan Internet of Things yang membahas mengenai konsep-konsep dasar, teknologi dan aplikasinya, dengan menggunakan gaya bahasa yang cukup untuk mudah dipahami oleh orang non teknis.
Classifying traffic signs with Apache MXNet: An introduction to computer vision with neural networks
Meskipun telah banyak framework mengenai deep learning, seperti TensorFlow, Keras, Torch, dan Caffe, Apache MXNet pada khususnya mulai populer karena skalabilitasnya di beberapa GPU. Dalam blog ini, akan dibahas mengenai computer vision yaitu mengklasifikasikan rambu lalu lintas di Jerman menggunakan jaringan saraf tiruan konvolusi (convolutional neural network). Jaringan mengambil foto berwarna yang berisi gambar tanda lalu lintas sebagai masukan, dan mencoba untuk mengidentifikasi jenis tanda.

Rilis Produk

Solix Launches Data-driven Healthcare
Solix Technologies, Inc. (www.solix.com), penyedia aplikasi Big Data terkemuka, hari ini mengumumkan Data-driven Healthcare, sebuah framework aplikasi yang menggunakan Solix Common Data Platform (CDP), sebuah solusi manajemen data yang memberikan Information Lifecycle Management (ILM), penyimpanan data berbiaya rendah dan analisis data lanjutan.

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂

Aug 01 / 2017
Comments Off on Pertanyaan Wajib Ketika Memilih SQL-on-Hadoop

Big Data, Forum Info, Hadoop, Uncategorized

Pertanyaan Wajib Ketika Memilih SQL-on-Hadoop

Meskipun Hadoop telah terbukti memberikan solusi yang scalable dan cost effective, namun banyak perusahaan yang masih belum yakin untuk mengadopsinya. Salah satu hambatan bagi perusahaan maupun organisasi yang ingin mengimplementasi Hadoop adalah kebutuhan akan sumber daya yang cukup ‘mumpuni’ untuk dapat menggunakan dan memanfaatkannya secara maksimal. Saat ini kebanyakandata analisis sudah cukup familiar dengan SQL, sehingga solusi SQL-on-Hadoop merupakan sebuah pilihan yang banyak digunakan.

Apache Hive adalah SQL engine di atas Hadoop yang muncul pertama kali, dan banyak penggunanya. Saat ini sudah banyak berkembang engine SQL lain yang dibuat untuk Hadoop dan Big Data, diantaranya adalah:

Hive on Spark
Hive on Tez
Spark SQL
Presto
Apache Drill
Apache HAWQ
Apache Impala
Apache Phoenix
MemSQL

Dengan begitu banyak pilihan, apa saja hal yang harus dipertimbangkan dalam memilih solusi SQL untuk Big Data?

Setidaknya ada 3 hal penting yang perlu diperhatikan dalam memilih solusi SQL on Hadoop, yaitu:

Kinerja dalam mengolah data besar : apakah engine dapat memproses data sampai jutaan bahkan miliaran record dengan konsisten, tanpa terjadi error, dengan waktu response yang cepat
Kecepatan dalam pengolahan data berukuran kecil : SQL engine dapat memberikan hasil query secara interaktif untuk data yang relatif kecil (ribuan sampai jutaan records)
Stabilitas untuk banyak concurrent user : tetap handal ketika diakses secara bersamaan oleh banyak pengguna (puluhan, ratusan atau bahkan ribuan), dengan load kerja yang tinggi

Di samping ketiga kriteria di atas, beberapa pertanyaan lain yang perlu kita ajukan ketika mengevaluasi solusi SQL on Hadoop adalah sebagai berikut:

Solusi proprietary atau open-source?
Bagaimana tingkat skalabilitasnya?
Solusi mana yang memberikan dukungan terlengkap untuk berbagai query SQL?
Versi SQL apa yang perlu disupport?
Bagaimana arsitektur solusinya? Di atas Hive dan MapReduce? In-memory?
Apakah solusi SQL tersebut terikat pada distribusi Hadoop yang spesifik dari vendor tertentu?
Seberapa banyak support yang tersedia?
Seberapa fleksibel jenis eksplorasi data yang perlu disupport?
Seberapa mudah dan baik solusi tersebut diintegrasikan dengan datawarehouse atau sistem lain yang sudah ada? API apa saja yang disupport? Apakah mensupport REST-ful API?
Berapa banyak training yang akan dibutuhkan user untuk dapat menggunakannya?

Referensi :
https://zdatainc.com/2016/12/sql-hadoop-paradox-choice/
http://blog.atscale.com/how-different-sql-on-hadoop-engines-satisfy-bi-workloads

Contributor :

M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng. Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun. Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.

Jul 26 / 2017
Comments Off on Seputar Big Data Edisi #23

Big Data, Forum Info, Hadoop, Implementation, Uncategorized

Seputar Big Data Edisi #23

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ketiga bulan Juli 2017

Artikel dan Berita

Airbus Gets A Step Closer To The Holy Grail Of Big Data And Plane Connectivity
Salah satu kendala yang sering dihadapi oleh industri penerbangan dalam penerapan big data adalah interoperabilitas data antar berbagai peralatan dari berbagai pabrikan, serta belum adanya penyimpanan data yang terpusat. Airbus melakukan sebuah langkah besar dalam penerapan big data dengan mengumumkan Skywise, platform airline-centric berbasis cloud.
The Impact of Big Data on Banking and Financial Systems
Sektor keuangan dan perbankan termasuk bidang yang banyak menerapkan pendekatan berbasiskan data untuk mengembangkan bisnis dan meningkatkan layanan kepada pelanggan. Apa saja pengaruh dan manfaat big data untuk sektor ini?
Why Startups Should Not Ignore Big Data
Startup adalah sebuah usulan bisnis yang cukup memiliki resiko. Ini berarti bahwa jika segala sesuatunya tidak dikerjakan dengan baik dan efektif, bisnis tidak akan pernah berhasil melewati tahun pertama. Bisnis plan merupakan penentu apakah sebuah bisnis akan melewati fase startup perusahaan atau tidak
The 2016 Election Was a Wake-Up Call for Marketers, Forcing Many to Rethink Big Data
Salah satu hal yang dituding sebagai penyebab kekalahan Hillary Clinton dalam pemilihan presiden Amerika yang lalu adalah penggunaan Big Data Analytics yang tidak benar. Apa saja kesalahan yang kiranya dilakukan, dan apakah para politisi maupun marketers menjadi anti terhadap big data analytics?
What AI-enhanced health care could look like in 5 years
Sejak data kesehatan mulai didigitalisasi pada tahun 2013, jumlah data di bidang tersebut terus meningkat sekitar 48% per tahun secara global. Teknologi AI diyakini sesuai untuk mengatasi inefisiensi di bidang kesehatan, mengurangi beban bagi tenaga medis, dan menghemat biaya hingga ratusan juta US$. Artikel ini mengupas mengenai bagaimana wajah layanan kesehatan yang didukung AI lima tahun ke depan.

Tutorial dan Pengetahuan Teknis

Using Apache Kafka as a Scalable, Event Driven Backbone for Service Architectures
Artikel in imenjelaskan mengenai berbagai fitur utama Apache Kafka, lengkap dengan contoh dan diagram yang menggambarkan konsep-konsep dasarnya.
implyr: R Interface for Apache Impala
Artikel ini menjelaskan secara singkat mengenai integrasi implyr, yaitu package baru yang merupakan antarmuka R ke Impala, yang memungkinkan melakukan query ke Impala dari R menggunakan dplyr.
5 Free Resources for Getting Started with Deep Learning for Natural Language Processing
5 link ke resource untuk mulai mempelajari deep learning untuk NLP. Ditujukan untuk memberi gambaran mengenai NLP dan deep learning, serta apa langkah selanjutnya yang perlu diambil untuk mendalaminya.
How to Use the Kafka Streams API
Kafka Streams API memungkinkan kita untuk membuat aplikasi real-time yang memperkuat bisnis utama kita. Penggunaan API merupakan cara termudah untuk memanfaatkan teknologi terbaik untuk mengolah data yang tersimpan di Kafka.
When not to use deep learning
Meskipun banyak keberhasilan dalam penerapan Deep Learning, setidaknya ada 4 situasi di mana hal ini justru menjadi penghalang, di antaranya ketika anggaran yang tersedia kecil, atau saat menjelaskan model dan fitur kepada orang awam.
Ask a question, get an answer in Google Analytics
Saat ini, Google Analytics telah berkembang sangat maju menuju masa depan. Ia mengetahui data apa yang anda butuhkan dan inginkan dengan cepat? Tanya apa saja dengan menggunakan bahasa Inggris pada Google Analytics dan dapatkan jawabannya.
Random Forests in R
Random Forest adalah sebuah tehnik Ensembling yang populer digunakan untuk memperbaiki kinerja prediktif dari Decision Trees dengan cara mengurangi varian dalam pencabangan (Trees) dengan membuat rata-ratanya.

Rilis produk

Hue 4 SQL Editor improvements
Setelah Hue 4 dirilis pada Juni lalu, kali ini Hue 4 SQL Editor mendapatkan perbaikan, di antaranya enriched autocomplete dan multi-query editing.

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂

Jul 21 / 2017
Comments Off on Seputar Big Data Edisi #22

Big Data, Forum Info, Hadoop, Komunitas, Uncategorized

Seputar Big Data Edisi #22

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan Juli 2017

Artikel dan berita

Stanford researchers find intriguing clues about obesity by counting steps via smartphones
Sebuah penelitian global berdasarkan berapa jumlah langkah perhari, dicatat menggunakan smartphone, menunjukkan adanya "ketimpangan aktivitas". Hal ini bisa dianggap serupa dengan ketimpangan pendapatan, di mana "kemiskinan langkah" menyebabkan kecenderungan obesitas, sedangkan "kekayaan langkah" menghasilkan kebugaran dan kesehatan.
A better approach to disease prediction through big data analytics
Bagaimana penggunaan data hasil crowdsourcing dan analytics big data dapat meningkatkan kualitas prediksi kesehatan.
How a new wave of machine learning will impact today’s enterprise
AI dan machine learning menjadi sebuah kebutuhan bagi perkembangan dan persaingan bisnis. Bagaimana trend terbaru penerapan machine learning, dan apa yang perlu dilakukan perusahaan untuk dapat mengambil manfaat sebesar-besarnya?
How Colleges Can Use Big Data to Encourage Better Management
Pengelolaan sebuah institusi pendidikan tidak hanya berkaitan dengan unsur pendidikan saja, namun juga bagaimana me-manage dan menciptakan lingkungan kerja yang kondusif bagi para staf. Artikel ini membahas bagaimana institusi pendidikan tinggi memanfaatkan big data untuk dapat meningkatkan kualitas manajemen mereka.

Tutorial dan pengetahuan teknis

Facets: An Open Source Visualization Tool for Machine Learning Training Data
Bekerjasama dengan PAIR initiative, google team merilis Facets, sebuah tools open source visualisasi yang dapat digunakan untuk membantu memahami dan menganalisa data XML. Facets terdiri dari dua visualisasi yang memungkinkan pengguna untuk memperoleh gambaran holistik dari data-data yang dimiliki.
The Modern Problem of Collecting Network Data
Big Data tidak hanya mengenai sekumpulan informasi yang telah ada sebelumnya, serta bukan hanya melempar konten digital ke dalam database untuk diproses nantinya. Akan tetapi Big Data juga harus melibatkan pembangunan sistem yang dapat digunakan untuk mengumpulkan lebih banyak aset, seperti statistik, angka-angka, pola pengguna dan berbagai hal detail lainnya dari berbagai sumber.
Text Classifier Algorithms in Machine Learning
Salah satu problem dalam machine learning adalah klasifikasi teks, yang banyak digunakan mulai dari deteksi spam, penentuan topik sebuah artikel, dan lain sebagainya. Artikel ini membahas mengenai beberapa algoritma klasifikasi teks lengkap dengan use case-nya. Disertakan pula link menuju resource dan tutorial untuk pembaca yang ingin mempelajari lebih dalam.
Advanced Machine Learning with Basic Excel
Implementasi machine learning tidak harus selalu menggunakan bahasa pemrograman seperti R, Scala, atau Python misalnya, namun dapat juga dilakukan menggunakan Microsoft Excel, bahkan dengan menggunakan fitur dasarnya saja (tanpa macros), seperti yang ditampilkan dengan gamblang di dalam artikel ini.
Artificial Intelligence Explained Part 1
Satu lagi artikel yang mengupas mengenai AI, yang ditujukan untuk pembaca tanpa latar belakang matematika ataupun pemrograman.

Risil Produk

Apache HAWQ 2.2.0.0-incubating Released
Rilis ini mencakup CentOS 7.x Support, Ranger Integration, PXF ORC Profile dan Bug Fixes.
Apache Hive 2.3.0 Released
Fitur baru yang tercakup di antaranya peningkatan vektorisasi untuk ACID dengan menghilangkan row-by-row stitching, menambahkan UDF untuk uniontype values, dan menambahkan StrictRegexWriter untuk RegexSerializer di Flume Hive Sink. Di samping itu tercakup pula 8 perbaikan dan lebih dari 125 bug fixing.

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂

Jul 12 / 2017
Comments Off on Seputar Big Data Edisi #21

Apache, Big Data, Forum Info, Hadoop, Komunitas

Seputar Big Data Edisi #21

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan Juli 2017

Artikel dan Berita

DataOps: How To Use Big Data To Achieve A Data-Driven Enterprise
Banyak perusahaan sangat menyadari akan manfaat yang didapat dari Big Data bagi perusahaan. Mendapatkan pemahaman yang lebih baik tentang perilaku pelanggan dan membuat keputusan bisnis yang lebih baik, hanya sebagian manfaat yang didapat oleh suatu perusahaan atau organisasi berbasis data.
What Does the Customer Want? Big Data Knows
Dunia e-comerce saat ini, produk dirancang berdasarkan analisa perilaku konsumen, dimana kebutuhan pelanggan terpenuhi sebelum mereka menyadari bahwa mereka memilikinya. Produsen mungkin tidak dapat membaca pikiran, tetapi dengan next generation big data, seolah-olah pembacaan pikiran dapat dilakukan.
Open Source Is The New Normal In Data and Analytics
Dengan menggunakan Hadoop sebagai teknologi utama, arsitektur data open source telah mencapai tingkat kestabilan dan adopsi yang cukup baik, namun demikian belum sepenuhnya dapat dinikmati oleh perusahaan-perusahaan.
Five big data trends in healthcare
Penyedia jasa kesehatan memanfaatkan big data untuk memperbaiki hasil perawatan terhadap pasien serta menurunkan biaya. Pada tahun 2017 ini, industri kesehatan akan melihat lima tren dari pemanfaatan big data.
Better Buy: Hortonworks vs. Cloudera
Dua Hadoop distro berhadapan dalam persaingan untuk sebuah pasar yang sangat besar. Mana yang lebih baik untuk dibeli ?
The 10 Coolest Big Data Startups Of 2017 (So Far)
Banyak startup yang bermain di area big data memfokuskan diri untuk memberikan solusi terhadap masalah dalam menghubungkan sumber data yang berbeda dan memindahan data ke dalam cloud untuk memudahkan akses dan analisa. Ada juga tren yang sedang berkembang yaitu penggunaan machine learnig dan artificial intelligence dalam aplikasi big data untuk membuat sistem yang lebih cerdas.

Tutorial dan Pengetahuan Teknis

Medical Image Analysis with Deep Learning Part 4
Tulisan ini merupakan bagian keempat dan akan membahas mengenai gambar medis dan komponennya, format gambar medis dan konversi formatnya. Tujuannya adalah untuk mengembangkan pengetahuan untuk membantu dalam menganalisa citra medis dengan menggunakan deep learning
Five Steps to Tackling Big Data with Natural Language Processing
Apa 5 langkah mendasar yang harus diambil untuk menangani project Big Data dengan Natural Language Processing? Bagaimana tools-tools NLP dan teknik-tekniknya membantu proses bisnis, menganalisa, dan memahami data secara efektif dan proaktif?
Visualizing Smog Sensor Data With Vert.x, Prometheus, and Grafana
Sebuah tutorial singkat menggunakan data-data yang dikumpulkan dari sensor asap di Jerman ke server lokal sehingga dapat digunakan untuk memvisualisasikan tren jangka panjang
Exploratory Data Analysis in Python
Sebuah tutorial yang dibuat berdasarkan presentasi dari Jonathan Whitmore yang berjudul Exploratory Data Analysis in Python pada PyCon 2017 di Portland, Oregon.
Data Cleaning and Wrangling With R
Salah satu permasalahan utama dalam pengolahan data adalah menggabungkan dan 'membersihkan' berbagai dataset dari sumber data yang berbeda-beda. Dalam artikel ini ditampilkan 10 tips untuk melakukan data cleansing dan wrangling menggunakan R.

Rilis Produk

Spark Release 2.2.0
Apache Spark 2.2.0 merupakan rilis ketiga untuk versi 2.x. Pada rilis ini tag eksperimental dihapus dari Structured Streaming. Selain itu, rilis ini lebih berfokus pada kegunaan, stabilitas dan penyempurnaan, serta menyelesaikan lebih dari 1100 tiket perbaikan.
Apache Phoenix 4.11
Tercakup dalam rilis ini di antaranya adalah: support untuk HBase 1.3.1, local index hardening dan peningkatan kinerja, lebih dan 50 bug-fixes, dan lain sebagainya.
Apache OpenNLP 1.8.1 Release
The Apache OpenNLP library adalah machine learning toolkit untuk melakukan pemrosesan bahasa alami (NLP). Mendukung proses dasar NLP seperti tokenization, segmentasi kalimat, part-of-speech tagging, named entity extraction, chunking, parsing, dan coreference resolution. Rilis 1.8.1 ini mencakup peningkatan kinerja, beberapa fitur baru, dan bug-fixes.

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂

Jun 06 / 2017
Comments Off on Big Data : Institusi Pendidikan Menjawab Tantangan Kebutuhan Lapangan Kerja

Big Data, Forum Info, Implementation, Komunitas

Big Data : Institusi Pendidikan Menjawab Tantangan Kebutuhan Lapangan Kerja

Kesenjangan antara dunia industri dan dunia pendidikan masih menjadi salah satu isu utama dalam dunia pendidikan. Lulusan lembaga pendidikan diharapkan dapat mengisi posisi pekerjaan yang sesuai dengan keterampilan dan keilmuan yang dimiliki. Namun pada kenyataannya, informasi yang akurat mengenai keterampilan dan keilmuan yang dibutuhkan tidak didapatkan oleh lembaga pendidikan.

Seperti yang dikutip dari Bangkok Post, menurut penelitian Thailand Development Research Institute (TDRI), hanya 24% lulusan perguruan tinggi dan universitas di bidang sains, teknologi, teknik dan matematika yang dipekerjakan di bidang yang sesuai dengan keilmuan yang meraka miliki. Dengan kata lain, tiga dari empat lulusan tidak menggunakan pengetahuan yang mereka pelajari dari perguruan tinggi secara keseluruhan.

Salah satu tantangan terbesar bagi lembaga pendidikan adalah membuat sebuah kurikulum dan metode pengajaran yang sesuai dengan kebutuhan dunia industri yang berubah dengan cepat. Diharapkan lowongan-lowongan pekerjaan yang tersedia dapat diisi dengan lulusan dengan kemampuan dan keilmuan yang sesuai.

Sebuah riset menarik dilakukan TDRI bekerja sama dengan National Electronics and Computer Technology Centre untuk mengatasi masalah tersebut. Untuk memperoleh informasi mengenai skill-set yang dibutuhkan dunia kerja, pada tahap awal mereka mengembangkan sebuah prototype aplikasi yang mengumpulkan 100.000 lowongan kerja pada Februari lalu dari lima situs penyedia lowogan online. Dengan menggunakan Natural Languange Processing, data-data yang pada dasarnya teks tersebut ditransformasikan menjadi format database yang siap untuk dianalisa.

Untuk mendemonstrasikan ide tersebut, mereka membuat analisa mengenai skill-set yang dibutuhkan untuk pengembang perangkat lunak / situs web dari 2.712 lowongan kerja yang unik, yang dikelompokkan menjadi 5 kategori :

Bbahasa pemrograman, di antaranya Java dan .NET adalah yang paling umum,
Database,
Bahasa script sisi klien,
Pengetahuan dalam antarmuka pengguna / Pengalaman desain,
Keterampilan dasar termasuk kemampuan bahasa Inggris, manajemen keterampilan dan komunikasi.

Institusi pendidikan yang selama ini tidak memiliki informasi yang akurat terhadap skill-set yang dibutuhkan industri, melalui analisa dan pengilahan data-data dari pasar kerja online diharapkan mampu merespon permintaan tersebut.

Sumber :
http://www.bangkokpost.com/opinion/opinion/1246934/big-data-makes-educational-institutes-more-responsive

Contributor :

Sigit Prasetyo
Seorang pengembara dunia maya, sangat suka mengeksplorasi dan menelusuri tautan demi tautan dalam internet untuk memperoleh hal-hal menarik. Saat ini sedang berusaha mengasah ilmu googling. Memiliki kegemaran memancing walaupun saat ini lebih sering memancing di kantor, terutama memancing emosi.

May 29 / 2017
Comments Off on Seputar Big Data edisi #15

Apache, Big Data, Forum Info, Hadoop, Komunitas

Seputar Big Data edisi #15

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu 3 bulan mei 2017

Artikel dan berita

How Traditional Industries Are Using Machine Learning and Deep Learning to Gain Strategic Business Insights
Pengaruh AI di bidang industri tidak bisa lagi dianggap trend sesaat belaka. Bagaimana langkah industri dalam mengadopsi AI ke dalam proses bisnis dan pengambilan keputusan mereka? Beberapa use case nyata disajikan dalam artikel ini.
How Artificial Intelligence will Transform IT Operations and DevOps
Penerapan big data membawa tantangan yang besar bagi IT Operation dan DevOps. Di antaranya adalah bagaimana mereka harus bisa menemukan akar masalah, bahkan mengantisipasinya sedini mungkin, di tengah lautan data yang begitu besar. Artikel ini menjelaskan bagaimana AI menjadi salah satu solusi yang akan mengubah ‘wajah’ Operasional IT dan DevOps. Salah satu konsep yang sering disebut adalah ‘Cognitive Insights’, yaitu menggunakan machine learning untuk mengolah log dan data dari berbagai sumber untuk menemukan solusi bagi masalah-masalah yang dihadapi DevOps dan Operasional IT.
Neural Network-Generated Illustrations in Allo
Sebuah fitur menarik yang diperkenalkan Google di aplikasi Allo, yang mengubah foto selfie menjadi stiker ilustrasi, menggunakan kombinasi antara neural network dan hasil karya seniman.
Using Twitter as a data source: an overview of social media research tools (updated for 2017)
Tinjauan dan pembahasan singkat mengenai metode dan tools yang dapat digunakan oleh ilmuwan bidang sosial untuk menganalisis data sosial media. List yang sangat bermanfaat jika anda ingin melakukan penelitian yang memanfaatkan data sosial media.
NHS gave DeepMind patient records on an ‘inappropriate legal basis’
Sebuah pelajaran berharga dari dugaan pelanggaran privacy dalam kasus data sharing antara NHS dengan DeepMind. Mengingatkan kita kepada pentingnya memahami regulasi yang harus dipenuhi apa saja yang harus diantisipasi, dan batasan apa yang harus ditaati dalam pemanfaatan data-data sensitif dan pribadi untuk keperluan analisis dan machine learning.
Four Lessons In The Adoption Of Machine Learning In Health Care
AI dan machine learning berpotensi sangat besar untuk perbaikan kualitas pelayanan kesehatan, namun mengapa saat ini pemanfaatannya di dunia kesehatan masih sangat terbatas? Berikut ini beberapa poin penting yang perlu diperhatikan, dari mulai jenis task apa yang paling sesuai, bagaimana membangun kepercayaan dan dukungan dari tenaga medis sendiri, bagaimana memilih vendor, dan perubahan apa yang perlu dilakukan dari sisi layanan kesehatan agar dapat memperoleh manfaat sebesar-besarnya dari teknologi ini.
Special Ops battle with ‘big data’
Komandan Komando Operasi Khusus Amerika Serikat (SOCOM) berbicara mengenai pentingnya Big Data, dan apa yang dilakukan untuk memanfaatkan data bagi operasi-operasi intelelejen, terutama yang bersifat kritikal.
Big Data: The Ultimate in Customer Tracking
Big Data identik dengan pelacakan dan pengumpulan data pengguna, dari setiap titik transaksi, profil WiFi, situs yang dikunjungi, dan lain sebagainya. Hal ini menimbulkan kekhawatiran bahwa Big Data identik dengan ‘Big Brother’. Namun sebetulnya Big Data lebih dekat perbandingannya dengan ‘Moneyball’, yaitu sebuah film mengenai pemanfaatan big data untuk memenangkan kompetisi baseball terbesar di dunia, Superbowl.

Tutorial dan pengetahuan teknis

Event-time Aggregation and Watermarking in Apache Spark’s Structured Streaming
Artikel ini merupakan seri ke 4 dari serangkaian artikel mengenai pemrosesan yang kompleks terhadap data streaming menggunakan Spark. Di sini dijelaskan mengenai bagaimana meng-agregasi data real time dengan Structured Streaming, dan mengenai bagaimana menangani event yang terlambat masuk dengan mekanisme Watermarking.
Detecting Abuse at Scale: Locality Sensitive Hashing at Uber Engineering
Menjelaskan mengenai Locality Sensitive Hashing, yaitu algoritma near neighbor search dalam ruang dimensi tinggi. Uber ddan Databrick bekerjasama dalam kontribusi implementasi LSH ke dalam Spark. Uber menggunakan LSH terutama untuk medeteksi pengemudi yang curang berdasar data perjalanan. Dijelaskan juga apa motivasi Uber menggunakan LSH di atas Spark, bagaimana penerapannya, dan apa rencana pengembangan ke depan.
Home advantages and wanderlust
Menganalisa data Premier League, untuk menentukan kesebelasan mana prosentase poinnya paling banyak didapat dari pertandingan kandang. Analisis dilakukan menggunakan R, yaitu package engsoccerdata. Dalam artikel ini ditunjukkan bagaimana teknik-teknik analisis dan visualisasi data dapat menjadi sesuatu yang menarik, apalagi jika dipadukan dengan data yang sesuai dengan bidang yang digemari.
hive-druid-part-1-3/">Ultra-fast OLAP Analytics with Apache Hive and Druid – Part 1 of 3
Bagian pertama dari 3 seri tulisan mengenai bagaimana melakukan OLAP analisis super cepat menggunakan Apache Hive dan Druid. Druid adalah data store terdistribusi berorientasi kolom, yang sesuai untuk low latency analytics.
How-to: Backup and disaster recovery for Apache Solr (part I)
Satu lagi artikel yang menjadi bagian dari serial, kali ini membahas mengenai backup dan disaster recovery Apache Solr. Artikel ini menjelaskan dasar-dasar backup dan recovery Solr dengan cukup detail dan jelas.
Using 'Faked' Data is Key to Allaying Big Data Privacy Concerns
Salah satu issue terbesar dalam penggunaan data untuk machine learning adalah privacy. Data yang digunakan dalam proses learning seringkali mengandung informasi pribadi yang sensitif, bahkan ketika data tersebut sudah di-anonimisasi. Untuk mengatasi permasalahan MIT membuat sebuah gebrakan, yaitu sistem machine learning yang men-generate ‘data sintetis’ berdasar model data asli. Data sintetis initidak mengandung informasi asli apapun, namun tetap dapat ‘berperilaku’ serupa dengan data asli di dalam analisis dan stress tes, sehingga dapat menjadi pengganti ideal bagi data asli. Algoritma yang digunakan disebut dengan “recursive conditional parameter aggregation”.
An Impatient Start With the Apache Ignite Machine Learning Grid
Baru-baru ini Apache Ignite merilis in memory machine learning grid mereka, dalam tahap beta version. Rilis beta ini dapat melakukan operasi vektor lokal dan terdistribusi, dekomposisi, dan matriks. Artikel menunjukkan secara singkat dan padat, bagaimana mendownload Apache Ignite 2.0 release, kemudian mem-build dan mengeksekusi contoh programnya.
Balancing Bias and Variance to Control Errors in Machine Learning
Di dunia machine learning, akurasi adalah hal utama. Berbagai cara dilakukan untuk membangun model seakurat mungkin, dengan cara menyesuaikan parameter-parameternya. Artikel ini mengupas dengan cukup detail mengenai apa yang harus diperhatikan untuk meminimalisir error dengan mengontrol bias dan variansi.
Deep Learning – Past, Present, and Future
Perjalanan perkembangan deep learning dari masa ke masa.

Rilis produk

The Apache Software Foundation Announces Apache® Samza™ v0.13
Samza adalah framework pemrosesan Big Data stream terdistribusi, yang saat ini digunakan oleh Intuit, LinkedIn, Netflix, Optimizely, Redfin, Uber dan lain-lain.

Rilis v0.13 mencakup :
- Higher level API yang dapat merepresentasikan pipeline pemrosesan stream yang kompleks dengan lebih ringkas
- Support untuk menjalankan aplikasi Samza sebagai lightweight embedded library tanpa mengandalkan YARN
- Deployment yang lebih fleksibel
- Peningkatan monitoring dan deteksi kegagalan menggunakan mekanisme heart-beating yang built-in
- Integrasi yang lebih baik dengan framework manajemen cluster yang lain
- Beberapa bug-fixes yang meningkatkan keandalan, stabilitas, dan kekuatan pemrosesan data
Build Intelligent Apps Faster with Visual Studio and the Data Science Workload
Versi terbaru Visual Studio 2017 memiliki built-in support untuk pemrograman R dan Python. Pada versi terdahulu, dukungan untuk bahasa-bahasa ini telah tersedia melalui RTVS dan PTVS add-in, namun dengan Data Science Workloads support R dan Python tidak lagi memerlukan add-in. Fitur ini tersedia di semua edisi, termasuk Visual Studio Community 2017 yang bisa anda download secara gratis.
Apache Arrow 0.3.0
Rilis 0.3.0 ini mencakup 306 JIRA yang diresolve dari 23 kontributor.

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂

May 10 / 2017
Comments Off on Seputar Big Data Edisi #14

Big Data, Forum Info, Hadoop, Komunitas

Seputar Big Data Edisi #14

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan mei 2017

Artikel dan Berita

How Small Businesses Can Utilize Big Data to Grow Big
Big Data sering diterjemahkan sebagai sejumlah data sangat besar yang berukuran terabyte bahkan petabyte. Data-data tersebut dikelola dan dianalisa untuk mendapatkan pola-pola yang bernilai (misal perilaku), tren dan berbagi informasi lainnya. Bagaimana sebenarnya pemanfaatan Big Data untuk "Small Business" supaya dapat berkembang?
Big Data strategies to address Ebola
IBM mengumumkan hasil riset penggunaan big data untuk menganalisa pengaruh hewan yang telah tertular terhadap penyebaran virus Ebola.
Timeline of AI and Robotics
Infografis mengenai perkembangan AI dan Robotik dari masa ke masa
Using Machine Learning to Fight Crime
Dengan menggunakan metodologi Machine Learning yang diberi nama Probabilistic Assessment for Contributor Estimate (PACE), tim riset dari Forensics and National Security Sciences Institute (FNSSI) mampu mengidentifikasikan profil penjahat secara lebih baik dengan menggunakan analisa DNA
How to Become a Data Engineer
Kebutuhan akan data engineers diprediksi akan meningkat seiring dengan perkembangan pemanfaatan data sebagai acuan dalam pengambilan keputusan. Apa sebenarnya data engineer itu ? Apa yang dilakukannya ?

Tutorial dan pengetahuan teknis

20 Questions with Big Data Cybersecurity Experts on Apache Metron: Webinar Recap
Rangkuman pertanyaan dari webminar yang diadakan oleh Hortonworks dengan tema Combating Phishing Attacks: How Big Data Helps Detect Impersonators
Deep Learning in Minutes with this Pre-configured Python VM Image
Sekumpulan tools dan library deep learning berbasiskan Python yang dipaketkan dalam sebuah virtual machine dan siap untuk digunakan.
Introduction to R: The Statistical Programming Language
Pengenalan dan memulai R, sebuah bahasa pemrograman khusus untuk statistik.

Rilis produk

pache ZooKeeper 3.5.3-beta
Tim developer Apache ZooKeeper mengumumkan versi 3.5.3-beta. Versi ini merupakan versi beta pertama dari seri ZooKeeper 3.5, yang meliputi 77 issue.
Apache Trafodion 2.1.0-incubating
Apache Trafodion salah satu solusi SQL-on-Hadoop telah merilis Apache Trafodion 2.1.0-incubating.
Apache Ignite 2.0: Redesigned Off-heap Memory, DDL and Machine Learning
Setelah menunggu cukup lama akhirnya Apache Ignite 2.0 dirilis dengan banyak perubahan seperti meredisain arsitektur Off-heap Memory, mensupport Data Definition Languange, dan yang paling menarik adalah fitur Machine Learning Grid.

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂

May 08 / 2017
Comments Off on Seputar Big Data Edisi #13

Apache, Big Data, Forum Info, Hadoop, Komunitas

Seputar Big Data Edisi #13

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan Mei 2017.

Artikel dan berita

Data Driven: 5 Ways Automakers Use Big Data to Improve Their Products
Di era data-driven ini big data memegang peran yang semakin penting dalam bisnis otomotif, bahkan mcKinsey memperkirakan, data-data otomotif akan bernilai 450 to 750 milyar dolar di tahun 2030. Apa saja yang dilakukan produsen otomotif dalam pemanfaatan big data untuk memperbaiki produk mereka?
How Companies Say They’re Using Big Data
Hasil survey terhadap eksekutif perusahaan-perusahaan Fortune 1000 mengenai bagaimana mereka mengimplementasikan dan menggunakan big data.
The Big Data Market Will account for over Billion by the end of 2020
Investasi di bidang yang terkait big data semakin meningkat di seluruh dunia. SNS Research memprakirakan bahwa investasi big data akan mencapai lebih dari 57 miliar US$ untuk tahun 2017, dan 76 miliar US$ pada 2020.
PSU, Eversource to use big data to better predict storms that cause power outages
Kerja sama antara Plymouth State University dan Eversource dalam pemanfaatan big data untuk memprediksikan cuaca, dalam usaha mengurangi padamnya listrik. Beberapa hal yang menjadi perhatian adalah suhu, curah hujan, dan kemungkinan adanya badai, bahkan jenis pepohonan apakah yang mungkin menjadi potensi masalah untuk jalur listrik jika terjadi badai.
The new paradigm for big data governance
Data saintis menggunakan sandbox untuk mengeksplorasi data dan menggali insight. Meskipun penggunaan sandbox dapat meningkatkan produktivitas, namun memindahkannya ke production environment bisa menjadi masalah. Penggunaan bahasa pemrograman dan struktur data yang masih relatif asing untuk dunia IT pun memperumit permasalahan. Oleh karenanya, perlu penerapan data governance dalam big data sains. Akan tetapi, berbeda dengan data governance pada umumnya, big data analytics memiliki karakteristik dan kebutuhan tersendiri.
The new paradigm for big data governance
Data saintis menggunakan sandbox untuk mengeksplorasi data dan menggali insight. Meskipun penggunaan sandbox dapat meningkatkan produktivitas, namun memindahkannya ke production environment bisa menjadi masalah. Penggunaan bahasa pemrograman dan struktur data yang masih relatif asing untuk dunia IT pun memperumit permasalahan. Oleh karenanya, perlu penerapan data governance dalam big data sains. Akan tetapi, berbeda dengan data governance pada umumnya, big data analytics memiliki karakteristik dan kebutuhan tersendiri.
Making the Most of Big Data in Biomedicine
The Biomedical Big Data to Knowledge Training (B2D2K), sebuah program untuk melatih ilmuwan di bidang biomedis dalam penggunaan big data, diluncurkan di Amerika. Program berbiaya 2.4 juta US$ ini adalah kerjasama antara Geisinger Health System, Penn State University dan Penn State Hershey, didanai oleh National Library of Medicine, National Institutes of Health sebesar 1.4 juta US$, dan Penn State sebesar 1 juta US$.
Big data research awards show the potential of international collaboration
The Trans-Atlantic Platform, sebuah konsorsium organisasi-organisasi ilmu sosial dan kemanusiaan dari Amerika Utara, Amerika Selatan dan Eropa, mengumumkan pemenang kompetisi riset big data yang diberi nama Digging into Data Challenge. Kompetisi yang telah memasuki putaran ke empat ini menunjukkan besarnya potensi kerjasama internasional dalam bidang big data.
In a world of bots, AI and big data, how can employees and businesses survive?
Revolusi industri keempat, yang ditandai dengan ledakan digital di dunia ekonomi membawa tantangan tersendiri bagi bisnis. AI, bot dan big data merambah semakin luas ke setiap segi kehidupan. Bagaimana bisnis dan tenaga kerja dapat bertahan menghadapi gelombang digitalisasi dan otomasi?

Tutorial dan pengetahuan teknis

Hail: Scalable Genomics Analysis with Apache Spark
Salah satu tantangan terbesar dalam analisis data genomics adalah skalabilitas. Ukuran data genome sangatlah besar, bahkan dalam paper “Big Data: Astronomical or Genomical?” diperkirakan bahwa “pada tahun 2025 genome manusia yang disekuens dapat mencapai antara 100 juta sampai 2 milyar”, membutuhkan sekitar 2-40 exabyte storage. Permasalahan utama pemrosesan data besar adalah performance. Hail muncul sebagai salah satu solusi analisis genome yang memanfaatkan keunggulan kinerja dan skalabilitas Apache Spark.
Building and Exploring a Map of Reddit with Python
Memetakan dan menganalisis 10.000 subreddit paling populer di Reddit, dalam Python.
Machine Learning Classification with C5.0 Decision Tree Algorithm
Tutorial klasifikasi menggunakan algoritma c5.0 decision tree, mengidentifikasi pinjaman bank yang beresiko, menggunakan R.
Understanding Machine Learning
Apa sebenarnya machine learning? Berikut ini artikel singkat dilengkapi ilustrasi yang memberikan pengenalan dasar mengenai machine learning dan metode-metodenya
What Do Frameworks Offer Data Scientists that Programming Languages Lack?
Saat ini makin banyak programmer dan data saintis yang lebih memilih bekerja menggunakan framework daripada bahasa pemrograman, dan menganggapnya sebagai pilihan yang lebih modern dan canggih. Apa sebenarnya kelebihan framework yang tidak dimiliki oleh bahasa pemrograman?
Visualizing Tennis Grand Slam Winners Performances
Data visualization of sports historical results is one of the means by which champions strengths and weaknesses comparison can be outlined. In this tutorial, we show what plots flavors may help in champions performances comparison, timeline visualization, player-to-player and player-to-tournament relationships. We are going to use the Tennis Grand Slam Tournaments results as outlined by the ESP Visualisasi data dalam bidang olah raga adalah salah satu cara untuk membandingkan kekuatan dan kelemahan para juara dari masa ke masa. Dalam tutorial ini ditunjukkan bagaimana plot dan grafik dapat membantu dalam membandingkan performance pemain tersebut. Data yang digunakan adalah data Tennis Grand Slam Tournaments yang ditampilkan situs ESP di tabel ESPN site tennis history.
Advanced Apache NiFi Flow Techniques
Tutorial mengenai bagaimana memback-up Apache Nifi flow yang sedang berjalan, menyimpannya ke dalam disk, untuk kemudian menggabungkannya kembali dengan data dan metadata, dan melanjutkan eksekusinya atau me-restart-nya di waktu yang akan datang.

Rilis produk

Apache Scio versi 0.3.0
Apache Scio, Scala API untuk Apache Beam dirilis versi 0.3.0-nya. Ini merupakan rilis non-beta yang pertama yang dibuat di atas Apache Beam SDK, sedangkan rilis sebelumnya dibangun di atas Google Cloud Dataflow SDK.
Apache Kafka 0.10.2.1
Rilis ini adalah bug-fix, yang me-resolve 29 issue dari rilis sebelumnya.
Apache Kylin 2.0.0 released
Apache Kylin adalah Engine Analytics terdistribusi, menyediakan SQL interface dan OLAP untuk Hadoop.
Apache Mahout 0.13.0
Mencakup : Peningkatan kemudahan dalam melakukan komputasi matrix langsung di GPU yang menghasilkan peningkatan kinerja yang signifikan, penyederhanaan framework untuk menambahkan algoritma baru, dll.
Apache® CarbonData™ as a Top-Level Project
Apache CarbobData adalah format file kolumnar terindeks untuk melakukan data analytics di atas platform Big Data (Apache Hadoop, Apache Spark, dll) yang mempercepat query pada data berskala petabytes.

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂

May 02 / 2017
Comments Off on Meetup idBigdata ke 15, 26 April 2017 di Universitas Sebelas Maret.

Big Data, Forum Info, Komunitas, Uncategorized

Meetup idBigdata ke 15, 26 April 2017 di Universitas Sebelas Maret.

Meetup idBigdata ke 15 telah diselenggarakan 26 April 2017 di Universitas Sebelas Maret, Surakarta.

Acara diawali dengan sambutan dari Dekan Fakultas Matematika dan IPA Universitas Sebelas Maret, Prof. Ir. Ari Handono Ramelan, M.Sc.(Hons),PhD. Pemateri pertama adalah Dr. Vidyasagar Potdar, Senior Research Fellow dari Curtin University, dengan tema “Big Data in the Smart City Context”, yang di antaranya membahas mengenai apa saja permasalahan pokok sebuah kota dan apa yang dapat diatasi oleh smart city, apa tujuan diterapkannya smart city, serta apa saja tantangan yang dihadapi dalam penerapannya.

Pembicara kedua adalah Dr. Dewi Wisnu Wardani dari Program Studi Informatika Fakultas MIPA UNS, membawakan materi dengan tema “Variety Issue of Big Data in the Web of Data”.

Setelah ishoma, tampil Chairman idBigdata, Sigit Prasetyo, dengan materi berjudul “Big Data: Turning Challenges into Opportunity”. Pembicara terakhir yaitu Arief Dolantz dari Labs247, dengan topik “BIG DATA Implementation on Document Management”

Meetup yang dihadiri oleh lebih dari 200 peserta ini dimulai pada pukul 09:00 dengan registrasi ulang, dan diakhiri pada pukul 15.00 dengan foto bersama.

Video lengkap Meetup idBigdata #15, maupun meetup-meetup sebelumnya dapat diakses di channel idBigdata.

Pages:‹1 234 5 6 ›

Posts Categorized / Forum Info