:::: MENU ::::

Posts By / admin

  • Aug 11 / 2017
  • Comments Off on Seputar Big Data Edisi #25
Uncategorized

Seputar Big Data Edisi #25

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama awal bulan Agustus 2017.

Artikel dan Berita

  1. Predicting and Preventing Power Outages Using Big Data
    Peneliti Universitas Texas A & M telah mengembangkan sebuah model AI dengan menganalisa dampak dari petensi kerusakan sistem pembangkit listrik dan dampak cuaca terhadap gangguan sistem tenaga listrik. Melalui analisa tersebut, para peneliti dapat memprediksi di mana dan kapan terjadi pemadaman listrik.
  2. McKinsey’s State Of Machine Learning And AI, 2017
    McKensey menerbitkan sebuat makalah hasil dari wawancara terhadap 3.000 eksekutif senior mengenai penggunaan teknologi AI, prospek perusahaan mereka untuk penyebaran lebih lanjut, dan dampak AI terhadap pasar, pemerintah, dan individu.

Tutorial dan Pengetahuan Teknis

  1. Getting Started With Apache Ignite (Part 7)
    Fokus utama pada seri ke 7 ini adalah penggunaan Machine Learning pada Apache Ignite. Walaupun fitur Machine Learning masih dalam pengembangan, namun sudah menawarkan sejumlah kemampuan yang mungkin sangat bermanfaat bagi data scientist.
  2. Turbocharge your Apache Hive Queries on Amazon EMR using LLAP
    Artikel ini memberikan gambaran umum tentang Hive LLAP, termasuk arsitektur dan kasus penggunaan umum untuk meningkatkan kinerja query. Akan dijelaskan bagaimana menginstal dan mengkonfigurasi Hive LLAP di cluster EMR Amazon dan menjalankan query pada LLAP.
  3. Text categorization with deep learning, in R
    Angus Taylor, seorang data science dari Microsoft, mendemonstrasikan bagaimana membangun model kategorisasi teks di R. Ia mengimplementasikan jaringan saraf konvolusi yang dilatih menggunakan R pada platform deep learning MXNET
  4. Using Airflow to Manage Talend ETL Jobs
    Sebuah tutorial tentang bagaimana menjadwalkan dan mengeksekusi sebuah job Talend dengan menggunakan Airflow, sebuah platform open source yang secara pemrograman mengatur alur kerja sebagai direct acyclic graphs.
  5. Using scikit-learn to find bullies
    Sebuah tutorial yang merupakan salah satu solusi dari tantangan yang ada pada laman kaggle.com. Tantangan yang akan dipecahkan adalah bagaimana mengidentifikasi apakah sebuah komentar akan dianggap menghina anggota lain dalam sebuah forum diskusi.

Rilis produk

  1. Storm 1.1.1 Released
    Storm 1.1.1 adalah maintenance release, yang mencakup beberapa perbaikan performance, stabilitas dan fault tolerance. User yang menggunakan rilis sebelumnya disarankan untuk mengupgrade ke versi ini.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Aug 03 / 2017
  • Comments Off on Seputar Big Data Edisi #24
Big Data, Forum Info, Hadoop, IoT

Seputar Big Data Edisi #24

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu terakhir bulan Juli 2017

Artikel dan berita

  1. Mark Zuckerberg, Priscilla Chan Donate $ 10M to Advance Health Using Big Data
    Priscilla Chan (yang juga alumni Fakultas Kedokteran UCSF) dan Mark Zuckerberg mendonasikan dana sekitar $10 juta untuk mendukung berbagai penelitian pada Institute for Computational Health Sciences, University of California San Francisco (UCSF). Termasuk didalamnya adalah pengembangan UCSF’s Spoke Knowledge Network, semacam 'otak' untuk pengobatan yang lebih presisi yang memberikan para peneliti akses ke data-data dari berbagai sumber yang berbeda-beda, seperti percobaan laboratorium, uji klinis, EHR dari perangkat digital seorang pasien.
  2. Scientists turn to big data in hunt for minerals, oil and gas
    Dari Reuters OSLO, Para ilmuwan yang mencari segala sesuatu mulai dari minyak bumi dan gas, hingga tembaga dan emas, mulai mengadopsi teknik yang digunakan oleh perusahaan seperti Netflix dan Amazon untuk mengolah data yang berukuran sangat besar.
  3. How BMW Uses Artificial Intelligence And Big Data To Design And Build Cars Of Tomorrow
    BMW menciptakan beberapa mobil berteknologi tinggi yang belum pernah kita lihat. Berkat Kecerdasan Buatan (AI), data-driven predictive analytics dan teknologi terdepan lainnya, BMW mampu membangun mobil yang diperkirakan merupakan mobil masa depan.
  4. Are the world's highest paid football players overpaid? Big data says yes
    Para pakar komputer menggunakan machine learning dan data science untuk menganalisa gaji para pemain sepak bola professional. Model komputasi dikembangkan untuk menunjukkan pemain mana digaji terlalu besar atau terlalu rendah, dan juga untuk dapat mengidentifikasi keterampilan dan kemampuan yang dapat meningkatkan gaji pemain.
  5. Musk vs. Zuckerberg: Who’s Right About AI?
    Elon Musk dan Mark Zuckerberg memperdebatkan apa, tepatnya, akan terjadi dalam hubungan antara kecerdasan buatan dan manusia di masa depan, dan apakah kemajuan robot AI akan memerlukan peraturan agar manusia tidak terganggu oleh AI di masa depan.

Tutorial dan Pengetahuan Teknis

  1. Self-Learning Kafka Streams With Scala: Part 1
    Tutorial untuk mengenal Apache Kafka dengan menggunakan Scala
  2. Machine Learning Exercises in Python: An Introductory Tutorial Series
    Sebuah artikel yang menyajikan ringkasan dari rangkaian tutorial dan latihan mengenai Machine Learning yang dibuat oleh Andrew Ng dalam site Coursera. Tutorial ini menggunakan bahasa pemrograman Python.
  3. The Internet of Things: An Introductory Tutorial Series
    Sebuah seri tutorial mengenai pengenalan Internet of Things yang membahas mengenai konsep-konsep dasar, teknologi dan aplikasinya, dengan menggunakan gaya bahasa yang cukup untuk mudah dipahami oleh orang non teknis.
  4. Classifying traffic signs with Apache MXNet: An introduction to computer vision with neural networks
    Meskipun telah banyak framework mengenai deep learning, seperti TensorFlow, Keras, Torch, dan Caffe, Apache MXNet pada khususnya mulai populer karena skalabilitasnya di beberapa GPU. Dalam blog ini, akan dibahas mengenai computer vision yaitu mengklasifikasikan rambu lalu lintas di Jerman menggunakan jaringan saraf tiruan konvolusi (convolutional neural network). Jaringan mengambil foto berwarna yang berisi gambar tanda lalu lintas sebagai masukan, dan mencoba untuk mengidentifikasi jenis tanda.

Rilis Produk

  1. Solix Launches Data-driven Healthcare
    Solix Technologies, Inc. (www.solix.com), penyedia aplikasi Big Data terkemuka, hari ini mengumumkan Data-driven Healthcare, sebuah framework aplikasi yang menggunakan Solix Common Data Platform (CDP), sebuah solusi manajemen data yang memberikan Information Lifecycle Management (ILM), penyimpanan data berbiaya rendah dan analisis data lanjutan.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Aug 01 / 2017
  • Comments Off on Pertanyaan Wajib Ketika Memilih SQL-on-Hadoop
Big Data, Forum Info, Hadoop, Uncategorized

Pertanyaan Wajib Ketika Memilih SQL-on-Hadoop

Meskipun Hadoop telah terbukti memberikan solusi yang scalable dan cost effective, namun banyak perusahaan yang masih belum yakin untuk mengadopsinya. Salah satu hambatan bagi perusahaan maupun organisasi yang ingin mengimplementasi Hadoop adalah kebutuhan akan sumber daya yang cukup ‘mumpuni’ untuk dapat menggunakan dan memanfaatkannya secara maksimal. Saat ini kebanyakandata analisis sudah cukup familiar dengan SQL, sehingga solusi SQL-on-Hadoop merupakan sebuah pilihan yang banyak digunakan.

Apache Hive adalah SQL engine di atas Hadoop yang muncul pertama kali, dan banyak penggunanya. Saat ini sudah banyak berkembang engine SQL lain yang dibuat untuk Hadoop dan Big Data, diantaranya adalah:
  • Hive on Spark
  • Hive on Tez
  • Spark SQL
  • Presto
  • Apache Drill
  • Apache HAWQ
  • Apache Impala
  • Apache Phoenix
  • MemSQL

Dengan begitu banyak pilihan, apa saja hal yang harus dipertimbangkan dalam memilih solusi SQL untuk Big Data?

Setidaknya ada 3 hal penting yang perlu diperhatikan dalam memilih solusi SQL on Hadoop, yaitu:
  • Kinerja dalam mengolah data besar : apakah engine dapat memproses data sampai jutaan bahkan miliaran record dengan konsisten, tanpa terjadi error, dengan waktu response yang cepat
  • Kecepatan dalam pengolahan data berukuran kecil : SQL engine dapat memberikan hasil query secara interaktif untuk data yang relatif kecil (ribuan sampai jutaan records)
  • Stabilitas untuk banyak concurrent user : tetap handal ketika diakses secara bersamaan oleh banyak pengguna (puluhan, ratusan atau bahkan ribuan), dengan load kerja yang tinggi

Di samping ketiga kriteria di atas, beberapa pertanyaan lain yang perlu kita ajukan ketika mengevaluasi solusi SQL on Hadoop adalah sebagai berikut:

  1. Solusi proprietary atau open-source?
  2. Bagaimana tingkat skalabilitasnya?
  3. Solusi mana yang memberikan dukungan terlengkap untuk berbagai query SQL?
  4. Versi SQL apa yang perlu disupport?
  5. Bagaimana arsitektur solusinya? Di atas Hive dan MapReduce? In-memory?
  6. Apakah solusi SQL tersebut terikat pada distribusi Hadoop yang spesifik dari vendor tertentu?
  7. Seberapa banyak support yang tersedia?
  8. Seberapa fleksibel jenis eksplorasi data yang perlu disupport?
  9. Seberapa mudah dan baik solusi tersebut diintegrasikan dengan datawarehouse atau sistem lain yang sudah ada? API apa saja yang disupport? Apakah mensupport REST-ful API?
  10. Berapa banyak training yang akan dibutuhkan user untuk dapat menggunakannya?

Referensi :
https://zdatainc.com/2016/12/sql-hadoop-paradox-choice/
http://blog.atscale.com/how-different-sql-on-hadoop-engines-satisfy-bi-workloads

Contributor :


M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng. Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun. Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.

  • Jul 31 / 2017
  • Comments Off on Pertanian Kecil Bertemu Big Data
Big Data, Implementation, pertanian, Uncategorized

Pertanian Kecil Bertemu Big Data

Washington - Para peneliti telah memulai untuk membawa AI dan Big Data dalam pertanian skala kecil dan pertanian negara berkembang. Tujuannya untuk menjawab salah satu tantangan terbesar di abad 21 nanti yaitu meningkatkan sumber pangan dunia tanpa harus merusak planet ini.

Bagi Ranveer Chandra, seorang peneliti dari Microsoft, ini bagaikan kembali ke asal. Chandra menghabiskan 4 bulan dalam setahun di kebun milik keluarganya di India.“Tidak ada air, tidak ada listrik, tidak ada toilet” katanya. Kerbau digunakan untuk membajak sawah, seperti yang mereka lakukan selama berabad-abad.

Di sebagian besar negara berkembang, pertanian dikelola tidak dengan teknologi yang tinggi dan modern. Walaupun demikian tuntutan pertanian pada negara berkembang ini semakin meningkat, populasi tumbuh lebih cepat dari rata-rata.

Seiring dengan ledakan populasi global yang mendekati 10 miliar pada tahun 2050 mendatang, para petani perlu meningkatkan produksi pertanian tanpa harus melakukan pemababatan hutan atau mencemari tanah dan air dengan pupuk dan pestisida yang berlebihan.

Keakuratan Pertanian

Untuk meningkatkan produktifitas setiap meter persegi lahan pertanian yang ada, petani membutuhkan informasi yang akurat mengenai kondisi tanah. Sehingga pemberian air, pupuk ataupun pestisida hanya pada tempat yang membutuhkan

Saat ini, pertanian berskala besar telah menggunakan teknologi yang memiliki tingkat keakuratan yang tinggi. Peralatan bertani sekarang dapat menanam benih pada kepadatan tanah yang berbeda dan menerapkan jumlah pupuk yang berbeda di berbagai lahan. Pemantau air dapat memberi petani data secara real-time tentang berapa banyak air yang diterima tanaman.

Namun, alat-alat ini terlalu mahal untuk pertanian berskala kecil dan petani pada negara berkembang. Chandra berharap teknologi ini dapat dimiliki dengan biaya yg lebih terjangkau

Kecerdasan Buatan

Untuk meningkatkan produktifitas setiap meter persegi lahan pertanian yang ada, petani membutuhkan informasi yang akurat mengenai kondisi tanah. Sehingga pemberian air, pupuk ataupun pestisida hanya pada tempat yang membutuhkan

Saat ini, pertanian berskala besar telah menggunakan teknologi yang memiliki tingkat keakuratan yang tinggi. Peralatan bertani sekarang dapat menanam benih pada kepadatan tanah yang berbeda dan menerapkan jumlah pupuk yang berbeda di berbagai lahan. Pemantau air dapat memberi petani data secara real-time tentang berapa banyak air yang diterima tanaman.

Namun, alat-alat ini terlalu mahal untuk pertanian berskala kecil dan petani pada negara berkembang. Chandra berharap teknologi ini dapat dimiliki dengan biaya yg lebih terjangkau

imgs_smallfarmmeetsbigdata
Soil sensors connected to artificial intelligence map soil moisture, temperature and acidity. (Credit: Microsoft)

Artificial intelligence

Chandra mengembangkan sistem yang terkoneksi pada sensor tanah ke jaringan melalui saluran tv yang tidak terpakai. Frekuensi "white space" ini dapat memberikan koneksi internet broadband jarak jauh. Beberapa rumah sakit dan sekolah di lokasi terpencil di Afrika sudah online melalui konektivitas white space ini, kata Chandra.

Setiap sensor tanah tersebut menghasilkan gambar kondisi pada lahan pertanian. Untuk menghubungkan petak-petak lahan ke monitor, Chandra mengambil gambar menggunakan drone atau bisa juga menggunakan sebuah smartphone yang diterbangkan dengan balon.

Selanjutnya, AI membandingkan hasil foto dengan data pada sensor dan mengisi celah-celah lahan yg masih kosong, juga memetakan tanah bagian mana yg memiliki kadar asam yang tinggi atau yang membutuhkan lebih banyak air misalnya

AI juga dapat membantu memantau keadaan ternak, melalui webcam dapat diidentifikasi hewan yang sedang sakit karena tidak bergerak, misalnya.

Cikal bakal bisnis

Chandra berharap dapat membuat sistem ini dengan biaya dibawah $100. Model bisnis yang berbeda sedang dipertimbangkan juga, tambahnya. Misalnya, petani dapat berbagi sistem, atau penyedia layanan pertanian lokal dapat menyewanya kepada mereka.

Microsoft hanyalah salah satu dari sekian banyak perusahaan teknologi yang menganggap pertanian sebagai lahan subur bagi revolusi teknologi. Google berinvestasi pada sebuah perusahaan startup yang mengumpulkan data petani tentang bagaimana perbedaan varietas tanaman pada berbagai lahan pertaniandari tahun ke tahun, sehingga petani dapat membuat keputusan yang lebih baik mengenai varietas apa yang terbaik untuk mereka. Amazon mengumumkan rencana untuk membeli rantai makanan Whole Foods dan telah juga berinvestasi di ritel makanan di negara lain.

Sumber :
https://www.voanews.com/a/agriculture-technology-small-farms-big-data/3918239.html

Contributor :


Vinka Palupi
pecinta astronomi yang sejak kecil bercita-cita menjadi astronaut, setelah dewasa baru sadar kalau tinggi badannya tidak akan pernah cukup untuk lulus seleksi astronaut.

  • Jul 26 / 2017
  • Comments Off on Seputar Big Data Edisi #23
Big Data, Forum Info, Hadoop, Implementation, Uncategorized

Seputar Big Data Edisi #23

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ketiga bulan Juli 2017

Artikel dan Berita

  1. Airbus Gets A Step Closer To The Holy Grail Of Big Data And Plane Connectivity
    Salah satu kendala yang sering dihadapi oleh industri penerbangan dalam penerapan big data adalah interoperabilitas data antar berbagai peralatan dari berbagai pabrikan, serta belum adanya penyimpanan data yang terpusat. Airbus melakukan sebuah langkah besar dalam penerapan big data dengan mengumumkan Skywise, platform airline-centric berbasis cloud.
  2. The Impact of Big Data on Banking and Financial Systems
    Sektor keuangan dan perbankan termasuk bidang yang banyak menerapkan pendekatan berbasiskan data untuk mengembangkan bisnis dan meningkatkan layanan kepada pelanggan. Apa saja pengaruh dan manfaat big data untuk sektor ini?
  3. Why Startups Should Not Ignore Big Data
    Startup adalah sebuah usulan bisnis yang cukup memiliki resiko. Ini berarti bahwa jika segala sesuatunya tidak dikerjakan dengan baik dan efektif, bisnis tidak akan pernah berhasil melewati tahun pertama. Bisnis plan merupakan penentu apakah sebuah bisnis akan melewati fase startup perusahaan atau tidak
  4. The 2016 Election Was a Wake-Up Call for Marketers, Forcing Many to Rethink Big Data
    Salah satu hal yang dituding sebagai penyebab kekalahan Hillary Clinton dalam pemilihan presiden Amerika yang lalu adalah penggunaan Big Data Analytics yang tidak benar. Apa saja kesalahan yang kiranya dilakukan, dan apakah para politisi maupun marketers menjadi anti terhadap big data analytics?
  5. What AI-enhanced health care could look like in 5 years
    Sejak data kesehatan mulai didigitalisasi pada tahun 2013, jumlah data di bidang tersebut terus meningkat sekitar 48% per tahun secara global. Teknologi AI diyakini sesuai untuk mengatasi inefisiensi di bidang kesehatan, mengurangi beban bagi tenaga medis, dan menghemat biaya hingga ratusan juta US$. Artikel ini mengupas mengenai bagaimana wajah layanan kesehatan yang didukung AI lima tahun ke depan.

Tutorial dan Pengetahuan Teknis

  1. Using Apache Kafka as a Scalable, Event Driven Backbone for Service Architectures
    Artikel in imenjelaskan mengenai berbagai fitur utama Apache Kafka, lengkap dengan contoh dan diagram yang menggambarkan konsep-konsep dasarnya.
  2. implyr: R Interface for Apache Impala
    Artikel ini menjelaskan secara singkat mengenai integrasi implyr, yaitu package baru yang merupakan antarmuka R ke Impala, yang memungkinkan melakukan query ke Impala dari R menggunakan dplyr.
  3. 5 Free Resources for Getting Started with Deep Learning for Natural Language Processing
    5 link ke resource untuk mulai mempelajari deep learning untuk NLP. Ditujukan untuk memberi gambaran mengenai NLP dan deep learning, serta apa langkah selanjutnya yang perlu diambil untuk mendalaminya.
  4. How to Use the Kafka Streams API
    Kafka Streams API memungkinkan kita untuk membuat aplikasi real-time yang memperkuat bisnis utama kita. Penggunaan API merupakan cara termudah untuk memanfaatkan teknologi terbaik untuk mengolah data yang tersimpan di Kafka.
  5. When not to use deep learning
    Meskipun banyak keberhasilan dalam penerapan Deep Learning, setidaknya ada 4 situasi di mana hal ini justru menjadi penghalang, di antaranya ketika anggaran yang tersedia kecil, atau saat menjelaskan model dan fitur kepada orang awam.
  6. Ask a question, get an answer in Google Analytics
    Saat ini, Google Analytics telah berkembang sangat maju menuju masa depan. Ia mengetahui data apa yang anda butuhkan dan inginkan dengan cepat? Tanya apa saja dengan menggunakan bahasa Inggris pada Google Analytics dan dapatkan jawabannya.
  7. Random Forests in R
    Random Forest adalah sebuah tehnik Ensembling yang populer digunakan untuk memperbaiki kinerja prediktif dari Decision Trees dengan cara mengurangi varian dalam pencabangan (Trees) dengan membuat rata-ratanya.

Rilis produk

  1. Hue 4 SQL Editor improvements
    Setelah Hue 4 dirilis pada Juni lalu, kali ini Hue 4 SQL Editor mendapatkan perbaikan, di antaranya enriched autocomplete dan multi-query editing.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Jul 21 / 2017
  • Comments Off on Seputar Big Data Edisi #22
Big Data, Forum Info, Hadoop, Komunitas, Uncategorized

Seputar Big Data Edisi #22

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan Juli 2017

Artikel dan berita

  1. Stanford researchers find intriguing clues about obesity by counting steps via smartphones
    Sebuah penelitian global berdasarkan berapa jumlah langkah perhari, dicatat menggunakan smartphone, menunjukkan adanya "ketimpangan aktivitas". Hal ini bisa dianggap serupa dengan ketimpangan pendapatan, di mana "kemiskinan langkah" menyebabkan kecenderungan obesitas, sedangkan "kekayaan langkah" menghasilkan kebugaran dan kesehatan.
  2. A better approach to disease prediction through big data analytics
    Bagaimana penggunaan data hasil crowdsourcing dan analytics big data dapat meningkatkan kualitas prediksi kesehatan.
  3. How a new wave of machine learning will impact today’s enterprise
    AI dan machine learning menjadi sebuah kebutuhan bagi perkembangan dan persaingan bisnis. Bagaimana trend terbaru penerapan machine learning, dan apa yang perlu dilakukan perusahaan untuk dapat mengambil manfaat sebesar-besarnya?
  4. How Colleges Can Use Big Data to Encourage Better Management
    Pengelolaan sebuah institusi pendidikan tidak hanya berkaitan dengan unsur pendidikan saja, namun juga bagaimana me-manage dan menciptakan lingkungan kerja yang kondusif bagi para staf. Artikel ini membahas bagaimana institusi pendidikan tinggi memanfaatkan big data untuk dapat meningkatkan kualitas manajemen mereka.

Tutorial dan pengetahuan teknis

  1. Facets: An Open Source Visualization Tool for Machine Learning Training Data
    Bekerjasama dengan PAIR initiative, google team merilis Facets, sebuah tools open source visualisasi yang dapat digunakan untuk membantu memahami dan menganalisa data XML. Facets terdiri dari dua visualisasi yang memungkinkan pengguna untuk memperoleh gambaran holistik dari data-data yang dimiliki.
  2. The Modern Problem of Collecting Network Data
    Big Data tidak hanya mengenai sekumpulan informasi yang telah ada sebelumnya, serta bukan hanya melempar konten digital ke dalam database untuk diproses nantinya. Akan tetapi Big Data juga harus melibatkan pembangunan sistem yang dapat digunakan untuk mengumpulkan lebih banyak aset, seperti statistik, angka-angka, pola pengguna dan berbagai hal detail lainnya dari berbagai sumber.
  3. Text Classifier Algorithms in Machine Learning
    Salah satu problem dalam machine learning adalah klasifikasi teks, yang banyak digunakan mulai dari deteksi spam, penentuan topik sebuah artikel, dan lain sebagainya. Artikel ini membahas mengenai beberapa algoritma klasifikasi teks lengkap dengan use case-nya. Disertakan pula link menuju resource dan tutorial untuk pembaca yang ingin mempelajari lebih dalam.
  4. Advanced Machine Learning with Basic Excel
    Implementasi machine learning tidak harus selalu menggunakan bahasa pemrograman seperti R, Scala, atau Python misalnya, namun dapat juga dilakukan menggunakan Microsoft Excel, bahkan dengan menggunakan fitur dasarnya saja (tanpa macros), seperti yang ditampilkan dengan gamblang di dalam artikel ini.
  5. Artificial Intelligence Explained Part 1
    Satu lagi artikel yang mengupas mengenai AI, yang ditujukan untuk pembaca tanpa latar belakang matematika ataupun pemrograman.

Risil Produk

  1. Apache HAWQ 2.2.0.0-incubating Released
    Rilis ini mencakup CentOS 7.x Support, Ranger Integration, PXF ORC Profile dan Bug Fixes.
  2. Apache Hive 2.3.0 Released
    Fitur baru yang tercakup di antaranya peningkatan vektorisasi untuk ACID dengan menghilangkan row-by-row stitching, menambahkan UDF untuk uniontype values, dan menambahkan StrictRegexWriter untuk RegexSerializer di Flume Hive Sink. Di samping itu tercakup pula 8 perbaikan dan lebih dari 125 bug fixing.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Jul 12 / 2017
  • Comments Off on Seputar Big Data Edisi #21
Apache, Big Data, Forum Info, Hadoop, Komunitas

Seputar Big Data Edisi #21

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan Juli 2017

Artikel dan Berita

  1. DataOps: How To Use Big Data To Achieve A Data-Driven Enterprise
    Banyak perusahaan sangat menyadari akan manfaat yang didapat dari Big Data bagi perusahaan. Mendapatkan pemahaman yang lebih baik tentang perilaku pelanggan dan membuat keputusan bisnis yang lebih baik, hanya sebagian manfaat yang didapat oleh suatu perusahaan atau organisasi berbasis data.
  2. What Does the Customer Want? Big Data Knows
    Dunia e-comerce saat ini, produk dirancang berdasarkan analisa perilaku konsumen, dimana kebutuhan pelanggan terpenuhi sebelum mereka menyadari bahwa mereka memilikinya. Produsen mungkin tidak dapat membaca pikiran, tetapi dengan next generation big data, seolah-olah pembacaan pikiran dapat dilakukan.
  3. Open Source Is The New Normal In Data and Analytics
    Dengan menggunakan Hadoop sebagai teknologi utama, arsitektur data open source telah mencapai tingkat kestabilan dan adopsi yang cukup baik, namun demikian belum sepenuhnya dapat dinikmati oleh perusahaan-perusahaan.
  4. Five big data trends in healthcare
    Penyedia jasa kesehatan memanfaatkan big data untuk memperbaiki hasil perawatan terhadap pasien serta menurunkan biaya. Pada tahun 2017 ini, industri kesehatan akan melihat lima tren dari pemanfaatan big data.
  5. Better Buy: Hortonworks vs. Cloudera
    Dua Hadoop distro berhadapan dalam persaingan untuk sebuah pasar yang sangat besar. Mana yang lebih baik untuk dibeli ?
  6. The 10 Coolest Big Data Startups Of 2017 (So Far)
    Banyak startup yang bermain di area big data memfokuskan diri untuk memberikan solusi terhadap masalah dalam menghubungkan sumber data yang berbeda dan memindahan data ke dalam cloud untuk memudahkan akses dan analisa. Ada juga tren yang sedang berkembang yaitu penggunaan machine learnig dan artificial intelligence dalam aplikasi big data untuk membuat sistem yang lebih cerdas.

Tutorial dan Pengetahuan Teknis

  1. Medical Image Analysis with Deep Learning Part 4
    Tulisan ini merupakan bagian keempat dan akan membahas mengenai gambar medis dan komponennya, format gambar medis dan konversi formatnya. Tujuannya adalah untuk mengembangkan pengetahuan untuk membantu dalam menganalisa citra medis dengan menggunakan deep learning
  2. Five Steps to Tackling Big Data with Natural Language Processing
    Apa 5 langkah mendasar yang harus diambil untuk menangani project Big Data dengan Natural Language Processing? Bagaimana tools-tools NLP dan teknik-tekniknya membantu proses bisnis, menganalisa, dan memahami data secara efektif dan proaktif?
  3. Visualizing Smog Sensor Data With Vert.x, Prometheus, and Grafana
    Sebuah tutorial singkat menggunakan data-data yang dikumpulkan dari sensor asap di Jerman ke server lokal sehingga dapat digunakan untuk memvisualisasikan tren jangka panjang
  4. Exploratory Data Analysis in Python
    Sebuah tutorial yang dibuat berdasarkan presentasi dari Jonathan Whitmore yang berjudul Exploratory Data Analysis in Python pada PyCon 2017 di Portland, Oregon.
  5. Data Cleaning and Wrangling With R
    Salah satu permasalahan utama dalam pengolahan data adalah menggabungkan dan 'membersihkan' berbagai dataset dari sumber data yang berbeda-beda. Dalam artikel ini ditampilkan 10 tips untuk melakukan data cleansing dan wrangling menggunakan R.

Rilis Produk

  1. Spark Release 2.2.0
    Apache Spark 2.2.0 merupakan rilis ketiga untuk versi 2.x. Pada rilis ini tag eksperimental dihapus dari Structured Streaming. Selain itu, rilis ini lebih berfokus pada kegunaan, stabilitas dan penyempurnaan, serta menyelesaikan lebih dari 1100 tiket perbaikan.
  2. Apache Phoenix 4.11
    Tercakup dalam rilis ini di antaranya adalah: support untuk HBase 1.3.1, local index hardening dan peningkatan kinerja, lebih dan 50 bug-fixes, dan lain sebagainya.
  3. Apache OpenNLP 1.8.1 Release
    The Apache OpenNLP library adalah machine learning toolkit untuk melakukan pemrosesan bahasa alami (NLP). Mendukung proses dasar NLP seperti tokenization, segmentasi kalimat, part-of-speech tagging, named entity extraction, chunking, parsing, dan coreference resolution. Rilis 1.8.1 ini mencakup peningkatan kinerja, beberapa fitur baru, dan bug-fixes.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Jul 10 / 2017
  • Comments Off on “Self-Driving-Car”, Masa Depan Big Data di Depan Mata
Uncategorized

“Self-Driving-Car”, Masa Depan Big Data di Depan Mata

Mobil tanpa sopir atau dikenal dengan istilah self-driving car menjadi teknologi yang marak dibicarakan akhir-akhir ini. Ford dan Tesla termasuk beberapa perusahaan yang gencar mengembangkan perangkat navigasi canggih ini. Bukan hanya bermodalkan GPS dan peta digital, mereka juga melengkapi mobil terbaru mereka dengan banyak sensor tambahan untuk dapat mengenali rambu2 lalu lintas, pengguna jalan lain, pejalan kaki, dan objek2 berbahaya di sekitarnya.

Google pun telah bereksperimen dengan self-driving car, yaitu dalam pengumpulan data untuk Google StreetView. Dalam pengumpulan data sepanjang 2.9 juta km yang telah ditempuh tersebut, hanya terdapat 13 kecelakan minor. Dan semuanya itu diakibatkan oleh kesalahan pengguna (human error). Dapat dibayangkan, jika teknologi ini sudah banyak dipakai, dengan kemampuan pengolahan data real-time, banyak resiko yang dapat dihindari. Dapat dibayangkan juga berapa penghematan yang dapat dilakukan dalam hal penggunaan bahan bakar dan juga waktu.

Dibalik itu semua, teknologi Big Data memegang peran sangat penting dalam perkembangan teknologi ini. Dengan berbagai sensor yang begitu banyak tertanam, maka tidak heran jika ternyata data yg dikumpulkan mencapai 1 Gigabyte setiap detiknya. Atau dalam setahun dengan pemakaian wajar, data yang dikumpulkan dapat mencapai 2 PetaByte. Data tersebut baru data dari 1 mobil saja, sedangkan setiap kendaraan canggih tersebut dapat terhubung satu sama lain.

Invent, sebuah perusahaan yang melakukan riset dalam teknologi inter-vehicular mengatakan, kendaraan -atau sistem kontrol mereka- akan melakukan sinkronisasi secara konstan dengan setiap lingkungan dan kondisi jalan. Kendaraan tersebut akan mengetahui jika terdapat hambatan atau kemacetan, dan dapat mengubah rute secara real time.

Walaupun tampaknya teknologi ini seperti masih jauh di masa depan, tapi perkembangannya dapat kita lihat saat ini. Google, Tesla, Nissan, GM, Volvo, Mercedes-Benz, Delphi Automotive, Audi dan Bosch sudah mulai berlomba-lomba menarik data dari kendaraan mereka. Industri otomotif kini merangkul teknologi big data untuk dapat bersaing, General Motor bahkan merekrut hingga 10ribu tenaga IT untuk riset mereka.

Dengan segudang manfaat, teknologi self-driving-car ini akan melahirkan tantangan baru dalam era Big Data.

Sumber :

https://betanews.com/2017/05/04/the-future-of-self-driving-cars-relies-on-big-data/
https://datafloq.com/read/how-autonomous-cars-will-make-big-data-even-bigger/1795
https://datafloq.com/read/self-driving-cars-create-2-petabytes-data-annually/172

Contributor :


M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng. Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun. Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.

  • Jul 07 / 2017
  • Comments Off on Seputar Big Data Edisi #20
Uncategorized

Seputar Big Data Edisi #20

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama akhir bulan Juni 2017

Artikel dan berita

  1. What Amazon taught us this week: Data-centric companies will devour competitors
    Apa sebenarnya keuntungan yang bisa didapatkan Amazon dengan akuisisi jaringan retail Whole Foods, terutama dari sisi penguasaan data dan pemanfaatannya? Berikut ini analisis dan beberapa pelajaran yang didapat dari langkah yang diambil Amazon tersebut.
  2. Football’s Next Frontier: The Battle Over Big Data
    Persaingan di dunia olah raga, khususnya American Football kini tidak lagi hanya terjadi di lapangan, namun juga dalam kancah Big Data. Setelah Asosiasi Pemain NFL menandatangani kerja sama dengan WHOOP, perusahaan wearable device yang dapat mencatat dan melacak kondisi kesehatan dan performa para atlet. Dengan informasi tersebut, pemain dapat menghindari overtraining, mengurangi cedera, mempercepat pemulihan, dan mendapatkan kondisi kesehatan yang lebih baik setelah pensiun nantinya.
  3. Big Data Tells Mortgage Traders an Amazing Amount About You
    TheNumber adalah sebuah startup yang mengumpulkan data dari berbagai sumber, seperti perusahaan pemasaran, pengajuan pinjaman publik, pengadilan dan puluhan sumber lainnya, kemudian menjualnya ke agen hipotek dan pemberi pinjaman. Dari data tersebut dapat disusun profil yang sangat lengkap dan detail dari calon peminjam. Proses yang tadinya dapat memakan waktu berhari-hari bahkan berminggu-minggu, kini dapat dilakukan dalam hitungan detik saja. Namun banyak hal yang menjadi isu dari pengumpulan dan perdagangan data ini, seperti misalnya masalah privasi dan lain sebagainya.

    The numbers don’t lie: Why women must fill the data scientist demand
    Di tengah derasnya isu mengenai makin sempitnya lapangan pekerjaan, masih terjadi permasalahan kurangnya tenaga data saintis di berbagai bidang. McKinsey bahkan memperkirakan, kekurangan tenaga data saintis di tahun 2018 akan mencapai 50% dari kebutuhannya. Jumlah perempuan di bidang ini pun masih terbilang sedikit, padahal dalam bidang ini banyak skill dan karakteristik yang dibutuhkan, sebenarnya justru lebih banyak dimiliki oleh wanita.

Tutorial dan pengetahuan teknis

  1. Deep Learning Zero to One: 5 Awe-Inspiring Demos with Code for Beginners, part 2
    Beberapa contoh dan demo aplikasi deep learning yang menarik, yang langsung dapat diunduh dan dijalankan. Tanpa matematika. Tanpa teori. Tanpa buku. Termasuk di dalamnya Pencarian Artis Spotify Artist menggunakan perintah suara, Symbolic AI Speech Recognition, dan Algorithmia API Photo Colorizer yang dapat mewarnai gambar hitam putih secara otomatis.
  2. Apache Hive on YARN
    Pelajari bagaimana menggunakan Apache Hive di atas YARN, yang memungkinkan Hadoop untuk mendukung pemrosesan yang lebih beragam dan aplikasi yang lebih luas.
  3. Log Analytics With Deep Learning And Machine Learning
    Paparan yang cukup lengkap dan menarik mengenai deep learning dan machine learning.
  4. Text Clustering : Get quick insights from Unstructured Data
    Artikel yang mengupas dengan mendalam mengenai bagaimana menggali insight dari data tak terstruktur dengan menggunakan text clustering. Bagian pertama dari dua tulisan.
  5. Bitcoin, Ethereum, Blockchain, Tokens, ICOs: Why should anyone care?
    Bitcoin, ethereum, blockchain, dan crypto currency lainnya mengambil peran yang semakin besar dalam perekonomian. Nilainya mencapai jutaan bahkan puluhan juta US$. Artikel ini mengupas mengenai apa, bagaimana dan mengapa kita perlu memahami berbagai macam crypto currency tersebut.

Rilis produk

  1. R 3.4.1 is released
    R 3.4.1 (codename "Single Candle"), dirilis dengan menyertakan sekitar 13 bug fixes.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Jun 26 / 2017
  • Comments Off on Seputar Big Data Edisi #19
Uncategorized

Seputar Big Data Edisi #19

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ker 3 bulan Juni 2017

Artikel dan Berita

  1. Behind Alibaba’s mission to reduce counterfeit goods using big data and technology
    Dalam laporan tahunan untuk platform governance, Alibaba mengungkapkan bahwa pada tahun 2016 mereka berhasil menyita barang tiruan senilai 3 milyar Yuan, atau dua kali lipat dari tahun sebelumnya. Hal ini, menurut Jessie Zheng, chief platform governance officer Alibaba Group, adalah hasil dari pemanfaatan big data dan teknologi machine learning. Upaya ini dilakukan untuk memperbaiki citra Alibaba dan mengeluarkannya dari daftar 'notorious market' yang dibuat oleh IIPA (International Intellectual Property Alliance) dan USTR (United States Office of the Trade Representative).
  2. NYK: Learning from Big Data
    NYK, salah satu maskapai pelayaran terbesar dan tertua di dunia, memanfaatkan big data dan analytics untuk melakukan optimasi dan mengantisipasi berbagai kondisi yang mungkin dihadapi, seperti kenaikan harga minyak, cuaca buruk, dan lain sebagainya.
  3. Can Machine Learning Turn Big Data into No Big Deal?
    Bagaimana IIoT dan Machine Learning meningkatkan kinerja dalam bidang manufakturing, apa hal yang perlu diperhatikan, dan langkah perlu diambil untuk dapat menerapkannya.
  4. How to start incorporating machine learning in the enterprise arena
    Dunia saat ini sudah tidak lagi berada dalam era Revolusi Industri, tapi saat ini sedang mengalami apa yang disebut sebagai Revolusi Digital. Machine learning, kecerdasan buatan dan analisa big data adalah suatu realitas pada saat ini. Banyak perusahaan telah menyadari akan pentingnya data, dan menggabungkan solusi Big Data dan Machine Learning ke dalam model bisnis mereka.
  5. Will big data transform development?
    Big data telah mentransformasi bisnis dan memberikan keuntungan yang besar. Namun, dapatkah big data mengubah arah pembangunan? Bagaimana posisinya terhadap data statistik ‘tradisional’ yang dikumpulkan oleh badan-badan milik pemerintah? Apa saja standar yang harus dipenuhi? Apa kendala yang dihadapi oleh negara-negara yang ingin menerapkannya?
  6. Commentary: The superpowers big data and analytics are quietly giving banks
    Bank akan memiliki kemampuan untuk menjadi lebih pintar, lebih responsif dan mampu memprediksi kejadian penting, seperti prediksi kegagalan ATM. Pemilihan teknologi seharusnya didorong oleh masalah bisnis yang akan diselesaikan dan dipandu oleh visi dan strategi. Ada satu pahlawan baru yang secara diam-diam memberikan hasil yang sangat berarti, yaitu Big Data beserta sidekick analytics-nya, termasuk machine learning dan kecerdasan buatan.

Tutorial dan Pengetahuan teknis

  1. K-means Clustering with R: Call Detail Record Analysis
    Desc
  2. PULSE LAB DIARIES : Inferring Jakarta Commuting Statistics from Twitter
    Sebuah perkiraan jumlah penduduk untuk wilayah Jabodetabek adalah di atas 30 juta. Pada daerah perbatasan antar kota itu sendiri sistem transportasi harus menangani 1,38 juta penumpang harian. Pembuat kebijakan memerlukan informasi terkini untuk memonitor irama kota dan mengoptimalkan transportasi umum. Pulse Lab Jakarta dan Sekolah Tinggi Ilmu Statistik Indonesia bekerja sama untuk melihat apakah data dari media sosial dapat membantu hal tersebut.
  3. Solr Memory Tuning for Production (part 2)
    Di bagian pertama blog ini, telah dibahas mengenai beberapa tantangan umum dalam hal memory tuning dan penyiapan dasar terkait dengan implementasi Solr pada lingkungan production. Pada bagian kedua ini, akan dijelaskan mengenai memory tuning, GC tuning dan beberapa best practise lainnya.
  4. Streaming in Spark, Flink, and Kafka
    Banyak hal yang digaungkan mengenai penggunaan Spark, Flink dan Kafka. Tulisan berikut akan membahas mengenai kelebihan dan perbandingan antara ketiganya.
  5. Medical Image Analysis with Deep Learning , Part 3
    Artikel ini mengulas mengenai deep learning menggunakan Keras dan Theano untuk analisis prediktif dan analisis medical image.

Rilis Produk

  1. Apache Kudu 1.4.0
    Pada rilis Apache Kudu 1.4.0 ini meliputi penambahan beberapa fitur baru, optimasi dan perbaikan.
  2. Apache Arrow 0.4.1
    Tim developer Apache Arrow dengan bangga mengumumkan rilis 0.4.1. Ini adalah rilis terkait dengan perbaikan terutama untuk mengakomodasi regresi dengan tipe Desimal dalam implementasi Java yang diperkenalkan pada versi 0.4.0 (lihat ARROW-1091). Total sekitar 31 perbaikan yang terdaftar pada JIRA.
  3. Apache Impala (incubating) 2.9.0
    Apache Impala (incubating) merilis versi 2.9.0.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
Tertarik dengan Big Data beserta ekosistemnya? Gabung