:::: MENU ::::

Posts Categorized / Big Data

  • Oct 18 / 2017
  • Comments Off on Seputar Big Data Edisi #34
Big Data, Hadoop, Implementation, Storage, Uncategorized

Seputar Big Data Edisi #34

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama awal Februari 2017

Artikel dan Berita

  1. Big Data Is the New Push for Bank Indonesia
    Seperti halnya bank central di negara lain seperti Rusia, China, Inggris dan lainnya, Bank Indonesia beralih menggunakan mesin atau yang sering disebut dengan istilah Big Data, untuk membantu membuat kebijakan menjadi lebih efektif.
  2. Why Blockchain-as-a-Service Should Replace Servers and the Cloud
    Blockchain dan Big Data sangat mirip dalam hal penggunaan: ini semua tentang bagaimana kita menggunakannya. Sama seperti istilah Force dalam film Star Wars, blockchain dan big data adalah alat yang bisa digunakan untuk hal buruk atau hal baik.
  3. How Big Data is Helping Predict Heart Disease
    Penyakit jantung merupaka salah satu penyebab utama kematian di Amerika Serikat. Satu dari 4 orang yang meninggal dunia disebabkan oleh penyakit jantung. Berkat Big Data, para dokter dan ilmuwan telah membuat kemajuan dalam penelitian mengenai prediksi serangan jantung dan pengobatan yang efektif
  4. Saving Snow Leopards with Artificial Intelligence
    Microsoft Azure Machine Learning bekerja sama Snow Leopard Trust, membangun sistem klasifikasi otomatis menggunakan Convolutional Neural Network (CNN) untuk mengklasifikasi gambar yang tertangkap kamera.

Tutorial dan Pengetahuan Teknis

  1. Random Forests(r), Explained
    Random Forest, salah satu metode ensemble paling populer yang digunakan pada implementasi Machine Learning saat ini. Postingan berikut merupakan pengantar algoritma semacam itu dan memberikan gambaran singkat cara kerjanya.
  2. Data Visualization Using Apache Zeppelin
    Apache Zeppelin merupakan sebuah platform open-source untuk analisa data dan visualisasi data. Aplikasi ini yang dapat membantu untuk mendapatkan insight untuk memperbaiki dan meningkatkan performa dalam pengambilan keputusan.
  3. Anomaly Detection With Kafka Streams
    Postingan berikut merupakan studi kasus untuk melakukan deteksi anomali menggunakan Streaming Kafka. Dengan contoh kasus pada situs pembayaran pinjaman, yang akan mengirimkan notifikasi peringatan jika terjadi pembayaran yang terlalu tinggi.
  4. Top 30 big data tools for data analysis
    Saat ini banyak sekali tool Big Data yang digunakan untuk menganalisa data baik yang open-source, gratis maupun berbayar. Analisa data disini adalah proses untuk pemeriksaan, pembersihan, transformasi, dan pemodelan data dengan tujuan untuk menemukan informasi yang berguna, membantu memberikan kesimpulan, dan mendukung pengambilan keputusan.
  5. Kafka Racing: Know the Circuit
    Berikut merupakan postingan pertama dalam rangkaian blog yang didedikasikan untuk Apache Kafka dan penggunaannya untuk memecahkan masalah di domain data yang besar.
  6. Getting Started With Batch Processing Using Apache Flink
    Apache Flink adalah alat pengolah data generasi baru yang dapat memproses kumpulan data yang terbatas (ini disebut juga batch processing) atau aliran data yang berpotensi tak terbatas (stream processing).

Rilis Produk

  1. Apache Phoenix 4.12 released
    Apache Phoenix merilis versi 4.12.0, yang di antaranya mencakup : peningkatan skalabilitas dan reliabilitas untuk global mutable secondary index, support untuk table sampling, stabilisasi unit test run, perbaikan terhadap lebih dari 100 issue.
  2. Apache Solr™ 7.1.0 available
    The Lucene PMC dengan bangga mengumumkan perilisan Apache Solr 7.1.0 yang mencakup banyak fitur baru lainnya serta banyak optimasi dan perbaikan bug.
  3. Apache Rya 3.2.11-incubating released
    Ini adalah rilis Apache Rya yang kedua, versi 3.2.11.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Oct 13 / 2017
  • Comments Off on Seputar Big Data Edisi #33
Apache, Big Data, Hadoop

Seputar Big Data Edisi #33

Tiga teknologi perintis terkini dan perusahaan di belakang mereka, yaitu Lidar, Hadoop dan 5G., 5 kesalahan umum yang menyebabkan visualisasi data menjadi tidak baik., hingga Rilis HUE 4.1, semua tersaji khusus dalam Seputar Big Data Edisi #33. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan Oktober 2017

Artikel dan Berita

  1. Top 10 Big Data Jobs
    Big Data, tentu saja, menciptakan banyak pekerjaan. Robert Half baru saja merilis dokumen berjudul “2018 Salary Guide for Technology Professionals” yang memprediksi bahwa pekerjaan yang berhubungan dengan Big Dataseperti analis bisnis intelijen (BI), data science dan database developer akan menjadi salah satu pekerjaan paling banyak dibutuhkan di tahun yang akan datang.
  2. 3 Essential Technologies for the Next 10 Years
    Dalam artikel ini dibahas mengenai tiga teknologi perintis terkini dan perusahaan di belakang mereka, yaitu Lidar, Hadoop dan 5G.
  3. How Quantum Computers Will Revolutionize Artificial Intelligence and Big Data
    Pada awalnya, menyelesaikan masalah big data dapat menggunakan komputer desktop. Dengan semakin besarnya data, komputasi Quantum yang dilengkapi dengan algoritma lanjutan tidak memadai lagi jika menggunakan memori pada komputer tradisional.

Tutorial dan Pengetahuan Teknis

  1. The 5 Common Mistakes That Lead to Bad Data Visualization
    Berikut adalah 5 kesalahan umum yang menyebabkan visualisasi data menjadi tidak baik. Hindari ini untuk mendapatkan hasil maksimal dari visualisasi data Anda.
  2. Using Kafka Streams API for predictive budgeting
    Blog Pinterest Engineering telah memposting bagaimana Pinterest menggunakan Kafka Stream untuk melakukan prediksi realtime menggunakan pemrosesan stream
  3. [DATASET] New York city TLC Trip Record Data
    The New York City Taxi & Limousine Commission merilis kumpulan data historis yang sangat detail, mencakup lebih dari 1,1 miliar perjalanan taksi di kota tersebut mulai Januari 2009 sampai Juni 2015.
  4. [FREE EBOOK] Python Data Science Handbook
    Menjelaskan dengan sistematis mengenai data science dan penerapannya dengan Python. Disajikan dalam bentuk Jupyter Notebook, sehingga pembacanya dapat langsung mencoba langkah demi langkah.

Rilis Produk

  1. Bitwise Launches Hadoop Adaptor for Mainframe Data
    Bitwise, sebuah perusahaan konsultan manajemen data berbasis di Chicago, hari ini, 10 Oktober, mengumumkan peluncuran Adaptor Hadoop untuk Data Mainframe untuk mengubah data mainframe dalam format EBCDIC menjadi format yang dikenal Hadoop seperti ASCII, Avro dan Parket.
  2. Announcing dplyrXdf 1.0
    Paket dplyrXdf versi 1.0 diumumkan peluncurannya. Semula dplyrXdf merupakan backend sederhana ke dplyr untuk format file XFS Microsoft Machine Learning Server / Microsoft R Server, namun kini telah menjadi perangkat yang lebih luas untuk mempermudah bekerja dengan file format Xdf.
  3. Hue 4.1 is out!
    HUE versi 4.1 dirilis dengan sekitar 250 perbaikan bugs
  4. Apache Flume 1.8.0 released
    Apache Flume 1.8.0 dirilis dengan 3 fitur minor baru dan 8 peningkatan kinerja, serta berbagai perbaikan bugs.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Oct 10 / 2017
  • Comments Off on Seputar Big Data Edisi #32
Apache, Big Data, Implementation, Medical Analytics

Seputar Big Data Edisi #32

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke 4 bulan September 2017

Artikel dan berita

  1. Using Big Data Medical Analytics To Address The Opioid Crisis
    Overdosis obat di tahun 2016, terutama yang berkaitan dengan opioid, menewaskan lebih dari 64 ribu orang di Amerika. Menurut CDC, jumlah tersebut merupakan kenaikan 21% dari tahun 2015. Krisis opioid merupakan problem yang dilematis, karena permasalahannya tidak hanya pada peredaran obat ilegal, namun juga peredaran resmi (obat yang diresepkan). Salah satu sarana yang dianggap dapat menjadi pendukung untuk mengatasi krisis ini adalah penggunaan big data medical analytics. Apa saja peluang dan tantangannya?
  2. Hadoop Was Hard to Find at Strata This Week
    Tidak hanya menghilang dari judul konferensi, dalam acara Strata Data (yang sebelumnya bernama Strata Hadoop), Hadoop pun terkesan menghilang dari peredaran. Banyak yang mengatakan bahwa hal ini terjadi karena “Spark membunuh Hadoop”. Apakah benar demikian? Bagaimana trend ke depannya?
  3. How to Select a Big Data Application
    Memilih software big data bisa menjadi sebuah proses yang rumit dan memerlukan pertimbangan yang matang, berdasar tujuan dan solusi yang tersedia. Artikel ini mencoba mengupas jenis-jenis solusi big data dan karakteristik apa yang perlu dipertimbangkan dalam memilihnya.

Tutorial dan Pengetahuan Teknis

  1. XGBoost, a Top Machine Learning Method on Kaggle, Explained
    XBoost atau eXtreme Gradient Boosting, adalah salah satu tools yang paling populer di kalangan kompetitor Kaggle dan data saintist, dan telah diujicoba dalam implementasi skala besar. XBoost bersifat fleksibel dan versatile, dan dapat digunakan untuk menangani hampir semua kasus regresi, klasifikasi dan ranking, serta fungsi buatan user. Sebagai sebuah software open source, XBost mudah diakses dan dapat digunakan di atas berbagai platform dan antarmuka. Artikel ini mencoba menjelaskan mengenai apa XBoost tersebut, dan apa saja kelebihannya.
  2. Comparison API for Apache Kafka
    Dalam artikel ini disajikan berbagai penerapan Kafka API, mulai dari consume data dari stream, menulis ke stream, sampai pendekatan yang lebih reaktif menggunakan Akka.
  3. PyTorch tutorial distilled – Migrating from TensorFlow to PyTorch
    Artikel yang mengupas dengan baik dan menarik mengenai PyTorch, dan tutorial mengenai bagaimana melakukan migrasi dari TensorFlow ke PyTorch.
  4. [FREE EBOOK] Deep Learning – By Ian Goodfellow, Yoshua Bengio and Aaron Courville
    “Deep Learning” adalah teksbook yang ditujukan untuk membantu mahasiswa dan praktisi untuk memasuki bidang machine learning, dan khususnya deep learning. Versi online dari buku ini sudah lengkap dan dapat diakses secara gratis.
  5. [DATASET] NIH Clinical Center provides one of the largest publicly available chest x-ray datasets to scientific community
    Pusat klinis NIH menyediakan dataset berupa hasil x-ray dada, yang bisa diakses oleh publik. Dataset ini berisi lebih dari 100.000 x-ray image, dari sekitar 30.000 pasien, termasuk di antaranya dengan berbagai penyakit paru-paru yang berat.

Rilis Produk

  1. Apache NiFi 1.4.0 Released
    Versi 1.4.0 ini adalah rilis fitur dan stabilitas, menekankan pada bug fixes yang penting dan penambahan prosesor dan controller services baru. Beberapa fitur baru di antaranya adalah support untuk Apache Knox, autorisasi grup dengan Apache Ranger, dan LDAP-base user authentication.
  2. Apache Solr Reference Guide for 7.0 released
    Setelah Solr 7.0 dirilis beberapa waktu yang lalu, Reference Guide Solr 7.0 dirilis minggu lalu. Dokumen yang berupa 1.035 halaman file PDF berisi dokumentasi untuk fitur-fitur baru, dengan daftar lengkap perubahan konfigurasi dan deprecation yang penting untuk diperhatikan untuk melakukan upgrade dari Solr versi sebelumnya.
  3. Theano To Cease Development After Version 1.0
    Theano, library komputasi numerik untuk Python yang merupakan pelopor di dunia machine learning, akan segera merilis versi 1.0, namun bersamaan dengan itu diumumkan bahwa kegiatan pengembangan Theano akan berakhir setelahnya. Support minimal akan dilanjutkan selama 1 tahun, dan selanjutnya sebagai open source Theano akan tetap dapat diakses bebas, namun tanpa support dari MILA.
  4. Yahoo open-sources Vespa, its most important software release since Hadoop
    Oath, anak perusahaan yang dibentuk ketika Verizon Communication Inc. mengakuisisi Yahoo, membuka salah satu komponen software yang berperan penting dalam melakukan web search dan men-generate rekomendasi dan iklan. Software yang di-open source-kan tersebut bernama Vespa, digunakan untuk menangani permasalahan yang ‘tricky’ dalam hal menentukan apa yang harus ditampilkan sebagai respon dari input user. Oath menggunakan Vespa untuk lebih dari 150 aplikasinya, termasuk Flickr.com, Yahoo Mail dan beberapa aspek dari Yahoo search engine.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Oct 06 / 2017
  • Comments Off on 8 Tips Praktis Mempelajari dan Mendalami Machine Learning
Artificial Intelligece, Big Data, Implementation, machine learning

8 Tips Praktis Mempelajari dan Mendalami Machine Learning

8_tips_praktis_mempelajari_machine_learning

AI, khususnya Machine learning adalah salah satu bidang yang paling ‘sexy’ akhir-akhir ini. Raksasa teknologi seperti Google dan Baidu menginvestasikan antara 20 sampai 30 milyar US$ untuk riset, deployment dan akuisisi di bidang AI pada tahun 2016. Dan di tahun mendatang masih akan semakin banyak bidang yang memanfaatkan AI, dan semakin luas pula kesempatan kerja di bidang ini.

Saat ini sebenarnya adalah waktu yang sangat tepat untuk terjun ke dunia machine learning, karena seiring dengan pesatnya perkembangan bidang ini, banyak sekali tools dan platform yang sifatnya open-source yang dapat digunakan oleh siapapun. Di samping itu banyak pula informasi yang berupa tutorial, kuliah online, maupun berbagai tips yang bisa diakses secara gratis di internet.

Namun berlimpahnya sumber ilmu maupun alat kadang justru membuat kita merasa kewalahan dan bahkan bingung, dari mana harus memulai.

Jadi bagaimana cara memulai belajar machine learning?

Berikut ini beberapa tips yang diberikan oleh Ben Hamner, CTO dan Co-Founder Kaggle.

  1. Pilih permasalahan yang diminati
    Cara yang cepat untuk menguasai sebuah teknik, tools ataupun bahasa pemrograman adalah dengan menggunakannya untuk memecahkan permasalahan. Pilih problem yang menarik dan familiar, agar membuat kita lebih fokus dan termotivasi untuk menyelesaikannya.Mengerjakan suatu permasalahan secara langsung juga membuat kita lebih mudah memahami dan menyelami machine learning dibandingkan jika kita hanya membacanya secara pasif.
  2. Buat solusi singkat dan cepat, tidak perlu sempurna
    Solusi yang dibuat di sini tidak perlu sempurna, karena tujuan langkah ini adalah untuk menghasilkan proses dasar dan end-to-end secara cepat, mulai dari membaca dan mengunggah data, kemudian memprosesnya menjadi format yang sesuai untuk machine learning, menentukan model dan melakukan training, serta menguji model dan mengevaluasi kinerjanya.Intinya adalah memberikan pengalaman hands-on sehingga kita mendapat gambaran dasar tentang proses implementasi machine learning.
  3. Kembangkan dan perbaiki solusi tersebut
    Setelah mendapatkan gambaran dasar, mulailah menggali kreatifitas.Perbaiki tiap komponen dari solusi awal, dan lihat pengaruh dari tiap perubahan terhadap solusi yang dihasilkan, untuk menentukan bagian mana yang akan kita utamakan.
    Sering kali kita bisa mendapatkan hasil yang lebih baik dengan memperbaiki preprocessing dan data cleansing, dibandingkan dengan memperbaiki model machine learningnya sendiri.
  4. Tulis dan share solusi yang sudah dibuat
    Feedback adalah sebuah hal yang penting dalam proses belajar, dan cara terbaik untuk mendapatkan masukan adalah dengan menuliskan dan men-share-nya. Menuliskan proses dan solusi yang dibuat berarti mendalami kembali dengan perspektif lain, dan membuat kita lebih memahaminya. Dengan membagikan tulisan, kita memberi kesempatan bagi orang lain untuk memahami apa yang sudah kita kerjakan dan memberi feedback yang berguna bagi proses belajar kita.Keuntungan lain dengan rajin menulis adalah kita membangun portfolio machine learning dan menunjukkan keahlian kita, yang dapat sangat bermanfaat bagi karir di masa datang.
  5. Ulangi langkah 1-4 untuk problem yang lain
    Ulangi proses di atas dengan permasalahan dari bidang dan jenis data yang lain. Jika sebelumnya menggunakan data tabular, cobalah mengerjakan problem dengan teks yang tidak terstruktur, dan problem lain dengan image. Apakah permasalahan yang dikerjakan sebelumnya memang dirancang untuk machine learning? Cobalah mengerjakan problem dari permasalahan bisnis atau riset yang umum.Kesulitan mencari sumber data? Banyak data set yang open di internet. Salah satunya adalah Kaggle Dataset. Untuk problem yang telah terdefinisi dengan baik, bisa ditemukan di Kaggle Competition. Atau 33 sumber data yang disebutkan dalam artikel ini.
  6. Mengikuti komunitas/forum atau kompetisi secara serius
    Untuk lebih menggali pengalaman dan pengetahuan, carilah komunitas atau forum, atau ikuti kompetisi seperti Kaggle competition. Dalam kompetisi yang dibuat Kaggle, kita juga dapat membentuk team dengan orang lain. Dalam forum dan komunitas kita bisa melihat bagaimana orang menyelesaikan permasalahan dengan cara yang berbeda-beda, dan mendapatkan masukan untuk pekerjaan kita sendiri.
  7. Terapkan machine learning dalam pekerjaan
    Menerapkan machine learning dalam pekerjaan membuat kita lebih fokus dan all-out dalam menekuninya, dan membantu kita untuk lebih menguasainya.
    Tentukan role apa yang ingin diambil, dan bangunlah portfolio project yang berkaitan dengannya.
    Tidak perlu sampai mencari pekerjaan baru (ahem), namun bisa dilakukan dengan mencari project baru di posisi yang sama, mengikuti berbagai hackathon dan kegiatan-kegiatan komunitas lainnya.
  8. Mengajarkan machine learning
    Ilmu akan semakin dalam jika dibagikan, dan saat ini ada berbagai cara untuk mengajar. Pilihlah cara yang sesuai dengan karakteristik dan kemampuan kita, seperti misalnya :

    • Menulis blog dan tutorial
    • Aktif menjawab pertanyaan di forum-forum
    • Mentoring dan tutoring privat
    • Mengisi seminar, workshop atau yang sejenisnya
    • Mengajar kelas
    • Menulis buku
    • Menulis research papers
    • Dan lain sebagainya

Tentu tidak ada formula anti gagal yang bisa diterapkan kepada semua orang, karena gaya dan cara belajar masing-masing orang bisa berbeda-beda. Apa lagi tidak semua yang ingin terjun ke bidang ini punya latar belakang ilmu maupun keahlian yang sama. Yang penting adalah memulainya, karena “The journey of a thousand miles begins with one step”.

Contributor :


M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng.
Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun.
Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.
  • Oct 04 / 2017
  • Comments Off on MeetUp ke 17 idBigData di ITB, Bandung
meetup_17_itb
Apache, Big Data, Forum Info, Komunitas, Meet Up

MeetUp ke 17 idBigData di ITB, Bandung

meetup_17_itb

idBigData dan Institut Teknologi Bandung berkolaborasi dengan Asosiasi Ilmuwan Data Indonesia (AIDI), Bukalapak.com, Prodi Teknik Informatika ITB dan Labs247 mengadakan meetup idBigdata yang ke 17.

MeetUp tersebut diselenggarakan pada Kamis, 28 September 2017 di Auditorium Campus Center Timur ITB. Acara dimulai sekitar pukul 09.00. Dan dibuka oleh Wakil Dekan School of Electrical Engineering and Informatics ITB, Dr. Ir. Nana Rachmana Syambas M. Eng

Pembicara-pembicara pada acara ini adalah:

Dr. techn. Muhammad Zuhri Catur Candra, Institut Teknolog Bandung dengan topik “The Journey in The Data-Intensive World
Teguh Nugraha, Head of Data Bukalapak.com dengan topik “Big Data in E-commerce
Solechoel Arifin, Labs247 dengan topik “Implementasi DNA Sequence Alignment pada HGrid247
Sigit Prasetyo, idBigData dengan topik “Open Source Solution for Data Analytics Workflow

Meetup ini diikuti oleh 60 peserta, dari kalangan mahasiswa maupun profesional.

Video lengkap Meetup idBigdata #17 maupun berbagai kegiatan idBigdata sebelumnya dapat diakses di channel idBigdata.

Contributor :


M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng.
Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun.
Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.
  • Oct 02 / 2017
  • Comments Off on Seputar Big Data Edisi #31
Apache, Big Data, Implementation, Uncategorized

Seputar Big Data Edisi #31

close-up-telephone-booth-pexels

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ketiga bulan September 2017

Artikel dan Berita

  1. Japan to certify big-data providers to drive innovation
    Pemerintah Jepang mengumumkan rencana untuk melakukan sertifikasi terhadap perusahaan yang mengumpulkan data dari berbagai sumber dan menyediakannya sebagai services. Sertifikasi akan berlaku untuk 5 tahun, dan perusahaan-perusahaan yang disebut sebagai big data banks ini akan mendapatkan keringanan pajak.
  2. Big Data – what’s the big deal for Procurement?
    Apa tantangan yang dihadapi oleh bagian procurement saat ini, dan bagaimana peran big data dalam mengatasinya?
  3. The Amazing Ways Burberry Is Using Artificial Intelligence And Big Data To Drive Success
    Sejak 2006, Burberry, perusahaan mode terkemuka asal Inggris, memutuskan untuk menjadi sebuah perusahaan digital “end to end”. Strategi yang mereka ambil adalah dengan menggunakan big data dan AI untuk mendongkrak penjualan dan kepuasan pelanggan.
  4. Can big data give medical affairs an edge in strategic planning?
    Salah satu bagian penting dari industri farmasi adalah medical affairs, yaitu team yang bertugas memberikan support terhadap aktivitas setelah sebuah obat disetujui dan diedarkan, baik terhadap pihak internal maupun eksternal (customer). Dengan semakin besarnya keterlibatan publik terhadap pengawasan dan penggunaan obat, maka peran medical affair menjadi semakin penting. Ketersediaan data yang melimpah menjadi sebuah tantangan dan peluang tersendiri. Bagaimana big data dapat membantu team medical affair dalam membuat perencanaan strategis?
  5. Spark and S3 storage carry forward NBC big data initiative
    NBC membuat inisiatif big data, dengan menggunakan Amazon S3 dan Spark. Keduanya dipakai untuk menggantikan HDFS dan MapReduce. Jeffrey Pinard, vice president data technology dan engineering di NBC, menjelaskan alasan di balik strategi tersebut.

Tutorial dan Pengetahuan Teknis

  1. Tensorflow Tutorial : Part 2 – Getting Started
    Melanjutkan bagian 1 pekan lalu, tutorial Tensorflow bagian 2 ini menjelaskan mengenai instalasi Tensorflow dan sebuah contoh use case sederhana.
  2. 30 Essential Data Science, Machine Learning & Deep Learning Cheat Sheets
    Sekumpulan ‘cheat sheet atau referensi singkat yang sangat bermanfaat mengenai data science, machine learning dan deep learning, dalam python, R dan SQL.
  3. A Solution to Missing Data: Imputation Using R
    Salah satu permasalahan dalam pemanfaatan data untuk machine learning maupun analisis adalah missing data. Data yang tidak lengkap dapat mengacaukan model, sedangkan penanganan missing data terutama untuk data yang besar adalah sebuah momok tersendiri bagi data analis. Artikel ini mengulas mengenai permasalahan ini dan bagaimana mengatasinya dengan menggunakan R.
  4. Apache Flink vs. Apache Spark
    Apache flink dan Apache Spark termasuk framework yang paling banyak diminati dan diadopsi saat ini. Apa perbedaan di antara keduanya, dan apa kelebihan dan kekurangan masing-masing?
  5. Featurizing images: the shallow end of deep learning
    Melakukan training terhadap model deep learning dari nol memerlukan data set dan sumber daya komputasi yang yang besar. Dengan memanfaatkan model yang sudah ditraining (pre-trained) memudahkan kita dalam membangun classifier menggunakan pendekatan standar mashine learning.
    Artikel ini menyajikan sebuah contoh kasus pemanfaatan pre-trained deep learning image classifier dari Microsoft R server 9.1 untuk menghasilkan fitur yang akan digunakan dengan pendekatan machine learning untuk menyelesaikan permasalahan yang belum pernah dilatihkan ke dalam model sebelumnya.
    Pendekatan ini memudahkan pembuatan custom classifier untuk tujuan spesifik dengan menggunakan training set yang relatif kecil.

Rilis Produk

  1. Apache Solr 7.0.0 released
    Apache Solr, platform pencarian noSQL yang populer, merilis versi 7.0.0 minggu ini. Rilis 7 ini mencakup 40 upgrade dari solr 6, 51 fitur baru, 56 bug fixes dan puluhan perubahan lainnya.
  2. Apache Arrow 0.7.0
    Mencakup 133 JIRA, fitur-fitur baru dan bug fixes untuk berbagai bahasa pemrograman.
  3. Apache PredictionIO 0.12.0-incubating Release
    Apache PredictionIO, sebuah server machine learning open source yang dibangun di atas open source stack, merilis versi 0.12.0.
  4. R 3.4.2 Released
    Rilis ini mencakup perbaikan terhadap minor bugs dan peningkatan performance. Seperti rilis minor sebelumnya, rilis ini kompatibel dengan rilis sebelumnya dalam seri R 3.4.x.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Sep 25 / 2017
  • Comments Off on Seputar Big Data Edisi #30
Seputar Big Data edisi #30
Apache, Big Data, Hadoop, IoT, Storage, Storm

Seputar Big Data Edisi #30

Seputar Big Data edisi #30

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan september 2017

Artikel dan Berita

  1. The Amazing Ways Coca Cola Uses Artificial Intelligence (AI) And Big Data To Drive Success
    Big data merevolusi sektor kesehatan dengan sangat cepat. Baru-baru ini Sophia Genetics, sebuah perusahaan yang membangun data analytics dan diagnostik genomik berhasil mendapatkan pendanaan sebesar $30 juta untuk meningkatkan database mereka, dari 125.000 menjadi satu juta pada 2020. Untuk mengakses data tersebut, rumah sakit yang menjadi partner akan men-share data DNA pasien mereka ke sistem Sophia, yang dapat digunakan untuk mengidentifikasi pola genetik di balik penyakit-penyakit genetis seperti cystic fibrosis, jantung dan beberapa jenis kanker. Hal ini menimbulkan beberapa isu, terutama yang berkaitan dengan privacy dan kerahasiaan data pasien.
  2. Seagate and Baidu Sign Strategic Cooperation Agreement for Big Data Analysis and Advanced Storage Implementation
    Seagate Technology, penyedia solusi storage kelas dunia, mengumumkan penandatanganan perjanjian kerjasama strategis dengan Baidu, penyedia internet search berbahasa Cina. Kerjasama tersebut mencakup bidang IT, analisis big data, dan pengembangan serta penerapan sistem storage tingkat tinggi.
  3. £30m National Innovation Centre for Data launched
    Pemerintah Inggris dan Universitas Newcastle bekerja sama membangun pusat big data sebesar 30 juta Poundsterling. Pusat big data ini akan bertugas menjalin kerjasama antara akademisi, penyedia IT, dan sektor publik, yang bertujuan untuk memecahkan permasalahan di dunia nyata dengan memanfaatkan berbagai kemajuan di bidang data sains.
  4. Balderton joins M Series D for big data biotech platform play, Sophia Genetics
    SaaS startup Sophia Genetics membangun platform data analytics yang memanfaatkan keahlian tenaga medis untuk mengembangkan genomic diagnostic melalui algoritma AI, bertujuan mendapatkan diagnosis yang lebih cepat. Perusahaan tersebut baru-baru ini mengumumkan pendanaan series D sebesar $30 juta, menambahkan Balderton Capital ke dalam daftar investornya.

Tutorial dan Pengetahuan Teknis

  1. Tensorflow Tutorial : Part 1 – Introduction
    Dalam 3 seri artikel ini akan ditampilkan tutorial Tensorflow. Bagian pertama menyajikan pengenalan dan dasar-dasar Tensorflow, arsitekturnya, dan beberapa contoh penerapannya.
  2. Creating a Yelling App in Kafka Streams
    Memberikan pengenalan yang komprehensif mengenai apa dan bagaimana cara kerja Kafka Stream, lengkap dengan contoh implementasinya menggunakan aplikasi sangat sederhana. Aplikasi yang dibuat menerima input berupa pesan teks dan menghasilkan mengeluarkan teks tersebut dalam huruf kapital, seolah-olah aplikasi ini 'berteriak' kepada pembaca pesannya, sehingga disebut "Yelling App".
  3. Using SparkR to Analyze Citi Bike Data
    Sebuah tutorial yang cukup bagus mengenai penggunaan dplyr, sebuah library R, untuk menganalisis data jalur dan perjalanan sepeda di NYC. Untuk skalabilitasnya memanfaatkan Amazon EMR dan Spark.
  4. PyTorch vs TensorFlow — spotting the difference
    Saat ini terdapat beberapa framework untuk deep learning yang cukup populer. Dua di antaranya adalah PyTorch dan Tensorflow. Artikel ini mengupas perbedaan di antara keduanya, lengkap dengan Jupyter notebook untuk membandingkan kinerja keduanya dalam beberapa aplikasi.
  5. Benchmark Apache HBase vs Apache Cassandra on SSD in a Cloud Environment
    Hortonworks melakukan analisa kinerja terhadap Apache HBase dan Apache Cassandra menggunakan Yahoo Cloud Serving Benchmark. Hasilnya HBase lebih cepat dalam hal read dan Cassandra lebih baik untuk workflow yang banyak memerlukan write.

Rilis Produk

  1. Build your own Machine Learning Visualizations with the new TensorBoard API
    Google merilis sekumpulan API yang memungkinkan developer menambahkan plugin visualisasi custom ke TensorBoard.
  2. Apache Kafka 0.11.0.1
    Apache Kafka 0.11.0.1 dirilis dengan beberapa bug fixing dan perbaikan minor.
  3. Apache Impala (incubating) has released version 2.10.0
    Apache Impala merilis versi 2.10.0 dengan sekitar 250 tiket untuk fitur baru, penyempurnaan, perbaikan, dan lain-lain.
  4. Apache OpenNLP version 1.8.2
    Rilis ini mengandung beberapa perbaikan dan penyempurnaan minor.
  5. Storm 1.0.5 Released
    Rilis maintenance mencakup sekitar 7 perbaikan bugs yang penting, berhubungan dengan peningkatan kinerja, stabilitas dan fault tolerance.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂

  • Sep 14 / 2017
  • Comments Off on Seputar Big Data Edisi #29
Apache, Big Data, Forum Info, IoT

Seputar Big Data Edisi #29

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama awal bulan Agustus 2017.

Artikel dan Berita

  1. Thales Completes The Acquisition Of Guavus, One Of The Pioneers Of Real-time Big Data Analytics
    Thales, sebuah perusahaan penyedia peralatan kedirgantaraan, pertahanan, transportasi dan keamanan yang berpusat di Prancis, mengumumkan telah selesai melakukan proses akuisisi terhadap Guavus, sebuah perusahaan Silicon Valley yang memfokuskan diri pada analisa realtime big data.
  2. A rare look inside LAPD's use of data
    Dengan melakukan pengamatan dan melakukan lebih dari 100 wawancara terhadap petugas dan pegawai sipil di Departemen Kepolisian Los Angeles, Sarah Brayne, seorang profesor sosiolog di University of Texas di Austin, membuat sebuat catatan empiris bagaimana penerapan analisa Big Data mengubah pratek pengawasan polisi.
  3. Social Business Intelligence Market: Growing Usage of Social Media Is Driving the Demand for Big Data Globally
    Pendapatan yang dihasilkan dari implementasi solusi Social Business Intelligence di seluruh dunia diperkirakan mencapai hampir US $ 17 miliar pada 2017, dan diproyeksikan mencapai valuasi pasar seitar US $ 29 miliar pada tahun 2026, mencerminkan CAGR sebesar 6% selama periode perkiraan (2016-2026).
  4. ECS ICT to distribute data centre solutions by Hortonworks
    CS ICT Bhd hari ini mengumumkan telah ditunjuk sebagai distributor pertama untuk Hortonworks Data Center Solutions di Malaysia.
  5. Why Big Data is Important to Your Business
    Dalam artikel yang ditulis oleh Sheza Gary, seorang direktur teknis di Algoworks, memberikan gambaran yang meyakinkan mengenai bagaimana bisnis menggunakan secara mendalam teknologi big data dan berlanjut dengan memberikan gambaran yang lebih jelas mengenai pemanfaatan big data yang dapat digunakan untuk keuntungan bisnis.

Tutorial dan Pengetahuan Teknis

  1. K-Nearest Neighbors – the Laziest Machine Learning Technique
    K-Nearest Neighbors (K-NN) adalah salah satu algoritma Machine Learning yang paling sederhana. Seperti algoritma lainnya, K-NN terinspirasi dari penalaran manusia. Misalnya, ketika sesuatu yang signifikan terjadi dalam hidup Anda, Anda menghafal pengalaman itu dan menggunakannya sebagai pedoman untuk keputusan masa yang akan datang.
  2. Python vs R – Who Is Really Ahead in Data Science, Machine Learning?
    Berdasarkan analisa yang dihasilkan oleh Google Trend selama Januari 2012 - Agustus 2017, terlihat bahwa R sedikit lebih unggul sampai antara tahun 2014 - 2015, karena Data Science sangat populer pada saat itu. Tapi pada tahun 2017 Python mulai tampak lebih unggul popularitasnya.
  3. Open Source EHR Generator Delivers Healthcare Big Data with FHIR
    Membuat analis data kesehatan seringkali membuat frustrasi karena kurangnya akses ke data pasien , terpercaya, dan lengkap yang melimpah sekarang dapat memanfaatkan platform generator data EHR open source yang disebut Synthea.
  4. Apache Ignite: In-Memory Performance With Durability of Disk
    Sejak versi 2.1, Apache Ignite telah menjadi salah satu dari sedikit sistem komputasi in-memory yang memiliki persistence layer terdistribusi sendiri. Pada dasarnya, pengguna tidak perlu mengintegrasikan Ignite dengan database lain, walaupun mendukung fitur integrasi semacam ini didukung)
  5. An Introduction to Spatial Analytics With PostGIS, PL/R, and R
    Bagian pertama dari serangkaian tutorial mengenai penggunaan PL/R bagi pengguna PostgreSQL, bahasa prosedural yang digunakan membuat fungsi SQL dalam bahasa pemrograman R.

Rilis Produk

  1. Qubole Rolls Out Industry’s First Autonomous Data Platform
    Qubole, perusahaan penyedia layanan big data-as-a-service, mengumumkan tersedianya tiga produk baru - Enterprise Qubole Data Service (QDS) Enterprise Edition, QDS Business Edition dan Qubole Cloud Agents - komponen dari platform data otonom yang ditujukan untuk membantu organisasi memperkecil inisiatif data mereka sambil mengurangi biaya.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Sep 07 / 2017
  • Comments Off on Seputar Big Data Edisi #28
Apache, Big Data, Forum Info, Hadoop

Seputar Big Data Edisi #28

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu terakhir bulan Agustus 2017

Artikel dan Berita

  1. Big Data Startup MapR Raises M, Keeps Eyeing An IPO
    MapR mengumuman bahwa mereka memperoleh suntikan dana sebesar $56 juta dari investor-investor yang dipimpin oleh Lightspeed Venture Partners.
  2. Russia's Biggest Data Lake & How Severstal is Transforming The Steel Industry Using Machine Learning
    Sebagai bagian dari strategi transformasi digitalnya, Severstal yang merupakan salah satu produsen baja terbesar di Rusia, membuat Data Lake industri terbesar di negara tersebut. Petabyte data yg sebelumnya dibuang selama produksi ribuan ton baja setiap tahunnya sekarang akan disimpan untuk dianalisa.
  3. AUSTRAC built a big data platform for DHS to fight welfare fraud
    Departemen Pelayanan Kependudukan Australia berhasil membongkar lebih dari $ 25 juta pembayaran kesejahteraan palsu menggunakan platform analisis data open source yang dikembangkan oleh lembaga anti pencucian uang AUSTRAC.
  4. Putin says the nation that leads in AI ‘will be the ruler of the world’
    Pada awal September lalu, di depan para pelajar dalam rangka awal tahun ajaran baru, Presiden Rusia Vladimir Putin meramalkan bahwa negara mana pun yang memimpin dalam penelitian AI akan menguasai dunia. Ia juga memperingatkan bahwa kecerdasan buatan menawarkan 'peluang kolosal' dan juga sekaligus bahayanya.

Tutorial dan Pengetahuan Teknis

  1. Detecting Facial Features Using Deep Learning
    Dulu merupakan sebuah tantangan yang cukup sulit untuk melakukan deteksi wajah dan ciri khas lainnya seperti mata, hidung, mulut, dan bahkan untuk mengenali emosi seseorang dari ekspresinya. Tapi saat ini hal tersebut dapat dilakukan dengan lebih cepat menggunakan Deep Learning.
  2. A Vision for Making Deep Learning Simple
    Artikel ini memperkenalkan Deep Learning Pipelines dari Databricks, library open-source baru yang bertujuan untuk memudahkan siapapun, mulai dari praktisi machine learning sampai bisnis analis, dalam mengintegrasikan deep learning ke dalam berbagai workflow.
  3. From Lambda to Kappa: A Guide on Real-Time Big Data Architectures
    Saat ini banyak pilihan dalam menentukan arsitektur real-time big data. Jika sebelumnya ada istilah arsitektur Lambda, maka saat ini terdapat pula jenis arsitektur-arsitektur lainnya. Dalam serial artikel ini akan dibahas beberapa diantaranya, dan melakukan perbandingan menggunakan use case yang relevan. Jadi, bagaimana kita memilih arsitektur yang tepat untuk project real-time kita? Simak artikel ini!
  4. Data Science 101 (Getting started in NLP): Tokenization tutorial
    Dalam tutorial ini anda akan mempelajari beberapa hal: membaca text ke dalam R, memilih baris yang diperlukan dari teks tersebut, melakukan tokenisasi menggunakan package tidytext, menghitung frekuensi token, menulis fungsi yang reusable untuk melakukan pekerjaan-pekerjaan tersebut, dan menghasilkan pekerjaan yang reproducible.
  5. Stream Processing with Apache Flink and DC/OS
    Artikel ini menjelaskan secara singkat mengenai cara menjalankan job streaming Apache Flink di atas Mesos menggunakan DC/OS.

Rilis Produk

  1. Announcing the release of Apache Samza 0.13.1
    Apache Samza mengumumkan versi 0.31.1. Rilis ini mencakup beberapa penyempurnaan dan perbaikan bug, dalam 29 tiket JIRA.
  2. Hortonworks extends IaaS offering on Azure with Cloudbreak
    Microsoft Azure mengumumkan service Hortonwork Cloudbreak untuk melakukan provisioning cluster HDP. Sebuah controller VM Cloudbreak dapat mengatur beberapa klaster serta mengkonfigurasi Kerberos dan Apache Knox secara otomatis untuk mengamankan klaster. Cloudbreak tersedia melalui Azure Marketplace.
  3. Announcing GA Release of CDAP 4.3 – Use Cases, Features and Capabilities
    Cask mengumumkan CDAP versi 4.3. Dalam rilis ini terdapat banyak fitur baru, yang mencakup fitur baru untuk persiapan data, integrasi ETL, Apache Ranger, dan dukungan Spark Dataframe.
  4. Introducing the MapR Orbit Cloud Suite
    MapR mengumumkan MapR Orbit Cloud Suite, yang menyediakan fungsionalitas cross-cloud (kombinasi public dan private cloud), object-tiering (yang dapat meng-offload data ke penyimpanan cloud object, dan manajemen native cloud (provisioning VM dalam AWS dan Microsoft Azure).
  5. Announcing Data Collector v2.7.1.0
    Dalam StreamSets versi 2.7.1.0 terdapat penambahkan dukungan baru untuk Microsoft Azure, selain perbaikan dan penyempurnaan lainnya.
  6. Apache MADlib v1.12 released
    Dalam rilis baru machine learning untuk SQL ini terdapat penambahkan sejumlah algoritma grafik, termasuk perbaikan pada decision tree dan implementasi random forest dan memiliki dukungan yang lebih baik untuk perhitungan akhir.
  7. Apache Atlas 0.8.1
    Tim Apache Atlas mengumumkan versi terbaru yaitu 0.8.1

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Aug 31 / 2017
  • Comments Off on Seputar Big Data Edisi #27
Big Data, Forum Info, Hadoop, Komunitas, Uncategorized

Seputar Big Data Edisi #27

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke 4 bulan Agustus 2017

Artikel dan berita

  1. Big data in financial services: 9 companies to watch
    Daftar beberapa perusahaan yang membawa Big Data ke sektor jasa keuangan dan bagaimana mereka mengubah lanskap menjadi pemikiran yang lebih maju dan lebih siap menghadapi masa depan keuangan.
  2. Big Data Analytics to Disrupt U.S. Next-generation Sequencing Informatics Market with Double-digit Growth
    Dalam laporan riset pasar Frost & Sullivan, "Transformation and Growth Opportunities in the US Next-generation Sequencing Informatics Market, Forecast to 2021," ditemukan bahwa pasar IT untuk NGS Amerika menghasilkan pendapatan sebesar $ 416 juta pada tahun 2016 dan diharapkan untuk mencatat tingkat pertumbuhan tahunan gabungan (CAGR) sebesar 19,0 persen sampai tahun 2021.
  3. Groupon is a massive data-driven experiment — this team helps run it
    Groupon telah melakukan tweak dan menguji setiap bagian platform e-commerce yang dimilikinya untuk mengetahui secara tepat apa yang membuat pelanggan melakukan sebuah klik. Namun demikian Groupon terus melakukan ujicoba untuk menambahkan fitur baru yang meningkatkan bisnis dan membuang fitur yang tidak sesuai.
  4. Report shows that AI is more important to IoT than big data insights
    Sebuah survey yang dilakukan menunjukkan bahwa sebagian besar perusahaan yang menerapkan IoT mengalami kesulitan karena besarnya biaya pemeliharaan. Apakah big data analysis tidak cukup sebagai solusinya? Bagaimana peran AI dalam hal ini?
  5. 6 Ways Big Data is enhancing the global supply chain
    Seiring dengan semakin kompleksnya sistem supply chain di seluruh dunia dan semakin besarnya tuntutan pelanggan, makin sengit pula persaingan dalam penyediaan aplikasi dan sistem yang dapat mengelola secara efektif dengan memanfaatkan bermilyar-milyar gigabyte data yang dihasilkan setiap harinya. Berikut ini 6 aspek di mana big data dapat mengubah dan mendukung supply chain secara global.
  6. Five Big Data solutions to manage chronic diseases
    Beberapa hal yang dapat dilakukan dengan menggunakan solusi Big Data untuk membantu mengelola dan melakukan perawatan ketika mengalami kondisi kronis suatu penyakit.

Tutorial dan Pengetahuan Teknis

  1. Apache Spark vs. MapReduce
    Spark mengklaim bahwa kemampuannya untuk "menjalankan program hingga 100x lebih cepat daripada Hadoop MapReduce di memori, atau 10x lebih cepat pada disk." Klaim ini didasarkan pada kemampuan Spark melakukan pemrosesan dalam memori dan mencegah operasi I/O yang tidak perlu ke dalam disk.
  2. Introducing KSQL: Open Source Streaming SQL for Apache Kafka
    KSQL merupakan SQL query engine open source yang memungkinkan untuk melakukan query secara interaktif pada Apache Kafka. Tidak lagi diperlukan untuk melakukan pemrograman menggunakan Java ataupun Phyton.
  3. Packages to simplify mapping in R
    Sharon Machlis telah membuat tutorial yang sangat berguna untuk membuat peta data geografis dengan menggunakan R. Ada beberapa paket dan API data terbaru yang dapat digunakan untuk mempermudah melakukan hal tersebut.
  4. Running Apache Spark Applications in Docker Containers
    Sekumpulan tips untuk membantu mempersiapkan klaster Spark dengan menggunakan Docker.

Rilis Produk

  1. Open sourcing DoctorKafka: Kafka cluster healing and workload balancing
    Pinterest mengopensourcekan aplikasi bernama DoctorKafka yang berfungsi untuk mempermudah operasional, optimasi dan memonitor sebuah klaster Kafka.
  2. Announcing Data Collector v2.7.0.0
    StreamSets Data Collector versi 2.7.0.0 telah dirilis. Dalam rilis ini mencakup konektor untuk Google Cloud, CDC untuk SQL Server, konektor ke JMS, integrasi dengan Cloudera Navigator untuk melakukan pelacakan silsilah, dan eksekutor pada Amazon S3.
  3. The Apache Kylin 2.1.0
    Apache Kylin versi 2.1.0, sebuah OLAP engine untuk Hadoop, dirilis. Rilis baru ini menambahkan dukungan untuk sumber data RDMBS, otorisasi queri pada tingkat proyek, dan lebih dari 100 perbaikan bug.
  4. Apache Knox 0.13.0
    Apache Knox 0.13.0 dirilis dan menyertakan sejumlah fitur baru, seperti integrasi dengan REST API Kafka, dukungan Spark Thriftserver UI, Apache Atlas Proxying, dan banyak perbaikan bug.Apache Knox 0.13.0 dirilis dan menyertakan sejumlah fitur baru, seperti integrasi dengan REST API Kafka, dukungan Spark Thriftserver UI, Apache Atlas Proxying, dan banyak perbaikan bug.
  5. Apache HBase 1.1.12
    Apache HBase 1.1.12 merupakan sebuah rilis perbaikan terhadap sekitar 10 bug.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
Tertarik dengan Big Data beserta ekosistemnya? Gabung