:::: MENU ::::

Posts Categorized / Apache

  • Oct 13 / 2017
  • Comments Off on Seputar Big Data Edisi #33
Apache, Big Data, Hadoop

Seputar Big Data Edisi #33

Tiga teknologi perintis terkini dan perusahaan di belakang mereka, yaitu Lidar, Hadoop dan 5G., 5 kesalahan umum yang menyebabkan visualisasi data menjadi tidak baik., hingga Rilis HUE 4.1, semua tersaji khusus dalam Seputar Big Data Edisi #33. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan Oktober 2017

Artikel dan Berita

  1. Top 10 Big Data Jobs
    Big Data, tentu saja, menciptakan banyak pekerjaan. Robert Half baru saja merilis dokumen berjudul “2018 Salary Guide for Technology Professionals” yang memprediksi bahwa pekerjaan yang berhubungan dengan Big Dataseperti analis bisnis intelijen (BI), data science dan database developer akan menjadi salah satu pekerjaan paling banyak dibutuhkan di tahun yang akan datang.
  2. 3 Essential Technologies for the Next 10 Years
    Dalam artikel ini dibahas mengenai tiga teknologi perintis terkini dan perusahaan di belakang mereka, yaitu Lidar, Hadoop dan 5G.
  3. How Quantum Computers Will Revolutionize Artificial Intelligence and Big Data
    Pada awalnya, menyelesaikan masalah big data dapat menggunakan komputer desktop. Dengan semakin besarnya data, komputasi Quantum yang dilengkapi dengan algoritma lanjutan tidak memadai lagi jika menggunakan memori pada komputer tradisional.

Tutorial dan Pengetahuan Teknis

  1. The 5 Common Mistakes That Lead to Bad Data Visualization
    Berikut adalah 5 kesalahan umum yang menyebabkan visualisasi data menjadi tidak baik. Hindari ini untuk mendapatkan hasil maksimal dari visualisasi data Anda.
  2. Using Kafka Streams API for predictive budgeting
    Blog Pinterest Engineering telah memposting bagaimana Pinterest menggunakan Kafka Stream untuk melakukan prediksi realtime menggunakan pemrosesan stream
  3. [DATASET] New York city TLC Trip Record Data
    The New York City Taxi & Limousine Commission merilis kumpulan data historis yang sangat detail, mencakup lebih dari 1,1 miliar perjalanan taksi di kota tersebut mulai Januari 2009 sampai Juni 2015.
  4. [FREE EBOOK] Python Data Science Handbook
    Menjelaskan dengan sistematis mengenai data science dan penerapannya dengan Python. Disajikan dalam bentuk Jupyter Notebook, sehingga pembacanya dapat langsung mencoba langkah demi langkah.

Rilis Produk

  1. Bitwise Launches Hadoop Adaptor for Mainframe Data
    Bitwise, sebuah perusahaan konsultan manajemen data berbasis di Chicago, hari ini, 10 Oktober, mengumumkan peluncuran Adaptor Hadoop untuk Data Mainframe untuk mengubah data mainframe dalam format EBCDIC menjadi format yang dikenal Hadoop seperti ASCII, Avro dan Parket.
  2. Announcing dplyrXdf 1.0
    Paket dplyrXdf versi 1.0 diumumkan peluncurannya. Semula dplyrXdf merupakan backend sederhana ke dplyr untuk format file XFS Microsoft Machine Learning Server / Microsoft R Server, namun kini telah menjadi perangkat yang lebih luas untuk mempermudah bekerja dengan file format Xdf.
  3. Hue 4.1 is out!
    HUE versi 4.1 dirilis dengan sekitar 250 perbaikan bugs
  4. Apache Flume 1.8.0 released
    Apache Flume 1.8.0 dirilis dengan 3 fitur minor baru dan 8 peningkatan kinerja, serta berbagai perbaikan bugs.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Oct 10 / 2017
  • Comments Off on Seputar Big Data Edisi #32
Apache, Big Data, Implementation, Medical Analytics

Seputar Big Data Edisi #32

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke 4 bulan September 2017

Artikel dan berita

  1. Using Big Data Medical Analytics To Address The Opioid Crisis
    Overdosis obat di tahun 2016, terutama yang berkaitan dengan opioid, menewaskan lebih dari 64 ribu orang di Amerika. Menurut CDC, jumlah tersebut merupakan kenaikan 21% dari tahun 2015. Krisis opioid merupakan problem yang dilematis, karena permasalahannya tidak hanya pada peredaran obat ilegal, namun juga peredaran resmi (obat yang diresepkan). Salah satu sarana yang dianggap dapat menjadi pendukung untuk mengatasi krisis ini adalah penggunaan big data medical analytics. Apa saja peluang dan tantangannya?
  2. Hadoop Was Hard to Find at Strata This Week
    Tidak hanya menghilang dari judul konferensi, dalam acara Strata Data (yang sebelumnya bernama Strata Hadoop), Hadoop pun terkesan menghilang dari peredaran. Banyak yang mengatakan bahwa hal ini terjadi karena “Spark membunuh Hadoop”. Apakah benar demikian? Bagaimana trend ke depannya?
  3. How to Select a Big Data Application
    Memilih software big data bisa menjadi sebuah proses yang rumit dan memerlukan pertimbangan yang matang, berdasar tujuan dan solusi yang tersedia. Artikel ini mencoba mengupas jenis-jenis solusi big data dan karakteristik apa yang perlu dipertimbangkan dalam memilihnya.

Tutorial dan Pengetahuan Teknis

  1. XGBoost, a Top Machine Learning Method on Kaggle, Explained
    XBoost atau eXtreme Gradient Boosting, adalah salah satu tools yang paling populer di kalangan kompetitor Kaggle dan data saintist, dan telah diujicoba dalam implementasi skala besar. XBoost bersifat fleksibel dan versatile, dan dapat digunakan untuk menangani hampir semua kasus regresi, klasifikasi dan ranking, serta fungsi buatan user. Sebagai sebuah software open source, XBost mudah diakses dan dapat digunakan di atas berbagai platform dan antarmuka. Artikel ini mencoba menjelaskan mengenai apa XBoost tersebut, dan apa saja kelebihannya.
  2. Comparison API for Apache Kafka
    Dalam artikel ini disajikan berbagai penerapan Kafka API, mulai dari consume data dari stream, menulis ke stream, sampai pendekatan yang lebih reaktif menggunakan Akka.
  3. PyTorch tutorial distilled – Migrating from TensorFlow to PyTorch
    Artikel yang mengupas dengan baik dan menarik mengenai PyTorch, dan tutorial mengenai bagaimana melakukan migrasi dari TensorFlow ke PyTorch.
  4. [FREE EBOOK] Deep Learning – By Ian Goodfellow, Yoshua Bengio and Aaron Courville
    “Deep Learning” adalah teksbook yang ditujukan untuk membantu mahasiswa dan praktisi untuk memasuki bidang machine learning, dan khususnya deep learning. Versi online dari buku ini sudah lengkap dan dapat diakses secara gratis.
  5. [DATASET] NIH Clinical Center provides one of the largest publicly available chest x-ray datasets to scientific community
    Pusat klinis NIH menyediakan dataset berupa hasil x-ray dada, yang bisa diakses oleh publik. Dataset ini berisi lebih dari 100.000 x-ray image, dari sekitar 30.000 pasien, termasuk di antaranya dengan berbagai penyakit paru-paru yang berat.

Rilis Produk

  1. Apache NiFi 1.4.0 Released
    Versi 1.4.0 ini adalah rilis fitur dan stabilitas, menekankan pada bug fixes yang penting dan penambahan prosesor dan controller services baru. Beberapa fitur baru di antaranya adalah support untuk Apache Knox, autorisasi grup dengan Apache Ranger, dan LDAP-base user authentication.
  2. Apache Solr Reference Guide for 7.0 released
    Setelah Solr 7.0 dirilis beberapa waktu yang lalu, Reference Guide Solr 7.0 dirilis minggu lalu. Dokumen yang berupa 1.035 halaman file PDF berisi dokumentasi untuk fitur-fitur baru, dengan daftar lengkap perubahan konfigurasi dan deprecation yang penting untuk diperhatikan untuk melakukan upgrade dari Solr versi sebelumnya.
  3. Theano To Cease Development After Version 1.0
    Theano, library komputasi numerik untuk Python yang merupakan pelopor di dunia machine learning, akan segera merilis versi 1.0, namun bersamaan dengan itu diumumkan bahwa kegiatan pengembangan Theano akan berakhir setelahnya. Support minimal akan dilanjutkan selama 1 tahun, dan selanjutnya sebagai open source Theano akan tetap dapat diakses bebas, namun tanpa support dari MILA.
  4. Yahoo open-sources Vespa, its most important software release since Hadoop
    Oath, anak perusahaan yang dibentuk ketika Verizon Communication Inc. mengakuisisi Yahoo, membuka salah satu komponen software yang berperan penting dalam melakukan web search dan men-generate rekomendasi dan iklan. Software yang di-open source-kan tersebut bernama Vespa, digunakan untuk menangani permasalahan yang ‘tricky’ dalam hal menentukan apa yang harus ditampilkan sebagai respon dari input user. Oath menggunakan Vespa untuk lebih dari 150 aplikasinya, termasuk Flickr.com, Yahoo Mail dan beberapa aspek dari Yahoo search engine.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Oct 04 / 2017
  • Comments Off on MeetUp ke 17 idBigData di ITB, Bandung
meetup_17_itb
Apache, Big Data, Forum Info, Komunitas, Meet Up

MeetUp ke 17 idBigData di ITB, Bandung

meetup_17_itb

idBigData dan Institut Teknologi Bandung berkolaborasi dengan Asosiasi Ilmuwan Data Indonesia (AIDI), Bukalapak.com, Prodi Teknik Informatika ITB dan Labs247 mengadakan meetup idBigdata yang ke 17.

MeetUp tersebut diselenggarakan pada Kamis, 28 September 2017 di Auditorium Campus Center Timur ITB. Acara dimulai sekitar pukul 09.00. Dan dibuka oleh Wakil Dekan School of Electrical Engineering and Informatics ITB, Dr. Ir. Nana Rachmana Syambas M. Eng

Pembicara-pembicara pada acara ini adalah:

Dr. techn. Muhammad Zuhri Catur Candra, Institut Teknolog Bandung dengan topik “The Journey in The Data-Intensive World
Teguh Nugraha, Head of Data Bukalapak.com dengan topik “Big Data in E-commerce
Solechoel Arifin, Labs247 dengan topik “Implementasi DNA Sequence Alignment pada HGrid247
Sigit Prasetyo, idBigData dengan topik “Open Source Solution for Data Analytics Workflow

Meetup ini diikuti oleh 60 peserta, dari kalangan mahasiswa maupun profesional.

Video lengkap Meetup idBigdata #17 maupun berbagai kegiatan idBigdata sebelumnya dapat diakses di channel idBigdata.

Contributor :


M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng.
Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun.
Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.
  • Oct 02 / 2017
  • Comments Off on Seputar Big Data Edisi #31
Apache, Big Data, Implementation, Uncategorized

Seputar Big Data Edisi #31

close-up-telephone-booth-pexels

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ketiga bulan September 2017

Artikel dan Berita

  1. Japan to certify big-data providers to drive innovation
    Pemerintah Jepang mengumumkan rencana untuk melakukan sertifikasi terhadap perusahaan yang mengumpulkan data dari berbagai sumber dan menyediakannya sebagai services. Sertifikasi akan berlaku untuk 5 tahun, dan perusahaan-perusahaan yang disebut sebagai big data banks ini akan mendapatkan keringanan pajak.
  2. Big Data – what’s the big deal for Procurement?
    Apa tantangan yang dihadapi oleh bagian procurement saat ini, dan bagaimana peran big data dalam mengatasinya?
  3. The Amazing Ways Burberry Is Using Artificial Intelligence And Big Data To Drive Success
    Sejak 2006, Burberry, perusahaan mode terkemuka asal Inggris, memutuskan untuk menjadi sebuah perusahaan digital “end to end”. Strategi yang mereka ambil adalah dengan menggunakan big data dan AI untuk mendongkrak penjualan dan kepuasan pelanggan.
  4. Can big data give medical affairs an edge in strategic planning?
    Salah satu bagian penting dari industri farmasi adalah medical affairs, yaitu team yang bertugas memberikan support terhadap aktivitas setelah sebuah obat disetujui dan diedarkan, baik terhadap pihak internal maupun eksternal (customer). Dengan semakin besarnya keterlibatan publik terhadap pengawasan dan penggunaan obat, maka peran medical affair menjadi semakin penting. Ketersediaan data yang melimpah menjadi sebuah tantangan dan peluang tersendiri. Bagaimana big data dapat membantu team medical affair dalam membuat perencanaan strategis?
  5. Spark and S3 storage carry forward NBC big data initiative
    NBC membuat inisiatif big data, dengan menggunakan Amazon S3 dan Spark. Keduanya dipakai untuk menggantikan HDFS dan MapReduce. Jeffrey Pinard, vice president data technology dan engineering di NBC, menjelaskan alasan di balik strategi tersebut.

Tutorial dan Pengetahuan Teknis

  1. Tensorflow Tutorial : Part 2 – Getting Started
    Melanjutkan bagian 1 pekan lalu, tutorial Tensorflow bagian 2 ini menjelaskan mengenai instalasi Tensorflow dan sebuah contoh use case sederhana.
  2. 30 Essential Data Science, Machine Learning & Deep Learning Cheat Sheets
    Sekumpulan ‘cheat sheet atau referensi singkat yang sangat bermanfaat mengenai data science, machine learning dan deep learning, dalam python, R dan SQL.
  3. A Solution to Missing Data: Imputation Using R
    Salah satu permasalahan dalam pemanfaatan data untuk machine learning maupun analisis adalah missing data. Data yang tidak lengkap dapat mengacaukan model, sedangkan penanganan missing data terutama untuk data yang besar adalah sebuah momok tersendiri bagi data analis. Artikel ini mengulas mengenai permasalahan ini dan bagaimana mengatasinya dengan menggunakan R.
  4. Apache Flink vs. Apache Spark
    Apache flink dan Apache Spark termasuk framework yang paling banyak diminati dan diadopsi saat ini. Apa perbedaan di antara keduanya, dan apa kelebihan dan kekurangan masing-masing?
  5. Featurizing images: the shallow end of deep learning
    Melakukan training terhadap model deep learning dari nol memerlukan data set dan sumber daya komputasi yang yang besar. Dengan memanfaatkan model yang sudah ditraining (pre-trained) memudahkan kita dalam membangun classifier menggunakan pendekatan standar mashine learning.
    Artikel ini menyajikan sebuah contoh kasus pemanfaatan pre-trained deep learning image classifier dari Microsoft R server 9.1 untuk menghasilkan fitur yang akan digunakan dengan pendekatan machine learning untuk menyelesaikan permasalahan yang belum pernah dilatihkan ke dalam model sebelumnya.
    Pendekatan ini memudahkan pembuatan custom classifier untuk tujuan spesifik dengan menggunakan training set yang relatif kecil.

Rilis Produk

  1. Apache Solr 7.0.0 released
    Apache Solr, platform pencarian noSQL yang populer, merilis versi 7.0.0 minggu ini. Rilis 7 ini mencakup 40 upgrade dari solr 6, 51 fitur baru, 56 bug fixes dan puluhan perubahan lainnya.
  2. Apache Arrow 0.7.0
    Mencakup 133 JIRA, fitur-fitur baru dan bug fixes untuk berbagai bahasa pemrograman.
  3. Apache PredictionIO 0.12.0-incubating Release
    Apache PredictionIO, sebuah server machine learning open source yang dibangun di atas open source stack, merilis versi 0.12.0.
  4. R 3.4.2 Released
    Rilis ini mencakup perbaikan terhadap minor bugs dan peningkatan performance. Seperti rilis minor sebelumnya, rilis ini kompatibel dengan rilis sebelumnya dalam seri R 3.4.x.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Sep 25 / 2017
  • Comments Off on Seputar Big Data Edisi #30
Seputar Big Data edisi #30
Apache, Big Data, Hadoop, IoT, Storage, Storm

Seputar Big Data Edisi #30

Seputar Big Data edisi #30

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan september 2017

Artikel dan Berita

  1. The Amazing Ways Coca Cola Uses Artificial Intelligence (AI) And Big Data To Drive Success
    Big data merevolusi sektor kesehatan dengan sangat cepat. Baru-baru ini Sophia Genetics, sebuah perusahaan yang membangun data analytics dan diagnostik genomik berhasil mendapatkan pendanaan sebesar $30 juta untuk meningkatkan database mereka, dari 125.000 menjadi satu juta pada 2020. Untuk mengakses data tersebut, rumah sakit yang menjadi partner akan men-share data DNA pasien mereka ke sistem Sophia, yang dapat digunakan untuk mengidentifikasi pola genetik di balik penyakit-penyakit genetis seperti cystic fibrosis, jantung dan beberapa jenis kanker. Hal ini menimbulkan beberapa isu, terutama yang berkaitan dengan privacy dan kerahasiaan data pasien.
  2. Seagate and Baidu Sign Strategic Cooperation Agreement for Big Data Analysis and Advanced Storage Implementation
    Seagate Technology, penyedia solusi storage kelas dunia, mengumumkan penandatanganan perjanjian kerjasama strategis dengan Baidu, penyedia internet search berbahasa Cina. Kerjasama tersebut mencakup bidang IT, analisis big data, dan pengembangan serta penerapan sistem storage tingkat tinggi.
  3. £30m National Innovation Centre for Data launched
    Pemerintah Inggris dan Universitas Newcastle bekerja sama membangun pusat big data sebesar 30 juta Poundsterling. Pusat big data ini akan bertugas menjalin kerjasama antara akademisi, penyedia IT, dan sektor publik, yang bertujuan untuk memecahkan permasalahan di dunia nyata dengan memanfaatkan berbagai kemajuan di bidang data sains.
  4. Balderton joins M Series D for big data biotech platform play, Sophia Genetics
    SaaS startup Sophia Genetics membangun platform data analytics yang memanfaatkan keahlian tenaga medis untuk mengembangkan genomic diagnostic melalui algoritma AI, bertujuan mendapatkan diagnosis yang lebih cepat. Perusahaan tersebut baru-baru ini mengumumkan pendanaan series D sebesar $30 juta, menambahkan Balderton Capital ke dalam daftar investornya.

Tutorial dan Pengetahuan Teknis

  1. Tensorflow Tutorial : Part 1 – Introduction
    Dalam 3 seri artikel ini akan ditampilkan tutorial Tensorflow. Bagian pertama menyajikan pengenalan dan dasar-dasar Tensorflow, arsitekturnya, dan beberapa contoh penerapannya.
  2. Creating a Yelling App in Kafka Streams
    Memberikan pengenalan yang komprehensif mengenai apa dan bagaimana cara kerja Kafka Stream, lengkap dengan contoh implementasinya menggunakan aplikasi sangat sederhana. Aplikasi yang dibuat menerima input berupa pesan teks dan menghasilkan mengeluarkan teks tersebut dalam huruf kapital, seolah-olah aplikasi ini 'berteriak' kepada pembaca pesannya, sehingga disebut "Yelling App".
  3. Using SparkR to Analyze Citi Bike Data
    Sebuah tutorial yang cukup bagus mengenai penggunaan dplyr, sebuah library R, untuk menganalisis data jalur dan perjalanan sepeda di NYC. Untuk skalabilitasnya memanfaatkan Amazon EMR dan Spark.
  4. PyTorch vs TensorFlow — spotting the difference
    Saat ini terdapat beberapa framework untuk deep learning yang cukup populer. Dua di antaranya adalah PyTorch dan Tensorflow. Artikel ini mengupas perbedaan di antara keduanya, lengkap dengan Jupyter notebook untuk membandingkan kinerja keduanya dalam beberapa aplikasi.
  5. Benchmark Apache HBase vs Apache Cassandra on SSD in a Cloud Environment
    Hortonworks melakukan analisa kinerja terhadap Apache HBase dan Apache Cassandra menggunakan Yahoo Cloud Serving Benchmark. Hasilnya HBase lebih cepat dalam hal read dan Cassandra lebih baik untuk workflow yang banyak memerlukan write.

Rilis Produk

  1. Build your own Machine Learning Visualizations with the new TensorBoard API
    Google merilis sekumpulan API yang memungkinkan developer menambahkan plugin visualisasi custom ke TensorBoard.
  2. Apache Kafka 0.11.0.1
    Apache Kafka 0.11.0.1 dirilis dengan beberapa bug fixing dan perbaikan minor.
  3. Apache Impala (incubating) has released version 2.10.0
    Apache Impala merilis versi 2.10.0 dengan sekitar 250 tiket untuk fitur baru, penyempurnaan, perbaikan, dan lain-lain.
  4. Apache OpenNLP version 1.8.2
    Rilis ini mengandung beberapa perbaikan dan penyempurnaan minor.
  5. Storm 1.0.5 Released
    Rilis maintenance mencakup sekitar 7 perbaikan bugs yang penting, berhubungan dengan peningkatan kinerja, stabilitas dan fault tolerance.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂

  • Sep 14 / 2017
  • Comments Off on Seputar Big Data Edisi #29
Apache, Big Data, Forum Info, IoT

Seputar Big Data Edisi #29

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama awal bulan Agustus 2017.

Artikel dan Berita

  1. Thales Completes The Acquisition Of Guavus, One Of The Pioneers Of Real-time Big Data Analytics
    Thales, sebuah perusahaan penyedia peralatan kedirgantaraan, pertahanan, transportasi dan keamanan yang berpusat di Prancis, mengumumkan telah selesai melakukan proses akuisisi terhadap Guavus, sebuah perusahaan Silicon Valley yang memfokuskan diri pada analisa realtime big data.
  2. A rare look inside LAPD's use of data
    Dengan melakukan pengamatan dan melakukan lebih dari 100 wawancara terhadap petugas dan pegawai sipil di Departemen Kepolisian Los Angeles, Sarah Brayne, seorang profesor sosiolog di University of Texas di Austin, membuat sebuat catatan empiris bagaimana penerapan analisa Big Data mengubah pratek pengawasan polisi.
  3. Social Business Intelligence Market: Growing Usage of Social Media Is Driving the Demand for Big Data Globally
    Pendapatan yang dihasilkan dari implementasi solusi Social Business Intelligence di seluruh dunia diperkirakan mencapai hampir US $ 17 miliar pada 2017, dan diproyeksikan mencapai valuasi pasar seitar US $ 29 miliar pada tahun 2026, mencerminkan CAGR sebesar 6% selama periode perkiraan (2016-2026).
  4. ECS ICT to distribute data centre solutions by Hortonworks
    CS ICT Bhd hari ini mengumumkan telah ditunjuk sebagai distributor pertama untuk Hortonworks Data Center Solutions di Malaysia.
  5. Why Big Data is Important to Your Business
    Dalam artikel yang ditulis oleh Sheza Gary, seorang direktur teknis di Algoworks, memberikan gambaran yang meyakinkan mengenai bagaimana bisnis menggunakan secara mendalam teknologi big data dan berlanjut dengan memberikan gambaran yang lebih jelas mengenai pemanfaatan big data yang dapat digunakan untuk keuntungan bisnis.

Tutorial dan Pengetahuan Teknis

  1. K-Nearest Neighbors – the Laziest Machine Learning Technique
    K-Nearest Neighbors (K-NN) adalah salah satu algoritma Machine Learning yang paling sederhana. Seperti algoritma lainnya, K-NN terinspirasi dari penalaran manusia. Misalnya, ketika sesuatu yang signifikan terjadi dalam hidup Anda, Anda menghafal pengalaman itu dan menggunakannya sebagai pedoman untuk keputusan masa yang akan datang.
  2. Python vs R – Who Is Really Ahead in Data Science, Machine Learning?
    Berdasarkan analisa yang dihasilkan oleh Google Trend selama Januari 2012 - Agustus 2017, terlihat bahwa R sedikit lebih unggul sampai antara tahun 2014 - 2015, karena Data Science sangat populer pada saat itu. Tapi pada tahun 2017 Python mulai tampak lebih unggul popularitasnya.
  3. Open Source EHR Generator Delivers Healthcare Big Data with FHIR
    Membuat analis data kesehatan seringkali membuat frustrasi karena kurangnya akses ke data pasien , terpercaya, dan lengkap yang melimpah sekarang dapat memanfaatkan platform generator data EHR open source yang disebut Synthea.
  4. Apache Ignite: In-Memory Performance With Durability of Disk
    Sejak versi 2.1, Apache Ignite telah menjadi salah satu dari sedikit sistem komputasi in-memory yang memiliki persistence layer terdistribusi sendiri. Pada dasarnya, pengguna tidak perlu mengintegrasikan Ignite dengan database lain, walaupun mendukung fitur integrasi semacam ini didukung)
  5. An Introduction to Spatial Analytics With PostGIS, PL/R, and R
    Bagian pertama dari serangkaian tutorial mengenai penggunaan PL/R bagi pengguna PostgreSQL, bahasa prosedural yang digunakan membuat fungsi SQL dalam bahasa pemrograman R.

Rilis Produk

  1. Qubole Rolls Out Industry’s First Autonomous Data Platform
    Qubole, perusahaan penyedia layanan big data-as-a-service, mengumumkan tersedianya tiga produk baru - Enterprise Qubole Data Service (QDS) Enterprise Edition, QDS Business Edition dan Qubole Cloud Agents - komponen dari platform data otonom yang ditujukan untuk membantu organisasi memperkecil inisiatif data mereka sambil mengurangi biaya.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Sep 07 / 2017
  • Comments Off on Seputar Big Data Edisi #28
Apache, Big Data, Forum Info, Hadoop

Seputar Big Data Edisi #28

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu terakhir bulan Agustus 2017

Artikel dan Berita

  1. Big Data Startup MapR Raises M, Keeps Eyeing An IPO
    MapR mengumuman bahwa mereka memperoleh suntikan dana sebesar $56 juta dari investor-investor yang dipimpin oleh Lightspeed Venture Partners.
  2. Russia's Biggest Data Lake & How Severstal is Transforming The Steel Industry Using Machine Learning
    Sebagai bagian dari strategi transformasi digitalnya, Severstal yang merupakan salah satu produsen baja terbesar di Rusia, membuat Data Lake industri terbesar di negara tersebut. Petabyte data yg sebelumnya dibuang selama produksi ribuan ton baja setiap tahunnya sekarang akan disimpan untuk dianalisa.
  3. AUSTRAC built a big data platform for DHS to fight welfare fraud
    Departemen Pelayanan Kependudukan Australia berhasil membongkar lebih dari $ 25 juta pembayaran kesejahteraan palsu menggunakan platform analisis data open source yang dikembangkan oleh lembaga anti pencucian uang AUSTRAC.
  4. Putin says the nation that leads in AI ‘will be the ruler of the world’
    Pada awal September lalu, di depan para pelajar dalam rangka awal tahun ajaran baru, Presiden Rusia Vladimir Putin meramalkan bahwa negara mana pun yang memimpin dalam penelitian AI akan menguasai dunia. Ia juga memperingatkan bahwa kecerdasan buatan menawarkan 'peluang kolosal' dan juga sekaligus bahayanya.

Tutorial dan Pengetahuan Teknis

  1. Detecting Facial Features Using Deep Learning
    Dulu merupakan sebuah tantangan yang cukup sulit untuk melakukan deteksi wajah dan ciri khas lainnya seperti mata, hidung, mulut, dan bahkan untuk mengenali emosi seseorang dari ekspresinya. Tapi saat ini hal tersebut dapat dilakukan dengan lebih cepat menggunakan Deep Learning.
  2. A Vision for Making Deep Learning Simple
    Artikel ini memperkenalkan Deep Learning Pipelines dari Databricks, library open-source baru yang bertujuan untuk memudahkan siapapun, mulai dari praktisi machine learning sampai bisnis analis, dalam mengintegrasikan deep learning ke dalam berbagai workflow.
  3. From Lambda to Kappa: A Guide on Real-Time Big Data Architectures
    Saat ini banyak pilihan dalam menentukan arsitektur real-time big data. Jika sebelumnya ada istilah arsitektur Lambda, maka saat ini terdapat pula jenis arsitektur-arsitektur lainnya. Dalam serial artikel ini akan dibahas beberapa diantaranya, dan melakukan perbandingan menggunakan use case yang relevan. Jadi, bagaimana kita memilih arsitektur yang tepat untuk project real-time kita? Simak artikel ini!
  4. Data Science 101 (Getting started in NLP): Tokenization tutorial
    Dalam tutorial ini anda akan mempelajari beberapa hal: membaca text ke dalam R, memilih baris yang diperlukan dari teks tersebut, melakukan tokenisasi menggunakan package tidytext, menghitung frekuensi token, menulis fungsi yang reusable untuk melakukan pekerjaan-pekerjaan tersebut, dan menghasilkan pekerjaan yang reproducible.
  5. Stream Processing with Apache Flink and DC/OS
    Artikel ini menjelaskan secara singkat mengenai cara menjalankan job streaming Apache Flink di atas Mesos menggunakan DC/OS.

Rilis Produk

  1. Announcing the release of Apache Samza 0.13.1
    Apache Samza mengumumkan versi 0.31.1. Rilis ini mencakup beberapa penyempurnaan dan perbaikan bug, dalam 29 tiket JIRA.
  2. Hortonworks extends IaaS offering on Azure with Cloudbreak
    Microsoft Azure mengumumkan service Hortonwork Cloudbreak untuk melakukan provisioning cluster HDP. Sebuah controller VM Cloudbreak dapat mengatur beberapa klaster serta mengkonfigurasi Kerberos dan Apache Knox secara otomatis untuk mengamankan klaster. Cloudbreak tersedia melalui Azure Marketplace.
  3. Announcing GA Release of CDAP 4.3 – Use Cases, Features and Capabilities
    Cask mengumumkan CDAP versi 4.3. Dalam rilis ini terdapat banyak fitur baru, yang mencakup fitur baru untuk persiapan data, integrasi ETL, Apache Ranger, dan dukungan Spark Dataframe.
  4. Introducing the MapR Orbit Cloud Suite
    MapR mengumumkan MapR Orbit Cloud Suite, yang menyediakan fungsionalitas cross-cloud (kombinasi public dan private cloud), object-tiering (yang dapat meng-offload data ke penyimpanan cloud object, dan manajemen native cloud (provisioning VM dalam AWS dan Microsoft Azure).
  5. Announcing Data Collector v2.7.1.0
    Dalam StreamSets versi 2.7.1.0 terdapat penambahkan dukungan baru untuk Microsoft Azure, selain perbaikan dan penyempurnaan lainnya.
  6. Apache MADlib v1.12 released
    Dalam rilis baru machine learning untuk SQL ini terdapat penambahkan sejumlah algoritma grafik, termasuk perbaikan pada decision tree dan implementasi random forest dan memiliki dukungan yang lebih baik untuk perhitungan akhir.
  7. Apache Atlas 0.8.1
    Tim Apache Atlas mengumumkan versi terbaru yaitu 0.8.1

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Aug 21 / 2017
  • Comments Off on Seputar Big Data Edisi #26
Apache, Big Data, Forum Info, Hadoop, Uncategorized

Seputar Big Data Edisi #26

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan Agustus 2017

Artikel dan Berita

  1. Steering Big Data Projects in the Modern Enterprise
    Meskipun penerapan big data bukanlah hal mudah, namun semakin banyak perusahaan yang mengimplementasi atau mempertimbangkan big data sebagai competitive advantage mereka. Secara garis besar inisiasi implementasi big data dapat dibagi menjadi 3 tahap : assesment awal, perencanaan langkah strategis, dan penentuan sasaran yang spesifik dan dapat dijangkau. Artikel ini mengupas mengenai 5 tingkatan big data maturity model yang dapat dijadikan acuan dalam adopsi big data ke dalam proses bisnis.
  2. Merchant attrition is a big problem. Can big data help?
    Bagi penyedia layanan pembayaran seperti kartu kredit, salah satu permasalahan yang dihadapi adalah mundurnya merchant, atau disebut juga merchant attrition. Langkah untuk mengatasi hal ini tidak selalu mudah, karena tidak semua merchant menunjukkan tanda-tanda yang jelas. Oleh karena itu untuk dapat mendeteksi secara dini dan mengambil tindakan preventif, para acquirer menggunakan big data analytics.
  3. Intel, NERSC and University Partners Launch New Big Data Center
    Intel bekerja sama dengan Pusat Komputasi Ilmiah Riset Energi Nasional (NERSC) milik Departemen Energi Amerika Serikat, dan 5 Intel Parallel Computing Centers (IPCC), membuat sebuah Big Data Center. Pusat big data ini akan melakukan modernisasi kode sekaligus menangani tantangan-tantangan sains yang aplikatif.
  4. How Big Data Analytics Companies Support Value-Based Healthcare
    Layanan kesehatan merupakan salah satu bidang yang sangat penting, tidak terkecuali di Amerika Serikat. Pelayanan kesehatan berbasis fee-for-service yang saat ini digunakan dipandang tidak efektif dan tidak tepat sasaran, oleh karena itu banyak pihak mulai beralih ke layanan kesehatan berbasis nilai (value based healthcare atau VBH). Pada dasarnya VBH menganggap setiap episode konsultasi, pemeriksaan lab, rawat inap, dan prosedur lain sebagai satu kesatuan. Untuk itu perlu integrasi dari berbagai sumber data dan mungkin organisasi yang saat ini masih banyak terpisah-pisah. Salah satu solusi yang dapat mengatasi kebutuhan tersebut adalah big data analytics.
  5. Toyota, Intel and others form big data group for automotive tech
    Sebuah konsorsium yang terdiri dari beberapa nama besar seperti Denso, Ericsson, Intel and NTT Docomo, bekerja sama dengan Toyota mengembangkan sistem Big Data untuk mendukung program mobil yang mampu berjalan sendiri (sefl-driving car) dan teknologi otomotif masa depan lainnya.

Tutorial dan Pengetahuan Teknis

  1. Cassandra to Kafka Data Pipeline (Part 1)
    Artikel ini menunjukkan dengan cukup jelas langkah demi langkah pembuatan sistem dengan Cassandra cluster dan Kafka sebagai event source tanpa downtime.
  2. DeepMind papers at ICML 2017 (part one)
    Beberapa paper mengenai DeepMind yang disampaikan pada ICML 2017, diantaranya mengenai decoupling antarmuka dalam neural netwok menggunakan synthetic gradient, reinforcement learning menggunakan minimax regret bounds, dan lain sebagainya.
  3. New R Course: Spatial Statistics in R
    Salah satu bidang yang banyak digunakan dalam berbagai aplikasi saat ini, terutama yang berkaitan dengan IoT dan berbagai aplikasi berbasis lokasi adalah statistik spasial. Topik “Spatial Statistics in R” merupakan course terbaru yang diluncurkan oleh Datacamp, sebuah platform online learning.
  4. Update Hive Tables the Easy Way
    Pada awalnya memastikan kemutakhiran data dalam Apache Hive membutuhkan pembuatn aplikasi custom yang kompleks, tidak efisien dan sulit di-maintain. Blog ini menunjukkan bagaimana mengatasi permasalahan data manajemen yang umumnya dihadapi, seperti misalnya sinkronisasi data Hive dengan sumber data di RDBMS, update partisi dalam Hive, dan masking atau purging data secara selektif di Hive.
  5. Implementing Temporal Graphs with Apache TinkerPop and HGraphDB
    Big Data bagi sebagian besar orang dibayangkan sebagai data-data yang tidak terstruktur. Walaupun demikian, selalu ada data-data terstruktur dan memiliki relasi diantaranya (relational data). Berdasarkan relasi keterkaikan antar data tersebut, dibutuhkan satu atau lebih skema untuk menangani jenis data tersebut. Pola umum yang sering terlihat adalah sebuah hirarki atau representasi hubungan antar data.
  6. An Introduction to Apache Flink
    Salah satu platform pemrosesan big data streaming yang paling banyak digunakan saat ini adalah Apache Flink. Artikel ini merupakan bagian pertama dari serangkain artikel yang menjelaskan dasar-dasar implementasi Apache Flink.

Rilis Produk

  1. Apache Hadoop 2.7.4 Release
    Rilis Apache Hadoop 2.7.4, yang merupakan penerus dari seri Hadoop 2.7.3, mencakup 264 perbaikan baik perbaikan bugs yang bersifat kritis, maupun optimasi.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Jul 12 / 2017
  • Comments Off on Seputar Big Data Edisi #21
Apache, Big Data, Forum Info, Hadoop, Komunitas

Seputar Big Data Edisi #21

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan Juli 2017

Artikel dan Berita

  1. DataOps: How To Use Big Data To Achieve A Data-Driven Enterprise
    Banyak perusahaan sangat menyadari akan manfaat yang didapat dari Big Data bagi perusahaan. Mendapatkan pemahaman yang lebih baik tentang perilaku pelanggan dan membuat keputusan bisnis yang lebih baik, hanya sebagian manfaat yang didapat oleh suatu perusahaan atau organisasi berbasis data.
  2. What Does the Customer Want? Big Data Knows
    Dunia e-comerce saat ini, produk dirancang berdasarkan analisa perilaku konsumen, dimana kebutuhan pelanggan terpenuhi sebelum mereka menyadari bahwa mereka memilikinya. Produsen mungkin tidak dapat membaca pikiran, tetapi dengan next generation big data, seolah-olah pembacaan pikiran dapat dilakukan.
  3. Open Source Is The New Normal In Data and Analytics
    Dengan menggunakan Hadoop sebagai teknologi utama, arsitektur data open source telah mencapai tingkat kestabilan dan adopsi yang cukup baik, namun demikian belum sepenuhnya dapat dinikmati oleh perusahaan-perusahaan.
  4. Five big data trends in healthcare
    Penyedia jasa kesehatan memanfaatkan big data untuk memperbaiki hasil perawatan terhadap pasien serta menurunkan biaya. Pada tahun 2017 ini, industri kesehatan akan melihat lima tren dari pemanfaatan big data.
  5. Better Buy: Hortonworks vs. Cloudera
    Dua Hadoop distro berhadapan dalam persaingan untuk sebuah pasar yang sangat besar. Mana yang lebih baik untuk dibeli ?
  6. The 10 Coolest Big Data Startups Of 2017 (So Far)
    Banyak startup yang bermain di area big data memfokuskan diri untuk memberikan solusi terhadap masalah dalam menghubungkan sumber data yang berbeda dan memindahan data ke dalam cloud untuk memudahkan akses dan analisa. Ada juga tren yang sedang berkembang yaitu penggunaan machine learnig dan artificial intelligence dalam aplikasi big data untuk membuat sistem yang lebih cerdas.

Tutorial dan Pengetahuan Teknis

  1. Medical Image Analysis with Deep Learning Part 4
    Tulisan ini merupakan bagian keempat dan akan membahas mengenai gambar medis dan komponennya, format gambar medis dan konversi formatnya. Tujuannya adalah untuk mengembangkan pengetahuan untuk membantu dalam menganalisa citra medis dengan menggunakan deep learning
  2. Five Steps to Tackling Big Data with Natural Language Processing
    Apa 5 langkah mendasar yang harus diambil untuk menangani project Big Data dengan Natural Language Processing? Bagaimana tools-tools NLP dan teknik-tekniknya membantu proses bisnis, menganalisa, dan memahami data secara efektif dan proaktif?
  3. Visualizing Smog Sensor Data With Vert.x, Prometheus, and Grafana
    Sebuah tutorial singkat menggunakan data-data yang dikumpulkan dari sensor asap di Jerman ke server lokal sehingga dapat digunakan untuk memvisualisasikan tren jangka panjang
  4. Exploratory Data Analysis in Python
    Sebuah tutorial yang dibuat berdasarkan presentasi dari Jonathan Whitmore yang berjudul Exploratory Data Analysis in Python pada PyCon 2017 di Portland, Oregon.
  5. Data Cleaning and Wrangling With R
    Salah satu permasalahan utama dalam pengolahan data adalah menggabungkan dan 'membersihkan' berbagai dataset dari sumber data yang berbeda-beda. Dalam artikel ini ditampilkan 10 tips untuk melakukan data cleansing dan wrangling menggunakan R.

Rilis Produk

  1. Spark Release 2.2.0
    Apache Spark 2.2.0 merupakan rilis ketiga untuk versi 2.x. Pada rilis ini tag eksperimental dihapus dari Structured Streaming. Selain itu, rilis ini lebih berfokus pada kegunaan, stabilitas dan penyempurnaan, serta menyelesaikan lebih dari 1100 tiket perbaikan.
  2. Apache Phoenix 4.11
    Tercakup dalam rilis ini di antaranya adalah: support untuk HBase 1.3.1, local index hardening dan peningkatan kinerja, lebih dan 50 bug-fixes, dan lain sebagainya.
  3. Apache OpenNLP 1.8.1 Release
    The Apache OpenNLP library adalah machine learning toolkit untuk melakukan pemrosesan bahasa alami (NLP). Mendukung proses dasar NLP seperti tokenization, segmentasi kalimat, part-of-speech tagging, named entity extraction, chunking, parsing, dan coreference resolution. Rilis 1.8.1 ini mencakup peningkatan kinerja, beberapa fitur baru, dan bug-fixes.

  • May 29 / 2017
  • Comments Off on Seputar Big Data edisi #15
Apache, Big Data, Forum Info, Hadoop, Komunitas

Seputar Big Data edisi #15

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu 3 bulan mei 2017

Artikel dan berita

  1. How Traditional Industries Are Using Machine Learning and Deep Learning to Gain Strategic Business Insights
    Pengaruh AI di bidang industri tidak bisa lagi dianggap trend sesaat belaka. Bagaimana langkah industri dalam mengadopsi AI ke dalam proses bisnis dan pengambilan keputusan mereka? Beberapa use case nyata disajikan dalam artikel ini.
  2. How Artificial Intelligence will Transform IT Operations and DevOps
    Penerapan big data membawa tantangan yang besar bagi IT Operation dan DevOps. Di antaranya adalah bagaimana mereka harus bisa menemukan akar masalah, bahkan mengantisipasinya sedini mungkin, di tengah lautan data yang begitu besar. Artikel ini menjelaskan bagaimana AI menjadi salah satu solusi yang akan mengubah ‘wajah’ Operasional IT dan DevOps. Salah satu konsep yang sering disebut adalah ‘Cognitive Insights’, yaitu menggunakan machine learning untuk mengolah log dan data dari berbagai sumber untuk menemukan solusi bagi masalah-masalah yang dihadapi DevOps dan Operasional IT.
  3. Neural Network-Generated Illustrations in Allo
    Sebuah fitur menarik yang diperkenalkan Google di aplikasi Allo, yang mengubah foto selfie menjadi stiker ilustrasi, menggunakan kombinasi antara neural network dan hasil karya seniman.
  4. Using Twitter as a data source: an overview of social media research tools (updated for 2017)
    Tinjauan dan pembahasan singkat mengenai metode dan tools yang dapat digunakan oleh ilmuwan bidang sosial untuk menganalisis data sosial media. List yang sangat bermanfaat jika anda ingin melakukan penelitian yang memanfaatkan data sosial media.
  5. NHS gave DeepMind patient records on an ‘inappropriate legal basis’
    Sebuah pelajaran berharga dari dugaan pelanggaran privacy dalam kasus data sharing antara NHS dengan DeepMind. Mengingatkan kita kepada pentingnya memahami regulasi yang harus dipenuhi apa saja yang harus diantisipasi, dan batasan apa yang harus ditaati dalam pemanfaatan data-data sensitif dan pribadi untuk keperluan analisis dan machine learning.
  6. Four Lessons In The Adoption Of Machine Learning In Health Care
    AI dan machine learning berpotensi sangat besar untuk perbaikan kualitas pelayanan kesehatan, namun mengapa saat ini pemanfaatannya di dunia kesehatan masih sangat terbatas? Berikut ini beberapa poin penting yang perlu diperhatikan, dari mulai jenis task apa yang paling sesuai, bagaimana membangun kepercayaan dan dukungan dari tenaga medis sendiri, bagaimana memilih vendor, dan perubahan apa yang perlu dilakukan dari sisi layanan kesehatan agar dapat memperoleh manfaat sebesar-besarnya dari teknologi ini.
  7. Special Ops battle with ‘big data’
    Komandan Komando Operasi Khusus Amerika Serikat (SOCOM) berbicara mengenai pentingnya Big Data, dan apa yang dilakukan untuk memanfaatkan data bagi operasi-operasi intelelejen, terutama yang bersifat kritikal.
  8. Big Data: The Ultimate in Customer Tracking
    Big Data identik dengan pelacakan dan pengumpulan data pengguna, dari setiap titik transaksi, profil WiFi, situs yang dikunjungi, dan lain sebagainya. Hal ini menimbulkan kekhawatiran bahwa Big Data identik dengan ‘Big Brother’. Namun sebetulnya Big Data lebih dekat perbandingannya dengan ‘Moneyball’, yaitu sebuah film mengenai pemanfaatan big data untuk memenangkan kompetisi baseball terbesar di dunia, Superbowl.

Tutorial dan pengetahuan teknis

  1. Event-time Aggregation and Watermarking in Apache Spark’s Structured Streaming
    Artikel ini merupakan seri ke 4 dari serangkaian artikel mengenai pemrosesan yang kompleks terhadap data streaming menggunakan Spark. Di sini dijelaskan mengenai bagaimana meng-agregasi data real time dengan Structured Streaming, dan mengenai bagaimana menangani event yang terlambat masuk dengan mekanisme Watermarking.
  2. Detecting Abuse at Scale: Locality Sensitive Hashing at Uber Engineering
    Menjelaskan mengenai Locality Sensitive Hashing, yaitu algoritma near neighbor search dalam ruang dimensi tinggi. Uber ddan Databrick bekerjasama dalam kontribusi implementasi LSH ke dalam Spark. Uber menggunakan LSH terutama untuk medeteksi pengemudi yang curang berdasar data perjalanan. Dijelaskan juga apa motivasi Uber menggunakan LSH di atas Spark, bagaimana penerapannya, dan apa rencana pengembangan ke depan.
  3. Home advantages and wanderlust
    Menganalisa data Premier League, untuk menentukan kesebelasan mana prosentase poinnya paling banyak didapat dari pertandingan kandang. Analisis dilakukan menggunakan R, yaitu package engsoccerdata. Dalam artikel ini ditunjukkan bagaimana teknik-teknik analisis dan visualisasi data dapat menjadi sesuatu yang menarik, apalagi jika dipadukan dengan data yang sesuai dengan bidang yang digemari.
  4. hive-druid-part-1-3/">Ultra-fast OLAP Analytics with Apache Hive and Druid – Part 1 of 3
    Bagian pertama dari 3 seri tulisan mengenai bagaimana melakukan OLAP analisis super cepat menggunakan Apache Hive dan Druid. Druid adalah data store terdistribusi berorientasi kolom, yang sesuai untuk low latency analytics.
  5. How-to: Backup and disaster recovery for Apache Solr (part I)
    Satu lagi artikel yang menjadi bagian dari serial, kali ini membahas mengenai backup dan disaster recovery Apache Solr. Artikel ini menjelaskan dasar-dasar backup dan recovery Solr dengan cukup detail dan jelas.
  6. Using 'Faked' Data is Key to Allaying Big Data Privacy Concerns
    Salah satu issue terbesar dalam penggunaan data untuk machine learning adalah privacy. Data yang digunakan dalam proses learning seringkali mengandung informasi pribadi yang sensitif, bahkan ketika data tersebut sudah di-anonimisasi. Untuk mengatasi permasalahan MIT membuat sebuah gebrakan, yaitu sistem machine learning yang men-generate ‘data sintetis’ berdasar model data asli. Data sintetis initidak mengandung informasi asli apapun, namun tetap dapat ‘berperilaku’ serupa dengan data asli di dalam analisis dan stress tes, sehingga dapat menjadi pengganti ideal bagi data asli. Algoritma yang digunakan disebut dengan “recursive conditional parameter aggregation”.
  7. An Impatient Start With the Apache Ignite Machine Learning Grid
    Baru-baru ini Apache Ignite merilis in memory machine learning grid mereka, dalam tahap beta version. Rilis beta ini dapat melakukan operasi vektor lokal dan terdistribusi, dekomposisi, dan matriks. Artikel menunjukkan secara singkat dan padat, bagaimana mendownload Apache Ignite 2.0 release, kemudian mem-build dan mengeksekusi contoh programnya.
  8. Balancing Bias and Variance to Control Errors in Machine Learning
    Di dunia machine learning, akurasi adalah hal utama. Berbagai cara dilakukan untuk membangun model seakurat mungkin, dengan cara menyesuaikan parameter-parameternya. Artikel ini mengupas dengan cukup detail mengenai apa yang harus diperhatikan untuk meminimalisir error dengan mengontrol bias dan variansi.
  9. Deep Learning – Past, Present, and Future
    Perjalanan perkembangan deep learning dari masa ke masa.

Rilis produk

  1. The Apache Software Foundation Announces Apache® Samza™ v0.13
    Samza adalah framework pemrosesan Big Data stream terdistribusi, yang saat ini digunakan oleh Intuit, LinkedIn, Netflix, Optimizely, Redfin, Uber dan lain-lain.

    Rilis v0.13 mencakup :
    • Higher level API yang dapat merepresentasikan pipeline pemrosesan stream yang kompleks dengan lebih ringkas
    • Support untuk menjalankan aplikasi Samza sebagai lightweight embedded library tanpa mengandalkan YARN
    • Deployment yang lebih fleksibel
    • Peningkatan monitoring dan deteksi kegagalan menggunakan mekanisme heart-beating yang built-in
    • Integrasi yang lebih baik dengan framework manajemen cluster yang lain
    • Beberapa bug-fixes yang meningkatkan keandalan, stabilitas, dan kekuatan pemrosesan data
  2. Build Intelligent Apps Faster with Visual Studio and the Data Science Workload
    Versi terbaru Visual Studio 2017 memiliki built-in support untuk pemrograman R dan Python. Pada versi terdahulu, dukungan untuk bahasa-bahasa ini telah tersedia melalui RTVS dan PTVS add-in, namun dengan Data Science Workloads support R dan Python tidak lagi memerlukan add-in. Fitur ini tersedia di semua edisi, termasuk Visual Studio Community 2017 yang bisa anda download secara gratis.
  3. Apache Arrow 0.3.0
    Rilis 0.3.0 ini mencakup 306 JIRA yang diresolve dari 23 kontributor.
Pages:12
Tertarik dengan Big Data beserta ekosistemnya? Gabung