:::: MENU ::::

Seputar Big Data Edisi #11

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ketiga bulan April 2017

Artikel dan Berita

  1. R is for Archaeology: A report on the 2017 Society of American Archaeology meeting
    Pada akhir bulan Maret 2017 lalu, Society of American Archaeology (SAA), salah satu organisasi profesional terbesar di bidang arkeologi, telah selesai melaksanakan pertemuan tahunannya di Vancouver, BC. Salah satu kesimpulan dan tindak lanjutnya adalah mengenai penggunaan R dalam bidang arkeologi.
  2. How AI finds big value in big data
    Bot dapat meningkatkan interaksi dengan manusia, menciptakan efisiensi bisnis yang lebih besar, dan mengurangi resiko gesekan dari interaksi dengan pelanggan. Ini adalah pasar yang telah menyerap sekitar $ 24 miliar dalam hal pendanaan, mulai dari startup hingga perusahaan multinasional. Perusahaan besar seperti IBM hingga Facebook telah menghabiskan sumber daya yang sangat besar dalam mendorong para pengembang aplikasi untuk membuat bot baru yang memungkinkan interaksi pelanggan lebih personal.
  3. How Colleges Use Big Data to Target the Students They Want
    Dengan memanfaatkan jejak-jejak digital calon siswa, sekolah dapat membuat keputusan tentang hal-hal yang berkaitan dengan penerimaan siswa baru, baik dari sisi publikasi, area maupun target siswa.
  4. Supercomputers and AI Improve MRI Scanning
    MRI scans are a common tool in the armory of the modern doctor. Such scans are usually very expensive and can take days to generate and interpret. If further scans are required, the patient needs to come back in and go through the procedure all over again. A new real-time analysis system that is powered by supercomputing promises to change things. The system, which is developed by a consortium led by researchers at Texas Advanced Computing Center (TACC), is an automated platform that can perform in-depth MRI analysis within minutes, thus enabling further scans to be performed whilst the patient is still in the scanner

    MRI merupakan salah satu ‘senjata’ utama para dokter masa kini. Biaya MRI saat ini masih tergolong mahal, dan untuk memproses dan menginterpretasikannya memerlukan waktu beberapa hari. Jika dari hasil tersebut ternyata pasien harus melakukan pemindaian lebih lanjut, maka pasien harus kembali melakukan prosedur yang memakan waktu dan biaya yang tidak sedikit. Dengan sistem analisis real-time yang didukung oleh superkomputing, hal ini dapat dihindari. Sistem yang dibangun oleh sebuah konsorsium yang dikepalai oleh peneliti di Texas Advanced Computing Center ini adalah sebuah platform terotomasi, yang dapat melakukan analisa MRI secara mendalam dalam hitungan menit, sehingga jika diperlukan pemindaian selanjutnya dapat segera dilakukan ketika pasien masih berada di dalam mesin pemindai.

  5. Big Data: A Foolproof Solution for DDoS Attacks
    Big data technologies bring a lot of advantages for businesses. While this is one side of big data technologies the other side is aloof from demands requiring extreme attention, care, and consistent updating. A distributed denial-of-service (DDoS) attack is one such aspect that can be a cause of concern if not handled properly. It would be safe to say that big data technologies require less efforts in maintenance and updates in comparison to the traditional approach.
    Teknologi big data membawa banyak manfaat untuk bisnis. Manfaat lain yang tidak kalah penting adalah, jika dipersiapkan dengan baik, maka sistem berbasis teknologi ini tidak memerlukan perhatian dan pemeliharaan khusus, serta updating yang terus menerus dibanding dengan sistem tradisional. Serangan distributed denial-of-service (DDoS) adalah salah satu aspek yang sangat merugikan jika tidak ditangani dengan baik. Bisa dibilang, teknologi big data memberikan kemudahan dalam hal maintenance dan update dibanding pendekatan tradisional.
  6. Logz.io Combines Open Source, Cloud, Big Data and Machine Learning for DevOps and SRE
    90% dari startup mengalami kegagalan. Mereka yang dapat bertahan dan berkembang, memanfaatkan teknologi baru atau memberikan respon yang tepat waktu untuk pengembangan pasar baru. Logz.io melakukan keduanya, dengan mengkombinasikan 4 tren teknologi (open source, komputasi awan, analisa big data dan machine learning) dan memanfaatkan kebutuhan pasar yang baru, yaitu dari DevOps dan Site Reliability Engineers (SREs)
  7. GO BIG: How Yahoo! Japan Scaled to 75 Petabytes
    Yahoo! Japan is the largest Internet portal site in Japan. Yahoo! Japan adopted early Apache™ Hadoop® in 2008 for its unique data storage and analysis challenges, including capturing detailed user activity history. Data proliferated rapidly in Yahoo! Japan’s initial Hadoop clusters, with data streaming in from sources such as access logs, search keywords, product information, purchase histories, and auction bidding information. Today, Yahoo! Japan stores, analyzes and gains value from over 75PB of data. Yahoo! Japan, situs portal internet terbesar di Jepang, sudah mengadopsi Hadoop sejak tahun 2008, untuk mengatasi kebutuhan storage dan analisis data mereka, termasuk menyimpan history aktifitas user secara detail. Saat ini Yahoo! Japan menyimpan, dan menganalisa menggunakan data lebih dari 75 Petabyte, untuk mendapatkan nilai tambah.

Tutorial dan Pengetahuan teknis

  1. Real Time Analytics at UBER Scale
    Sebuah presentasi dari James Burkhart, technical lead on real-time data infrastructure Uber, dalam acara Strata + Hadoop World 2017. James menjelaskan bagaimana Uber mendukung jutaan query untuk analisa harian pada data real-time dengan menggunakan Apollo.
  2. Recursive Neural Networks with PyTorch
    Deep neural networks have enabled breakthroughs in machine understanding of natural language. Most of these models treat language as a flat sequence of words or characters, and use a kind of model called a recurrent neural network (RNN). But many linguists think that language is best understood as a hierarchical tree of phrases, so a significant amount of research has gone into deep learning models known as recursive neural networks that take this structure into account. A new deep learning framework called PyTorch makes these and other complex natural language processing models a lot easier. Deep neural network memungkinkan berbagai terobosan dalam pemahaman mesin terhadap bahasa. Sebagian besar model yang digunakan saat ini memperlakukan bahasa sebagai urutan kata atau karakter yang datar, dan menggunakan model yang disebut recurrent neural network (RNN). Tetapi banyak ahli bahasa berpendapat bahwa bahasa dipahami dengan paling baik sebagai pohon frase berjenjang, sehingga sejumlah besar penelitian telah beralih ke model deep learning yang dikenal sebagai recursive neural networks yang memperhitungkan struktur ini. Sebuah baru deep learning framework yang disebut PyTorch membuat model pemrosesan bahasa alami yang dianggap kompleks ini menjadi jauh lebih mudah.
  3. How do I compare document similarity using Python?
    Dalam video tutorial ini, Jonathan Mugan akan memperkenalkan penggunaan gensim library pada bahasa pemrograman Python. Contoh kasus yang disampaikan adalah untuk menemukan kesamaan antara dokumen.
  4. Medical Image Analysis with Deep Learning
    Sebuah tutorial singkat mengenai dasar image processing, pengenalan dasar format gambar dalam bidang medis dan visualisasi data-data medis.
  5. Querying OpenStreetMap with Amazon Athena
    This post explains how anyone can use Amazon Athena to quickly query publicly available OSM data stored in Amazon S3 (updated weekly) as an AWS Public Dataset. Imagine that you work for an NGO interested in improving knowledge of and access to health centers in Africa. You might want to know what’s already been mapped, to facilitate the production of maps of surrounding villages, and to determine where infrastructure investments are likely to be most effective.
    Artikel ini menjelaskan mengenai bagaimana menggunakan Amazon Athena untuk meng-query data OSM yang disimpan di Amazon S3 sebagai dataset publik AWS. Misalkan anda bekerja untuk sebuah LSM, dan berminat untuk meningkatkan pengetahuan dan akses ke pusat-pusat kesehatan di Afrika. Anda mungkin ingin mengetahui apa saja yang sudah dipetakan, untuk membantu memetakan daerah-daerah di sekitarnya, dan menentukan investasi infrastruktur apa yang paling efektif.

Rilis produk

  1. Apache Hadoop 2.8.0
    Apache Hadoop 2.8.0 berisi sekitar 2917 perbaikan dan fitur-fitur baru. Hanya saja sebagai catatan, rilis ini belum siap untuk diimplementasikan pada production system, sehingga harus menunggu ke versi selanjutnya yaitu 2.8.1 atau 2.8.2
Tertarik dengan Big Data beserta ekosistemnya? Gabung