:::: MENU ::::

Posts By / admin

  • Jun 14 / 2017
  • Comments Off on Seputar Big Data Edisi #18
Uncategorized

Seputar Big Data Edisi #18

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan Juni 2017

Artikel dan berita

  1. How Big Data Mines Personal Info to Craft Fake News and Manipulate Voters
    Banyak orang memasang atau membagikan status dan content lain di media sosial dengan maksud mempengaruhi orang lain. Tapi bagaimana jika justru status dan posting kita itu dipergunakan untuk mempengaruhi kita sendiri? Cambridge Analytica, salah satu perusahaan di balik kampanye Donald Trump, mengungkapkan mengenai “psychographic profiling”, yaitu memanfaatkan data-data sosial media untuk membentuk kampanye yang sesuai dengan profil emosi dan psikologis pengguna sosial media.
  2. Big data and relinquishing your right to privacy
    Masih mengenai pemanfaatan data personal untuk kepentingan identifikasi dan bisnis, artikel ini membahas beberapa issue terkait privasi dan beberapa kasus mengenai hal tersebut.
  3. Guizhou to become China’s ‘Big Data Valley’
    Akhir Mei lalu puluhan ribu pengunjung memadati “International Big Data Industry Expo 2017” yang diselenggarakan di Guizhou, China. Saat ini Guizhou dikembangkan sebagai “Big Data Valley”-nya China, yang menjadi tempat yang menarik bukan hanya bagi start-up, namun juga bagi industri besar seperti misalnya Alibaba, Qualcomm, IBM, Huawei, Tencent, Baidu, Lenovo dan Foxconn.
  4. Five Ways Big Data is Transforming Epidemics
    Salah satu permasalahan dalam mengatasi epidemi seperti Zika, Ebola, atau flu burung adalah kurangnya data yang cepat, tepat dan akurat. Perkembangan teknologi big data dan data sains memberikan solusi untuk permasalahan tersebut. Dengan big data dan aalytics, saat ini epidemi sudah dapat dimonitor, dimodelkan dan diatasi dengan jauh lebih baik. Artikel ini membahas 5 hal terkait big data yang mengubah penanganan epidemi di dunia.
  5. Rail researchers develop risk tool with big data
    Para peneliti di University of Huddersfield telah menciptakan perangkat lunak yang memanfaatkan big data untuk membantu operator kereta api mengurangi kemungkinan insiden yang dikenal sebagai SPAD - Signals Passed at Danger.

Tutorial dan pengetahuan teknis

  1. Five Spark SQL Utility Functions to Extract and Explore Complex Data Types
    Dalam tutorial ini, dijelaskan mengenai penggunaan lima fungsi dan API Spark Spark yang dapat digunakan untuk melakukan pembacaan dan pemrosesan format data yang kompleks. Fungsi-fungsi ini ada dalam Apache Spark 2.x sebagai bagian dari org.apache.spark.sql.functions, yang memungkinkan pengembang untuk dengan mudah bekerja dengan data kompleks atau tipe data bersarang (nested data type) seperti JSON.
  2. Top 15 Python Libraries for Data Science in 2017
    Kumpulan dari library-library opensource yang meliputi data wrangling, machine learning, nlp, data scraping, statistik hingga visualisasi dan yang dianggap sebagai daftar teratas oleh banyak data scientist dan data engineer yang patut dicermati atau paling tidak untuk diketahui jika ingin menggeluti dunia data science.
  3. Top 15 Python Libraries for Data Science in 2017
    Kumpulan dari library-library opensource yang meliputi data wrangling, machine learning, nlp, data scraping, statistik hingga visualisasi dan yang dianggap sebagai daftar teratas oleh banyak data scientist dan data engineer yang patut dicermati atau paling tidak untuk diketahui jika ingin menggeluti dunia data science.
  4. An Introduction to Kafka Streams
    Kafka, secara singkat, adalah sistem fault tolerant distributed publish-subscribe messaging system, yang dirancang untuk pemrosesan data dengan cepat dan memiliki kemampuan untuk menangani ratusan ribu pesan. Kafka Streams adalah library untuk membangun aplikasi streaming yang dapat melakukan transformasi pada aliran data yang masuk.
  5. Running SolrMeter Without a UI
    SolrMeter adalah sebuah program Java yang digunakan untuk menguji kinerja Solr. Program ini sangat membantu untuk mengevaluasi performa dari Solr, terutama jika melakukan evaluasi terhadap perbedaan konfigurasi pada file schema.xml atau hardware yang berbeda atau juga konfigurasi core pada prosessor.
  6. How to Use Power BI to Get GitHub Reports"
    Power BI adalah sebuah tools untuk analisa bisnis yang didukung oleh Microsoft. Tools ini memberikan visualisasi yang interaktif dan kemampuan intelijen bisnis swasembada. End user dapat membuat laporan dan dasboard sendiri tanpa memerlukan bantuan dari admin.

Rilis produk

  1. Apache Zeppelin Release 0.7.2
    Rilis ini mencakup 50+ patches dari 25 kontributor untuk perbaikan dan bug fixes. Lebih dari 40 issue berhasil diresolved.
  2. Apache Fluo 1.1.0-incubating released
    Pada rilis baru ini banyak terjadi perubahan yang cukup besar seperti API baru untuk konfigurasi observers, peningkatan skalabilitas, peningkatan intergrasi dengan Apache Spark
  3. Apache Solr 6.6.0 released
    The Lucene PMC mengumumkan Apache Solr 6.6.0 dan dapat diunduh langsung di: http://lucene.apache.org/solr/mirrors-solr-latest-redir.html. Perubahan meliputi versi 6 komponen pendukung, penambahan 38 fitur baru, optimasi dan perbaikan bug
  4. Apache Solr 6.6.0 released
    The Lucene PMC mengumumkan Apache Solr 6.6.0 dan dapat diunduh langsung di: http://lucene.apache.org/solr/mirrors-solr-latest-redir.html. Perubahan meliputi versi 6 komponen pendukung, penambahan 38 fitur baru, optimasi dan perbaikan bug

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Jun 07 / 2017
  • Comments Off on Seputar Big Data Edisi #17
Uncategorized

Seputar Big Data Edisi #17

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan Juni 2017

Artikel dan berita

  1. NEC Announces Million Big Data Analytics Centre in India
    Dalam rangka untuk memperkuat layanan analisa big data di India dan juga di seluruh dunia, perusahaan teknologi Jepang NEC Corporation dan NEC Technologies India Private Limited (NTI) pada hari Selasa mengumumkan peluncuran "Center of Excellence for Analytics Platform and Solutions" (COE- APS) di negara ini. Pusat ini akan mempromosikan solusi dan layanan Big Data dan Analytics Platform yang dimiliki oleh NEC, yang diberinaka "Data Platform for Hadoop (DPH)".
  2. Harnessing Big Data to build a smarter public transport system
    Warga Singapura sangat bergantung pada bis dan MRT untuk perjalanan sehari-hari mereka. Tantangan bagi operator adalah menyeimbangkan penawaran terhadap permintaan. Warga Singapura menuntut pelayanan yang lebih baik, minimal kerusakan dan cara mengatasi kepadatan penumpang pada jam-jam sibuk. Penyedia layanan berjuang untuk mengoptimalkan layanan, armada dan tenaga kerja serta mengelola alternatif solusi jika terjadi permasalahan.
  3. Amazon Using AI, Big Data To Accelerate Profits
    Amazon ingin menyediakan layanan yang mampu memberikan saran melalui gadget yang terhubung.Sebuah asisten digital pribadi telah tersedia untuk dapur kita bersama Echo, sebuah perangkat speaker yang terhubung. Tidak sampai disitu, Amazon ingin masuk ke kamar tidur kita untuk membantu kita memilih pakaian yang lebih bagus. Perangkat terbaru bernama Echo Look dilengkapi dengan kamera penginderaan, pencahayaan built-in dan perangkat lunak Style Check yang menggunakan teknologi terbaru dari machine leraning.
  4. Big Data in Sports: Going for the Gold
    Saat ini, olahraga adalah industri multi-miliar dolar global yang terdiri dari liga-liga, tim, klub, pemain, manajer, penggemar, klub penggemar, penyedia layanan, pedagang, sponsor dan bisnis dari segala jenis. Semua komponen tersebut secara terus-menerus berinteraksi dengan cara yang tak terhitung jumlahnya, menciptakan data yang masif dan terus berkembang. Data-data tersebutdapat dimanfaatkan untuk memperbaiki hampir semua aspek olahraga profesional, baik di dalam maupun di luar.

Tutorial dan pengetahuan teknis

  1. DataRobot Webinar on June 27, 2017: Automated Machine Learning in Action
    Dalam webinar ini, pelajari bagaimana DataRobot mengotomatisasi pemodelan prediktif, dan bagaimana platform ini dapat menghasilkan insight yang sama dan mendorongan produktivitas dalam implementasi machine learning.
  2. Part 6 of Data Lake 3.0: A Self-Diagnosing Data Lake
    Merupakan bagian ke 6 dari seri Data Lake 3.0. Dalam Data Lake 3.0, merupakan sebuah data lake yang besar yang dibagi antara beberapa pengguna (multiple tenants) dan aplikasi docker (mulai dari real-time hingga batch). Bagian ke 6 ini akan membahas tentang “Device Behavior Analytics” menggunaan HDP 2.6
  3. Making Apache Spark the Fastest Open Source Streaming Engine
    Databrick telah mulai membangun Structured Streaming di Apache Spark satu tahun yang lalu sebagai cara baru dan sederhana untuk mengembangkan aplikasi berkelanjutan. Cara baru ini tidak hanya mempermudah pembuatan aplikasi streaming end-to-end dengan mengekspos satu API dengan cara menulis suatu streaming querysemudah batch query, namun juga menangani kerumitan streaming dengan memastikan exactly-once-semantics, melakukan penambahan Agregasi, dan menyediakan konsistensi data di sumber dan outputnya.
  4. Building a Chatbot: Analysis and Limitations of Modern Platforms
    Industri chatbot masih dalam masa-masa awal, akan tetapi tumbuh sangat cepat. Tulisan berikut akan membahas mengenai overview dari platform-platform chatbot, perbedaan arsitekturnya, kelebihan dan kekurangannya, serta bagaimana penerapan NLP dan Machine Learning untuk meningkatkan kemampuannya.

Rilis produk

  1. Apache Flink 1.3.0 Release Announcement
    Apache Flink 1.3.0 dirilis dengan beberapa area perbaikan utama. Secara khusus, perbaikan pemulihan, API DataStream, Tabel API (SQL), dan deployment dan tools (termasuk pemantauan watermark pada front-end web). Detail lebih lanjut tentang fitur baru dapat ditemukan di pengumuman rilis.
  2. Apache Avro 1.8.2 was released
    Apache Avro 1.8.2 dirilis. Ini adalah rilis bug fix (pada Java, C ++, Py3, dan ruby), dan juga sejumlah kecil perbaikan.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Jun 06 / 2017
  • Comments Off on Big Data : Institusi Pendidikan Menjawab Tantangan Kebutuhan Lapangan Kerja
Big Data, Forum Info, Implementation, Komunitas

Big Data : Institusi Pendidikan Menjawab Tantangan Kebutuhan Lapangan Kerja

Kesenjangan antara dunia industri dan dunia pendidikan masih menjadi salah satu isu utama dalam dunia pendidikan. Lulusan lembaga pendidikan diharapkan dapat mengisi posisi pekerjaan yang sesuai dengan keterampilan dan keilmuan yang dimiliki. Namun pada kenyataannya, informasi yang akurat mengenai keterampilan dan keilmuan yang dibutuhkan tidak didapatkan oleh lembaga pendidikan.

Seperti yang dikutip dari Bangkok Post, menurut penelitian Thailand Development Research Institute (TDRI), hanya 24% lulusan perguruan tinggi dan universitas di bidang sains, teknologi, teknik dan matematika yang dipekerjakan di bidang yang sesuai dengan keilmuan yang meraka miliki. Dengan kata lain, tiga dari empat lulusan tidak menggunakan pengetahuan yang mereka pelajari dari perguruan tinggi secara keseluruhan.

Salah satu tantangan terbesar bagi lembaga pendidikan adalah membuat sebuah kurikulum dan metode pengajaran yang sesuai dengan kebutuhan dunia industri yang berubah dengan cepat. Diharapkan lowongan-lowongan pekerjaan yang tersedia dapat diisi dengan lulusan dengan kemampuan dan keilmuan yang sesuai.

Sebuah riset menarik dilakukan TDRI bekerja sama dengan National Electronics and Computer Technology Centre untuk mengatasi masalah tersebut. Untuk memperoleh informasi mengenai skill-set yang dibutuhkan dunia kerja, pada tahap awal mereka mengembangkan sebuah prototype aplikasi yang mengumpulkan 100.000 lowongan kerja pada Februari lalu dari lima situs penyedia lowogan online. Dengan menggunakan Natural Languange Processing, data-data yang pada dasarnya teks tersebut ditransformasikan menjadi format database yang siap untuk dianalisa.

Untuk mendemonstrasikan ide tersebut, mereka membuat analisa mengenai skill-set yang dibutuhkan untuk pengembang perangkat lunak / situs web dari 2.712 lowongan kerja yang unik, yang dikelompokkan menjadi 5 kategori :

  1. Bbahasa pemrograman, di antaranya Java dan .NET adalah yang paling umum,
  2. Database,
  3. Bahasa script sisi klien,
  4. Pengetahuan dalam antarmuka pengguna / Pengalaman desain,
  5. Keterampilan dasar termasuk kemampuan bahasa Inggris, manajemen keterampilan dan komunikasi.

Institusi pendidikan yang selama ini tidak memiliki informasi yang akurat terhadap skill-set yang dibutuhkan industri, melalui analisa dan pengilahan data-data dari pasar kerja online diharapkan mampu merespon permintaan tersebut.

Sumber :
http://www.bangkokpost.com/opinion/opinion/1246934/big-data-makes-educational-institutes-more-responsive

Contributor :


Sigit Prasetyo
Seorang pengembara dunia maya, sangat suka mengeksplorasi dan menelusuri tautan demi tautan dalam internet untuk memperoleh hal-hal menarik. Saat ini sedang berusaha mengasah ilmu googling. Memiliki kegemaran memancing walaupun saat ini lebih sering memancing di kantor, terutama memancing emosi.

  • Jun 05 / 2017
  • Comments Off on Seputar Big Data edisi #16
Uncategorized

Seputar Big Data edisi #16

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu keempat bulan Mei 2017.

Artikel dan berita

  1. Big Data will enable better network and application intelligence in 5G
    IoT akan menjadi bagian penting dari 5G network. Mengetahui pola penggunaan data IoT ini akan menjadi salah satu kebutuhan penting untuk dapat meningkatkan dan memperbaiki kinerja network itu sendiri. Big Data intelligence menjadi sebuah teknologi yang penting, yang dapat digunakan untuk secara otomatis meningkatkan layanan dan kinerja network, recover dari error, dan meningkatkan user experience, dengan cara menganalisis lokasi, konteks, dan lain sebagainya.
  2. Inside Europe’s biggest data visualisation laboratory
    Imperial College London, universitas negeri terkemuka di Inggris, memetakan transaksi bitcoin dalam 64 layar. Dengan diameter 6m dan tinggi 2.53m, observatorium ini menjadi laboratorium data visualization terbesar di Eropa saat ini. Bagaimana mereka mengumpulkan dan menampilkan data, dan apa rencana ke depan untuk komersialisasinya?
  3. Foursquare CEO on mapping the world, trend by trend
    CEO Foursquare, Jeff Glueck, menjelaskan mengenai adopsi big data di Foursquare, transformasinya menjadi sebuah perusahaan berbasis location intelligence, dan bagaimana mereka meningkatkan revenue mereka sampai 74% di tahun yang lalu.
  4. AI for imaging: Experts delve into its promise
    Salah satu pertanyaan yang muncul dalam konferensi Big Data in Biomedicine adalah, akankah AI menggantikan radiologist? Panelis memberikan penjelasan mengenai bagaimana posisi AI dan machine learning dalam dunia medis, khususnya radiologi.

Tutorial dan pengetahuan teknis

  1. Reading data securely from Apache Kafka to Apache Spark
    Mulai Spark 2.1 rilis 1 (Cloudera Distribution), sudah tercakup fungsionalitas untuk membaca data dari Kafka secara secure. Blog post ini menjelaskan secara singkat arsitektur dan mekanismenya.
  2. Create smooth animations in R with the tweenr package
    Salah satu unsur penting dalam Data Science adalah ‘data storytelling’, atau ‘membuat data bercerita’. Alat yang digunakan untuk menyajikan data agar menarik dan dapat bercerita adalah dengan animasi. Saat ini sudah ada beberapa package di R yang dapat menganimasikan grafik, seperti package gganimate dan animation, namun animasi yang ditampilkan keduanya masih kurang terasa halus. Package tweenr tidak menampilkan animasi, namun melengkapi gganimate agar animasi yang ditampilkannya menjadi lebih halus.
  3. Benchmark: Sub-Second Analytics with Apache Hive and Druid
    Bagian ke 2 dari artikel ultra fast analytics dengan Apache Druid. Pada bagian ini ditampilkan hasil benchmarking OLAP dengan skala 1TB, dan response time yang benar-benar interaktif.
  4. The Machine Intelligence Behind Gboard
    Bagaimana Gboard mendeteksi kesalahan ketik dan melakukan autocorrect? Tools yang digunakan sama dengan yang dipakai untuk melakukan speech recognition, yaitu machine learning. Artikel ini mengupas secara teknis bagaimana penerapan machine learning dalam meningkatkan kinerja Gboard.

Rilis Produk

  1. Apache Arrow 0.4.0
    Hanya 17 hari sejak rilis 0.3.0, Apache Arrow 0.4.0 ini mencakup 77 JIRA resolve, dan beberapa beberapa fitur penting dan bug fixes.
  2. Apache Beam v2.0.0
    Merupakan rilis stabil yang pertama, mencakup di antaranya perbaikan user experience, berfokus pada seamless portability antar berbagai environments, termasuk engine, operating system, on-premise cluster, cloud providers, dan data storage systems.
  3. Genome Analysis Toolkit 4 (GATK4) released as open source resource to accelerate research
    Broad institute merilis GATK4, toolkit untuk melakukan analisis genome, sebagai open source software. Hal ini adalah sebuah langkah yang sangat berarti bagi dunia open genomics dan open science pada umumnya.
    1.  

      Contributor :

      Tim idbigdata
      always connect to collaborate every innovation 🙂
  • May 29 / 2017
  • Comments Off on Seputar Big Data edisi #15
Apache, Big Data, Forum Info, Hadoop, Komunitas

Seputar Big Data edisi #15

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu 3 bulan mei 2017

Artikel dan berita

  1. How Traditional Industries Are Using Machine Learning and Deep Learning to Gain Strategic Business Insights
    Pengaruh AI di bidang industri tidak bisa lagi dianggap trend sesaat belaka. Bagaimana langkah industri dalam mengadopsi AI ke dalam proses bisnis dan pengambilan keputusan mereka? Beberapa use case nyata disajikan dalam artikel ini.
  2. How Artificial Intelligence will Transform IT Operations and DevOps
    Penerapan big data membawa tantangan yang besar bagi IT Operation dan DevOps. Di antaranya adalah bagaimana mereka harus bisa menemukan akar masalah, bahkan mengantisipasinya sedini mungkin, di tengah lautan data yang begitu besar. Artikel ini menjelaskan bagaimana AI menjadi salah satu solusi yang akan mengubah ‘wajah’ Operasional IT dan DevOps. Salah satu konsep yang sering disebut adalah ‘Cognitive Insights’, yaitu menggunakan machine learning untuk mengolah log dan data dari berbagai sumber untuk menemukan solusi bagi masalah-masalah yang dihadapi DevOps dan Operasional IT.
  3. Neural Network-Generated Illustrations in Allo
    Sebuah fitur menarik yang diperkenalkan Google di aplikasi Allo, yang mengubah foto selfie menjadi stiker ilustrasi, menggunakan kombinasi antara neural network dan hasil karya seniman.
  4. Using Twitter as a data source: an overview of social media research tools (updated for 2017)
    Tinjauan dan pembahasan singkat mengenai metode dan tools yang dapat digunakan oleh ilmuwan bidang sosial untuk menganalisis data sosial media. List yang sangat bermanfaat jika anda ingin melakukan penelitian yang memanfaatkan data sosial media.
  5. NHS gave DeepMind patient records on an ‘inappropriate legal basis’
    Sebuah pelajaran berharga dari dugaan pelanggaran privacy dalam kasus data sharing antara NHS dengan DeepMind. Mengingatkan kita kepada pentingnya memahami regulasi yang harus dipenuhi apa saja yang harus diantisipasi, dan batasan apa yang harus ditaati dalam pemanfaatan data-data sensitif dan pribadi untuk keperluan analisis dan machine learning.
  6. Four Lessons In The Adoption Of Machine Learning In Health Care
    AI dan machine learning berpotensi sangat besar untuk perbaikan kualitas pelayanan kesehatan, namun mengapa saat ini pemanfaatannya di dunia kesehatan masih sangat terbatas? Berikut ini beberapa poin penting yang perlu diperhatikan, dari mulai jenis task apa yang paling sesuai, bagaimana membangun kepercayaan dan dukungan dari tenaga medis sendiri, bagaimana memilih vendor, dan perubahan apa yang perlu dilakukan dari sisi layanan kesehatan agar dapat memperoleh manfaat sebesar-besarnya dari teknologi ini.
  7. Special Ops battle with ‘big data’
    Komandan Komando Operasi Khusus Amerika Serikat (SOCOM) berbicara mengenai pentingnya Big Data, dan apa yang dilakukan untuk memanfaatkan data bagi operasi-operasi intelelejen, terutama yang bersifat kritikal.
  8. Big Data: The Ultimate in Customer Tracking
    Big Data identik dengan pelacakan dan pengumpulan data pengguna, dari setiap titik transaksi, profil WiFi, situs yang dikunjungi, dan lain sebagainya. Hal ini menimbulkan kekhawatiran bahwa Big Data identik dengan ‘Big Brother’. Namun sebetulnya Big Data lebih dekat perbandingannya dengan ‘Moneyball’, yaitu sebuah film mengenai pemanfaatan big data untuk memenangkan kompetisi baseball terbesar di dunia, Superbowl.

Tutorial dan pengetahuan teknis

  1. Event-time Aggregation and Watermarking in Apache Spark’s Structured Streaming
    Artikel ini merupakan seri ke 4 dari serangkaian artikel mengenai pemrosesan yang kompleks terhadap data streaming menggunakan Spark. Di sini dijelaskan mengenai bagaimana meng-agregasi data real time dengan Structured Streaming, dan mengenai bagaimana menangani event yang terlambat masuk dengan mekanisme Watermarking.
  2. Detecting Abuse at Scale: Locality Sensitive Hashing at Uber Engineering
    Menjelaskan mengenai Locality Sensitive Hashing, yaitu algoritma near neighbor search dalam ruang dimensi tinggi. Uber ddan Databrick bekerjasama dalam kontribusi implementasi LSH ke dalam Spark. Uber menggunakan LSH terutama untuk medeteksi pengemudi yang curang berdasar data perjalanan. Dijelaskan juga apa motivasi Uber menggunakan LSH di atas Spark, bagaimana penerapannya, dan apa rencana pengembangan ke depan.
  3. Home advantages and wanderlust
    Menganalisa data Premier League, untuk menentukan kesebelasan mana prosentase poinnya paling banyak didapat dari pertandingan kandang. Analisis dilakukan menggunakan R, yaitu package engsoccerdata. Dalam artikel ini ditunjukkan bagaimana teknik-teknik analisis dan visualisasi data dapat menjadi sesuatu yang menarik, apalagi jika dipadukan dengan data yang sesuai dengan bidang yang digemari.
  4. hive-druid-part-1-3/">Ultra-fast OLAP Analytics with Apache Hive and Druid – Part 1 of 3
    Bagian pertama dari 3 seri tulisan mengenai bagaimana melakukan OLAP analisis super cepat menggunakan Apache Hive dan Druid. Druid adalah data store terdistribusi berorientasi kolom, yang sesuai untuk low latency analytics.
  5. How-to: Backup and disaster recovery for Apache Solr (part I)
    Satu lagi artikel yang menjadi bagian dari serial, kali ini membahas mengenai backup dan disaster recovery Apache Solr. Artikel ini menjelaskan dasar-dasar backup dan recovery Solr dengan cukup detail dan jelas.
  6. Using 'Faked' Data is Key to Allaying Big Data Privacy Concerns
    Salah satu issue terbesar dalam penggunaan data untuk machine learning adalah privacy. Data yang digunakan dalam proses learning seringkali mengandung informasi pribadi yang sensitif, bahkan ketika data tersebut sudah di-anonimisasi. Untuk mengatasi permasalahan MIT membuat sebuah gebrakan, yaitu sistem machine learning yang men-generate ‘data sintetis’ berdasar model data asli. Data sintetis initidak mengandung informasi asli apapun, namun tetap dapat ‘berperilaku’ serupa dengan data asli di dalam analisis dan stress tes, sehingga dapat menjadi pengganti ideal bagi data asli. Algoritma yang digunakan disebut dengan “recursive conditional parameter aggregation”.
  7. An Impatient Start With the Apache Ignite Machine Learning Grid
    Baru-baru ini Apache Ignite merilis in memory machine learning grid mereka, dalam tahap beta version. Rilis beta ini dapat melakukan operasi vektor lokal dan terdistribusi, dekomposisi, dan matriks. Artikel menunjukkan secara singkat dan padat, bagaimana mendownload Apache Ignite 2.0 release, kemudian mem-build dan mengeksekusi contoh programnya.
  8. Balancing Bias and Variance to Control Errors in Machine Learning
    Di dunia machine learning, akurasi adalah hal utama. Berbagai cara dilakukan untuk membangun model seakurat mungkin, dengan cara menyesuaikan parameter-parameternya. Artikel ini mengupas dengan cukup detail mengenai apa yang harus diperhatikan untuk meminimalisir error dengan mengontrol bias dan variansi.
  9. Deep Learning – Past, Present, and Future
    Perjalanan perkembangan deep learning dari masa ke masa.

Rilis produk

  1. The Apache Software Foundation Announces Apache® Samza™ v0.13
    Samza adalah framework pemrosesan Big Data stream terdistribusi, yang saat ini digunakan oleh Intuit, LinkedIn, Netflix, Optimizely, Redfin, Uber dan lain-lain.

    Rilis v0.13 mencakup :
    • Higher level API yang dapat merepresentasikan pipeline pemrosesan stream yang kompleks dengan lebih ringkas
    • Support untuk menjalankan aplikasi Samza sebagai lightweight embedded library tanpa mengandalkan YARN
    • Deployment yang lebih fleksibel
    • Peningkatan monitoring dan deteksi kegagalan menggunakan mekanisme heart-beating yang built-in
    • Integrasi yang lebih baik dengan framework manajemen cluster yang lain
    • Beberapa bug-fixes yang meningkatkan keandalan, stabilitas, dan kekuatan pemrosesan data
  2. Build Intelligent Apps Faster with Visual Studio and the Data Science Workload
    Versi terbaru Visual Studio 2017 memiliki built-in support untuk pemrograman R dan Python. Pada versi terdahulu, dukungan untuk bahasa-bahasa ini telah tersedia melalui RTVS dan PTVS add-in, namun dengan Data Science Workloads support R dan Python tidak lagi memerlukan add-in. Fitur ini tersedia di semua edisi, termasuk Visual Studio Community 2017 yang bisa anda download secara gratis.
  3. Apache Arrow 0.3.0
    Rilis 0.3.0 ini mencakup 306 JIRA yang diresolve dari 23 kontributor.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • May 10 / 2017
  • Comments Off on Seputar Big Data Edisi #14
Big Data, Forum Info, Hadoop, Komunitas

Seputar Big Data Edisi #14

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan mei 2017

Artikel dan Berita

  1. How Small Businesses Can Utilize Big Data to Grow Big
    Big Data sering diterjemahkan sebagai sejumlah data sangat besar yang berukuran terabyte bahkan petabyte. Data-data tersebut dikelola dan dianalisa untuk mendapatkan pola-pola yang bernilai (misal perilaku), tren dan berbagi informasi lainnya. Bagaimana sebenarnya pemanfaatan Big Data untuk "Small Business" supaya dapat berkembang?
  2. Big Data strategies to address Ebola
    IBM mengumumkan hasil riset penggunaan big data untuk menganalisa pengaruh hewan yang telah tertular terhadap penyebaran virus Ebola.
  3. Timeline of AI and Robotics
    Infografis mengenai perkembangan AI dan Robotik dari masa ke masa
  4. Using Machine Learning to Fight Crime
    Dengan menggunakan metodologi Machine Learning yang diberi nama Probabilistic Assessment for Contributor Estimate (PACE), tim riset dari Forensics and National Security Sciences Institute (FNSSI) mampu mengidentifikasikan profil penjahat secara lebih baik dengan menggunakan analisa DNA
  5. How to Become a Data Engineer
    Kebutuhan akan data engineers diprediksi akan meningkat seiring dengan perkembangan pemanfaatan data sebagai acuan dalam pengambilan keputusan. Apa sebenarnya data engineer itu ? Apa yang dilakukannya ?

Tutorial dan pengetahuan teknis

  1. 20 Questions with Big Data Cybersecurity Experts on Apache Metron: Webinar Recap
    Rangkuman pertanyaan dari webminar yang diadakan oleh Hortonworks dengan tema Combating Phishing Attacks: How Big Data Helps Detect Impersonators
  2. Deep Learning in Minutes with this Pre-configured Python VM Image
    Sekumpulan tools dan library deep learning berbasiskan Python yang dipaketkan dalam sebuah virtual machine dan siap untuk digunakan.
  3. Introduction to R: The Statistical Programming Language
    Pengenalan dan memulai R, sebuah bahasa pemrograman khusus untuk statistik.

Rilis produk

  1. pache ZooKeeper 3.5.3-beta
    Tim developer Apache ZooKeeper mengumumkan versi 3.5.3-beta. Versi ini merupakan versi beta pertama dari seri ZooKeeper 3.5, yang meliputi 77 issue.
  2. Apache Trafodion 2.1.0-incubating
    Apache Trafodion salah satu solusi SQL-on-Hadoop telah merilis Apache Trafodion 2.1.0-incubating.
  3. Apache Ignite 2.0: Redesigned Off-heap Memory, DDL and Machine Learning
    Setelah menunggu cukup lama akhirnya Apache Ignite 2.0 dirilis dengan banyak perubahan seperti meredisain arsitektur Off-heap Memory, mensupport Data Definition Languange, dan yang paling menarik adalah fitur Machine Learning Grid.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • May 08 / 2017
  • Comments Off on Seputar Big Data Edisi #13
Apache, Big Data, Forum Info, Hadoop, Komunitas

Seputar Big Data Edisi #13

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan Mei 2017.

Artikel dan berita

  1. Data Driven: 5 Ways Automakers Use Big Data to Improve Their Products
    Di era data-driven ini big data memegang peran yang semakin penting dalam bisnis otomotif, bahkan mcKinsey memperkirakan, data-data otomotif akan bernilai 450 to 750 milyar dolar di tahun 2030. Apa saja yang dilakukan produsen otomotif dalam pemanfaatan big data untuk memperbaiki produk mereka?
  2. How Companies Say They’re Using Big Data
    Hasil survey terhadap eksekutif perusahaan-perusahaan Fortune 1000 mengenai bagaimana mereka mengimplementasikan dan menggunakan big data.
  3. The Big Data Market Will account for over Billion by the end of 2020
    Investasi di bidang yang terkait big data semakin meningkat di seluruh dunia. SNS Research memprakirakan bahwa investasi big data akan mencapai lebih dari 57 miliar US$ untuk tahun 2017, dan 76 miliar US$ pada 2020.
  4. PSU, Eversource to use big data to better predict storms that cause power outages
    Kerja sama antara Plymouth State University dan Eversource dalam pemanfaatan big data untuk memprediksikan cuaca, dalam usaha mengurangi padamnya listrik. Beberapa hal yang menjadi perhatian adalah suhu, curah hujan, dan kemungkinan adanya badai, bahkan jenis pepohonan apakah yang mungkin menjadi potensi masalah untuk jalur listrik jika terjadi badai.
  5. The new paradigm for big data governance
    Data saintis menggunakan sandbox untuk mengeksplorasi data dan menggali insight. Meskipun penggunaan sandbox dapat meningkatkan produktivitas, namun memindahkannya ke production environment bisa menjadi masalah. Penggunaan bahasa pemrograman dan struktur data yang masih relatif asing untuk dunia IT pun memperumit permasalahan. Oleh karenanya, perlu penerapan data governance dalam big data sains. Akan tetapi, berbeda dengan data governance pada umumnya, big data analytics memiliki karakteristik dan kebutuhan tersendiri.
  6. The new paradigm for big data governance
    Data saintis menggunakan sandbox untuk mengeksplorasi data dan menggali insight. Meskipun penggunaan sandbox dapat meningkatkan produktivitas, namun memindahkannya ke production environment bisa menjadi masalah. Penggunaan bahasa pemrograman dan struktur data yang masih relatif asing untuk dunia IT pun memperumit permasalahan. Oleh karenanya, perlu penerapan data governance dalam big data sains. Akan tetapi, berbeda dengan data governance pada umumnya, big data analytics memiliki karakteristik dan kebutuhan tersendiri.
  7. Making the Most of Big Data in Biomedicine
    The Biomedical Big Data to Knowledge Training (B2D2K), sebuah program untuk melatih ilmuwan di bidang biomedis dalam penggunaan big data, diluncurkan di Amerika. Program berbiaya 2.4 juta US$ ini adalah kerjasama antara Geisinger Health System, Penn State University dan Penn State Hershey, didanai oleh National Library of Medicine, National Institutes of Health sebesar 1.4 juta US$, dan Penn State sebesar 1 juta US$.
  8. Big data research awards show the potential of international collaboration
    The Trans-Atlantic Platform, sebuah konsorsium organisasi-organisasi ilmu sosial dan kemanusiaan dari Amerika Utara, Amerika Selatan dan Eropa, mengumumkan pemenang kompetisi riset big data yang diberi nama Digging into Data Challenge. Kompetisi yang telah memasuki putaran ke empat ini menunjukkan besarnya potensi kerjasama internasional dalam bidang big data.
  9. In a world of bots, AI and big data, how can employees and businesses survive?
    Revolusi industri keempat, yang ditandai dengan ledakan digital di dunia ekonomi membawa tantangan tersendiri bagi bisnis. AI, bot dan big data merambah semakin luas ke setiap segi kehidupan. Bagaimana bisnis dan tenaga kerja dapat bertahan menghadapi gelombang digitalisasi dan otomasi?

Tutorial dan pengetahuan teknis

  1. Hail: Scalable Genomics Analysis with Apache Spark
    Salah satu tantangan terbesar dalam analisis data genomics adalah skalabilitas. Ukuran data genome sangatlah besar, bahkan dalam paper “Big Data: Astronomical or Genomical?” diperkirakan bahwa “pada tahun 2025 genome manusia yang disekuens dapat mencapai antara 100 juta sampai 2 milyar”, membutuhkan sekitar 2-40 exabyte storage. Permasalahan utama pemrosesan data besar adalah performance. Hail muncul sebagai salah satu solusi analisis genome yang memanfaatkan keunggulan kinerja dan skalabilitas Apache Spark.
  2. Building and Exploring a Map of Reddit with Python
    Memetakan dan menganalisis 10.000 subreddit paling populer di Reddit, dalam Python.
  3. Machine Learning Classification with C5.0 Decision Tree Algorithm
    Tutorial klasifikasi menggunakan algoritma c5.0 decision tree, mengidentifikasi pinjaman bank yang beresiko, menggunakan R.
  4. Understanding Machine Learning
    Apa sebenarnya machine learning? Berikut ini artikel singkat dilengkapi ilustrasi yang memberikan pengenalan dasar mengenai machine learning dan metode-metodenya
  5. What Do Frameworks Offer Data Scientists that Programming Languages Lack?
    Saat ini makin banyak programmer dan data saintis yang lebih memilih bekerja menggunakan framework daripada bahasa pemrograman, dan menganggapnya sebagai pilihan yang lebih modern dan canggih. Apa sebenarnya kelebihan framework yang tidak dimiliki oleh bahasa pemrograman?
  6. Visualizing Tennis Grand Slam Winners Performances
    Data visualization of sports historical results is one of the means by which champions strengths and weaknesses comparison can be outlined. In this tutorial, we show what plots flavors may help in champions performances comparison, timeline visualization, player-to-player and player-to-tournament relationships. We are going to use the Tennis Grand Slam Tournaments results as outlined by the ESP Visualisasi data dalam bidang olah raga adalah salah satu cara untuk membandingkan kekuatan dan kelemahan para juara dari masa ke masa. Dalam tutorial ini ditunjukkan bagaimana plot dan grafik dapat membantu dalam membandingkan performance pemain tersebut. Data yang digunakan adalah data Tennis Grand Slam Tournaments yang ditampilkan situs ESP di tabel ESPN site tennis history.
  7. Advanced Apache NiFi Flow Techniques
    Tutorial mengenai bagaimana memback-up Apache Nifi flow yang sedang berjalan, menyimpannya ke dalam disk, untuk kemudian menggabungkannya kembali dengan data dan metadata, dan melanjutkan eksekusinya atau me-restart-nya di waktu yang akan datang.

Rilis produk

  1. Apache Scio versi 0.3.0
    Apache Scio, Scala API untuk Apache Beam dirilis versi 0.3.0-nya. Ini merupakan rilis non-beta yang pertama yang dibuat di atas Apache Beam SDK, sedangkan rilis sebelumnya dibangun di atas Google Cloud Dataflow SDK.
  2. Apache Kafka 0.10.2.1
    Rilis ini adalah bug-fix, yang me-resolve 29 issue dari rilis sebelumnya.
  3. Apache Kylin 2.0.0 released
    Apache Kylin adalah Engine Analytics terdistribusi, menyediakan SQL interface dan OLAP untuk Hadoop.
  4. Apache Mahout 0.13.0
    Mencakup : Peningkatan kemudahan dalam melakukan komputasi matrix langsung di GPU yang menghasilkan peningkatan kinerja yang signifikan, penyederhanaan framework untuk menambahkan algoritma baru, dll.
  5. Apache® CarbonData™ as a Top-Level Project
    Apache CarbobData adalah format file kolumnar terindeks untuk melakukan data analytics di atas platform Big Data (Apache Hadoop, Apache Spark, dll) yang mempercepat query pada data berskala petabytes.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • May 02 / 2017
  • Comments Off on Meetup idBigdata ke 15, 26 April 2017 di Universitas Sebelas Maret.
Big Data, Forum Info, Komunitas, Uncategorized

Meetup idBigdata ke 15, 26 April 2017 di Universitas Sebelas Maret.

Meetup idBigdata ke 15 telah diselenggarakan 26 April 2017 di Universitas Sebelas Maret, Surakarta.

Acara diawali dengan sambutan dari Dekan Fakultas Matematika dan IPA Universitas Sebelas Maret, Prof. Ir. Ari Handono Ramelan, M.Sc.(Hons),PhD. Pemateri pertama adalah Dr. Vidyasagar Potdar, Senior Research Fellow dari Curtin University, dengan tema “Big Data in the Smart City Context”, yang di antaranya membahas mengenai apa saja permasalahan pokok sebuah kota dan apa yang dapat diatasi oleh smart city, apa tujuan diterapkannya smart city, serta apa saja tantangan yang dihadapi dalam penerapannya.

Pembicara kedua adalah Dr. Dewi Wisnu Wardani dari Program Studi Informatika Fakultas MIPA UNS, membawakan materi dengan tema “Variety Issue of Big Data in the Web of Data”.

Setelah ishoma, tampil Chairman idBigdata, Sigit Prasetyo, dengan materi berjudul “Big Data: Turning Challenges into Opportunity”. Pembicara terakhir yaitu Arief Dolantz dari Labs247, dengan topik “BIG DATA Implementation on Document Management”

Meetup yang dihadiri oleh lebih dari 200 peserta ini dimulai pada pukul 09:00 dengan registrasi ulang, dan diakhiri pada pukul 15.00 dengan foto bersama.

Video lengkap Meetup idBigdata #15, maupun meetup-meetup sebelumnya dapat diakses di channel idBigdata.
  • May 02 / 2017
  • Comments Off on Seputar Big Data Edisi #12
Uncategorized

Seputar Big Data Edisi #12

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu keempat bulan April 2017

Artikel dan berita

  1. UK Consumers Open Minded About Machine Learning
    Meskipun jauh-jauh hari Hollywood telah banyak memperingatkan soal ‘the rise of the machines’, namun ternyata tampaknya masyarakat Inggris tidak terlalu terpengaruh. Dalam survey yang dilakukan untuk Royal Society, tanggapan masyarakat Inggris terhadap machine learning ternyata cukup positif, kecuali mungkin untuk penggunaan robot dan mesin pintar dalam bidang hankam.
  2. AI, Amazon, Uber: 10 tech predictions for 2022
    10 prediksi mengenai teknologi apa yang mungkin akan dan belum akan kita lihat di tahun 2022 mendatang.
  3. The Limits Of Machine Learning: Knowledge Domains That Computers May Not Be Able To Tackle
    AI, khususnya machine learning akhir-akhir ini seolah-olah menjadi sebuah teknologi super digdaya, yang di masa depan akan mampu menyelesaikan berbagai permasalahan manusia. Namun demikian, ada beberapa bidang yang mungkin tidak akan dapat diselesaikan oleh mesin, seperti dipaparkan dalam artikel ini.
  4. How Women Are Shaping The Big Data Revolution
    Satu kunci penting dalam kesuksesan implementasi big data adalah tentang perubahan kebiasaan dan budaya kerja, dan perubahan budaya berarti hubungan dengan manusia. Untuk mengatasi tantangan ini, semakin banyak wanita yang dipilih untuk posisi eksekutif yang terkait dengan data, yang kemudian sering disebut sebagai ‘Data Diva’.
  5. Big data and the future of learning
    Big data, khususnya analisis prediktif, menjadi salah satu teknologi yang semakin banyak diadopsi oleh HRD. Setelah talent management, rekruitmen, dan performance management, kini giliran bidang L&D (learning and development) yang merasakan manfaatnya, apa lagi setelah E-Learning semakin marak. Apa saja penerapannya, dan apa tantangannya?
  6. eBay: Big Data Can Humble A CEO And Change The Future Of Retail
    Sebelum Airbnb dan Uber, eBay telah menjadi salah satu perusahaan retail dan teknologi yang terkemuka, sehingga tak heran penerapan big data analytics mereka telah lebih matang dibanding kompetitor mereka di bidang retail. Menurut mereka, kekuatan insight dari big data dapat mengubah pendirian para CEO, bahkan yang paling ‘keras kepala’ sekalipun.
  7. Utilizing Big Data in the Ad Specialty Industry
    Sekilas mengenai bagaimana data analytics digunakan oleh perusahaan-perusahaan periklanan, dan bagaimana informasi membentuk pasar di masa depan.

Tutorial dan pengetahuan teknis
  1. Every shot Kobe Bryant ever took. All 30,699 of them
    The LA Times Data Desk menunjukkan bagaimana menggunakan Jupyter untuk menganalisa setiap tembakan yang dilakukan oleh Kobe Bryant.
  2. Data Lake Governance Best Practices
    Data lake menjadi salah satu solusi untuk menggali value big data, namun salah satu tantangannya adalah masih banyak yang belum memahami betul apa yang membentuk sebuah data lake dan bagaimana pengelolaannya. Berikut ini beberapa best practices dalam pengelolaan data lake, untuk memaksimalkan nilai yang dapat dimanfaatkan.
  3. Where Europe lives, in 14 lines of R Code
    Visualisasi kepadatan penduduk di Eropa, dalam 14 baris R code.
  4. Gender and verbs across 100,000 stories: a tidy analysis
    Analisis terhadap deskripsi plot dari 100.000 film, novel, acara televisi, dan games. Menentukan kata kerja dan kemunculannya berdasar gender (she dan he), dilakukan dengan R, tidytext package.
  5. 16 Free and Open-Source Business Intelligence Tools
    Saat ini business intelligence mengambil peran yang semakin penting dalam proses pengambilan keputusan. Namun tidak semua perusahaan mau ataupun mampu untuk membeli tools yang mahal. Berikut ini 16 tools business intelligence yang free dan open-source, yang sesuai untuk perusahaan kecil atau mereka yang baru ingin menjajagi penerapannya di organisasi mereka.
  6. Finally, a peek inside the ‘black box’ of machine learning systems
    Banyak sistem pintar mulai dari penerjemah otomatis sampai mobil swa-kemudi menggunakan jaringan syaraf tiruan. Salah satu permasalahan penggunaan JST adalah cara kerjanya yang bersifat ‘black-box’. Hal ini menjadi kekhawatiran, terutama untuk penerapannya di bidang yang kritis, seperti sistem pesawat terbang. Namun akhirnya kini kita dapat ‘mengintip’ ke dalam black-box tersebut untuk memastikan apakah sebuah kondisi akan direspon dengan benar oleh JST tersebut. Peneliti dari Stanford University menciptakan sistem verifikasi otomatis untuk deep neural network, yang dinamakan Reluplex.

Rilis produk

  1. The Apache Software Foundation Announces Apache® Metron™ as a Top-Level Project
    Apache Metron, platform open source untuk cyber security analytics, akhirnya berstatus top level project di AFS.
  2. R 3.4.0 is released
    Perubahan yang paling penting dalam rilis ini adalah kompiler byte-code JIT (Just In Time) secara default di-enable di level 3. Selain itu terdapat perbaikan kinerja, konsistensi, akurasi, dan lain-lain.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • May 02 / 2017
  • Comments Off on Seputar Big Data Edisi #11
Uncategorized

Seputar Big Data Edisi #11

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ketiga bulan April 2017

Artikel dan Berita

  1. R is for Archaeology: A report on the 2017 Society of American Archaeology meeting
    Pada akhir bulan Maret 2017 lalu, Society of American Archaeology (SAA), salah satu organisasi profesional terbesar di bidang arkeologi, telah selesai melaksanakan pertemuan tahunannya di Vancouver, BC. Salah satu kesimpulan dan tindak lanjutnya adalah mengenai penggunaan R dalam bidang arkeologi.
  2. How AI finds big value in big data
    Bot dapat meningkatkan interaksi dengan manusia, menciptakan efisiensi bisnis yang lebih besar, dan mengurangi resiko gesekan dari interaksi dengan pelanggan. Ini adalah pasar yang telah menyerap sekitar $ 24 miliar dalam hal pendanaan, mulai dari startup hingga perusahaan multinasional. Perusahaan besar seperti IBM hingga Facebook telah menghabiskan sumber daya yang sangat besar dalam mendorong para pengembang aplikasi untuk membuat bot baru yang memungkinkan interaksi pelanggan lebih personal.
  3. How Colleges Use Big Data to Target the Students They Want
    Dengan memanfaatkan jejak-jejak digital calon siswa, sekolah dapat membuat keputusan tentang hal-hal yang berkaitan dengan penerimaan siswa baru, baik dari sisi publikasi, area maupun target siswa.
  4. Supercomputers and AI Improve MRI Scanning
    MRI scans are a common tool in the armory of the modern doctor. Such scans are usually very expensive and can take days to generate and interpret. If further scans are required, the patient needs to come back in and go through the procedure all over again. A new real-time analysis system that is powered by supercomputing promises to change things. The system, which is developed by a consortium led by researchers at Texas Advanced Computing Center (TACC), is an automated platform that can perform in-depth MRI analysis within minutes, thus enabling further scans to be performed whilst the patient is still in the scanner

    MRI merupakan salah satu ‘senjata’ utama para dokter masa kini. Biaya MRI saat ini masih tergolong mahal, dan untuk memproses dan menginterpretasikannya memerlukan waktu beberapa hari. Jika dari hasil tersebut ternyata pasien harus melakukan pemindaian lebih lanjut, maka pasien harus kembali melakukan prosedur yang memakan waktu dan biaya yang tidak sedikit. Dengan sistem analisis real-time yang didukung oleh superkomputing, hal ini dapat dihindari. Sistem yang dibangun oleh sebuah konsorsium yang dikepalai oleh peneliti di Texas Advanced Computing Center ini adalah sebuah platform terotomasi, yang dapat melakukan analisa MRI secara mendalam dalam hitungan menit, sehingga jika diperlukan pemindaian selanjutnya dapat segera dilakukan ketika pasien masih berada di dalam mesin pemindai.

  5. Big Data: A Foolproof Solution for DDoS Attacks
    Big data technologies bring a lot of advantages for businesses. While this is one side of big data technologies the other side is aloof from demands requiring extreme attention, care, and consistent updating. A distributed denial-of-service (DDoS) attack is one such aspect that can be a cause of concern if not handled properly. It would be safe to say that big data technologies require less efforts in maintenance and updates in comparison to the traditional approach.
    Teknologi big data membawa banyak manfaat untuk bisnis. Manfaat lain yang tidak kalah penting adalah, jika dipersiapkan dengan baik, maka sistem berbasis teknologi ini tidak memerlukan perhatian dan pemeliharaan khusus, serta updating yang terus menerus dibanding dengan sistem tradisional. Serangan distributed denial-of-service (DDoS) adalah salah satu aspek yang sangat merugikan jika tidak ditangani dengan baik. Bisa dibilang, teknologi big data memberikan kemudahan dalam hal maintenance dan update dibanding pendekatan tradisional.
  6. Logz.io Combines Open Source, Cloud, Big Data and Machine Learning for DevOps and SRE
    90% dari startup mengalami kegagalan. Mereka yang dapat bertahan dan berkembang, memanfaatkan teknologi baru atau memberikan respon yang tepat waktu untuk pengembangan pasar baru. Logz.io melakukan keduanya, dengan mengkombinasikan 4 tren teknologi (open source, komputasi awan, analisa big data dan machine learning) dan memanfaatkan kebutuhan pasar yang baru, yaitu dari DevOps dan Site Reliability Engineers (SREs)
  7. GO BIG: How Yahoo! Japan Scaled to 75 Petabytes
    Yahoo! Japan is the largest Internet portal site in Japan. Yahoo! Japan adopted early Apache™ Hadoop® in 2008 for its unique data storage and analysis challenges, including capturing detailed user activity history. Data proliferated rapidly in Yahoo! Japan’s initial Hadoop clusters, with data streaming in from sources such as access logs, search keywords, product information, purchase histories, and auction bidding information. Today, Yahoo! Japan stores, analyzes and gains value from over 75PB of data. Yahoo! Japan, situs portal internet terbesar di Jepang, sudah mengadopsi Hadoop sejak tahun 2008, untuk mengatasi kebutuhan storage dan analisis data mereka, termasuk menyimpan history aktifitas user secara detail. Saat ini Yahoo! Japan menyimpan, dan menganalisa menggunakan data lebih dari 75 Petabyte, untuk mendapatkan nilai tambah.

Tutorial dan Pengetahuan teknis

  1. Real Time Analytics at UBER Scale
    Sebuah presentasi dari James Burkhart, technical lead on real-time data infrastructure Uber, dalam acara Strata + Hadoop World 2017. James menjelaskan bagaimana Uber mendukung jutaan query untuk analisa harian pada data real-time dengan menggunakan Apollo.
  2. Recursive Neural Networks with PyTorch
    Deep neural networks have enabled breakthroughs in machine understanding of natural language. Most of these models treat language as a flat sequence of words or characters, and use a kind of model called a recurrent neural network (RNN). But many linguists think that language is best understood as a hierarchical tree of phrases, so a significant amount of research has gone into deep learning models known as recursive neural networks that take this structure into account. A new deep learning framework called PyTorch makes these and other complex natural language processing models a lot easier. Deep neural network memungkinkan berbagai terobosan dalam pemahaman mesin terhadap bahasa. Sebagian besar model yang digunakan saat ini memperlakukan bahasa sebagai urutan kata atau karakter yang datar, dan menggunakan model yang disebut recurrent neural network (RNN). Tetapi banyak ahli bahasa berpendapat bahwa bahasa dipahami dengan paling baik sebagai pohon frase berjenjang, sehingga sejumlah besar penelitian telah beralih ke model deep learning yang dikenal sebagai recursive neural networks yang memperhitungkan struktur ini. Sebuah baru deep learning framework yang disebut PyTorch membuat model pemrosesan bahasa alami yang dianggap kompleks ini menjadi jauh lebih mudah.
  3. How do I compare document similarity using Python?
    Dalam video tutorial ini, Jonathan Mugan akan memperkenalkan penggunaan gensim library pada bahasa pemrograman Python. Contoh kasus yang disampaikan adalah untuk menemukan kesamaan antara dokumen.
  4. Medical Image Analysis with Deep Learning
    Sebuah tutorial singkat mengenai dasar image processing, pengenalan dasar format gambar dalam bidang medis dan visualisasi data-data medis.
  5. Querying OpenStreetMap with Amazon Athena
    This post explains how anyone can use Amazon Athena to quickly query publicly available OSM data stored in Amazon S3 (updated weekly) as an AWS Public Dataset. Imagine that you work for an NGO interested in improving knowledge of and access to health centers in Africa. You might want to know what’s already been mapped, to facilitate the production of maps of surrounding villages, and to determine where infrastructure investments are likely to be most effective.
    Artikel ini menjelaskan mengenai bagaimana menggunakan Amazon Athena untuk meng-query data OSM yang disimpan di Amazon S3 sebagai dataset publik AWS. Misalkan anda bekerja untuk sebuah LSM, dan berminat untuk meningkatkan pengetahuan dan akses ke pusat-pusat kesehatan di Afrika. Anda mungkin ingin mengetahui apa saja yang sudah dipetakan, untuk membantu memetakan daerah-daerah di sekitarnya, dan menentukan investasi infrastruktur apa yang paling efektif.

Rilis produk

  1. Apache Hadoop 2.8.0
    Apache Hadoop 2.8.0 berisi sekitar 2917 perbaikan dan fitur-fitur baru. Hanya saja sebagai catatan, rilis ini belum siap untuk diimplementasikan pada production system, sehingga harus menunggu ke versi selanjutnya yaitu 2.8.1 atau 2.8.2

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
Tertarik dengan Big Data beserta ekosistemnya? Gabung