:::: MENU ::::

Posts Categorized / Social Media

  • Apr 05 / 2019
  • Comments Off on Seputar Big Data edisi #68
AI, Artificial Intelligece, Big Data, Blockchain, Hadoop, Implementation, IoT, machine learning, Medical Analytics, Social Media, Storage, Storm

Seputar Big Data edisi #68

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu terakhir bulan Maret 2019.

Artikel dan berita

  1. Drillers Turning to Big Data in the Hunt for Cheaper Oil | Rigzone
    Industri minyak bumi dan gas alam mencari cara untuk menciptakan peluang bisnis baru dengan menggunakan teknologi informasi, kecerdasan buatan, big data dan analitik. Implementasi big data analytics ini diperkirakan akan men-disrupt dan mentransformasi bisnis, sebagaimana yang terjadi pada internet.
  2. Microsoft partners with OpenClassrooms to recruit and train 1,000 AI students
    Microsoft Microsoft berkerjasama dengan OpenClassroom, sebuah platform platform pendidikan online dari Perancis, untuk melatih dan merekrut siswa yang diperkirakan mampu menguasai bidang AI. OpenClassroom akan merekrut sekitar 1.000 kandidat AI dari seluruh AS, Inggris, dan Perancis.
  3. AI in Logistics: Data-Driven Shifts to Boost Your Business
    Bagi perusahaan yang bergerak dibidang logistik, AI merupakan suatu keharusan bagi organisasi untuk dapat bertahan dan meningkatkan daya saing. Menurut Forbes Insight, 65% pemimpin industri percaya bahwa logistik, transportasi, dan supply chain telah bergabung ke dalam era “transformasi menyeluruh.” Laporan Accenture juga mengungkapkan bahwa 36% organisasi besar, menengah, dan kecil telah berhasil mengadopsi AI untuk proses logistik dan supply chain. Dan 28% responden survei berada di ambang penyebaran AI di bidang ini.
  4. 11 Artificial Intelligence Trends Every Business Must Know in 2019
    Artificial Intelligence (AI) telah menjadi game changer bagi bisnis global dan membuka pintu ke berbagai kemungkinan yang tak terhitung. Dengan integrasi AI dalam bisnis, diperkirakan ekonomi global akan tumbuh secara eksponensial di tahun-tahun mendatang. Ada 11 poin penting yang harus menjadi fokus utama untuk membangun strategi AI di perusahaan.
  5. How Financial Institutions Are Becoming Champions Of Big Data
    Karena banyaknya regulasi dan undang-undang yang mengikat, menjadikan sektor keuangan memiliki ruang yang sempit dalam berinovasi. Akibatnya, pemanfaatan big data menjadi tertinggal. Namun saat ini, hal tersebut mulai berubah. Keberhasilan perusahaan Fintech dan bank tradisional akan bergantung pada kemampuan mereka untuk memanfaatkan big data dalam menggali potensi bisnis.
  6. Researchers find 540 million Facebook user records on exposed servers
    Peneliti keamanan dari UpGuard menemukan ratusan juta informasi pengguna Facebook ada di server publik tanpa sengaja. Cultura Colectiva, perusahaan media digital Meksiko, meninggalkan lebih 540 juta data pengguna, termasuk komentar, reaksi, nama akun dan banyak lagi, di Amazon S3 tanpa kata sandi, yang memungkinkan siapapun dapat mengakses data tersebut.

Tutorial dan pengetahuan teknis

  1. Setup your Raspberry Pi Model B as Google Colab (Feb ’19) to work with Tensorflow, Keras and OpenCV
    Tutorial mengenai instalasi Tensorflow, Keras dan OpenCV pada Raspberry Pi.
  2. Forget APIs Do Python Scraping Using Beautiful Soup, Import Data File from the web: Part 2
    Saat ini, Data memainkan peran penting dalam setiap industri. Dan sebagian besar data ini berasal dari internet. Dalam tutorial ini , menjelaskan mengenai penggunaan paket Beautiful Soup pada python untuk melakukan web scraping.
  3. The Importance of Distributed Tracing for Apache-Kafka-Based Applications
    Artikel ini menjelaskan bagaimana melengkapi aplikasi berbasis Kafka dengan kemampuan penelusuran terdistribusi untuk membuat aliran data antara komponen event-based lebih terlihat. Mencakup Kafka clients, aplikasi Kafka Streaming, Kafka Connect pipelines dan KSQL.
  4. 4 Approaches to Overcoming Label Bias in Positive and Unlabeled Learning
    Label bias dalam machine learning di mana data yang tersedia adalah data positif dan data tanpa label, adalah salah satu masalah paling umum yang dihadapi oleh praktisi machine learning. Hal ini bisa menjadi masalah sulit untuk dideteksi dan dapat secara serius menghambat generalisasi model. Artikel ini membahas 4 pendekatan untuk mengatasi masalah tersebut.
  5. A text mining function for websites
    Artikel mengenai contoh implementasi text mining untuk situs web, dengan menggunakan bahasa R.
  6. Spark Structured Streaming Joins
    Pada artikel ini, akan dijelaskan mengenai metode JOIN yang tersedia di Spark Structured Streaming. Dalam proses streaming, kita mungkin memiliki beberapa sumber data statis dan streaming. Data-data tersebut mungkin saja harus digabungkan. Kita akan mempelajari bagaimana Spark Structured Streaming menangani berbagai jenis JOIN antara dataset statis dan streaming.
  7. How to Load, Convert, and Save Images With the Keras API
    Keras merupakan pustaka deep learning menyediakan API yang sangat baik dalam mengolah gambar (load, prepare dan augment). Juga termasuk didalamnya fungsi-fungsi tidak terdokumentasi yang memungkinkan untuk memuat, mengkonversi, dan menyimpan file gambar dengan cepat dan mudah.

Rilis Produk

  1. Open-sourcing PyTorch-BigGraph for faster embeddings of extremely large graphs
    Tim Facebook AI mengumumkan open-sourcing PyTorch-BigGraph (PBG), sebuah tool yang memungkinkan produksi embedding grafik yang lebih cepat dan mudah untuk grafik besar.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Jan 23 / 2019
  • Comments Off on Seputar Big Data edisi #59
Artificial Intelligece, Big Data, Social Media

Seputar Big Data edisi #59

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ketiga bulan Januari 2019.

Artikel dan berita

  1. Alibaba Snaps Up data Artisans for €90 million: Open Sources “Blink”
    Alibaba telah membeli perusahaan startup Data Artisans yang berbasis di Berlin dengan harga € 90 juta (£ 80 juta). Data Artisans didirikan pada tahun 2014 oleh pembuat framework pemrosesan data stream, Apache Flink.
  2. Creating a Data Strategy
    Kita perlu memiliki strategi untuk memaksimalkan nilai data yang kita miliki. Bagaimana melakukannya? Data apa yang harus dikumpulkan? Data mana yang akan disimpan – dan di mana? Siapa audiens untuk data tersebut? Siapa yang mengonsumsi data yang telah dianalisa?
  3. Was The Facebook ’10 Year Challenge’ A Way To Mine Data For Facial Recognition AI?
    Baru-baru ini cukup viral tantangan bertagar #10yearschallenge mengenai posting foto terkini disandingkan dengan foto dari 10 tahun yang lalu. Banyak pihak yang menduga mengenai motif di balik challenge tersebut, di antaranya apakah ini sebuah strategi dari Facebook untuk mengumpulkan data pengenalan wajah. Meskipun pihak Facebook menyangkal keterlibatan mereka dalam hal ini, namun perlu diakui bahwa beredarnya ratusan ribu, bahkan mungkin jutaan foto tersebut dapat menjadi data yang sangat bagus untuk melatih model pengenalan wajah.
  4. Novartis allies with Oxford academics for big data R&D drive
    Kolaborasi riset antara Novartis dan Big Data Institute di University of Oxford yang bertujuan untuk mengubah kumpulan data yang besar untuk digabungkan dan dianalisa untuk memperoleh insight yang dapat meningkatkan pengembangan obat dan perawatan pasien. Novartis adalah sebuah perusahaan farmasi yang berasal dari Swiss. Kerja sama ini telah berlangsung selama 5 tahun.
  5. What Is Data Profiling?
    Data Profiling adalah proses pemeriksaan data dari sumber yang ada dan merangkum informasi tentang data itu. Artikel ini akan menjelaskan kegunaan dan keuntungan dari Data Profiling.
  6. Researchers use Samsung data and AI to predict mobile game churn
    Tim peneliti yang berasal dari Samsung Research America, Universitas A&M Samsung, Universitas Pittsburgh, dan Universitas Arizona melakukan penelitian mengenai analisis churn dalam mobile game skala besar menggunakan deep learning. Metode ini menjanjikan analisis dan prediksi churn dengan memanfaatkan data interaksi detail.
  7. AI Devs Behind Robot Sophia Partner with Blockchain Agricultural Data Firm
    SingularityNET yang dikenal sebagai salah satu pendukung teknologi di belakang robot Sophia, menjalin kerja sama dengan Hara, sebuah perusahaan startup blockchain bidang pertanian. Kemitraan ini bertujuan untuk memanfaatkan data dalam proses diagnosis tanaman dan analisis data berbasis AI.

Tutorial dan pengetahuan teknis

  1. Accelerate the Training of Deep Neural Networks with Batch Normalization
    Melatih deep neural network yang memiliki puluhan layer cukup sulit dan berat karena neural network ini sangat peka terhadap inisialisasi dan perubahan konfigurasi algoritma pembelajaran. Salah satu strategi untuk mempercepat proses training adalah dengan metode batch normalization.
  2. What’s coming in TensorFlow 2.0
    TensorFlow 2.0 akan fokus dalam kemudahan dan kesederhanaan penggunaan, termasuk didalamnya beberapa fitur andalan seperti kemudahaan pembuatan model dengan menggunakan Keras, kemampuan yang baik untuk mengimplementasikan model di lingkungan production dalam berbagai platform, dan kemampuan ujicoba yang baik dalam skala riset. Untuk selengkapnya bisa membaca artikel ini.
  3. The Data Fabric for Machine Learning. Part 1
    Data fabric merupakan sebuah konsep mutakhir mengenai kesatuan data dalam sebuah organisasi. Artikel ini menjelaskan mengenai data fabric dan pemanfaatannya untuk mendukung machine learning.
  4. What Are Data Silos?
    Salah satu permasalahan dalam pengolahan dan pemanfaatan data dalam bisnis adalah munculnya data silo, yaitu data yang terpisah-pisah dan tidak dapat diakses oleh divisi lain. Artikel ini mengupas mengenai apa data silo, mengapa dapat muncul, serta apa strategi yang tepat untuk mengatasinya.
  5. ETL — Understanding It and Effectively Using It
    ETL atau extract, load, transform, adalah proses inti dari sistem pengolahan dan pemanfaatan data, mulai dari database, data warehouse, data hub, ataupun data lake. Kualitas produk data dan analisis yang dihasilkan sebuah sistem data sangat bergantung pada kualitas ETL-nya. Artikel ini membahas mengenai serba-serbi ETL dan bagaimana kita dapat menggunakannya secara efektif untuk berbagai sistem data

Rilis Produk

  1. AgilOne Announces Customer Data Platform Update with New Features for Machine Learning
    AgilOne, mengumumkan kemampuan fitur machine learning yang jauh lebih baik, serta peningkatan kemampuan pelaporan dan fitur-fitur baru untuk memaksimalkan keuntungan dan hasil program kupon.
  2. SOD: An Embedded OpenCV Alternative
    SOD adalah library alternatif untuk embedded machine learning lintas-platform dan computer vision yang mengekspos serangkaian API untuk deep learning, analisis & pemrosesan.
  3. Apache Arrow 0.12.0 released
    Apache Arrow 0.12.0 mencakup 614 resolved issues sejak rilis 0.11.1. Apache Arrow adalah layer analisis memori kolumnar untuk big data.
  4. Apache Kylin 2.6.0 released
    Rilis ini adalah rilis utama setelah versi 2.5, dengan lebih dari 90 perbaikan bug dan fitur tambahan. Apache Kylin adalah open source Distributed Analytics Engine yang dirancang untuk menyediakan antarmuka SQL dan analisis multi-dimensi (OLAP) di Apache Hadoop.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Nov 07 / 2018
  • Comments Off on Seputar Big Data Edisi #53
Apache, Artificial Intelligece, Big Data, Hadoop, Implementation, machine learning, Social Media

Seputar Big Data Edisi #53

Setelah lama tidak hadir, berikut kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali

Artikel dan Berita

  1. Big data plays a role in tourism of Hangzhou, a desirable destination for European travelers
    Hangzhou telah lama dianggap memiliki budaya hotspot dan kota pariwisata populer.
    Untuk membantu lebih memahami perilaku pengunjung terutaman dari Eropa, Expedia Group Media Solutions menganalisa pilihan yang dibuat oleh pengguna selama waktu mereka di situs web, bersama dengan data pemesanan yang ada dan tanggapan atau komentar yang dibuat.
  2. How big data can help identify and motivate voters
    Sebuah video wawancara dengan Chris Wilson dari WPA Intelligence menjelaskan bagaimana para ahli analisa data dapat membantu meningkatkan jumlah pemilih. Mereka menggunakan cara yang hampir sama pada sistem rekomendasi yang digunakan oleh Spotify, Netflix ataupun Amazon. Mereka mengidentifikasi profile pemilih dan mengidentifikasi masalah yang akan memotivasi pemilih dalam memilih kandidat.
  3. Apache Hadoop is Thriving!
    Sejak kelahirannya lebih dari satu dekade yang lalu, Hadoop telah berevolusi menjadi platform yang kuat dan sangat populer untuk penyimpanan dan analisa Big Data. Sebuah studi baru-baru ini dari Transparency Market Research menyatakan bahwa tidak hanya pertumbuhannya, pendapatan pasar global Hadoop diperkirakan juga meningkat menjadi 29% CAGR antara 2017 – 2023.
  4. Who’s Hot in Data & Analytics: Top Vendors to Watch
    2018 telah menjadi tahun yang penting bagi bisnis di seluruh industri karena mereka terus mendigitalkan lebih banyak operasional mereka. Berikut ini beberapa vendor penyedia jasa dan platform untuk Advanced Analytics, Data Science and Machine Learning Platform, Data Management and Governance.

Tutorial dan Pengetahuan Teknis

  1. Multi-Class Text Classification Model Comparison and Selection
    Tutorial mengenai penggunaan berbagai algoritma untuk mengklasifikasikan text, dan membandingkannya untuk memperoleh hasil yang paling akurat.
  2. TransmogrifAI: Building ML Apps simplified with AutoML
    Tutorial yang membahas keajaiban di balik TransmogrifAI dan akan dibandingkan penggunaannya dengan SparkML untuk memprediksi harga rumah.
  3. The Data Catalog Comes of Age
    Membuat katalog data adalah proses yang besar dan rumit. Artikel ini akan membahas mengenai langkah-langkah yang diperlukan, seperti mengumpulkan metadata, dan membuat katalog data yang sesuai dengan GDPR
  4. Top 10 real-life examples of Machine Learning
    Saat ini, machine learning telah digunakan dalam berbagai bidang dan industri. Misalnya, diagnosis medis, pemrosesan gambar, prediksi, klasifikasi, asosiasi pembelajaran, regresi, dll
  5. Protecting Hadoop Clusters From Malware Attacks
    Dua ancaman malware baru – XBash dan DemonBot – menargetkan server Apache Hadoop untuk penambangan Bitcoin dan untuk DDOS.

Rilis Produk

  1. Horizon: The first open source reinforcement learning platform for large-scale products and services
    Facebook mengumumkan Horizon sebagai proyek open source, sebuah platform machine learning berbasis Reinforcement Learning untuk dapat mengoptimalkan produk dan layanan yang digunakan oleh banyak orang.
  2. Tesseract version 4.0 released
    Google merilis Tesseract 4.0 yang memiliki proses OCR berbasis jaringan saraf yang baru yaitu LSTM, berbagai pembaharuan sistem pada sistem dan perbaikan lainnya, serta perbaikan bug.
  3. Python 3.7.1 and 3.6.7 are now availablePython 3.7.1 dan 3.6.7 merupakan maintenance release untuk versi Python 3.7 dan Python 3.6.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Mar 23 / 2018
  • Comments Off on MeetUp #19 Universitas Andalas, Padang
Apache, Artificial Intelligece, Big Data, Blockchain, Forum Info, Implementation, Komunitas, Social Media

MeetUp #19 Universitas Andalas, Padang

Pada meetup ke #19 ini idBigData menyapa rekan-rekan di kota Padang. Kali ini idBigData bekerja sama dengan Universitas Andalas, AIDI (Asosiasi Ilmuwan Data Indonesia), dan Labs247. Meetup dilaksanakan pada tanggal 13 Maret 2018 yang lalu, di gedung perpustakaan Universitas Andalas. Antusiasme rekan-rekan idBigData di Padang terlihat dari jumlah peserta yang mencapai sekitar 300 orang.

Acara dimulai pada pukul 9 pagi, dan dibuka dengan sambutan dari Rektor Universitas Andalas, Prof. Dr. Tafdhil Husni, S.E., M.B.A. dan Dekan Fakultas Teknologi Informasi, Dr. Ahmad Syafruddin Indrapriyatna, M.T.

Pembicara pertama adalah Husnil Kamil, M.T. dari Universitas Andalas, yang menyampaikan mengenai Big Data dalam Dunia Pendidikan. Dilanjutkan oleh CEO Labs247, Beno K. Pradekso, mengenai Big Data dan Deep Learning. Pembicara selanjutnya adalah chairman idBigData, Sigit Prasetyo, dengan materi Open Source Big Data Platform. Ditutup oleh Bagus Rully Muttaqien dari AIDI, menyampaikan topik Big Data dan Media Sosial.

Video meetup #19 dapat disaksikan di sini.


meetup-19-1

meetup-19-2

meetup-19-3

meetup-19-4

meetup-19-5

meetup-19-6

meetup-19-7

meetup-19-8

meetup-19-9

meetup-19-10

meetup-19-11

meetup-19-12

Contributor :


M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng.
Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun.
Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.
  • Feb 13 / 2017
  • Comments Off on Seputar Big Data Edisi #5
Apache, Big Data, Forum Info, Hadoop, Social Media

Seputar Big Data Edisi #5

Seputar Big Data edisi #5

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke dua bulan Februari 2017

Artikel dan berita

  1. A Very Short History of Artificial Intelligence (AI)
    Sejarah singkat mengenai perkembangan kecerdasan buatan (AI) dari masa ke masa
  2. Chicken Wings or Pizza? Adobe Discusses Super Bowl Insights
    Adobe melakukan penggalian dan analisa pada data mobile ads, sentimen sosial media dan transaksi pembelian untuk mendapatkan tren yang terjadi menjelang pertandingan pada Sunday's Super Bowl antara Atlanta Falcons melawan New England Patriots
  3. 5 Major Big Data Predictions for 2017
    Seputar prediksi area yang akan berkembang dalam penggunaan dan pemanfaatan layanan komputasi awan pada tahun ini 2017.
  4. How to Boost Your Career in Big Data and Analytics
    Saat ini adalah era digital, segala sesuatu dapat menjadi data digital, sehingga peran penting Big Data dan Data Analytics terus meningkat dan tumbuh kedepannya. Ini merupakan kesempatan untuk berkarir di area ini.
  5. How Facebook Is Getting Better at Recognizing Your Photo
    Awal Februari ini Facebook mengupdate fitur pencarian foto menggunakan platform computer vision mereka. Sekarang anda dapat mencari foto di Facebook menggunakan keyword yang mendeskripsikan isi foto.
  6. Big data, financial services and privacy : Should our bankers and insurers be our Facebook friends?
    Bank dan perusahaan asuransi biasanya mendasarkan penilaian mereka pada apa yang dilaporkan oleh customer dan agen mereka. Namun akhir-akhir ini mereka mulai menggunakan sumber-sumber lain yang lebih personal seperti data aplikasi website dan mobile-banking. Bahkan sumber yang tidak konvensional semacam profil media sosial, web browsing, maupun phone location tracker. Dalam sebuah percobaan, FICO, penilai kredit terkemuka di Amerika, menemukan bahwa status Facebook seseorang dapat membantu memprediksi kelayakan kredit seseorang. Saat ini mereka bahkan berusaha mempelajari ekspresi dan nada suara seseorang untuk menentukan resiko kreditnya. Hal ini di samping menjadi peluang, namun juga mengundang beberapa kritik, terutama dari sisi privacy maupun kemungkinan financial exclusion.
  7. How nonprofits use big data to change the world
    Bagaimana organisasi-organisasi nirlaba memanfaatkan data untuk mendukung kegiatan mereka.
  8. Healthcare DATA Integration: The Foundation for Population Health
    Integrasi data dalam pelayanan kesehatan merupakan sebuah hal yang sangat penting, terutama untuk memberikan layanan kesehatan yang terbaik dan terintegrasi untuk masyarakat. Artikel ini membahas mengenai apa saja sumber data yang penting dalam bidang kesehatan, dan apa saja use case yang penting untuk diimplementasikan.

Tutorial dan pengetahuan teknis

  1. Automatically Segmenting Data With Clustering
    Dalam tutorial ini dijelaskan secara singkat mengenai algoritma K-Means Clustering, dan bagaimana mengukur keakuratannya, dan bagaimana memilih segmen yang dihasilkan
  2. You Want Data Science, Now What?
    Langkah-langkah praktis bagi sebuah organisasi yang ingin memulai implementasi data science.
  3. ModernDive: A free introduction to statistics and data science with R
    Sebuah open source textbook mengenai statistik dan data science dalam R. Menjelaskan dengan komprehensif mengenai : menggunakan R untuk mengeksplor dan memvisualisasikan data, menggunakan randomizaation dan simulasi untuk membangun ide inferensial, dan membangun sebuah 'cerita' menggunakan ide-ide tersebut dan menampilkannya ke audiens umum. Menariknya, buku ini sendiri ditulis dalam R, menggunakan package bookdown.
  4. 5 Data Science Books You Should Read in 2017
    5 buku yang perlu dibaca untuk anda yang ingin mengenal atau memperdalam pengetahuan dalam bidang data sains dan big data.
  5. Text mining and word cloud fundamentals in R : 5 simple steps you should know
    Metode text mining memungkinkan kita untuk menyoroti kata kunci yang paling sering digunakan dalam sebuah teks. Untuk menampilkannya dapat digunakan word cloud, juga disebut sebagai text cloud atau tag cloud, yang merupakan representasi visual dari data teks. Artikel ini akan menjelaskan langkah demi langkah cara untuk menghasilkan word cloud dengan menggunakan R.
  6. Fueling the Gold Rush: The Greatest Public Datasets for AI
    Saat ini makin mudah bagi kita untuk membangun sebuah sistem berbasis AI atau machine learning, terutama dengan semakin banyaknya open source tools semacam Tensorflow, Torch, Spark, dan lain sebagainya. Faktor lain yang tidak kalah penting dalam pembuatan sistem berbasis AI adalah data. Berikut ini daftar open dataset dalam berbagai format, yang tidak boleh dilewatkan untuk penggiat dan peminat AI.

Rilis produk

  1. Welcome to Apache Zeppelin 0.7.0
    Rilis Apache Zeppelin 0.7.0 dengan beberapa perbaikan dan penambahan fitur, di antaranya adalah peningkatan multi user, pluggable visualisation, peningkatan dukungan untuk Apache Spark dan security.
  2. The Apache Software Foundation Announces Apache® Ranger™ as a Top-Level Project
    Awal Februari ini Apache Foundation mengumumkan bahwa Apache Ranger ‘lulus’ dari status incubating menjadi sebuah top level project (TLP). Apache Ranger menyediakan cara sederhana dan efektif untuk setting access control dan mengaudit akses data di seluruh Hadoop stack. Salah satu manfaat utama dari Ranger adalah bahwa access control policies dapat dikelola oleh security administrator secara konsisten di seluruh ekosistem Hadoop. Dengan arsitektur plugin yang kuat, Ranger juga memungkinkan komunitas untuk menambahkan sistem baru untuk otorisasi bahkan di luar ekosistem Hadoop, dengan effort yang minimal.
  3. Google is Set to Open Source Google Earth Enterprise
    Google mengumumkan bahwa mereka akan segera membuka seluruh core Google Earth Enterprise (GEE) tools mereka menjadi open source. Rencananya langkah ini akan dilakukan pada bulan maret mendatang.
  4. Apache OpenNLP 1.7.2 released
    Rilis Apache OpenNLP versi 1.2.7. Apache OpenNLP library adalah toolkit berbasis machine learning untuk pengolahan teks bahasa alami. Mendukung task NLP yang paling umum, seperti tokenization, segmentasi kalimat, part-of-speech tagging, named entity extraction, chunking, parsing, dan coreference resolution.
  5.  

    Contributor :

    Tim idbigdata
    always connect to collaborate every innovation 🙂
  • Jan 09 / 2017
  • Comments Off on Seputar Big Data edisi #1
Apache, Big Data, Hadoop, Implementation, IoT, Social Media, Storage, Storm, Uncategorized

Seputar Big Data edisi #1

Seputar Big Data edisi #1

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan Januari 2017.

Artikel dan berita

  1. datafloq.com - 4 Industries Leading the Way in IoT Integration
    Perkembangan Internet of Thing saat ini sangat pesat. Diprediksi dalam waktu dekat, hampir semua perangkat akan terkoneksi satu sama lainnya untuk membuat hidup kita lebih mudah. Ada 4 industri yang diperkirakan akan mengambil manfaat dari IoT.
  2. AWS Big Data Blog - Decreasing Game Churn: How Upopa used ironSource Atom and Amazon ML to Engage Users
    Apakah pernah mengalami kesulitan untuk menjaga loyalitas pengguna supaya tidak meninggalkan game atau aplikasi, setelah bersusah untuk menarik pengguna? Upopa, sebuah studio game yang memanfaatkan machine learning untuk memprediksi perilaku para pengguna game
  3. oreilly.com - 7 AI trends to watch in 2017
    Pada tahun 2016 lalu, banyak terjadi inovasi-inovasi yang luar biasa, banyak investasi di bidang Artificial Intelligent baik pada perusahaan besar maupun startup. Bagaimana dengan tahun 2017?
  4. DZone - Understanding Machine Learning
    Apa sebetulnya Machine Learning? Sebuah penjelasan mengenai machine learning, cara kerjanya dan bagaimana penggunaannya.
  5. Yahoo Finance - Hadoop Big Data Analytics Market Worth 40.69 Billion USD by 2021
    Menurut sebuah laporan market research yang dipublikasikan oleh MarketsandMarkets, pasar big data analytics akan berkembang dari USD 6.71 miliar di tahun 2016 akan menjadi USD 40.69 miliar di tahun 2021.
  6. insideBIGDATA - Loggly Introduces Gamut™ Search for Massive-Scale Log Analysis
    Loggly, perusahaan di balik, kelas enterprise layanan manajemen log berbasis cloud, memperkenalkan Gamut ™ Search, teknologi analisa log yang khusus dirancang untuk merespon langsung pencarian pada data bervolume sangat besar dan dalam periode waktu yang lama.
  7. BrightPlanet - Social Media Data – Instagram Pulls Back on API Access
    Program pemantauan sosial media perlu melakukan perubahan dan terbuka untuk opsi lain pada data open-source. Seperti Instagram melakukan beberapa perubahan akses API, dan akses ke data-data akan dibatasi.

 

Tutorial dan pengetahuan teknis

  1. ZDNet - Hands-on with Azure Data Lake: How to get productive fast
    Microsoft Azure Data Lake saat ini telah tersedia secara umum, tapi apa fungsinya, dan bagaimana cara kerjanya? Artikel berikut merupakan overview seputar tools dan kemampuan layanan, untuk membantu memahami dan meningkatkan produktifitas.
  2. KDnuggets - Internet of Things Tutorial: WSN and RFID – The Forerunners
    Wireless Sensor Network dan RFID adalah kunci utama untuk memahami konsep-konsep yang lebih kompleks dari IoT dan teknologinya.
  3. KDnuggets - Internet of Things Tutorial: WSN and RFID – The Forerunners
    Wireless Sensor Network dan RFID adalah kunci utama untuk memahami konsep-konsep yang lebih kompleks dari IoT dan teknologinya.
  4. IBM Big Data Hub - How to build an all-purpose big data engine with Hadoop and Spark
    Beberapa organisasi sering salah dalam mengoptimalkan penggunakan Hadoop dan Spark bersama-sama, terutama karena masalah kompleksitas. Padalah kombinasi keduanya memungkinkan untuk analisa data yang lebih luas dan mendukung use case yang lebih banyak.
  5. DZone Big Data - Kafka Avro Scala Example
    Tutorial mengenai cara menulis dan membaca pesan dalam format Avro dari/ke Kafka. Bagaimana cara menghasilkan pesan untuk dikodekan menggunakan Avro, cara mengirim pesan tersebut ke Kafka, dan bagaimana untuk mengkonsumsi dengan konsumen dan akhirnya bagaimana untuk dibaca dan digunakan.
  6. IBM Hadoop Dev - Enable Snappy Compression for Improved Performance in Big SQL and Hive
    Ketika loading data ke dalam tabel Parquet, Big SQL akan menggunakan kompresi Snappy secara default. Pada Hive, secara default kompresi tidak diaktifkan, akibatnya tabel bisa secara signifikan menjadi lebih besar
  7. KDnuggets - Generative Adversarial Networks – Hot Topic in Machine Learning
    Apa Generative Adversarial Networks (GAN)? Ilustratif sederhana dari GAN adalah dengan mengambil contoh seperti memprediksi frame berikutnya dalam urutan video atau memprediksi kata berikutnya saat mengetik di google search.
  8. MapR - Monitoring Real-Time Uber Data Using Spark Machine Learning, Streaming, and the Kafka API (Part 2)
    Ini merupakan bagian kedua dari tutorial untuk membuat pemantauan secara realtime mobil-mobil yang digunakan oleh Uber. Tutorial ini menggunakan algoritma k-means pada Apache Spark untuk melakukan pengelompokan data secara realtime
  9. LinkedIn Engineering - Asynchronous Processing and Multithreading in Apache Samza, Part I: Design and Architecture
    Apache Samza terus digunakan oleh LinkedIn dan perusahaan lain untuk melakukan pemrosesan stream. Pada sistem pengolahan stream lainnya menyederhanakan model pemrograman untuk menjadi synchronous and stream/event-based, sedangkan Samza mengembangkan model asynchronous.
  10. MapR - Processing Image Documents on MapR at Scale
    Sebuah tutorial dari MapR untuk pemrosesan gambar dengan menggunakan Apache Spark dan Tesseract OCR engine

 

Rilis produk

  1. GitHub - kafka-utilities
    Sebuah project yang dishare oleh wushujames di hithub.com yang memberikan script untuk menganalisa keadaan klaster Kafka, untuk menentukan broker yang dapat digunakan untuk partisi under-replicated
  2. GitHub - burry
    Burry adalah backup recovery tool yang digunakan untuk membackup dan mengembalikan service pada Zookeepr dan etcd. Tools ini dibuat oleh Michael Hausenblas dan dapat diunduh pada github.com

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
Pages:12
Tertarik dengan Big Data beserta ekosistemnya? Gabung