:::: MENU ::::

Posts Categorized / Komunitas

  • Mar 23 / 2018
  • Comments Off on MeetUp #19 Universitas Andalas, Padang
Apache, Artificial Intelligece, Big Data, Blockchain, Forum Info, Implementation, Komunitas, Social Media

MeetUp #19 Universitas Andalas, Padang

Pada meetup ke #19 ini idBigData menyapa rekan-rekan di kota Padang. Kali ini idBigData bekerja sama dengan Universitas Andalas, AIDI (Asosiasi Ilmuwan Data Indonesia), dan Labs247. Meetup dilaksanakan pada tanggal 13 Maret 2018 yang lalu, di gedung perpustakaan Universitas Andalas. Antusiasme rekan-rekan idBigData di Padang terlihat dari jumlah peserta yang mencapai sekitar 300 orang.

Acara dimulai pada pukul 9 pagi, dan dibuka dengan sambutan dari Rektor Universitas Andalas, Prof. Dr. Tafdhil Husni, S.E., M.B.A. dan Dekan Fakultas Teknologi Informasi, Dr. Ahmad Syafruddin Indrapriyatna, M.T.

Pembicara pertama adalah Husnil Kamil, M.T. dari Universitas Andalas, yang menyampaikan mengenai Big Data dalam Dunia Pendidikan. Dilanjutkan oleh CEO Labs247, Beno K. Pradekso, mengenai Big Data dan Deep Learning. Pembicara selanjutnya adalah chairman idBigData, Sigit Prasetyo, dengan materi Open Source Big Data Platform. Ditutup oleh Bagus Rully Muttaqien dari AIDI, menyampaikan topik Big Data dan Media Sosial.

Video meetup #19 dapat disaksikan di sini.


meetup-19-1

meetup-19-2

meetup-19-3

meetup-19-4

meetup-19-5

meetup-19-6

meetup-19-7

meetup-19-8

meetup-19-9

meetup-19-10

meetup-19-11

meetup-19-12

Contributor :


M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng.
Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun.
Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.
  • Mar 15 / 2018
  • Comments Off on Seputar Big Data Edisi #51
Apache, Artificial Intelligece, Big Data, Forum Info, Hadoop, Implementation, IoT, Komunitas, Spark

Seputar Big Data Edisi #51

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan Maret 2018.

Artikel dan Berita

  1. Dubai Decrees Itself the A.I. City-State of the Future
    Pemerintah UEA mencanangkan Dubai sebagai kota AI masa depan, dengan mendorong implementasi big data dan AI. Beberapa di antaranya adalah menyediakan menyediakan lingkungan yang terjangkau untuk melakukan inkubasi dan launching bisnis di bidang AI, setelah pada tahun 2016 PM UAE menginvestasikan US$270 juta untuk inovasi. Pada Oktober tahun lalu UAE menunjuk menteri bidang AI, yang merupakan menteri pertama di dunia yang khusus menangani bidang ini.
  2. Mengenal Kelas Big Data dan Komputasi Kognitif Pertama di Indonesia
    Fakultas Ekonomi dan Bisnis Universitas Indonesia (FEB UI) meluncurkan mata kuliah baru : Big Data dan Komputasi Kognitif yang pertama di Tanah Air. Kelas ini hadir atas kemitraan UI dengan perusahaan solusi kognitif dan platform cloud IBM Indonesia.
  3. Google’s March Madness AI contest offers 0,000 in prizes
    Google menyelenggarakan kompetisi AI untuk prediksi hasil turnamen basket antar perguruan tinggi, NCAA March Madness, dengan hadiah sebesar US$100,000. Dalam kompetisi ini peserta membuat software AI untuk prediksi pemenang, dengan data dari 40 juta pertandingan basket NCAA yang direkam sejak 2009.
  4. Baidu shows strategic vision with AI map merger
    Salah satu raksasa internet dari China, Baidu, baru-baru ini mengumumkan pengalihan bisnis peta digital mereka. Baidu Maps dialihkan ke bawah AI Group, setelah sebelumnya berada di bawah anak perusahaan yang memegang mesin pencari web. Langkah ini merupakan upaya mendorong bisnis AI mereka. Dikabarkan kemungkinan di masa datang Baidu Maps akan kembali dialihkan ke dalam bagian yang mengembangkan autonomous car.
  5. AI ‘more dangerous than nukes’: Elon Musk still firm on regulatory oversight
    Elon Musk mengatakan bahwa AI memiliki potensi bahaya yang lebih besar daripada nuklir. Oleh karena itu menurut Musk, perlu dibentuk sebuah badan independen yang dapat memastikan penerapan-penerapan AI dilakukan dalam batas yang aman untuk umat manusia di seluruh dunia.
  6. Elastic Plots Its Own Course to Big Data Success
    Elastic, perusahaan di belakang Elasticsearch, salah satu project open source terpopuler, adalah salah satu perusahaan terkemuka di bidang big data. Berikut ini beberapa ‘rahasia’ di balik kesuksesan Elastic.
  7. Waymo self-driving trucks to transport Google Atlanta data center gear
    Waymo, perusahaan self driving car milik Alphabet, melebarkan pengujian kendaraan swakemudi dari mobil penumpang biasa ke kendaraan besar, yaitu truk. Percobaan pertama mereka ditujukan untuk membantu data center Google di Atlanta, Georgia.

Tutorial dan Pengetahuan Teknis

  1. Gentle Introduction to Apache NiFi for Data Flow… and Some Clojure
    Tutorial mengenai Apache NiFi. Menjelaskan mengenai bagaimana membuat prosesor yang membaca dari file, prosesor yang menulis ke file, dan prosesor yang dapat menginsert data ke MongoDB.
  2. Getting started with Data Engineering
    Salah satu spesialisasi yang banyak dicari akhir-akhir ini adalah Data Engineer, bahkan kebutuhan data engineer ini diperkirakan melebihi kebutuhan terhadap data saintis. Artikel ini memberikan penjelasan yang cukup bagus mengenai apa itu data engineer, serta beberapa terminologi yang menyertainya.
  3. MongoDB and Data Streaming: Implementing a MongoDB Kafka Consumer
    Pengenalan singkat mengenai Apache Kafka dan bagaimana menggunakan MongoDB sebagai sumber dan tujuan data yang di-stream.
  4. Introducing Pulsar Functions
    For simple ETL, real-time aggregation, event routing, and similar use cases, Apache Pulsar is adding Pulsar Functions. Inspired by AWS Lambda and Google Cloud Functions, Pulsar Functions use a simple API and the Pulsar cluster for deployment. The post covers the design goals, deployment mechanism, runtime guarantees, and more.
    Apache pulsar menambahkan Pulsar Functions untuk menangani use case
  5. Installing Apache Spark 2.3.0 on macOS High Sierra
    Overview mengenai instalasi Apache Spark 2.3.0 di atas Mac OS.
  6. Daftar lengkap operasi aljabar linier yang diperlukan dalam menggunakan NumPy untuk aplikasi machine learning.
  7. [DATASET] LibriSpeech ASR corpus
    LibriSpeech adalah korpus yang berisi sekitar 1000 jam 16kHz audio dalam bahasa Inggris. Data didapatkan dari project audiobook LibriVox, yang telah disegmentasi dan diselaraskan.

Rilis Produk

  1. The Building Blocks of Interpretability
    Google merilis Lucid, library jaringan syaraf tiruan yang dibangun dari project DeepDream. Lucid digunakan untuk menambahkan efek artistik pada gambar. Di samping itu juga dirilis Google Colab, jupyter notebook yang disimpan di google drive, dan dapat langsung digunakan untuk menjalankan Lucid dan berbagai aplikasi deep learning tanpa perlu melakukan setup infrastruktur apapun.
  2. Semantic Image Segmentation with DeepLab in Tensorflow
    Google merilis DeepLab-v3+, model Tensorflow yang digunakan untuk melakukan segmentasi semantik image. Segmentasi semantik adalah proses memberikan label semantik setiap piksel dalam sebuah citra/image, seperti misalnya ‘langit’, ‘awan’, ‘ayam’, dsb.
  3. Apache MXNet (incubating) 1.1.0 Release
    Apache MXNet (incubating), sebuah framework deep learning, rilis versi 1.1.0.
    Tercakup di dalamnya peningkatan kinerja untuk GPU maupun CPU, penambahan dukungan operator, dan tutorial serta contoh penggunaan yang semakin lengkap.
  4. Apache Kylin 2.3.0 released
    Apache Kylin 2.3.0 merupakan rilis major, dengan lebih dari 250 perbaikan dan peningkatan. Apache Kylin adalah engine analytics terdistribusi, menyediakan antarmuka SQL dan OLAP di atas Hadoop.
  5. Apache Hivemall 0.5.0-incubating released
    Apache Hivemall adalah library machine learning yang diimplementasikan sebagai UDF/UDAF/UDTF. Versi 0.5.0 ini merupakan rilis pertama sejam Hivemall memasuki inkubator Apache. Hivemall berjalan di atas framework pemrosesan data berbasis Hadoop, yaitu Hive, Spark dan Pig.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Oct 04 / 2017
  • Comments Off on MeetUp ke 17 idBigData di ITB, Bandung
meetup_17_itb
Apache, Big Data, Forum Info, Komunitas, Meet Up

MeetUp ke 17 idBigData di ITB, Bandung

meetup_17_itb

idBigData dan Institut Teknologi Bandung berkolaborasi dengan Asosiasi Ilmuwan Data Indonesia (AIDI), Bukalapak.com, Prodi Teknik Informatika ITB dan Labs247 mengadakan meetup idBigdata yang ke 17.

MeetUp tersebut diselenggarakan pada Kamis, 28 September 2017 di Auditorium Campus Center Timur ITB. Acara dimulai sekitar pukul 09.00. Dan dibuka oleh Wakil Dekan School of Electrical Engineering and Informatics ITB, Dr. Ir. Nana Rachmana Syambas M. Eng

Pembicara-pembicara pada acara ini adalah:

Dr. techn. Muhammad Zuhri Catur Candra, Institut Teknolog Bandung dengan topik “The Journey in The Data-Intensive World
Teguh Nugraha, Head of Data Bukalapak.com dengan topik “Big Data in E-commerce
Solechoel Arifin, Labs247 dengan topik “Implementasi DNA Sequence Alignment pada HGrid247
Sigit Prasetyo, idBigData dengan topik “Open Source Solution for Data Analytics Workflow

Meetup ini diikuti oleh 60 peserta, dari kalangan mahasiswa maupun profesional.

Video lengkap Meetup idBigdata #17 maupun berbagai kegiatan idBigdata sebelumnya dapat diakses di channel idBigdata.

Contributor :


M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng.
Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun.
Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.
  • Aug 31 / 2017
  • Comments Off on Seputar Big Data Edisi #27
Big Data, Forum Info, Hadoop, Komunitas, Uncategorized

Seputar Big Data Edisi #27

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke 4 bulan Agustus 2017

Artikel dan berita

  1. Big data in financial services: 9 companies to watch
    Daftar beberapa perusahaan yang membawa Big Data ke sektor jasa keuangan dan bagaimana mereka mengubah lanskap menjadi pemikiran yang lebih maju dan lebih siap menghadapi masa depan keuangan.
  2. Big Data Analytics to Disrupt U.S. Next-generation Sequencing Informatics Market with Double-digit Growth
    Dalam laporan riset pasar Frost & Sullivan, "Transformation and Growth Opportunities in the US Next-generation Sequencing Informatics Market, Forecast to 2021," ditemukan bahwa pasar IT untuk NGS Amerika menghasilkan pendapatan sebesar $ 416 juta pada tahun 2016 dan diharapkan untuk mencatat tingkat pertumbuhan tahunan gabungan (CAGR) sebesar 19,0 persen sampai tahun 2021.
  3. Groupon is a massive data-driven experiment — this team helps run it
    Groupon telah melakukan tweak dan menguji setiap bagian platform e-commerce yang dimilikinya untuk mengetahui secara tepat apa yang membuat pelanggan melakukan sebuah klik. Namun demikian Groupon terus melakukan ujicoba untuk menambahkan fitur baru yang meningkatkan bisnis dan membuang fitur yang tidak sesuai.
  4. Report shows that AI is more important to IoT than big data insights
    Sebuah survey yang dilakukan menunjukkan bahwa sebagian besar perusahaan yang menerapkan IoT mengalami kesulitan karena besarnya biaya pemeliharaan. Apakah big data analysis tidak cukup sebagai solusinya? Bagaimana peran AI dalam hal ini?
  5. 6 Ways Big Data is enhancing the global supply chain
    Seiring dengan semakin kompleksnya sistem supply chain di seluruh dunia dan semakin besarnya tuntutan pelanggan, makin sengit pula persaingan dalam penyediaan aplikasi dan sistem yang dapat mengelola secara efektif dengan memanfaatkan bermilyar-milyar gigabyte data yang dihasilkan setiap harinya. Berikut ini 6 aspek di mana big data dapat mengubah dan mendukung supply chain secara global.
  6. Five Big Data solutions to manage chronic diseases
    Beberapa hal yang dapat dilakukan dengan menggunakan solusi Big Data untuk membantu mengelola dan melakukan perawatan ketika mengalami kondisi kronis suatu penyakit.

Tutorial dan Pengetahuan Teknis

  1. Apache Spark vs. MapReduce
    Spark mengklaim bahwa kemampuannya untuk "menjalankan program hingga 100x lebih cepat daripada Hadoop MapReduce di memori, atau 10x lebih cepat pada disk." Klaim ini didasarkan pada kemampuan Spark melakukan pemrosesan dalam memori dan mencegah operasi I/O yang tidak perlu ke dalam disk.
  2. Introducing KSQL: Open Source Streaming SQL for Apache Kafka
    KSQL merupakan SQL query engine open source yang memungkinkan untuk melakukan query secara interaktif pada Apache Kafka. Tidak lagi diperlukan untuk melakukan pemrograman menggunakan Java ataupun Phyton.
  3. Packages to simplify mapping in R
    Sharon Machlis telah membuat tutorial yang sangat berguna untuk membuat peta data geografis dengan menggunakan R. Ada beberapa paket dan API data terbaru yang dapat digunakan untuk mempermudah melakukan hal tersebut.
  4. Running Apache Spark Applications in Docker Containers
    Sekumpulan tips untuk membantu mempersiapkan klaster Spark dengan menggunakan Docker.

Rilis Produk

  1. Open sourcing DoctorKafka: Kafka cluster healing and workload balancing
    Pinterest mengopensourcekan aplikasi bernama DoctorKafka yang berfungsi untuk mempermudah operasional, optimasi dan memonitor sebuah klaster Kafka.
  2. Announcing Data Collector v2.7.0.0
    StreamSets Data Collector versi 2.7.0.0 telah dirilis. Dalam rilis ini mencakup konektor untuk Google Cloud, CDC untuk SQL Server, konektor ke JMS, integrasi dengan Cloudera Navigator untuk melakukan pelacakan silsilah, dan eksekutor pada Amazon S3.
  3. The Apache Kylin 2.1.0
    Apache Kylin versi 2.1.0, sebuah OLAP engine untuk Hadoop, dirilis. Rilis baru ini menambahkan dukungan untuk sumber data RDMBS, otorisasi queri pada tingkat proyek, dan lebih dari 100 perbaikan bug.
  4. Apache Knox 0.13.0
    Apache Knox 0.13.0 dirilis dan menyertakan sejumlah fitur baru, seperti integrasi dengan REST API Kafka, dukungan Spark Thriftserver UI, Apache Atlas Proxying, dan banyak perbaikan bug.Apache Knox 0.13.0 dirilis dan menyertakan sejumlah fitur baru, seperti integrasi dengan REST API Kafka, dukungan Spark Thriftserver UI, Apache Atlas Proxying, dan banyak perbaikan bug.
  5. Apache HBase 1.1.12
    Apache HBase 1.1.12 merupakan sebuah rilis perbaikan terhadap sekitar 10 bug.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Jul 21 / 2017
  • Comments Off on Seputar Big Data Edisi #22
Big Data, Forum Info, Hadoop, Komunitas, Uncategorized

Seputar Big Data Edisi #22

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan Juli 2017

Artikel dan berita

  1. Stanford researchers find intriguing clues about obesity by counting steps via smartphones
    Sebuah penelitian global berdasarkan berapa jumlah langkah perhari, dicatat menggunakan smartphone, menunjukkan adanya "ketimpangan aktivitas". Hal ini bisa dianggap serupa dengan ketimpangan pendapatan, di mana "kemiskinan langkah" menyebabkan kecenderungan obesitas, sedangkan "kekayaan langkah" menghasilkan kebugaran dan kesehatan.
  2. A better approach to disease prediction through big data analytics
    Bagaimana penggunaan data hasil crowdsourcing dan analytics big data dapat meningkatkan kualitas prediksi kesehatan.
  3. How a new wave of machine learning will impact today’s enterprise
    AI dan machine learning menjadi sebuah kebutuhan bagi perkembangan dan persaingan bisnis. Bagaimana trend terbaru penerapan machine learning, dan apa yang perlu dilakukan perusahaan untuk dapat mengambil manfaat sebesar-besarnya?
  4. How Colleges Can Use Big Data to Encourage Better Management
    Pengelolaan sebuah institusi pendidikan tidak hanya berkaitan dengan unsur pendidikan saja, namun juga bagaimana me-manage dan menciptakan lingkungan kerja yang kondusif bagi para staf. Artikel ini membahas bagaimana institusi pendidikan tinggi memanfaatkan big data untuk dapat meningkatkan kualitas manajemen mereka.

Tutorial dan pengetahuan teknis

  1. Facets: An Open Source Visualization Tool for Machine Learning Training Data
    Bekerjasama dengan PAIR initiative, google team merilis Facets, sebuah tools open source visualisasi yang dapat digunakan untuk membantu memahami dan menganalisa data XML. Facets terdiri dari dua visualisasi yang memungkinkan pengguna untuk memperoleh gambaran holistik dari data-data yang dimiliki.
  2. The Modern Problem of Collecting Network Data
    Big Data tidak hanya mengenai sekumpulan informasi yang telah ada sebelumnya, serta bukan hanya melempar konten digital ke dalam database untuk diproses nantinya. Akan tetapi Big Data juga harus melibatkan pembangunan sistem yang dapat digunakan untuk mengumpulkan lebih banyak aset, seperti statistik, angka-angka, pola pengguna dan berbagai hal detail lainnya dari berbagai sumber.
  3. Text Classifier Algorithms in Machine Learning
    Salah satu problem dalam machine learning adalah klasifikasi teks, yang banyak digunakan mulai dari deteksi spam, penentuan topik sebuah artikel, dan lain sebagainya. Artikel ini membahas mengenai beberapa algoritma klasifikasi teks lengkap dengan use case-nya. Disertakan pula link menuju resource dan tutorial untuk pembaca yang ingin mempelajari lebih dalam.
  4. Advanced Machine Learning with Basic Excel
    Implementasi machine learning tidak harus selalu menggunakan bahasa pemrograman seperti R, Scala, atau Python misalnya, namun dapat juga dilakukan menggunakan Microsoft Excel, bahkan dengan menggunakan fitur dasarnya saja (tanpa macros), seperti yang ditampilkan dengan gamblang di dalam artikel ini.
  5. Artificial Intelligence Explained Part 1
    Satu lagi artikel yang mengupas mengenai AI, yang ditujukan untuk pembaca tanpa latar belakang matematika ataupun pemrograman.

Risil Produk

  1. Apache HAWQ 2.2.0.0-incubating Released
    Rilis ini mencakup CentOS 7.x Support, Ranger Integration, PXF ORC Profile dan Bug Fixes.
  2. Apache Hive 2.3.0 Released
    Fitur baru yang tercakup di antaranya peningkatan vektorisasi untuk ACID dengan menghilangkan row-by-row stitching, menambahkan UDF untuk uniontype values, dan menambahkan StrictRegexWriter untuk RegexSerializer di Flume Hive Sink. Di samping itu tercakup pula 8 perbaikan dan lebih dari 125 bug fixing.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Jul 12 / 2017
  • Comments Off on Seputar Big Data Edisi #21
Apache, Big Data, Forum Info, Hadoop, Komunitas

Seputar Big Data Edisi #21

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan Juli 2017

Artikel dan Berita

  1. DataOps: How To Use Big Data To Achieve A Data-Driven Enterprise
    Banyak perusahaan sangat menyadari akan manfaat yang didapat dari Big Data bagi perusahaan. Mendapatkan pemahaman yang lebih baik tentang perilaku pelanggan dan membuat keputusan bisnis yang lebih baik, hanya sebagian manfaat yang didapat oleh suatu perusahaan atau organisasi berbasis data.
  2. What Does the Customer Want? Big Data Knows
    Dunia e-comerce saat ini, produk dirancang berdasarkan analisa perilaku konsumen, dimana kebutuhan pelanggan terpenuhi sebelum mereka menyadari bahwa mereka memilikinya. Produsen mungkin tidak dapat membaca pikiran, tetapi dengan next generation big data, seolah-olah pembacaan pikiran dapat dilakukan.
  3. Open Source Is The New Normal In Data and Analytics
    Dengan menggunakan Hadoop sebagai teknologi utama, arsitektur data open source telah mencapai tingkat kestabilan dan adopsi yang cukup baik, namun demikian belum sepenuhnya dapat dinikmati oleh perusahaan-perusahaan.
  4. Five big data trends in healthcare
    Penyedia jasa kesehatan memanfaatkan big data untuk memperbaiki hasil perawatan terhadap pasien serta menurunkan biaya. Pada tahun 2017 ini, industri kesehatan akan melihat lima tren dari pemanfaatan big data.
  5. Better Buy: Hortonworks vs. Cloudera
    Dua Hadoop distro berhadapan dalam persaingan untuk sebuah pasar yang sangat besar. Mana yang lebih baik untuk dibeli ?
  6. The 10 Coolest Big Data Startups Of 2017 (So Far)
    Banyak startup yang bermain di area big data memfokuskan diri untuk memberikan solusi terhadap masalah dalam menghubungkan sumber data yang berbeda dan memindahan data ke dalam cloud untuk memudahkan akses dan analisa. Ada juga tren yang sedang berkembang yaitu penggunaan machine learnig dan artificial intelligence dalam aplikasi big data untuk membuat sistem yang lebih cerdas.

Tutorial dan Pengetahuan Teknis

  1. Medical Image Analysis with Deep Learning Part 4
    Tulisan ini merupakan bagian keempat dan akan membahas mengenai gambar medis dan komponennya, format gambar medis dan konversi formatnya. Tujuannya adalah untuk mengembangkan pengetahuan untuk membantu dalam menganalisa citra medis dengan menggunakan deep learning
  2. Five Steps to Tackling Big Data with Natural Language Processing
    Apa 5 langkah mendasar yang harus diambil untuk menangani project Big Data dengan Natural Language Processing? Bagaimana tools-tools NLP dan teknik-tekniknya membantu proses bisnis, menganalisa, dan memahami data secara efektif dan proaktif?
  3. Visualizing Smog Sensor Data With Vert.x, Prometheus, and Grafana
    Sebuah tutorial singkat menggunakan data-data yang dikumpulkan dari sensor asap di Jerman ke server lokal sehingga dapat digunakan untuk memvisualisasikan tren jangka panjang
  4. Exploratory Data Analysis in Python
    Sebuah tutorial yang dibuat berdasarkan presentasi dari Jonathan Whitmore yang berjudul Exploratory Data Analysis in Python pada PyCon 2017 di Portland, Oregon.
  5. Data Cleaning and Wrangling With R
    Salah satu permasalahan utama dalam pengolahan data adalah menggabungkan dan 'membersihkan' berbagai dataset dari sumber data yang berbeda-beda. Dalam artikel ini ditampilkan 10 tips untuk melakukan data cleansing dan wrangling menggunakan R.

Rilis Produk

  1. Spark Release 2.2.0
    Apache Spark 2.2.0 merupakan rilis ketiga untuk versi 2.x. Pada rilis ini tag eksperimental dihapus dari Structured Streaming. Selain itu, rilis ini lebih berfokus pada kegunaan, stabilitas dan penyempurnaan, serta menyelesaikan lebih dari 1100 tiket perbaikan.
  2. Apache Phoenix 4.11
    Tercakup dalam rilis ini di antaranya adalah: support untuk HBase 1.3.1, local index hardening dan peningkatan kinerja, lebih dan 50 bug-fixes, dan lain sebagainya.
  3. Apache OpenNLP 1.8.1 Release
    The Apache OpenNLP library adalah machine learning toolkit untuk melakukan pemrosesan bahasa alami (NLP). Mendukung proses dasar NLP seperti tokenization, segmentasi kalimat, part-of-speech tagging, named entity extraction, chunking, parsing, dan coreference resolution. Rilis 1.8.1 ini mencakup peningkatan kinerja, beberapa fitur baru, dan bug-fixes.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Jun 06 / 2017
  • Comments Off on Big Data : Institusi Pendidikan Menjawab Tantangan Kebutuhan Lapangan Kerja
Big Data, Forum Info, Implementation, Komunitas

Big Data : Institusi Pendidikan Menjawab Tantangan Kebutuhan Lapangan Kerja

Kesenjangan antara dunia industri dan dunia pendidikan masih menjadi salah satu isu utama dalam dunia pendidikan. Lulusan lembaga pendidikan diharapkan dapat mengisi posisi pekerjaan yang sesuai dengan keterampilan dan keilmuan yang dimiliki. Namun pada kenyataannya, informasi yang akurat mengenai keterampilan dan keilmuan yang dibutuhkan tidak didapatkan oleh lembaga pendidikan.

Seperti yang dikutip dari Bangkok Post, menurut penelitian Thailand Development Research Institute (TDRI), hanya 24% lulusan perguruan tinggi dan universitas di bidang sains, teknologi, teknik dan matematika yang dipekerjakan di bidang yang sesuai dengan keilmuan yang meraka miliki. Dengan kata lain, tiga dari empat lulusan tidak menggunakan pengetahuan yang mereka pelajari dari perguruan tinggi secara keseluruhan.

Salah satu tantangan terbesar bagi lembaga pendidikan adalah membuat sebuah kurikulum dan metode pengajaran yang sesuai dengan kebutuhan dunia industri yang berubah dengan cepat. Diharapkan lowongan-lowongan pekerjaan yang tersedia dapat diisi dengan lulusan dengan kemampuan dan keilmuan yang sesuai.

Sebuah riset menarik dilakukan TDRI bekerja sama dengan National Electronics and Computer Technology Centre untuk mengatasi masalah tersebut. Untuk memperoleh informasi mengenai skill-set yang dibutuhkan dunia kerja, pada tahap awal mereka mengembangkan sebuah prototype aplikasi yang mengumpulkan 100.000 lowongan kerja pada Februari lalu dari lima situs penyedia lowogan online. Dengan menggunakan Natural Languange Processing, data-data yang pada dasarnya teks tersebut ditransformasikan menjadi format database yang siap untuk dianalisa.

Untuk mendemonstrasikan ide tersebut, mereka membuat analisa mengenai skill-set yang dibutuhkan untuk pengembang perangkat lunak / situs web dari 2.712 lowongan kerja yang unik, yang dikelompokkan menjadi 5 kategori :

  1. Bbahasa pemrograman, di antaranya Java dan .NET adalah yang paling umum,
  2. Database,
  3. Bahasa script sisi klien,
  4. Pengetahuan dalam antarmuka pengguna / Pengalaman desain,
  5. Keterampilan dasar termasuk kemampuan bahasa Inggris, manajemen keterampilan dan komunikasi.

Institusi pendidikan yang selama ini tidak memiliki informasi yang akurat terhadap skill-set yang dibutuhkan industri, melalui analisa dan pengilahan data-data dari pasar kerja online diharapkan mampu merespon permintaan tersebut.

Sumber :
http://www.bangkokpost.com/opinion/opinion/1246934/big-data-makes-educational-institutes-more-responsive

Contributor :


Sigit Prasetyo
Seorang pengembara dunia maya, sangat suka mengeksplorasi dan menelusuri tautan demi tautan dalam internet untuk memperoleh hal-hal menarik. Saat ini sedang berusaha mengasah ilmu googling. Memiliki kegemaran memancing walaupun saat ini lebih sering memancing di kantor, terutama memancing emosi.

  • May 29 / 2017
  • Comments Off on Seputar Big Data edisi #15
Apache, Big Data, Forum Info, Hadoop, Komunitas

Seputar Big Data edisi #15

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu 3 bulan mei 2017

Artikel dan berita

  1. How Traditional Industries Are Using Machine Learning and Deep Learning to Gain Strategic Business Insights
    Pengaruh AI di bidang industri tidak bisa lagi dianggap trend sesaat belaka. Bagaimana langkah industri dalam mengadopsi AI ke dalam proses bisnis dan pengambilan keputusan mereka? Beberapa use case nyata disajikan dalam artikel ini.
  2. How Artificial Intelligence will Transform IT Operations and DevOps
    Penerapan big data membawa tantangan yang besar bagi IT Operation dan DevOps. Di antaranya adalah bagaimana mereka harus bisa menemukan akar masalah, bahkan mengantisipasinya sedini mungkin, di tengah lautan data yang begitu besar. Artikel ini menjelaskan bagaimana AI menjadi salah satu solusi yang akan mengubah ‘wajah’ Operasional IT dan DevOps. Salah satu konsep yang sering disebut adalah ‘Cognitive Insights’, yaitu menggunakan machine learning untuk mengolah log dan data dari berbagai sumber untuk menemukan solusi bagi masalah-masalah yang dihadapi DevOps dan Operasional IT.
  3. Neural Network-Generated Illustrations in Allo
    Sebuah fitur menarik yang diperkenalkan Google di aplikasi Allo, yang mengubah foto selfie menjadi stiker ilustrasi, menggunakan kombinasi antara neural network dan hasil karya seniman.
  4. Using Twitter as a data source: an overview of social media research tools (updated for 2017)
    Tinjauan dan pembahasan singkat mengenai metode dan tools yang dapat digunakan oleh ilmuwan bidang sosial untuk menganalisis data sosial media. List yang sangat bermanfaat jika anda ingin melakukan penelitian yang memanfaatkan data sosial media.
  5. NHS gave DeepMind patient records on an ‘inappropriate legal basis’
    Sebuah pelajaran berharga dari dugaan pelanggaran privacy dalam kasus data sharing antara NHS dengan DeepMind. Mengingatkan kita kepada pentingnya memahami regulasi yang harus dipenuhi apa saja yang harus diantisipasi, dan batasan apa yang harus ditaati dalam pemanfaatan data-data sensitif dan pribadi untuk keperluan analisis dan machine learning.
  6. Four Lessons In The Adoption Of Machine Learning In Health Care
    AI dan machine learning berpotensi sangat besar untuk perbaikan kualitas pelayanan kesehatan, namun mengapa saat ini pemanfaatannya di dunia kesehatan masih sangat terbatas? Berikut ini beberapa poin penting yang perlu diperhatikan, dari mulai jenis task apa yang paling sesuai, bagaimana membangun kepercayaan dan dukungan dari tenaga medis sendiri, bagaimana memilih vendor, dan perubahan apa yang perlu dilakukan dari sisi layanan kesehatan agar dapat memperoleh manfaat sebesar-besarnya dari teknologi ini.
  7. Special Ops battle with ‘big data’
    Komandan Komando Operasi Khusus Amerika Serikat (SOCOM) berbicara mengenai pentingnya Big Data, dan apa yang dilakukan untuk memanfaatkan data bagi operasi-operasi intelelejen, terutama yang bersifat kritikal.
  8. Big Data: The Ultimate in Customer Tracking
    Big Data identik dengan pelacakan dan pengumpulan data pengguna, dari setiap titik transaksi, profil WiFi, situs yang dikunjungi, dan lain sebagainya. Hal ini menimbulkan kekhawatiran bahwa Big Data identik dengan ‘Big Brother’. Namun sebetulnya Big Data lebih dekat perbandingannya dengan ‘Moneyball’, yaitu sebuah film mengenai pemanfaatan big data untuk memenangkan kompetisi baseball terbesar di dunia, Superbowl.

Tutorial dan pengetahuan teknis

  1. Event-time Aggregation and Watermarking in Apache Spark’s Structured Streaming
    Artikel ini merupakan seri ke 4 dari serangkaian artikel mengenai pemrosesan yang kompleks terhadap data streaming menggunakan Spark. Di sini dijelaskan mengenai bagaimana meng-agregasi data real time dengan Structured Streaming, dan mengenai bagaimana menangani event yang terlambat masuk dengan mekanisme Watermarking.
  2. Detecting Abuse at Scale: Locality Sensitive Hashing at Uber Engineering
    Menjelaskan mengenai Locality Sensitive Hashing, yaitu algoritma near neighbor search dalam ruang dimensi tinggi. Uber ddan Databrick bekerjasama dalam kontribusi implementasi LSH ke dalam Spark. Uber menggunakan LSH terutama untuk medeteksi pengemudi yang curang berdasar data perjalanan. Dijelaskan juga apa motivasi Uber menggunakan LSH di atas Spark, bagaimana penerapannya, dan apa rencana pengembangan ke depan.
  3. Home advantages and wanderlust
    Menganalisa data Premier League, untuk menentukan kesebelasan mana prosentase poinnya paling banyak didapat dari pertandingan kandang. Analisis dilakukan menggunakan R, yaitu package engsoccerdata. Dalam artikel ini ditunjukkan bagaimana teknik-teknik analisis dan visualisasi data dapat menjadi sesuatu yang menarik, apalagi jika dipadukan dengan data yang sesuai dengan bidang yang digemari.
  4. hive-druid-part-1-3/">Ultra-fast OLAP Analytics with Apache Hive and Druid – Part 1 of 3
    Bagian pertama dari 3 seri tulisan mengenai bagaimana melakukan OLAP analisis super cepat menggunakan Apache Hive dan Druid. Druid adalah data store terdistribusi berorientasi kolom, yang sesuai untuk low latency analytics.
  5. How-to: Backup and disaster recovery for Apache Solr (part I)
    Satu lagi artikel yang menjadi bagian dari serial, kali ini membahas mengenai backup dan disaster recovery Apache Solr. Artikel ini menjelaskan dasar-dasar backup dan recovery Solr dengan cukup detail dan jelas.
  6. Using 'Faked' Data is Key to Allaying Big Data Privacy Concerns
    Salah satu issue terbesar dalam penggunaan data untuk machine learning adalah privacy. Data yang digunakan dalam proses learning seringkali mengandung informasi pribadi yang sensitif, bahkan ketika data tersebut sudah di-anonimisasi. Untuk mengatasi permasalahan MIT membuat sebuah gebrakan, yaitu sistem machine learning yang men-generate ‘data sintetis’ berdasar model data asli. Data sintetis initidak mengandung informasi asli apapun, namun tetap dapat ‘berperilaku’ serupa dengan data asli di dalam analisis dan stress tes, sehingga dapat menjadi pengganti ideal bagi data asli. Algoritma yang digunakan disebut dengan “recursive conditional parameter aggregation”.
  7. An Impatient Start With the Apache Ignite Machine Learning Grid
    Baru-baru ini Apache Ignite merilis in memory machine learning grid mereka, dalam tahap beta version. Rilis beta ini dapat melakukan operasi vektor lokal dan terdistribusi, dekomposisi, dan matriks. Artikel menunjukkan secara singkat dan padat, bagaimana mendownload Apache Ignite 2.0 release, kemudian mem-build dan mengeksekusi contoh programnya.
  8. Balancing Bias and Variance to Control Errors in Machine Learning
    Di dunia machine learning, akurasi adalah hal utama. Berbagai cara dilakukan untuk membangun model seakurat mungkin, dengan cara menyesuaikan parameter-parameternya. Artikel ini mengupas dengan cukup detail mengenai apa yang harus diperhatikan untuk meminimalisir error dengan mengontrol bias dan variansi.
  9. Deep Learning – Past, Present, and Future
    Perjalanan perkembangan deep learning dari masa ke masa.

Rilis produk

  1. The Apache Software Foundation Announces Apache® Samza™ v0.13
    Samza adalah framework pemrosesan Big Data stream terdistribusi, yang saat ini digunakan oleh Intuit, LinkedIn, Netflix, Optimizely, Redfin, Uber dan lain-lain.

    Rilis v0.13 mencakup :
    • Higher level API yang dapat merepresentasikan pipeline pemrosesan stream yang kompleks dengan lebih ringkas
    • Support untuk menjalankan aplikasi Samza sebagai lightweight embedded library tanpa mengandalkan YARN
    • Deployment yang lebih fleksibel
    • Peningkatan monitoring dan deteksi kegagalan menggunakan mekanisme heart-beating yang built-in
    • Integrasi yang lebih baik dengan framework manajemen cluster yang lain
    • Beberapa bug-fixes yang meningkatkan keandalan, stabilitas, dan kekuatan pemrosesan data
  2. Build Intelligent Apps Faster with Visual Studio and the Data Science Workload
    Versi terbaru Visual Studio 2017 memiliki built-in support untuk pemrograman R dan Python. Pada versi terdahulu, dukungan untuk bahasa-bahasa ini telah tersedia melalui RTVS dan PTVS add-in, namun dengan Data Science Workloads support R dan Python tidak lagi memerlukan add-in. Fitur ini tersedia di semua edisi, termasuk Visual Studio Community 2017 yang bisa anda download secara gratis.
  3. Apache Arrow 0.3.0
    Rilis 0.3.0 ini mencakup 306 JIRA yang diresolve dari 23 kontributor.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • May 10 / 2017
  • Comments Off on Seputar Big Data Edisi #14
Big Data, Forum Info, Hadoop, Komunitas

Seputar Big Data Edisi #14

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan mei 2017

Artikel dan Berita

  1. How Small Businesses Can Utilize Big Data to Grow Big
    Big Data sering diterjemahkan sebagai sejumlah data sangat besar yang berukuran terabyte bahkan petabyte. Data-data tersebut dikelola dan dianalisa untuk mendapatkan pola-pola yang bernilai (misal perilaku), tren dan berbagi informasi lainnya. Bagaimana sebenarnya pemanfaatan Big Data untuk "Small Business" supaya dapat berkembang?
  2. Big Data strategies to address Ebola
    IBM mengumumkan hasil riset penggunaan big data untuk menganalisa pengaruh hewan yang telah tertular terhadap penyebaran virus Ebola.
  3. Timeline of AI and Robotics
    Infografis mengenai perkembangan AI dan Robotik dari masa ke masa
  4. Using Machine Learning to Fight Crime
    Dengan menggunakan metodologi Machine Learning yang diberi nama Probabilistic Assessment for Contributor Estimate (PACE), tim riset dari Forensics and National Security Sciences Institute (FNSSI) mampu mengidentifikasikan profil penjahat secara lebih baik dengan menggunakan analisa DNA
  5. How to Become a Data Engineer
    Kebutuhan akan data engineers diprediksi akan meningkat seiring dengan perkembangan pemanfaatan data sebagai acuan dalam pengambilan keputusan. Apa sebenarnya data engineer itu ? Apa yang dilakukannya ?

Tutorial dan pengetahuan teknis

  1. 20 Questions with Big Data Cybersecurity Experts on Apache Metron: Webinar Recap
    Rangkuman pertanyaan dari webminar yang diadakan oleh Hortonworks dengan tema Combating Phishing Attacks: How Big Data Helps Detect Impersonators
  2. Deep Learning in Minutes with this Pre-configured Python VM Image
    Sekumpulan tools dan library deep learning berbasiskan Python yang dipaketkan dalam sebuah virtual machine dan siap untuk digunakan.
  3. Introduction to R: The Statistical Programming Language
    Pengenalan dan memulai R, sebuah bahasa pemrograman khusus untuk statistik.

Rilis produk

  1. pache ZooKeeper 3.5.3-beta
    Tim developer Apache ZooKeeper mengumumkan versi 3.5.3-beta. Versi ini merupakan versi beta pertama dari seri ZooKeeper 3.5, yang meliputi 77 issue.
  2. Apache Trafodion 2.1.0-incubating
    Apache Trafodion salah satu solusi SQL-on-Hadoop telah merilis Apache Trafodion 2.1.0-incubating.
  3. Apache Ignite 2.0: Redesigned Off-heap Memory, DDL and Machine Learning
    Setelah menunggu cukup lama akhirnya Apache Ignite 2.0 dirilis dengan banyak perubahan seperti meredisain arsitektur Off-heap Memory, mensupport Data Definition Languange, dan yang paling menarik adalah fitur Machine Learning Grid.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • May 08 / 2017
  • Comments Off on Seputar Big Data Edisi #13
Apache, Big Data, Forum Info, Hadoop, Komunitas

Seputar Big Data Edisi #13

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan Mei 2017.

Artikel dan berita

  1. Data Driven: 5 Ways Automakers Use Big Data to Improve Their Products
    Di era data-driven ini big data memegang peran yang semakin penting dalam bisnis otomotif, bahkan mcKinsey memperkirakan, data-data otomotif akan bernilai 450 to 750 milyar dolar di tahun 2030. Apa saja yang dilakukan produsen otomotif dalam pemanfaatan big data untuk memperbaiki produk mereka?
  2. How Companies Say They’re Using Big Data
    Hasil survey terhadap eksekutif perusahaan-perusahaan Fortune 1000 mengenai bagaimana mereka mengimplementasikan dan menggunakan big data.
  3. The Big Data Market Will account for over Billion by the end of 2020
    Investasi di bidang yang terkait big data semakin meningkat di seluruh dunia. SNS Research memprakirakan bahwa investasi big data akan mencapai lebih dari 57 miliar US$ untuk tahun 2017, dan 76 miliar US$ pada 2020.
  4. PSU, Eversource to use big data to better predict storms that cause power outages
    Kerja sama antara Plymouth State University dan Eversource dalam pemanfaatan big data untuk memprediksikan cuaca, dalam usaha mengurangi padamnya listrik. Beberapa hal yang menjadi perhatian adalah suhu, curah hujan, dan kemungkinan adanya badai, bahkan jenis pepohonan apakah yang mungkin menjadi potensi masalah untuk jalur listrik jika terjadi badai.
  5. The new paradigm for big data governance
    Data saintis menggunakan sandbox untuk mengeksplorasi data dan menggali insight. Meskipun penggunaan sandbox dapat meningkatkan produktivitas, namun memindahkannya ke production environment bisa menjadi masalah. Penggunaan bahasa pemrograman dan struktur data yang masih relatif asing untuk dunia IT pun memperumit permasalahan. Oleh karenanya, perlu penerapan data governance dalam big data sains. Akan tetapi, berbeda dengan data governance pada umumnya, big data analytics memiliki karakteristik dan kebutuhan tersendiri.
  6. The new paradigm for big data governance
    Data saintis menggunakan sandbox untuk mengeksplorasi data dan menggali insight. Meskipun penggunaan sandbox dapat meningkatkan produktivitas, namun memindahkannya ke production environment bisa menjadi masalah. Penggunaan bahasa pemrograman dan struktur data yang masih relatif asing untuk dunia IT pun memperumit permasalahan. Oleh karenanya, perlu penerapan data governance dalam big data sains. Akan tetapi, berbeda dengan data governance pada umumnya, big data analytics memiliki karakteristik dan kebutuhan tersendiri.
  7. Making the Most of Big Data in Biomedicine
    The Biomedical Big Data to Knowledge Training (B2D2K), sebuah program untuk melatih ilmuwan di bidang biomedis dalam penggunaan big data, diluncurkan di Amerika. Program berbiaya 2.4 juta US$ ini adalah kerjasama antara Geisinger Health System, Penn State University dan Penn State Hershey, didanai oleh National Library of Medicine, National Institutes of Health sebesar 1.4 juta US$, dan Penn State sebesar 1 juta US$.
  8. Big data research awards show the potential of international collaboration
    The Trans-Atlantic Platform, sebuah konsorsium organisasi-organisasi ilmu sosial dan kemanusiaan dari Amerika Utara, Amerika Selatan dan Eropa, mengumumkan pemenang kompetisi riset big data yang diberi nama Digging into Data Challenge. Kompetisi yang telah memasuki putaran ke empat ini menunjukkan besarnya potensi kerjasama internasional dalam bidang big data.
  9. In a world of bots, AI and big data, how can employees and businesses survive?
    Revolusi industri keempat, yang ditandai dengan ledakan digital di dunia ekonomi membawa tantangan tersendiri bagi bisnis. AI, bot dan big data merambah semakin luas ke setiap segi kehidupan. Bagaimana bisnis dan tenaga kerja dapat bertahan menghadapi gelombang digitalisasi dan otomasi?

Tutorial dan pengetahuan teknis

  1. Hail: Scalable Genomics Analysis with Apache Spark
    Salah satu tantangan terbesar dalam analisis data genomics adalah skalabilitas. Ukuran data genome sangatlah besar, bahkan dalam paper “Big Data: Astronomical or Genomical?” diperkirakan bahwa “pada tahun 2025 genome manusia yang disekuens dapat mencapai antara 100 juta sampai 2 milyar”, membutuhkan sekitar 2-40 exabyte storage. Permasalahan utama pemrosesan data besar adalah performance. Hail muncul sebagai salah satu solusi analisis genome yang memanfaatkan keunggulan kinerja dan skalabilitas Apache Spark.
  2. Building and Exploring a Map of Reddit with Python
    Memetakan dan menganalisis 10.000 subreddit paling populer di Reddit, dalam Python.
  3. Machine Learning Classification with C5.0 Decision Tree Algorithm
    Tutorial klasifikasi menggunakan algoritma c5.0 decision tree, mengidentifikasi pinjaman bank yang beresiko, menggunakan R.
  4. Understanding Machine Learning
    Apa sebenarnya machine learning? Berikut ini artikel singkat dilengkapi ilustrasi yang memberikan pengenalan dasar mengenai machine learning dan metode-metodenya
  5. What Do Frameworks Offer Data Scientists that Programming Languages Lack?
    Saat ini makin banyak programmer dan data saintis yang lebih memilih bekerja menggunakan framework daripada bahasa pemrograman, dan menganggapnya sebagai pilihan yang lebih modern dan canggih. Apa sebenarnya kelebihan framework yang tidak dimiliki oleh bahasa pemrograman?
  6. Visualizing Tennis Grand Slam Winners Performances
    Data visualization of sports historical results is one of the means by which champions strengths and weaknesses comparison can be outlined. In this tutorial, we show what plots flavors may help in champions performances comparison, timeline visualization, player-to-player and player-to-tournament relationships. We are going to use the Tennis Grand Slam Tournaments results as outlined by the ESP Visualisasi data dalam bidang olah raga adalah salah satu cara untuk membandingkan kekuatan dan kelemahan para juara dari masa ke masa. Dalam tutorial ini ditunjukkan bagaimana plot dan grafik dapat membantu dalam membandingkan performance pemain tersebut. Data yang digunakan adalah data Tennis Grand Slam Tournaments yang ditampilkan situs ESP di tabel ESPN site tennis history.
  7. Advanced Apache NiFi Flow Techniques
    Tutorial mengenai bagaimana memback-up Apache Nifi flow yang sedang berjalan, menyimpannya ke dalam disk, untuk kemudian menggabungkannya kembali dengan data dan metadata, dan melanjutkan eksekusinya atau me-restart-nya di waktu yang akan datang.

Rilis produk

  1. Apache Scio versi 0.3.0
    Apache Scio, Scala API untuk Apache Beam dirilis versi 0.3.0-nya. Ini merupakan rilis non-beta yang pertama yang dibuat di atas Apache Beam SDK, sedangkan rilis sebelumnya dibangun di atas Google Cloud Dataflow SDK.
  2. Apache Kafka 0.10.2.1
    Rilis ini adalah bug-fix, yang me-resolve 29 issue dari rilis sebelumnya.
  3. Apache Kylin 2.0.0 released
    Apache Kylin adalah Engine Analytics terdistribusi, menyediakan SQL interface dan OLAP untuk Hadoop.
  4. Apache Mahout 0.13.0
    Mencakup : Peningkatan kemudahan dalam melakukan komputasi matrix langsung di GPU yang menghasilkan peningkatan kinerja yang signifikan, penyederhanaan framework untuk menambahkan algoritma baru, dll.
  5. Apache® CarbonData™ as a Top-Level Project
    Apache CarbobData adalah format file kolumnar terindeks untuk melakukan data analytics di atas platform Big Data (Apache Hadoop, Apache Spark, dll) yang mempercepat query pada data berskala petabytes.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
Pages:123
Tertarik dengan Big Data beserta ekosistemnya? Gabung