:::: MENU ::::

Posts Categorized / Komunitas

  • Oct 04 / 2017
  • Comments Off on MeetUp ke 17 idBigData di ITB, Bandung
meetup_17_itb
Apache, Big Data, Forum Info, Komunitas, Meet Up

MeetUp ke 17 idBigData di ITB, Bandung

meetup_17_itb

idBigData dan Institut Teknologi Bandung berkolaborasi dengan Asosiasi Ilmuwan Data Indonesia (AIDI), Bukalapak.com, Prodi Teknik Informatika ITB dan Labs247 mengadakan meetup idBigdata yang ke 17.

MeetUp tersebut diselenggarakan pada Kamis, 28 September 2017 di Auditorium Campus Center Timur ITB. Acara dimulai sekitar pukul 09.00. Dan dibuka oleh Wakil Dekan School of Electrical Engineering and Informatics ITB, Dr. Ir. Nana Rachmana Syambas M. Eng

Pembicara-pembicara pada acara ini adalah:

Dr. techn. Muhammad Zuhri Catur Candra, Institut Teknolog Bandung dengan topik “The Journey in The Data-Intensive World
Teguh Nugraha, Head of Data Bukalapak.com dengan topik “Big Data in E-commerce
Solechoel Arifin, Labs247 dengan topik “Implementasi DNA Sequence Alignment pada HGrid247
Sigit Prasetyo, idBigData dengan topik “Open Source Solution for Data Analytics Workflow

Meetup ini diikuti oleh 60 peserta, dari kalangan mahasiswa maupun profesional.

Video lengkap Meetup idBigdata #17 maupun berbagai kegiatan idBigdata sebelumnya dapat diakses di channel idBigdata.

Contributor :


M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng.
Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun.
Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.
  • Aug 31 / 2017
  • Comments Off on Seputar Big Data Edisi #27
Big Data, Forum Info, Hadoop, Komunitas, Uncategorized

Seputar Big Data Edisi #27

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke 4 bulan Agustus 2017

Artikel dan berita

  1. Big data in financial services: 9 companies to watch
    Daftar beberapa perusahaan yang membawa Big Data ke sektor jasa keuangan dan bagaimana mereka mengubah lanskap menjadi pemikiran yang lebih maju dan lebih siap menghadapi masa depan keuangan.
  2. Big Data Analytics to Disrupt U.S. Next-generation Sequencing Informatics Market with Double-digit Growth
    Dalam laporan riset pasar Frost & Sullivan, "Transformation and Growth Opportunities in the US Next-generation Sequencing Informatics Market, Forecast to 2021," ditemukan bahwa pasar IT untuk NGS Amerika menghasilkan pendapatan sebesar $ 416 juta pada tahun 2016 dan diharapkan untuk mencatat tingkat pertumbuhan tahunan gabungan (CAGR) sebesar 19,0 persen sampai tahun 2021.
  3. Groupon is a massive data-driven experiment — this team helps run it
    Groupon telah melakukan tweak dan menguji setiap bagian platform e-commerce yang dimilikinya untuk mengetahui secara tepat apa yang membuat pelanggan melakukan sebuah klik. Namun demikian Groupon terus melakukan ujicoba untuk menambahkan fitur baru yang meningkatkan bisnis dan membuang fitur yang tidak sesuai.
  4. Report shows that AI is more important to IoT than big data insights
    Sebuah survey yang dilakukan menunjukkan bahwa sebagian besar perusahaan yang menerapkan IoT mengalami kesulitan karena besarnya biaya pemeliharaan. Apakah big data analysis tidak cukup sebagai solusinya? Bagaimana peran AI dalam hal ini?
  5. 6 Ways Big Data is enhancing the global supply chain
    Seiring dengan semakin kompleksnya sistem supply chain di seluruh dunia dan semakin besarnya tuntutan pelanggan, makin sengit pula persaingan dalam penyediaan aplikasi dan sistem yang dapat mengelola secara efektif dengan memanfaatkan bermilyar-milyar gigabyte data yang dihasilkan setiap harinya. Berikut ini 6 aspek di mana big data dapat mengubah dan mendukung supply chain secara global.
  6. Five Big Data solutions to manage chronic diseases
    Beberapa hal yang dapat dilakukan dengan menggunakan solusi Big Data untuk membantu mengelola dan melakukan perawatan ketika mengalami kondisi kronis suatu penyakit.

Tutorial dan Pengetahuan Teknis

  1. Apache Spark vs. MapReduce
    Spark mengklaim bahwa kemampuannya untuk "menjalankan program hingga 100x lebih cepat daripada Hadoop MapReduce di memori, atau 10x lebih cepat pada disk." Klaim ini didasarkan pada kemampuan Spark melakukan pemrosesan dalam memori dan mencegah operasi I/O yang tidak perlu ke dalam disk.
  2. Introducing KSQL: Open Source Streaming SQL for Apache Kafka
    KSQL merupakan SQL query engine open source yang memungkinkan untuk melakukan query secara interaktif pada Apache Kafka. Tidak lagi diperlukan untuk melakukan pemrograman menggunakan Java ataupun Phyton.
  3. Packages to simplify mapping in R
    Sharon Machlis telah membuat tutorial yang sangat berguna untuk membuat peta data geografis dengan menggunakan R. Ada beberapa paket dan API data terbaru yang dapat digunakan untuk mempermudah melakukan hal tersebut.
  4. Running Apache Spark Applications in Docker Containers
    Sekumpulan tips untuk membantu mempersiapkan klaster Spark dengan menggunakan Docker.

Rilis Produk

  1. Open sourcing DoctorKafka: Kafka cluster healing and workload balancing
    Pinterest mengopensourcekan aplikasi bernama DoctorKafka yang berfungsi untuk mempermudah operasional, optimasi dan memonitor sebuah klaster Kafka.
  2. Announcing Data Collector v2.7.0.0
    StreamSets Data Collector versi 2.7.0.0 telah dirilis. Dalam rilis ini mencakup konektor untuk Google Cloud, CDC untuk SQL Server, konektor ke JMS, integrasi dengan Cloudera Navigator untuk melakukan pelacakan silsilah, dan eksekutor pada Amazon S3.
  3. The Apache Kylin 2.1.0
    Apache Kylin versi 2.1.0, sebuah OLAP engine untuk Hadoop, dirilis. Rilis baru ini menambahkan dukungan untuk sumber data RDMBS, otorisasi queri pada tingkat proyek, dan lebih dari 100 perbaikan bug.
  4. Apache Knox 0.13.0
    Apache Knox 0.13.0 dirilis dan menyertakan sejumlah fitur baru, seperti integrasi dengan REST API Kafka, dukungan Spark Thriftserver UI, Apache Atlas Proxying, dan banyak perbaikan bug.Apache Knox 0.13.0 dirilis dan menyertakan sejumlah fitur baru, seperti integrasi dengan REST API Kafka, dukungan Spark Thriftserver UI, Apache Atlas Proxying, dan banyak perbaikan bug.
  5. Apache HBase 1.1.12
    Apache HBase 1.1.12 merupakan sebuah rilis perbaikan terhadap sekitar 10 bug.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Jul 21 / 2017
  • Comments Off on Seputar Big Data Edisi #22
Big Data, Forum Info, Hadoop, Komunitas, Uncategorized

Seputar Big Data Edisi #22

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan Juli 2017

Artikel dan berita

  1. Stanford researchers find intriguing clues about obesity by counting steps via smartphones
    Sebuah penelitian global berdasarkan berapa jumlah langkah perhari, dicatat menggunakan smartphone, menunjukkan adanya "ketimpangan aktivitas". Hal ini bisa dianggap serupa dengan ketimpangan pendapatan, di mana "kemiskinan langkah" menyebabkan kecenderungan obesitas, sedangkan "kekayaan langkah" menghasilkan kebugaran dan kesehatan.
  2. A better approach to disease prediction through big data analytics
    Bagaimana penggunaan data hasil crowdsourcing dan analytics big data dapat meningkatkan kualitas prediksi kesehatan.
  3. How a new wave of machine learning will impact today’s enterprise
    AI dan machine learning menjadi sebuah kebutuhan bagi perkembangan dan persaingan bisnis. Bagaimana trend terbaru penerapan machine learning, dan apa yang perlu dilakukan perusahaan untuk dapat mengambil manfaat sebesar-besarnya?
  4. How Colleges Can Use Big Data to Encourage Better Management
    Pengelolaan sebuah institusi pendidikan tidak hanya berkaitan dengan unsur pendidikan saja, namun juga bagaimana me-manage dan menciptakan lingkungan kerja yang kondusif bagi para staf. Artikel ini membahas bagaimana institusi pendidikan tinggi memanfaatkan big data untuk dapat meningkatkan kualitas manajemen mereka.

Tutorial dan pengetahuan teknis

  1. Facets: An Open Source Visualization Tool for Machine Learning Training Data
    Bekerjasama dengan PAIR initiative, google team merilis Facets, sebuah tools open source visualisasi yang dapat digunakan untuk membantu memahami dan menganalisa data XML. Facets terdiri dari dua visualisasi yang memungkinkan pengguna untuk memperoleh gambaran holistik dari data-data yang dimiliki.
  2. The Modern Problem of Collecting Network Data
    Big Data tidak hanya mengenai sekumpulan informasi yang telah ada sebelumnya, serta bukan hanya melempar konten digital ke dalam database untuk diproses nantinya. Akan tetapi Big Data juga harus melibatkan pembangunan sistem yang dapat digunakan untuk mengumpulkan lebih banyak aset, seperti statistik, angka-angka, pola pengguna dan berbagai hal detail lainnya dari berbagai sumber.
  3. Text Classifier Algorithms in Machine Learning
    Salah satu problem dalam machine learning adalah klasifikasi teks, yang banyak digunakan mulai dari deteksi spam, penentuan topik sebuah artikel, dan lain sebagainya. Artikel ini membahas mengenai beberapa algoritma klasifikasi teks lengkap dengan use case-nya. Disertakan pula link menuju resource dan tutorial untuk pembaca yang ingin mempelajari lebih dalam.
  4. Advanced Machine Learning with Basic Excel
    Implementasi machine learning tidak harus selalu menggunakan bahasa pemrograman seperti R, Scala, atau Python misalnya, namun dapat juga dilakukan menggunakan Microsoft Excel, bahkan dengan menggunakan fitur dasarnya saja (tanpa macros), seperti yang ditampilkan dengan gamblang di dalam artikel ini.
  5. Artificial Intelligence Explained Part 1
    Satu lagi artikel yang mengupas mengenai AI, yang ditujukan untuk pembaca tanpa latar belakang matematika ataupun pemrograman.

Risil Produk

  1. Apache HAWQ 2.2.0.0-incubating Released
    Rilis ini mencakup CentOS 7.x Support, Ranger Integration, PXF ORC Profile dan Bug Fixes.
  2. Apache Hive 2.3.0 Released
    Fitur baru yang tercakup di antaranya peningkatan vektorisasi untuk ACID dengan menghilangkan row-by-row stitching, menambahkan UDF untuk uniontype values, dan menambahkan StrictRegexWriter untuk RegexSerializer di Flume Hive Sink. Di samping itu tercakup pula 8 perbaikan dan lebih dari 125 bug fixing.

 

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂
  • Jul 12 / 2017
  • Comments Off on Seputar Big Data Edisi #21
Apache, Big Data, Forum Info, Hadoop, Komunitas

Seputar Big Data Edisi #21

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan Juli 2017

Artikel dan Berita

  1. DataOps: How To Use Big Data To Achieve A Data-Driven Enterprise
    Banyak perusahaan sangat menyadari akan manfaat yang didapat dari Big Data bagi perusahaan. Mendapatkan pemahaman yang lebih baik tentang perilaku pelanggan dan membuat keputusan bisnis yang lebih baik, hanya sebagian manfaat yang didapat oleh suatu perusahaan atau organisasi berbasis data.
  2. What Does the Customer Want? Big Data Knows
    Dunia e-comerce saat ini, produk dirancang berdasarkan analisa perilaku konsumen, dimana kebutuhan pelanggan terpenuhi sebelum mereka menyadari bahwa mereka memilikinya. Produsen mungkin tidak dapat membaca pikiran, tetapi dengan next generation big data, seolah-olah pembacaan pikiran dapat dilakukan.
  3. Open Source Is The New Normal In Data and Analytics
    Dengan menggunakan Hadoop sebagai teknologi utama, arsitektur data open source telah mencapai tingkat kestabilan dan adopsi yang cukup baik, namun demikian belum sepenuhnya dapat dinikmati oleh perusahaan-perusahaan.
  4. Five big data trends in healthcare
    Penyedia jasa kesehatan memanfaatkan big data untuk memperbaiki hasil perawatan terhadap pasien serta menurunkan biaya. Pada tahun 2017 ini, industri kesehatan akan melihat lima tren dari pemanfaatan big data.
  5. Better Buy: Hortonworks vs. Cloudera
    Dua Hadoop distro berhadapan dalam persaingan untuk sebuah pasar yang sangat besar. Mana yang lebih baik untuk dibeli ?
  6. The 10 Coolest Big Data Startups Of 2017 (So Far)
    Banyak startup yang bermain di area big data memfokuskan diri untuk memberikan solusi terhadap masalah dalam menghubungkan sumber data yang berbeda dan memindahan data ke dalam cloud untuk memudahkan akses dan analisa. Ada juga tren yang sedang berkembang yaitu penggunaan machine learnig dan artificial intelligence dalam aplikasi big data untuk membuat sistem yang lebih cerdas.

Tutorial dan Pengetahuan Teknis

  1. Medical Image Analysis with Deep Learning Part 4
    Tulisan ini merupakan bagian keempat dan akan membahas mengenai gambar medis dan komponennya, format gambar medis dan konversi formatnya. Tujuannya adalah untuk mengembangkan pengetahuan untuk membantu dalam menganalisa citra medis dengan menggunakan deep learning
  2. Five Steps to Tackling Big Data with Natural Language Processing
    Apa 5 langkah mendasar yang harus diambil untuk menangani project Big Data dengan Natural Language Processing? Bagaimana tools-tools NLP dan teknik-tekniknya membantu proses bisnis, menganalisa, dan memahami data secara efektif dan proaktif?
  3. Visualizing Smog Sensor Data With Vert.x, Prometheus, and Grafana
    Sebuah tutorial singkat menggunakan data-data yang dikumpulkan dari sensor asap di Jerman ke server lokal sehingga dapat digunakan untuk memvisualisasikan tren jangka panjang
  4. Exploratory Data Analysis in Python
    Sebuah tutorial yang dibuat berdasarkan presentasi dari Jonathan Whitmore yang berjudul Exploratory Data Analysis in Python pada PyCon 2017 di Portland, Oregon.
  5. Data Cleaning and Wrangling With R
    Salah satu permasalahan utama dalam pengolahan data adalah menggabungkan dan 'membersihkan' berbagai dataset dari sumber data yang berbeda-beda. Dalam artikel ini ditampilkan 10 tips untuk melakukan data cleansing dan wrangling menggunakan R.

Rilis Produk

  1. Spark Release 2.2.0
    Apache Spark 2.2.0 merupakan rilis ketiga untuk versi 2.x. Pada rilis ini tag eksperimental dihapus dari Structured Streaming. Selain itu, rilis ini lebih berfokus pada kegunaan, stabilitas dan penyempurnaan, serta menyelesaikan lebih dari 1100 tiket perbaikan.
  2. Apache Phoenix 4.11
    Tercakup dalam rilis ini di antaranya adalah: support untuk HBase 1.3.1, local index hardening dan peningkatan kinerja, lebih dan 50 bug-fixes, dan lain sebagainya.
  3. Apache OpenNLP 1.8.1 Release
    The Apache OpenNLP library adalah machine learning toolkit untuk melakukan pemrosesan bahasa alami (NLP). Mendukung proses dasar NLP seperti tokenization, segmentasi kalimat, part-of-speech tagging, named entity extraction, chunking, parsing, dan coreference resolution. Rilis 1.8.1 ini mencakup peningkatan kinerja, beberapa fitur baru, dan bug-fixes.

  • Jun 06 / 2017
  • Comments Off on Big Data : Institusi Pendidikan Menjawab Tantangan Kebutuhan Lapangan Kerja
Big Data, Forum Info, Implementation, Komunitas

Big Data : Institusi Pendidikan Menjawab Tantangan Kebutuhan Lapangan Kerja

Kesenjangan antara dunia industri dan dunia pendidikan masih menjadi salah satu isu utama dalam dunia pendidikan. Lulusan lembaga pendidikan diharapkan dapat mengisi posisi pekerjaan yang sesuai dengan keterampilan dan keilmuan yang dimiliki. Namun pada kenyataannya, informasi yang akurat mengenai keterampilan dan keilmuan yang dibutuhkan tidak didapatkan oleh lembaga pendidikan.

Seperti yang dikutip dari Bangkok Post, menurut penelitian Thailand Development Research Institute (TDRI), hanya 24% lulusan perguruan tinggi dan universitas di bidang sains, teknologi, teknik dan matematika yang dipekerjakan di bidang yang sesuai dengan keilmuan yang meraka miliki. Dengan kata lain, tiga dari empat lulusan tidak menggunakan pengetahuan yang mereka pelajari dari perguruan tinggi secara keseluruhan.

Salah satu tantangan terbesar bagi lembaga pendidikan adalah membuat sebuah kurikulum dan metode pengajaran yang sesuai dengan kebutuhan dunia industri yang berubah dengan cepat. Diharapkan lowongan-lowongan pekerjaan yang tersedia dapat diisi dengan lulusan dengan kemampuan dan keilmuan yang sesuai.

Sebuah riset menarik dilakukan TDRI bekerja sama dengan National Electronics and Computer Technology Centre untuk mengatasi masalah tersebut. Untuk memperoleh informasi mengenai skill-set yang dibutuhkan dunia kerja, pada tahap awal mereka mengembangkan sebuah prototype aplikasi yang mengumpulkan 100.000 lowongan kerja pada Februari lalu dari lima situs penyedia lowogan online. Dengan menggunakan Natural Languange Processing, data-data yang pada dasarnya teks tersebut ditransformasikan menjadi format database yang siap untuk dianalisa.

Untuk mendemonstrasikan ide tersebut, mereka membuat analisa mengenai skill-set yang dibutuhkan untuk pengembang perangkat lunak / situs web dari 2.712 lowongan kerja yang unik, yang dikelompokkan menjadi 5 kategori :

  1. Bbahasa pemrograman, di antaranya Java dan .NET adalah yang paling umum,
  2. Database,
  3. Bahasa script sisi klien,
  4. Pengetahuan dalam antarmuka pengguna / Pengalaman desain,
  5. Keterampilan dasar termasuk kemampuan bahasa Inggris, manajemen keterampilan dan komunikasi.

Institusi pendidikan yang selama ini tidak memiliki informasi yang akurat terhadap skill-set yang dibutuhkan industri, melalui analisa dan pengilahan data-data dari pasar kerja online diharapkan mampu merespon permintaan tersebut.

Sumber :
http://www.bangkokpost.com/opinion/opinion/1246934/big-data-makes-educational-institutes-more-responsive

Contributor :


Sigit Prasetyo
Seorang pengembara dunia maya, sangat suka mengeksplorasi dan menelusuri tautan demi tautan dalam internet untuk memperoleh hal-hal menarik. Saat ini sedang berusaha mengasah ilmu googling. Memiliki kegemaran memancing walaupun saat ini lebih sering memancing di kantor, terutama memancing emosi.

  • May 29 / 2017
  • Comments Off on Seputar Big Data edisi #15
Apache, Big Data, Forum Info, Hadoop, Komunitas

Seputar Big Data edisi #15

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu 3 bulan mei 2017

Artikel dan berita

  1. How Traditional Industries Are Using Machine Learning and Deep Learning to Gain Strategic Business Insights
    Pengaruh AI di bidang industri tidak bisa lagi dianggap trend sesaat belaka. Bagaimana langkah industri dalam mengadopsi AI ke dalam proses bisnis dan pengambilan keputusan mereka? Beberapa use case nyata disajikan dalam artikel ini.
  2. How Artificial Intelligence will Transform IT Operations and DevOps
    Penerapan big data membawa tantangan yang besar bagi IT Operation dan DevOps. Di antaranya adalah bagaimana mereka harus bisa menemukan akar masalah, bahkan mengantisipasinya sedini mungkin, di tengah lautan data yang begitu besar. Artikel ini menjelaskan bagaimana AI menjadi salah satu solusi yang akan mengubah ‘wajah’ Operasional IT dan DevOps. Salah satu konsep yang sering disebut adalah ‘Cognitive Insights’, yaitu menggunakan machine learning untuk mengolah log dan data dari berbagai sumber untuk menemukan solusi bagi masalah-masalah yang dihadapi DevOps dan Operasional IT.
  3. Neural Network-Generated Illustrations in Allo
    Sebuah fitur menarik yang diperkenalkan Google di aplikasi Allo, yang mengubah foto selfie menjadi stiker ilustrasi, menggunakan kombinasi antara neural network dan hasil karya seniman.
  4. Using Twitter as a data source: an overview of social media research tools (updated for 2017)
    Tinjauan dan pembahasan singkat mengenai metode dan tools yang dapat digunakan oleh ilmuwan bidang sosial untuk menganalisis data sosial media. List yang sangat bermanfaat jika anda ingin melakukan penelitian yang memanfaatkan data sosial media.
  5. NHS gave DeepMind patient records on an ‘inappropriate legal basis’
    Sebuah pelajaran berharga dari dugaan pelanggaran privacy dalam kasus data sharing antara NHS dengan DeepMind. Mengingatkan kita kepada pentingnya memahami regulasi yang harus dipenuhi apa saja yang harus diantisipasi, dan batasan apa yang harus ditaati dalam pemanfaatan data-data sensitif dan pribadi untuk keperluan analisis dan machine learning.
  6. Four Lessons In The Adoption Of Machine Learning In Health Care
    AI dan machine learning berpotensi sangat besar untuk perbaikan kualitas pelayanan kesehatan, namun mengapa saat ini pemanfaatannya di dunia kesehatan masih sangat terbatas? Berikut ini beberapa poin penting yang perlu diperhatikan, dari mulai jenis task apa yang paling sesuai, bagaimana membangun kepercayaan dan dukungan dari tenaga medis sendiri, bagaimana memilih vendor, dan perubahan apa yang perlu dilakukan dari sisi layanan kesehatan agar dapat memperoleh manfaat sebesar-besarnya dari teknologi ini.
  7. Special Ops battle with ‘big data’
    Komandan Komando Operasi Khusus Amerika Serikat (SOCOM) berbicara mengenai pentingnya Big Data, dan apa yang dilakukan untuk memanfaatkan data bagi operasi-operasi intelelejen, terutama yang bersifat kritikal.
  8. Big Data: The Ultimate in Customer Tracking
    Big Data identik dengan pelacakan dan pengumpulan data pengguna, dari setiap titik transaksi, profil WiFi, situs yang dikunjungi, dan lain sebagainya. Hal ini menimbulkan kekhawatiran bahwa Big Data identik dengan ‘Big Brother’. Namun sebetulnya Big Data lebih dekat perbandingannya dengan ‘Moneyball’, yaitu sebuah film mengenai pemanfaatan big data untuk memenangkan kompetisi baseball terbesar di dunia, Superbowl.

Tutorial dan pengetahuan teknis

  1. Event-time Aggregation and Watermarking in Apache Spark’s Structured Streaming
    Artikel ini merupakan seri ke 4 dari serangkaian artikel mengenai pemrosesan yang kompleks terhadap data streaming menggunakan Spark. Di sini dijelaskan mengenai bagaimana meng-agregasi data real time dengan Structured Streaming, dan mengenai bagaimana menangani event yang terlambat masuk dengan mekanisme Watermarking.
  2. Detecting Abuse at Scale: Locality Sensitive Hashing at Uber Engineering
    Menjelaskan mengenai Locality Sensitive Hashing, yaitu algoritma near neighbor search dalam ruang dimensi tinggi. Uber ddan Databrick bekerjasama dalam kontribusi implementasi LSH ke dalam Spark. Uber menggunakan LSH terutama untuk medeteksi pengemudi yang curang berdasar data perjalanan. Dijelaskan juga apa motivasi Uber menggunakan LSH di atas Spark, bagaimana penerapannya, dan apa rencana pengembangan ke depan.
  3. Home advantages and wanderlust
    Menganalisa data Premier League, untuk menentukan kesebelasan mana prosentase poinnya paling banyak didapat dari pertandingan kandang. Analisis dilakukan menggunakan R, yaitu package engsoccerdata. Dalam artikel ini ditunjukkan bagaimana teknik-teknik analisis dan visualisasi data dapat menjadi sesuatu yang menarik, apalagi jika dipadukan dengan data yang sesuai dengan bidang yang digemari.
  4. hive-druid-part-1-3/">Ultra-fast OLAP Analytics with Apache Hive and Druid – Part 1 of 3
    Bagian pertama dari 3 seri tulisan mengenai bagaimana melakukan OLAP analisis super cepat menggunakan Apache Hive dan Druid. Druid adalah data store terdistribusi berorientasi kolom, yang sesuai untuk low latency analytics.
  5. How-to: Backup and disaster recovery for Apache Solr (part I)
    Satu lagi artikel yang menjadi bagian dari serial, kali ini membahas mengenai backup dan disaster recovery Apache Solr. Artikel ini menjelaskan dasar-dasar backup dan recovery Solr dengan cukup detail dan jelas.
  6. Using 'Faked' Data is Key to Allaying Big Data Privacy Concerns
    Salah satu issue terbesar dalam penggunaan data untuk machine learning adalah privacy. Data yang digunakan dalam proses learning seringkali mengandung informasi pribadi yang sensitif, bahkan ketika data tersebut sudah di-anonimisasi. Untuk mengatasi permasalahan MIT membuat sebuah gebrakan, yaitu sistem machine learning yang men-generate ‘data sintetis’ berdasar model data asli. Data sintetis initidak mengandung informasi asli apapun, namun tetap dapat ‘berperilaku’ serupa dengan data asli di dalam analisis dan stress tes, sehingga dapat menjadi pengganti ideal bagi data asli. Algoritma yang digunakan disebut dengan “recursive conditional parameter aggregation”.
  7. An Impatient Start With the Apache Ignite Machine Learning Grid
    Baru-baru ini Apache Ignite merilis in memory machine learning grid mereka, dalam tahap beta version. Rilis beta ini dapat melakukan operasi vektor lokal dan terdistribusi, dekomposisi, dan matriks. Artikel menunjukkan secara singkat dan padat, bagaimana mendownload Apache Ignite 2.0 release, kemudian mem-build dan mengeksekusi contoh programnya.
  8. Balancing Bias and Variance to Control Errors in Machine Learning
    Di dunia machine learning, akurasi adalah hal utama. Berbagai cara dilakukan untuk membangun model seakurat mungkin, dengan cara menyesuaikan parameter-parameternya. Artikel ini mengupas dengan cukup detail mengenai apa yang harus diperhatikan untuk meminimalisir error dengan mengontrol bias dan variansi.
  9. Deep Learning – Past, Present, and Future
    Perjalanan perkembangan deep learning dari masa ke masa.

Rilis produk

  1. The Apache Software Foundation Announces Apache® Samza™ v0.13
    Samza adalah framework pemrosesan Big Data stream terdistribusi, yang saat ini digunakan oleh Intuit, LinkedIn, Netflix, Optimizely, Redfin, Uber dan lain-lain.

    Rilis v0.13 mencakup :
    • Higher level API yang dapat merepresentasikan pipeline pemrosesan stream yang kompleks dengan lebih ringkas
    • Support untuk menjalankan aplikasi Samza sebagai lightweight embedded library tanpa mengandalkan YARN
    • Deployment yang lebih fleksibel
    • Peningkatan monitoring dan deteksi kegagalan menggunakan mekanisme heart-beating yang built-in
    • Integrasi yang lebih baik dengan framework manajemen cluster yang lain
    • Beberapa bug-fixes yang meningkatkan keandalan, stabilitas, dan kekuatan pemrosesan data
  2. Build Intelligent Apps Faster with Visual Studio and the Data Science Workload
    Versi terbaru Visual Studio 2017 memiliki built-in support untuk pemrograman R dan Python. Pada versi terdahulu, dukungan untuk bahasa-bahasa ini telah tersedia melalui RTVS dan PTVS add-in, namun dengan Data Science Workloads support R dan Python tidak lagi memerlukan add-in. Fitur ini tersedia di semua edisi, termasuk Visual Studio Community 2017 yang bisa anda download secara gratis.
  3. Apache Arrow 0.3.0
    Rilis 0.3.0 ini mencakup 306 JIRA yang diresolve dari 23 kontributor.
  • May 10 / 2017
  • Comments Off on Seputar Big Data Edisi #14
Big Data, Forum Info, Hadoop, Komunitas

Seputar Big Data Edisi #14

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan mei 2017

Artikel dan Berita

  1. How Small Businesses Can Utilize Big Data to Grow Big
    Big Data sering diterjemahkan sebagai sejumlah data sangat besar yang berukuran terabyte bahkan petabyte. Data-data tersebut dikelola dan dianalisa untuk mendapatkan pola-pola yang bernilai (misal perilaku), tren dan berbagi informasi lainnya. Bagaimana sebenarnya pemanfaatan Big Data untuk "Small Business" supaya dapat berkembang?
  2. Big Data strategies to address Ebola
    IBM mengumumkan hasil riset penggunaan big data untuk menganalisa pengaruh hewan yang telah tertular terhadap penyebaran virus Ebola.
  3. Timeline of AI and Robotics
    Infografis mengenai perkembangan AI dan Robotik dari masa ke masa
  4. Using Machine Learning to Fight Crime
    Dengan menggunakan metodologi Machine Learning yang diberi nama Probabilistic Assessment for Contributor Estimate (PACE), tim riset dari Forensics and National Security Sciences Institute (FNSSI) mampu mengidentifikasikan profil penjahat secara lebih baik dengan menggunakan analisa DNA
  5. How to Become a Data Engineer
    Kebutuhan akan data engineers diprediksi akan meningkat seiring dengan perkembangan pemanfaatan data sebagai acuan dalam pengambilan keputusan. Apa sebenarnya data engineer itu ? Apa yang dilakukannya ?

Tutorial dan pengetahuan teknis

  1. 20 Questions with Big Data Cybersecurity Experts on Apache Metron: Webinar Recap
    Rangkuman pertanyaan dari webminar yang diadakan oleh Hortonworks dengan tema Combating Phishing Attacks: How Big Data Helps Detect Impersonators
  2. Deep Learning in Minutes with this Pre-configured Python VM Image
    Sekumpulan tools dan library deep learning berbasiskan Python yang dipaketkan dalam sebuah virtual machine dan siap untuk digunakan.
  3. Introduction to R: The Statistical Programming Language
    Pengenalan dan memulai R, sebuah bahasa pemrograman khusus untuk statistik.

Rilis produk

  1. pache ZooKeeper 3.5.3-beta
    Tim developer Apache ZooKeeper mengumumkan versi 3.5.3-beta. Versi ini merupakan versi beta pertama dari seri ZooKeeper 3.5, yang meliputi 77 issue.
  2. Apache Trafodion 2.1.0-incubating
    Apache Trafodion salah satu solusi SQL-on-Hadoop telah merilis Apache Trafodion 2.1.0-incubating.
  3. Apache Ignite 2.0: Redesigned Off-heap Memory, DDL and Machine Learning
    Setelah menunggu cukup lama akhirnya Apache Ignite 2.0 dirilis dengan banyak perubahan seperti meredisain arsitektur Off-heap Memory, mensupport Data Definition Languange, dan yang paling menarik adalah fitur Machine Learning Grid.

  • May 08 / 2017
  • Comments Off on Seputar Big Data Edisi #13
Apache, Big Data, Forum Info, Hadoop, Komunitas

Seputar Big Data Edisi #13

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan Mei 2017.

Artikel dan berita

  1. Data Driven: 5 Ways Automakers Use Big Data to Improve Their Products
    Di era data-driven ini big data memegang peran yang semakin penting dalam bisnis otomotif, bahkan mcKinsey memperkirakan, data-data otomotif akan bernilai 450 to 750 milyar dolar di tahun 2030. Apa saja yang dilakukan produsen otomotif dalam pemanfaatan big data untuk memperbaiki produk mereka?
  2. How Companies Say They’re Using Big Data
    Hasil survey terhadap eksekutif perusahaan-perusahaan Fortune 1000 mengenai bagaimana mereka mengimplementasikan dan menggunakan big data.
  3. The Big Data Market Will account for over Billion by the end of 2020
    Investasi di bidang yang terkait big data semakin meningkat di seluruh dunia. SNS Research memprakirakan bahwa investasi big data akan mencapai lebih dari 57 miliar US$ untuk tahun 2017, dan 76 miliar US$ pada 2020.
  4. PSU, Eversource to use big data to better predict storms that cause power outages
    Kerja sama antara Plymouth State University dan Eversource dalam pemanfaatan big data untuk memprediksikan cuaca, dalam usaha mengurangi padamnya listrik. Beberapa hal yang menjadi perhatian adalah suhu, curah hujan, dan kemungkinan adanya badai, bahkan jenis pepohonan apakah yang mungkin menjadi potensi masalah untuk jalur listrik jika terjadi badai.
  5. The new paradigm for big data governance
    Data saintis menggunakan sandbox untuk mengeksplorasi data dan menggali insight. Meskipun penggunaan sandbox dapat meningkatkan produktivitas, namun memindahkannya ke production environment bisa menjadi masalah. Penggunaan bahasa pemrograman dan struktur data yang masih relatif asing untuk dunia IT pun memperumit permasalahan. Oleh karenanya, perlu penerapan data governance dalam big data sains. Akan tetapi, berbeda dengan data governance pada umumnya, big data analytics memiliki karakteristik dan kebutuhan tersendiri.
  6. The new paradigm for big data governance
    Data saintis menggunakan sandbox untuk mengeksplorasi data dan menggali insight. Meskipun penggunaan sandbox dapat meningkatkan produktivitas, namun memindahkannya ke production environment bisa menjadi masalah. Penggunaan bahasa pemrograman dan struktur data yang masih relatif asing untuk dunia IT pun memperumit permasalahan. Oleh karenanya, perlu penerapan data governance dalam big data sains. Akan tetapi, berbeda dengan data governance pada umumnya, big data analytics memiliki karakteristik dan kebutuhan tersendiri.
  7. Making the Most of Big Data in Biomedicine
    The Biomedical Big Data to Knowledge Training (B2D2K), sebuah program untuk melatih ilmuwan di bidang biomedis dalam penggunaan big data, diluncurkan di Amerika. Program berbiaya 2.4 juta US$ ini adalah kerjasama antara Geisinger Health System, Penn State University dan Penn State Hershey, didanai oleh National Library of Medicine, National Institutes of Health sebesar 1.4 juta US$, dan Penn State sebesar 1 juta US$.
  8. Big data research awards show the potential of international collaboration
    The Trans-Atlantic Platform, sebuah konsorsium organisasi-organisasi ilmu sosial dan kemanusiaan dari Amerika Utara, Amerika Selatan dan Eropa, mengumumkan pemenang kompetisi riset big data yang diberi nama Digging into Data Challenge. Kompetisi yang telah memasuki putaran ke empat ini menunjukkan besarnya potensi kerjasama internasional dalam bidang big data.
  9. In a world of bots, AI and big data, how can employees and businesses survive?
    Revolusi industri keempat, yang ditandai dengan ledakan digital di dunia ekonomi membawa tantangan tersendiri bagi bisnis. AI, bot dan big data merambah semakin luas ke setiap segi kehidupan. Bagaimana bisnis dan tenaga kerja dapat bertahan menghadapi gelombang digitalisasi dan otomasi?

Tutorial dan pengetahuan teknis

  1. Hail: Scalable Genomics Analysis with Apache Spark
    Salah satu tantangan terbesar dalam analisis data genomics adalah skalabilitas. Ukuran data genome sangatlah besar, bahkan dalam paper “Big Data: Astronomical or Genomical?” diperkirakan bahwa “pada tahun 2025 genome manusia yang disekuens dapat mencapai antara 100 juta sampai 2 milyar”, membutuhkan sekitar 2-40 exabyte storage. Permasalahan utama pemrosesan data besar adalah performance. Hail muncul sebagai salah satu solusi analisis genome yang memanfaatkan keunggulan kinerja dan skalabilitas Apache Spark.
  2. Building and Exploring a Map of Reddit with Python
    Memetakan dan menganalisis 10.000 subreddit paling populer di Reddit, dalam Python.
  3. Machine Learning Classification with C5.0 Decision Tree Algorithm
    Tutorial klasifikasi menggunakan algoritma c5.0 decision tree, mengidentifikasi pinjaman bank yang beresiko, menggunakan R.
  4. Understanding Machine Learning
    Apa sebenarnya machine learning? Berikut ini artikel singkat dilengkapi ilustrasi yang memberikan pengenalan dasar mengenai machine learning dan metode-metodenya
  5. What Do Frameworks Offer Data Scientists that Programming Languages Lack?
    Saat ini makin banyak programmer dan data saintis yang lebih memilih bekerja menggunakan framework daripada bahasa pemrograman, dan menganggapnya sebagai pilihan yang lebih modern dan canggih. Apa sebenarnya kelebihan framework yang tidak dimiliki oleh bahasa pemrograman?
  6. Visualizing Tennis Grand Slam Winners Performances
    Data visualization of sports historical results is one of the means by which champions strengths and weaknesses comparison can be outlined. In this tutorial, we show what plots flavors may help in champions performances comparison, timeline visualization, player-to-player and player-to-tournament relationships. We are going to use the Tennis Grand Slam Tournaments results as outlined by the ESP Visualisasi data dalam bidang olah raga adalah salah satu cara untuk membandingkan kekuatan dan kelemahan para juara dari masa ke masa. Dalam tutorial ini ditunjukkan bagaimana plot dan grafik dapat membantu dalam membandingkan performance pemain tersebut. Data yang digunakan adalah data Tennis Grand Slam Tournaments yang ditampilkan situs ESP di tabel ESPN site tennis history.
  7. Advanced Apache NiFi Flow Techniques
    Tutorial mengenai bagaimana memback-up Apache Nifi flow yang sedang berjalan, menyimpannya ke dalam disk, untuk kemudian menggabungkannya kembali dengan data dan metadata, dan melanjutkan eksekusinya atau me-restart-nya di waktu yang akan datang.

Rilis produk

  1. Apache Scio versi 0.3.0
    Apache Scio, Scala API untuk Apache Beam dirilis versi 0.3.0-nya. Ini merupakan rilis non-beta yang pertama yang dibuat di atas Apache Beam SDK, sedangkan rilis sebelumnya dibangun di atas Google Cloud Dataflow SDK.
  2. Apache Kafka 0.10.2.1
    Rilis ini adalah bug-fix, yang me-resolve 29 issue dari rilis sebelumnya.
  3. Apache Kylin 2.0.0 released
    Apache Kylin adalah Engine Analytics terdistribusi, menyediakan SQL interface dan OLAP untuk Hadoop.
  4. Apache Mahout 0.13.0
    Mencakup : Peningkatan kemudahan dalam melakukan komputasi matrix langsung di GPU yang menghasilkan peningkatan kinerja yang signifikan, penyederhanaan framework untuk menambahkan algoritma baru, dll.
  5. Apache® CarbonData™ as a Top-Level Project
    Apache CarbobData adalah format file kolumnar terindeks untuk melakukan data analytics di atas platform Big Data (Apache Hadoop, Apache Spark, dll) yang mempercepat query pada data berskala petabytes.

  • May 02 / 2017
  • Comments Off on Meetup idBigdata ke 15, 26 April 2017 di Universitas Sebelas Maret.
Big Data, Forum Info, Komunitas, Uncategorized

Meetup idBigdata ke 15, 26 April 2017 di Universitas Sebelas Maret.

Meetup idBigdata ke 15 telah diselenggarakan 26 April 2017 di Universitas Sebelas Maret, Surakarta.

Acara diawali dengan sambutan dari Dekan Fakultas Matematika dan IPA Universitas Sebelas Maret, Prof. Ir. Ari Handono Ramelan, M.Sc.(Hons),PhD. Pemateri pertama adalah Dr. Vidyasagar Potdar, Senior Research Fellow dari Curtin University, dengan tema “Big Data in the Smart City Context”, yang di antaranya membahas mengenai apa saja permasalahan pokok sebuah kota dan apa yang dapat diatasi oleh smart city, apa tujuan diterapkannya smart city, serta apa saja tantangan yang dihadapi dalam penerapannya.

Pembicara kedua adalah Dr. Dewi Wisnu Wardani dari Program Studi Informatika Fakultas MIPA UNS, membawakan materi dengan tema “Variety Issue of Big Data in the Web of Data”.

Setelah ishoma, tampil Chairman idBigdata, Sigit Prasetyo, dengan materi berjudul “Big Data: Turning Challenges into Opportunity”. Pembicara terakhir yaitu Arief Dolantz dari Labs247, dengan topik “BIG DATA Implementation on Document Management”

Meetup yang dihadiri oleh lebih dari 200 peserta ini dimulai pada pukul 09:00 dengan registrasi ulang, dan diakhiri pada pukul 15.00 dengan foto bersama.

Video lengkap Meetup idBigdata #15, maupun meetup-meetup sebelumnya dapat diakses di channel idBigdata.
  • Apr 13 / 2017
  • Comments Off on Seputar Big Data Edisi #10
Big Data, Forum Info, Hadoop, Implementation, IoT, Komunitas

Seputar Big Data Edisi #10

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan april 2017

Artikel dan Berita

  1. UK government using R to modernize reporting of official statistics
    UK Government Digital Service, sebuah badan pemerintah Inggris, meluncurkan project untuk mengotomasi proses pelaporan statistik pemerintah dengan menggunakan R. Project ini bertujuan untuk menyederhanakan pelaporan dengan cara mengotomasi proses ekstraksi data, analisis dan pembuatan dokumen.
  2. Hadoop in finance: big data in the pursuit of big bucks
    Bagaimana Hadoop dan teknologi big data membantu industri keuangan untuk meminimalisir resiko transaksi dan memaksimalkan keuntungan.
  3. How GoDaddy powers its team with big data analytics
    GoDaddy, penyedia layanan web hosting dan registrasi domain name internet yang memiliki 14.7 juta pelanggan, memproses lebih dari 13 terabytes data. GoDaddy membangun online self service analytics dalam rangka memperbaiki layanan dan mengantisipasi berbagai issue.
  4. Predictive analytics can stop ransomware dead in its tracks
    Ransomware menjadi salah satu ancaman yang serius di era digital ini. Data penting dapat terancam hilang begitu saja jika tuntutan penjahat saiber yang menyanderanya tidak dipenuhi. Kerugian yang ditimbulkan sangatlah besar, baik dari sisi biaya, waktu, maupun reputasi. Seperti yang hampir dialami oleh pemerintah kota Livingston, Michigan 2 tahun yang lalu, ketika mereka terancam kehilangan data perpajakan selama 3 tahun. Predictive analytics dan machine learning menjadi salah satu solusi untuk mengantisipasi ancaman keamanan semacam ini.
  5. Look before you leap: 4 hard truths about IoT
    Internet of Things membuka berbagai peluang yang menarik dan disruptive, sehingga menjadi salah satu teknologi yang paling berkembang dan banyak diadopsi saat ini. Namun ada beberapa hal yang perlu diperhatikan untuk dapat memanfaatkan teknologi ini dengan maksimal, di antaranya adalah kualitas data, keamanan, dan standard yang masih terus berubah.
  6. How companies and consumers benefit from AI-powered networks
    Sebagai pemegang 12.500 lebih paten, 8 Nobel, dan pengalaman 140 tahun dalam pengembangan dan ujicoba berbagai ide 'liar', tidaklah mengherankan jika AT&T menjadi salah satu pemain penting dalam bidang AI. Apa saja penerapan AI dan machine learning dalam bisnis AT&T dan apa keuntungan yang dirasakan perusahaan maupun konsumen?

Tutorial dan pengetahuan teknis

  1. Must-Read Free Books for Data Science
    Beberapa free E-book yang berkaitan dengan data science, yang jangan sampai anda lewatkan.
  2. Python Pandas Tutorial: DataFrame Basics
    DataFrame adalah struktur data yang paling umum digunakan dalam Python Pandas. Karena itu, sangat penting untuk mempelajari berbagai hal tentang penggunaan DataFrame tersebut. Tutorial ini menjelaskan beberapa metode penggunaan DataFrame.
  3. How can I bulk-load data from HDFS to Kudu using Apache Spark?
    Seperti yang disebutkan dalam judulnya, video tutorial ini menjelaskan mengenai penggunaan Spark untuk mengunggah data secara bulk dari HDFS ke Kudu.
  4. Federated Learning: Collaborative Machine Learning without Centralized Training Data
    Google research memperkenalkan metode machine learning terbaru yaitu federated learning. Dengan metode ini, tidak perlu lagi mengumpulkan data dari device yang digunakan oleh user untuk digunakan sebagai data training. Saat ini federated learning sedang diujicobakan melalui Gboard on Android.
  5. Accordion: HBase Breathes with In-Memory Compaction
    Aplikasi-aplikasi yang menggunakan Apache HBase dituntut untuk dapat memenuhi kebutuhan kinerja dalam read-write prosesnya. Idealnya, aplikasi tersebut dapat memanfaatkan kecepatan in-memory database, dengan tetap mempertahankan jaminan reliabilitas persistent storage. Accordion adalah sebuah algoritma yang diperkenalkan dalam HBase 2.0, yang ditujukan untuk dapat memenuhi tuntutan tersebut.
  6. Feature Engineering for Churn Modeling
    Churn model dapat membantu dalam menentukan alasan utama customer berhenti menggunakan produk atau layanan anda, namun faktor apa yang akan ditest dan dimasukkan ke dalam model, tergantung keputusan dari data saintist. Proses ini disebut dengan rekayasa fitur (feature engineering).

Rilis produk

  1. Apache Zeppelin Release 0.7.1
    Beberapa perbaikan yang dilakukan dalam rilis ini adalah stabilitas proses restart interpreter, perbaikan interpreter python, perbaikan bug untuk table/chart rendering. 24 kontributor menyumbangkan lebih dari 80 patch, dan lebih dari 70 issue berhasil diselesaikan.
  2. Storm 1.1.0 released
    Rilis ini mencakup supports native Streaming SQL, perbaikan integrasi ke Apache Kafka, PMML support, Druid Integration, OpenTSDB Integration, AWS Kinesis Support, HDFS spout, Flux Improvements, dll.
  3. MapR Releases New Ecosystem Pack with Optimised Security and Performance for Apache Spark
    MEP (MapR Ecosystem Pack) adalah sekumpulan project ekosistem open source yang memungkinkan aplikasi big data untuk berjalan di atas MapR Converged Data Platform dengan kompatibilitas internal. MEP Versi 3.0 mencakup perbaikan dari sisi Spark security, konektor Spark ke MapR-DB dan HBase, update dan integrasi dengan Drill, dan versi Hive yang lebih cepat.

Contributor :


M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng. Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun. Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.

Pages:12
Tertarik dengan Big Data beserta ekosistemnya? Gabung