:::: MENU ::::

Posts By / admin

  • Nov 15 / 2018
  • Comments Off on Seputar Big Data edisi #54
Apache, Artificial Intelligece, Big Data, Implementation, machine learning, Spark

Seputar Big Data edisi #54

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan November 2018.

Artikel dan berita

  1. Waymo to Start First Driverless Car Service Next Month
    Waymo, sebuah anak perusahaan dari perusahaan induk Google, Alphabet Inc., berencana untuk meluncurkan layanan mobil tanpa pengemudi komersial pertama di dunia pada awal Desember, menurut sebuah sumber yang tidak disebutkan namanya. Layanan ini akan beroperasi di bawah merek baru dan bersaing langsung dengan Uber dan Lyft, akan diluncurkan di Phoenix Arizona.
  2. How Big Data can revolutionise education
    Big Data telah menjadi bagian erat dari hampir setiap sektor, termasuk juga untuk sektor pendidikan. Banyak studi kasus yang dapat diselesaikan menggunakan Big Data dan Machine Learning.
  3. Artificial intelligence could help doctors identify hard-to-spot colon polyps
    Kanker usus besar adalah penyebab utama kedua kematian terkait kanker di AS, tetapi kolonoskopi telah ditemukan untuk mengurangi risiko kematian akibat penyakit hingga 70 persen dengan menemukan dan mengangkat polip jinak sebelum mereka memiliki waktu untuk berubah menjadi kanker.
  4. Startups Can Leverage Big Data for Big Results
    Agar tetap kompetitif, startup modern semakin mencari untuk memanfaatkan Big Data. Karena berbagai perusahaan muda masuk ke pasar dengan produk dan layanan inovatif, transformatif, solusi data dapat membantu membuka jalan menuju kesuksesan.
  5. Google AI can spot advanced breast cancer more effectively than humans
    Google telah memberikan bukti lebih lanjut bahwa AI dapat membantu dalam mendeteksi kanker. Peneliti perusahaan ini telah mengembangkan aplikasi Deep Learning yang lebih akurat dalam menemukan metastatis pada kanker payudara.

Tutorial dan Pengetahuan Teknis

  1. Predicting Professional Players’ Chess Moves with Deep Learning
    Tutorial mengenai membuat model yang dapat bermain catur yang tidak menggunakan metode Reinforcement Learning dan bagaimana mengimplementasikan model menggunakan antarmuka web.
  2. How to Develop Convolutional Neural Network Models for Time Series Forecasting
    Dalam tutorial ini akan dijelaskan cara mengembangkan rangkaian model CNN untuk berbagai masalah time series forecasting.
  3. 5 Essential Neural Network Algorithms
    Data Scientist menggunakan banyak algoritma yang berbeda untuk melatih neural network, dan ada banyak variasi untuk masing-masingnya. Dalam artikel ini akan menguraikan lima algoritma yang akan memberikan pemahaman menyeluruh tentang bagaimana Neural Network bekerja.
  4. Uber’s Big Data Platform: 100+ Petabytes with Minute Latency
    Dalam artikel ini, akan dibahas mendalam mengenai perjalanan platform Hadoop yang digunakan Uber dan bagaimana memperluas ekosistemnya.
  5. UMulti-Class Text Classification with Doc2Vec & Logistic Regression
    Tutorial python mengenai klasifikasi teks ke dalam beberapa kategori, menggunakan doc2vec dan regresi logistik.

Rilis Produk

  1. Google Dataset Search Launched to Help Analysts Scour Repositories
    Google Dataset Search adalah produk baru yang masih dalam fase beta yang dapat digunakan untuk melakukan pencarian dataset yang dipublikasikan secara online. Antarmuka tunggal memungkinkan Anda untuk mencari repositori di seluruh dunia.
  2. Introducing Apache Spark 2.4
    Kami senang mengumumkan ketersediaan Apache Spark 2.4 sebagai bagian dari Databricks Runtime 5.0. Kami ingin mengucapkan terima kasih kepada komunitas Apache Spark untuk semua kontribusi berharga mereka untuk rilis Spark 2.4
  3. Apache Kafka 2.0.1
    Rilis ini adalah bug fixing rilis, mencakup penyelesaian dari 51 JIRA
  4. Google open sources BERT, an NLP pre-training technique
    Google meng-opensource-kan Bidirectional Encoder Representations from Transformers (BERT) untuk pre-training NLP pada 2 Nopember lalu. BERT adalah metode baru pre-training representasi bahasa yang memperoleh hasil terkini untuk berbagai macam tugas pada NLP, seperti sentimen analysis, penerjemahan bahasa dll.
  5. Apache HBase 2.1.1 is now available for download
    Merupakan rilis maintenance terbaru dari versi 2.1, mencakup 180 bug fixes. Pengguna HBase versi 2.1.0 sangat disarankan untuk melakukan upgrade ke versi ini.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Nov 07 / 2018
  • Comments Off on Seputar Big Data Edisi #53
Apache, Artificial Intelligece, Big Data, Hadoop, Implementation, machine learning, Social Media

Seputar Big Data Edisi #53

Setelah lama tidak hadir, berikut kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali

Artikel dan Berita

  1. Big data plays a role in tourism of Hangzhou, a desirable destination for European travelers
    Hangzhou telah lama dianggap memiliki budaya hotspot dan kota pariwisata populer.
    Untuk membantu lebih memahami perilaku pengunjung terutaman dari Eropa, Expedia Group Media Solutions menganalisa pilihan yang dibuat oleh pengguna selama waktu mereka di situs web, bersama dengan data pemesanan yang ada dan tanggapan atau komentar yang dibuat.
  2. How big data can help identify and motivate voters
    Sebuah video wawancara dengan Chris Wilson dari WPA Intelligence menjelaskan bagaimana para ahli analisa data dapat membantu meningkatkan jumlah pemilih. Mereka menggunakan cara yang hampir sama pada sistem rekomendasi yang digunakan oleh Spotify, Netflix ataupun Amazon. Mereka mengidentifikasi profile pemilih dan mengidentifikasi masalah yang akan memotivasi pemilih dalam memilih kandidat.
  3. Apache Hadoop is Thriving!
    Sejak kelahirannya lebih dari satu dekade yang lalu, Hadoop telah berevolusi menjadi platform yang kuat dan sangat populer untuk penyimpanan dan analisa Big Data. Sebuah studi baru-baru ini dari Transparency Market Research menyatakan bahwa tidak hanya pertumbuhannya, pendapatan pasar global Hadoop diperkirakan juga meningkat menjadi 29% CAGR antara 2017 – 2023.
  4. Who’s Hot in Data & Analytics: Top Vendors to Watch
    2018 telah menjadi tahun yang penting bagi bisnis di seluruh industri karena mereka terus mendigitalkan lebih banyak operasional mereka. Berikut ini beberapa vendor penyedia jasa dan platform untuk Advanced Analytics, Data Science and Machine Learning Platform, Data Management and Governance.

Tutorial dan Pengetahuan Teknis

  1. Multi-Class Text Classification Model Comparison and Selection
    Tutorial mengenai penggunaan berbagai algoritma untuk mengklasifikasikan text, dan membandingkannya untuk memperoleh hasil yang paling akurat.
  2. TransmogrifAI: Building ML Apps simplified with AutoML
    Tutorial yang membahas keajaiban di balik TransmogrifAI dan akan dibandingkan penggunaannya dengan SparkML untuk memprediksi harga rumah.
  3. The Data Catalog Comes of Age
    Membuat katalog data adalah proses yang besar dan rumit. Artikel ini akan membahas mengenai langkah-langkah yang diperlukan, seperti mengumpulkan metadata, dan membuat katalog data yang sesuai dengan GDPR
  4. Top 10 real-life examples of Machine Learning
    Saat ini, machine learning telah digunakan dalam berbagai bidang dan industri. Misalnya, diagnosis medis, pemrosesan gambar, prediksi, klasifikasi, asosiasi pembelajaran, regresi, dll
  5. Protecting Hadoop Clusters From Malware Attacks
    Dua ancaman malware baru – XBash dan DemonBot – menargetkan server Apache Hadoop untuk penambangan Bitcoin dan untuk DDOS.

Rilis Produk

  1. Horizon: The first open source reinforcement learning platform for large-scale products and services
    Facebook mengumumkan Horizon sebagai proyek open source, sebuah platform machine learning berbasis Reinforcement Learning untuk dapat mengoptimalkan produk dan layanan yang digunakan oleh banyak orang.
  2. Tesseract version 4.0 released
    Google merilis Tesseract 4.0 yang memiliki proses OCR berbasis jaringan saraf yang baru yaitu LSTM, berbagai pembaharuan sistem pada sistem dan perbaikan lainnya, serta perbaikan bug.
  3. Python 3.7.1 and 3.6.7 are now availablePython 3.7.1 dan 3.6.7 merupakan maintenance release untuk versi Python 3.7 dan Python 3.6.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Oct 04 / 2018
  • Comments Off on Cloudera dan Hortonworks Sepakat Untuk Merger
Big Data, Hadoop, Implementation

Cloudera dan Hortonworks Sepakat Untuk Merger

Cloudera dan Hortonworks, dua perusahaan penyedia Big Data Platform berbasiskan Hadoop, menyatakan akan bergabung dalam merger dengan kesepakatan senilai $ 5,2 miliar.

Tom Reilly, CEO dari Cloudera mengatakan bahwa dengan penggabungan investasi Hortonworks dalam end-to-end data management dengan investasi Cloudera dalam data warehouse dan machine learning akan memudahkan pelanggan untuk melakukan transformasi digital.

Sementara itu, Rob Bearden, CEO dari Hortonworks menyatakan bahwa penggabungan ini akan membantu perusahaan berinvestasi lebih banyak untuk terus berkembang dan bersaing dalam pasar streaming dan IoT, manajemen data, data warehouse, machine learning/AI dan cloud hybrid.

Pemegang saham Cloudera akan memiliki 60 persen dari perusahaan gabungan, sedangkan pemegang saham Hortonworks yang akan memperoleh 40 persennya. Pemegang saham Hortonworks akan mendapatkan 1.305 saham Cloudera untuk setiap saham yang dimiliki.

Dalam perusahaan baru yang akan dibentuk ini akan memiliki komposisi:

  • Chief Executive Officer:  Tom Reilly – CEO Cloudera
  • Chief Operating Officer: Scott Davidson – COO Hortonworks
  • Chief Finance Officer: Jim Frankola – CFO Cloudera.
  • Chief Product Officer: Arun C.Murthy – CPO Hortonworks.

Sedangkan  Rob Bearden, CEO dari Hortonworks akan menjadi anggota dari board of director yang akan dipimpin oleh Marty Cole dari Cloudera

Sumber:
https://www.businesswire.com/news/home/20181003005869/en/

Contributor :


Sigit Prasetyo
Seorang pengembara dunia maya, sangat suka mengeksplorasi dan menelusuri tautan demi tautan dalam internet untuk memperoleh hal-hal menarik. Saat ini sedang berusaha mengasah ilmu googling. Memiliki kegemaran memancing walaupun saat ini lebih sering memancing di kantor, terutama memancing emosi.
  • Apr 08 / 2018
  • Comments Off on Menguak Skandal Cambridge Analytica
Big Data, Forum Info, Implementation, IoT, machine learning

Menguak Skandal Cambridge Analytica

Privasi dan penggunaan data pribadi adalah salah satu permasalahan utama yang disoroti setelah skandal Cambridge Analytica menjadi topik hangat akhir-akhir ini.

Siapakah Cambridge Analytica?

CA (Cambridge Analytica) adalah perusahaan konsultasi politik yang memanfaatkan data mining dan analisis. CA didirikan pada tahun 2013 sebagai anak perusahaan SCL group, bersama dengan Steve Bannon, yang kemudian menjadi penasehat strategis Donald Trump.

Apa yang dilakukan oleh Cambridge Analytica, yang dianggap tidak etis?

CA memperoleh data pribadi milik sekitar 50 juta pengguna Facebook melalui aplikasi kuis yang bernama this is your digital life. Mereka membayar 270.000 user untuk menggunakan aplikasi tersebut, dan dari user tersebut mereka mengakses pengguna lain yang ada di dalam daftar pertemanan mereka. Data tersebut kemudian digunakan sebagai input untuk mengembangkan algoritma psikografik analisis. Hasil analisisnya kemudian digunakan untuk melakukan targeted campaign melalui berbagai iklan dan content.

Apa itu psikografik analisis?

Analisis psikografik adalah metode analisis yang mencoba menggambarkan kepribadian seseorang berdasarkan data-data preferensi mereka, dalam hal ini diwakili oleh content atau status yang kita post, like dan klik. Intinya, selain data profil kita, setiap kita melakukan posting maupun klik atau like pada entry tertentu, data aktifitas tersebut juga akan diambil dan dianalisis untuk membentuk profil kepribadian kita.

Apakah pengumpulan data yang dilakukan menggunakan aplikasi Facebook semacam itu sesuatu yang luar biasa atau ilegal menurut Facebok?

Ternyata tidak. Mengumpulkan data pribadi user dengan iming-iming kuis kepribadian atau aplikasi lainnya di facebook, beserta data pengguna lain yang berada di dalam daftar pertemanannya, ternyata merupakan praktek yang lazim dilakukan oleh para internet marketer. Hal tersebut dapat dilakukan karena Facebook memang menyediakan API yang memungkinkan developer mengakses data user dan semua orang di friendlist user tersebut.

Microstrategy misalnya, memiliki data sekitar 17 juta pengguna, yang didapatkan dari 52.600 instalasi aplikasi, dengan masing-masing user ‘membawa’ sekitar 300 teman dalam friendlist mereka. LoudDoor, sebuah perusahaan yang khusus menangani iklan di Facebook, bahkan mengklaim 12 juta instalasi aplikasi Fan Satisfaction, yang menghasilkan data sekitar 85 juta penduduk Amerika. Dan ini bisa jadi hanyalah semacam puncak dari sebuah gunung es, karena pada dasarnya siapa saja bisa melakukan hal yang sama.

Praktek eksploitasi data pribadi untuk kepentingan politik ini sebenarnya sudah ‘tercium’ sejak jauh hari. The Guardian misalnya, sudah menulis mengenai penggunaan data pribadi dalam kampanye-kampanye politik. Propublica, sebuah organisasi nonprofit yang melakukan jurnalisme investigatif, bahkan membuat aplikasi yang bertujuan memonitor targeted ads tersebut. CA tentunya bukan satu-satunya perusahaan yang melakukan praktek sejenis, dan Donald Trump pun tentu bukan satu-satunya klien yang memanfaatkan jasa semacam ini.

Lalu mengapa baru saat ini kontroversi ini meledak?

Penyebabnya adalah Christopher Wylie, seorang mantan pegawai SCL yang juga ikut dalam pembentukan Cambridge Analytica mengungkap skandal ini, yang kemudian ditayangkan oleh The Guardian dan New York Times pada tanggal 17 Maret 2018.
Sehari kemudian para anggota Parlemen di Inggris dan Amerika menuntut penjelasan kepada Facebook, mengenai bagaimana data pribadi puluhan juta penggunanya dapat jatuh ke tangan perusahaan yang menangani kampanye Presiden Trump di tahun 2016 lalu.
Setelah berbagai laporan mengenai keterlibatan CA pada pemilu di beberapa negara lain bermunculan, pada tanggal 20 Maret, CA men-suspend CEO mereka, Alexander Nix. Akibat skandal ini, nilai saham Facebook turun sampai 9% atau sekitar US$60 miliar.

Apa yang dilakukan Facebook dalam menanggapi skandal ini?

Banyak pihak menilai Facebook kurang serius menanggapi isu ini. Lima hari pertama sejak meledaknya kasus ini Facebook tidak memberikan pernyataan apapun. Baru setelah marak tagar #deletefacebook yang diikuti banyak tokoh, termasuk diantaranya Elon Musk, Mark Zuckerberg memberikan pernyataan. Intinya adalah Facebook menyesalkan insiden yang terjadi, dan mengambil beberapa tindakan, yaitu :

  • Akan menyelidiki aplikasi-aplikasi yang mengakses data user beserta user lain di friendlistnya dalam jumlah besar, sebelum Facebook mengubah kebijakannya di tahun 2014. Sejak tahun 2014 aplikasi tidak lagi dapat mengakses data user lain selain yang menginstal aplikasi tersebut. Facebook akan mem-blacklist developer yang tidak bersedia diaudit.
  • Mematikan akses developer ke data user, jika user tersebut tidak menggunakan aplikasi yang bersangkutan selama 3 bulan, dan mengurangi jenis informasi yang bisa diakses oleh aplikasi tersebut ketika user sign in.
  • Membuat tools yang menunjukkan list aplikasi apa saja yang dapat mengakses data user, dan menampilkannya di atas newsfeed, serta memudahkan user untuk mengubah ijin akses tersebut. Tools ini ditargetkan selesai bulan depan.

Bagaimana sebenarnya tim pemenangan Trump (dan mungkin banyak lagi yang lainnya), menggunakan data dalam menyukseskan kampanye mereka?

Untuk kasus Trump, mereka membuat lebih dari 100.000 situs web yang dirancang khusus untuk berbagai profil psikologis dan preferensi dari kelompok-kelompok kecil targetnya. Hal ini disebut dengan microtargeting. Untuk menyebarkan link ke situs tersebut, mereka membeli $2 million dollars Facebook ads, yang mengarahkan pengguna ke website-website tersebut. Ratusan ribu website tersebut dibuat sekontroversial mungkin, sesuai dengan kecenderungan user yang ditarget, terkadang menggunakan fake news, black campaign dan berbagai clickbait.

Dalam mengelompokkan dan mengarahkan iklan, mereka memanfaatkan fitur “Audience Targeting Options”, dan “Lookalike Audiences”. Dua fitur ini merupakan alat yang jika dikelola dengan lihai akan dapat menyampaikan iklan ke segmen yang sesuai. Dua fitur tersebut, dipadukan dengan informasi dan profil yang dihasilkan dari algoritma yang dipergunakan oleh Cambridge Analytica, berhasil menjangkau para calon pemilih di masa itu, dan memberikan hasil yang luar biasa, yaitu terpilihnya Trump sebagai presiden Amerika.

Terlepas dari berbagai kontroversi dan permasalahan yang melingkupinya, kasus ini memberikan bukti nyata akan kekuatan data yang sebenarnya. Data yang diolah dengan piawai, dapat menjadi senjata yang sangat ampuh, yang dapat mengubah dunia dalam arti yang sesungguhnya. Di samping itu kita juga mendapat gambaran, bisnis apa yang ada di belakang berbagai aplikasi dan media sosial di dunia, mengapa begitu banyak orang mau berinvestasi besar-besaran ke dalam perusahaan-perusahaan yang menghasilkan data besar, seperti Facebook, Twitter, GoJek, dan lain-lain.

“These stories illustrate a simple truth : information is power. Anyone who hold a vast amount of information about us has power over us.” (Julia Angwin – Dragnet Nation)

Contributor :


M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng.
Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun.
Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.
  • Mar 23 / 2018
  • Comments Off on Seputar Big Data Edisi #52
Apache, Artificial Intelligece, Big Data, Forum Info, Hadoop, Implementation, Spark, Storm

Seputar Big Data Edisi #52

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu 3 bulan Maret 2018

Artikel dan Berita

  1. Cambridge Analytica harvested data from millions of unsuspecting Facebook users
    Cambridge Analytica, perusahaan yang melakukan profiling pemilih dalam kampanye Donald Trump, diduga mengumpulkan informasi pribadi milik lebih dari 50 juta profil Facebook, yang kemudian mereka gunakan untuk mempengaruhi dan melakukan ‘perang budaya’ dalam pemilu 2016 lalu.
  2. How Machine Learning is Revolutionizing Cybersecurity
    Machine learning telah terbukti bermanfaat dalam berbagai penerapan analisis data. Machine learning is particularly useful in various applications of data analysis. Kemampuan untuk belajar dari data, mengidentifikasi pola, mengotomasi pembuatan model, dan pengambilan keputusan, sangat bermanfaat untuk bidang keamanan saiber (cybersecurity), yang memanfaatkan data besar serta analisa pola perilaku.
  3. Is Your Company Ready For AI? Ask Yourself These Nine Questions
    Statista memprediksi bahwa pasar AI secara global akan bernilai lebih dari $ 10,5 miliar pada tahun 2020, dan bisnis akan menerapkan AI ke dalam operasi sehari-hari mereka dalam bentuk otomatisasi dan chatbots layanan pelanggan. Menurut CIOs, CTOs dan technology executive anggota Forbes Technology Council, berikut adalah sembilan pertanyaan untuk menentukan apakah AI adalah investasi cerdas untuk bisnis Anda saat ini.
  4. Hortonworks, Confluent and Waterline attempt to make Big Data easier
    Big data dan produk yang menyertainya memiliki kompleksitas yang seringkali tidak terhindarkan. Beberapa vendor besar menyadari hal ini, dan menawarkan berbagai solusi untuk memudahkan implementasi dan adopsi teknologi mereka untuk bisnis. Hortonwork, Confluent dan Waterline adalah beberapa di antaranya.
  5. Deep Learning Achievements Over the Past Year
    Pada musim natal lalu, tim statbot melakukan beberapa review terhadap pencapaian dari berbagai produk machine learning dalam setahun terakhir
  6. Top 5 Reasons Most Big Data Projects Never Go Into Production
    Pada akhir tahun 2016, Gartner merilis sebuah laporan yang menyatakan : “Hanya 15 persen dari proyek big data yang diimplementasikan ke dalam sistim produksi”. Pada kenyataannya hingga saat ini pun masih terjadi kendala-kendala yang dihadapi dalam implementasi big data.

Tutorial dan Pengetahuan Teknis

  1. Using Apache Kafka for Real-Time Event Processing
    Bagaimana implementasi Apache Kafka dalam mendukung pemrosesan secara reltime? Dalam posting ini, diperlihatkan bagaimana membangun pipeline pemrosesan aliran data menggunakan Apache Kafka.
  2. Top 5 Best Jupyter Notebook Extensions
    Ekstensi Notebook adalah plug-in yang dapat dengan mudah ditambahkan ke notebook Jupyter Anda. Berikut 5 Jupyter Extension yang paling sering digunakan.
  3. Managing isolated Environments with PySpark
    Melakukan konfigurasi node dalam cluster Hadoop/Spark dengan dependensi non-JVM biasanya cukup menyulitkan. Artikel ini menguraikan contoh solusi dan memberikan beberapa contoh code untuk menjalankan PySpark dengan Pandas dan library python lainnya.
  4. Data infrastructure at GO-JEK
    Dengan 100M order per bulan, 700ribu pengemudi aktif, dan 125 ribu merchant, GO-JEK memerlukan sistem yang handal. Mari ‘mengintip’ ke dalam infrastruktur data milik perusahaan terkemuka di Indonesia ini.
  5. [DATASET] Mozilla Common Voice
    Sekitar 400.000 rekaman dari 20.000 orang yang berbeda, menghasilkan total sekitar 500 jam rekaman suara. Saat ini merupakan koleksi dataset suara terbesar ke dua, dan jumlahnya masih terus bertambah.

Rilis Produk

  1. Apache PredictionIO 0.12.1 Release
    Apache PredictionIO adalah machine learning server yang dibangun di atas open source stack. Rilis 0.12.1 mencakup penambahan support untuk Spark 2.2, CleanupFunctions untuk Python, dan beberapa perubahan.
  2. Altair 2.0
    Altair adalah library Python untuk visualisasi statistik deklaratif berbasis Vega dan Vega-Lite. Kandidat untuk versi 2.0 sudah tersedia, dengan support untuk visualisasi interaktif Vega-Lite di Python.
  3. Tensorflow 1.6.0 released
    Tensorflow 1.6.0 mendukung CUDA 9.0 dan cdDNN 7, beserta beberapa fitur tambahan perbaikan bugs lainnya
  4. R 3.4.4 is released
    Rilis ini direncanakan merupakan rilis terakhir dari seri 3.4.x.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Mar 23 / 2018
  • Comments Off on MeetUp #19 Universitas Andalas, Padang
Apache, Artificial Intelligece, Big Data, Blockchain, Forum Info, Implementation, Komunitas, Social Media

MeetUp #19 Universitas Andalas, Padang

Pada meetup ke #19 ini idBigData menyapa rekan-rekan di kota Padang. Kali ini idBigData bekerja sama dengan Universitas Andalas, AIDI (Asosiasi Ilmuwan Data Indonesia), dan Labs247. Meetup dilaksanakan pada tanggal 13 Maret 2018 yang lalu, di gedung perpustakaan Universitas Andalas. Antusiasme rekan-rekan idBigData di Padang terlihat dari jumlah peserta yang mencapai sekitar 300 orang.

Acara dimulai pada pukul 9 pagi, dan dibuka dengan sambutan dari Rektor Universitas Andalas, Prof. Dr. Tafdhil Husni, S.E., M.B.A. dan Dekan Fakultas Teknologi Informasi, Dr. Ahmad Syafruddin Indrapriyatna, M.T.

Pembicara pertama adalah Husnil Kamil, M.T. dari Universitas Andalas, yang menyampaikan mengenai Big Data dalam Dunia Pendidikan. Dilanjutkan oleh CEO Labs247, Beno K. Pradekso, mengenai Big Data dan Deep Learning. Pembicara selanjutnya adalah chairman idBigData, Sigit Prasetyo, dengan materi Open Source Big Data Platform. Ditutup oleh Bagus Rully Muttaqien dari AIDI, menyampaikan topik Big Data dan Media Sosial.

Video meetup #19 dapat disaksikan di sini.


meetup-19-1

meetup-19-2

meetup-19-3

meetup-19-4

meetup-19-5

meetup-19-6

meetup-19-7

meetup-19-8

meetup-19-9

meetup-19-10

meetup-19-11

meetup-19-12

Contributor :


M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng.
Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun.
Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.
  • Mar 15 / 2018
  • Comments Off on Seputar Big Data Edisi #51
Apache, Artificial Intelligece, Big Data, Forum Info, Hadoop, Implementation, IoT, Komunitas, Spark

Seputar Big Data Edisi #51

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan Maret 2018.

Artikel dan Berita

  1. Dubai Decrees Itself the A.I. City-State of the Future
    Pemerintah UEA mencanangkan Dubai sebagai kota AI masa depan, dengan mendorong implementasi big data dan AI. Beberapa di antaranya adalah menyediakan menyediakan lingkungan yang terjangkau untuk melakukan inkubasi dan launching bisnis di bidang AI, setelah pada tahun 2016 PM UAE menginvestasikan US$270 juta untuk inovasi. Pada Oktober tahun lalu UAE menunjuk menteri bidang AI, yang merupakan menteri pertama di dunia yang khusus menangani bidang ini.
  2. Mengenal Kelas Big Data dan Komputasi Kognitif Pertama di Indonesia
    Fakultas Ekonomi dan Bisnis Universitas Indonesia (FEB UI) meluncurkan mata kuliah baru : Big Data dan Komputasi Kognitif yang pertama di Tanah Air. Kelas ini hadir atas kemitraan UI dengan perusahaan solusi kognitif dan platform cloud IBM Indonesia.
  3. Google’s March Madness AI contest offers 0,000 in prizes
    Google menyelenggarakan kompetisi AI untuk prediksi hasil turnamen basket antar perguruan tinggi, NCAA March Madness, dengan hadiah sebesar US$100,000. Dalam kompetisi ini peserta membuat software AI untuk prediksi pemenang, dengan data dari 40 juta pertandingan basket NCAA yang direkam sejak 2009.
  4. Baidu shows strategic vision with AI map merger
    Salah satu raksasa internet dari China, Baidu, baru-baru ini mengumumkan pengalihan bisnis peta digital mereka. Baidu Maps dialihkan ke bawah AI Group, setelah sebelumnya berada di bawah anak perusahaan yang memegang mesin pencari web. Langkah ini merupakan upaya mendorong bisnis AI mereka. Dikabarkan kemungkinan di masa datang Baidu Maps akan kembali dialihkan ke dalam bagian yang mengembangkan autonomous car.
  5. AI ‘more dangerous than nukes’: Elon Musk still firm on regulatory oversight
    Elon Musk mengatakan bahwa AI memiliki potensi bahaya yang lebih besar daripada nuklir. Oleh karena itu menurut Musk, perlu dibentuk sebuah badan independen yang dapat memastikan penerapan-penerapan AI dilakukan dalam batas yang aman untuk umat manusia di seluruh dunia.
  6. Elastic Plots Its Own Course to Big Data Success
    Elastic, perusahaan di belakang Elasticsearch, salah satu project open source terpopuler, adalah salah satu perusahaan terkemuka di bidang big data. Berikut ini beberapa ‘rahasia’ di balik kesuksesan Elastic.
  7. Waymo self-driving trucks to transport Google Atlanta data center gear
    Waymo, perusahaan self driving car milik Alphabet, melebarkan pengujian kendaraan swakemudi dari mobil penumpang biasa ke kendaraan besar, yaitu truk. Percobaan pertama mereka ditujukan untuk membantu data center Google di Atlanta, Georgia.

Tutorial dan Pengetahuan Teknis

  1. Gentle Introduction to Apache NiFi for Data Flow… and Some Clojure
    Tutorial mengenai Apache NiFi. Menjelaskan mengenai bagaimana membuat prosesor yang membaca dari file, prosesor yang menulis ke file, dan prosesor yang dapat menginsert data ke MongoDB.
  2. Getting started with Data Engineering
    Salah satu spesialisasi yang banyak dicari akhir-akhir ini adalah Data Engineer, bahkan kebutuhan data engineer ini diperkirakan melebihi kebutuhan terhadap data saintis. Artikel ini memberikan penjelasan yang cukup bagus mengenai apa itu data engineer, serta beberapa terminologi yang menyertainya.
  3. MongoDB and Data Streaming: Implementing a MongoDB Kafka Consumer
    Pengenalan singkat mengenai Apache Kafka dan bagaimana menggunakan MongoDB sebagai sumber dan tujuan data yang di-stream.
  4. Introducing Pulsar Functions
    For simple ETL, real-time aggregation, event routing, and similar use cases, Apache Pulsar is adding Pulsar Functions. Inspired by AWS Lambda and Google Cloud Functions, Pulsar Functions use a simple API and the Pulsar cluster for deployment. The post covers the design goals, deployment mechanism, runtime guarantees, and more.
    Apache pulsar menambahkan Pulsar Functions untuk menangani use case
  5. Installing Apache Spark 2.3.0 on macOS High Sierra
    Overview mengenai instalasi Apache Spark 2.3.0 di atas Mac OS.
  6. Daftar lengkap operasi aljabar linier yang diperlukan dalam menggunakan NumPy untuk aplikasi machine learning.
  7. [DATASET] LibriSpeech ASR corpus
    LibriSpeech adalah korpus yang berisi sekitar 1000 jam 16kHz audio dalam bahasa Inggris. Data didapatkan dari project audiobook LibriVox, yang telah disegmentasi dan diselaraskan.

Rilis Produk

  1. The Building Blocks of Interpretability
    Google merilis Lucid, library jaringan syaraf tiruan yang dibangun dari project DeepDream. Lucid digunakan untuk menambahkan efek artistik pada gambar. Di samping itu juga dirilis Google Colab, jupyter notebook yang disimpan di google drive, dan dapat langsung digunakan untuk menjalankan Lucid dan berbagai aplikasi deep learning tanpa perlu melakukan setup infrastruktur apapun.
  2. Semantic Image Segmentation with DeepLab in Tensorflow
    Google merilis DeepLab-v3+, model Tensorflow yang digunakan untuk melakukan segmentasi semantik image. Segmentasi semantik adalah proses memberikan label semantik setiap piksel dalam sebuah citra/image, seperti misalnya ‘langit’, ‘awan’, ‘ayam’, dsb.
  3. Apache MXNet (incubating) 1.1.0 Release
    Apache MXNet (incubating), sebuah framework deep learning, rilis versi 1.1.0.
    Tercakup di dalamnya peningkatan kinerja untuk GPU maupun CPU, penambahan dukungan operator, dan tutorial serta contoh penggunaan yang semakin lengkap.
  4. Apache Kylin 2.3.0 released
    Apache Kylin 2.3.0 merupakan rilis major, dengan lebih dari 250 perbaikan dan peningkatan. Apache Kylin adalah engine analytics terdistribusi, menyediakan antarmuka SQL dan OLAP di atas Hadoop.
  5. Apache Hivemall 0.5.0-incubating released
    Apache Hivemall adalah library machine learning yang diimplementasikan sebagai UDF/UDAF/UDTF. Versi 0.5.0 ini merupakan rilis pertama sejam Hivemall memasuki inkubator Apache. Hivemall berjalan di atas framework pemrosesan data berbasis Hadoop, yaitu Hive, Spark dan Pig.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Mar 09 / 2018
  • Comments Off on Seputar Big Data Edisi #50
Apache, Artificial Intelligece, Big Data

Seputar Big Data Edisi #50

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan maret 2018

Artikel dan Berita

  1. Korea to adopt AI, big data, blockchain for customs service
    Bea Cukai Korea Selatan akan mengadopsi beberapa teknologi terkini, seperti kecerdasan buatan (AI), big data dan blockchain, untuk meningkatkan kualitas pelayanan kepabeanan sebagai bentuk antisipasi atas pertumbuhan volume perdagangan dan ecommerce
  2. Cargill Offers Big Data, Digital Tools to Help Shrimp Farmers
    Cargill Inc. akan menawarkan solusi big data untuk meningkatkan produksi udang. Dengan memanfaatkan machine learning dan sensor diharapkan dapat membantu petani untuk memperoleh analisa berbagai hal mulai dari hubungan antar ukuran udang dan pola pemberian pakan hingga kualitas air dan cuaca yang dapat diakses melalui telepon genggam atau tablet.
  3. Why Is Health Care Cybersecurity So Bad? Blame the Insiders, New Verizon Report Says
    Bukan rahasia lagi bahwa bidang kesehatan sangat rentan terhadap serangan cyber bila dibandingkan dengan industri lainnya. Industri kesehatan adalah satu-satunya industri di mana aktor internal merupakan ancaman terbesar bagi sebuah organisasi.
  4. Alibaba is to Launch New A.I. and Big Data Cloud Products in Europe
    Pada MCW Barcelona 2018, Alibaba Cloud meluncurkan tiga produk utama – solusi pencarian berbasis gambar, Intelligent Services Robot dan Dataphin. Walaupun Alibaba Cloud telah memasuki pasar Eropa sejak 2016, dan telah meluncurkan produk AI, tapi hanya memfokuskan untuk melayani pelanggan China yang berbisnis di Eropa.
  5. Weighing Open Source’s Worth for the Future of Big Data
    Tidak diragukan lagi bahwa software open source menjadi motor penggerak kemajuan big data, bahkan vendor-vendor raksasa pun tidak ketinggalan menjadi penggiat dan pengguna open source. Namun bagaimana posisi software open source saat ini, termasuk dari sisi bisnis, dan bagaimana prospeknya di masa depan?
  6. Blockchains and APIs
    Kemajuan teknologi terutama yang berbasisan blockchain, memberi peluang bagi model bisnis baru, dikarenakan akan terjadi peningkatan jumlah perangkat yang terhubung dalam kehidupan kita sehari-hari. Artikel ini menjelaskan lengkap dengan contoh penerapan, bagaimana blockchain dan API membuka berbagai peluang untuk model-model bisnis baru.

Tutorial dan Pengetahuan Teknis

  1. Hortonworks DataFlow (HDF) 3.1 blog series part 5: Introducing Apache NiFi-Atlas integration
    Artikel ini menjelaskan mengenai bagaimana Hortonwork DataFlow mengintegrasikan Apache NiFi dengan Apache Atlas untuk mencatat data lineage pada Kafka, Hive, dan lain-lain.
  2. Spark Streaming Checkpointing on Kubernetes
    Sebuah job streaming Spark yang berlangsung dalam waktu lama memerlukan checkpoint, baik untuk data maupun metadata, agar dapat dilakukan recovery jika terjadi kegagalan. Artikel ini membahas mengenai konfigurasi metadata checkpoint serta beberapa setting tambahan yang diperlukan untuk menjalankan Spark di atas Kubernetes.
  3. Twitter sentiment analysis with Machine Learning in R using doc2vec approach (part 1)
    Word2vec adalah sebuah jaringan syaraf tiruan dengan 2 layer yang memproses teks. Inputnya berupa korpus teks, dan outputnya berupa sekumpulan vektor. Metode ini saat ini termasuk yang paling banyak dignakan dalam analisis sentimen. Artikel ini menguraikan dengan jelas implementasi word2vec untuk sentimen analisis Twitter menggunakan R.
  4. Understanding LSTM and its quick implementation in keras for sentiment analysis
    LSTM saat ini telah banyak digunakan untuk pengenalan suara, pemodelan bahasa, analisis sentimen dan prediksi teks. Artikel ini menjelaskan mengenai LSTM, apa kelebihannya dibanding RNN, dan bagaimana penerapannya untuk analisis sentimen dengan Keras.
  5. [DATASET] Labeled Faces in the Wild
    13.000 gambar wajah manusia yang disusun dan dilabeli, untuk digunakan dalam mengembangkan aplikasi yang melibatkan pengenalan wajah.

Rilis Produk

  1. Apache Storm 1.2.0
    Rilis 1.2.0 ini mencakup banyak perbaikan terhadap integrasi Kafka yang meningkatkan stabilitas, kemudahan konfigurasi, dan fitur-fitur baru. Dalam rilis ini juga mencakup sistem metriks yang baru untuk statistik internal dan API baru untuk user defined metrics, serta beberapa fitur lainnya yang terkait HBase, Flux maupun Kafka.
  2. Apache Flink 1.4.1
    Rilis ini merupakan bugfix pertama untuk Apache Flink seri 1.4. Mencakup lebih dari 60 perbaikan dan peningkatan minor terhadap Flink 1.4.0. Pengguna Flink 1.4.0 sangat disarankan untuk melakukan update ke versi ini.
  3. JupyterLab: Ready for Users
    JupyterLab, sebuah antarmuka berbasis web untuk Project Jupyter baru-baru ini diluncurkan versi Beta-nya. JupyterLab adalah lingkungan pengembangan interaktif untuk notebooks, code dan data. Dalam JupyterLab anda dapat menggunakan editor teks, terminal, data file viewers dan berbagai komponen custom lainnya, berdampingan dengan notebook di dalam sebuah work area.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Feb 21 / 2018
  • Comments Off on Seputar Big Data Edisi #49
Uncategorized

Seputar Big Data Edisi #49

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ketiga bulan Februari 2017

Artikel dan Berita

    1. AirAsia Teams Up with GE for Big Data Analytics in the Sky
      AirAsia telah mengumumkan perjanjian empat tahun dengan GE. GE Aviation akan menyediakan Electronic Flight Operations Quality Assurance (eFOQA) dan aplikasi pilot FlightPulse untuk armada AirAsia yang terdiri dari sekitar 355 pesawat A320 dan A330 serta 4.000 orang pilot.
    2. How to Use Blockchain and Big Data for Better Small Business Profits
      Dengan teknologi blockchain, usaha kecil dan menengah bisa memanfaatkan analisis big data tanpa harus khawatir dengan biaya atau kompleksitas. Bagaimana cara pemanfaatan blockchain dan big data untuk industri kecil dan menengah?
    3. Big Companies Are Embracing Analytics, But Most Still Don’t Have a Data-Driven Culture
      Selama 6 tahun NewVantage Partners melakukan survey terhadap 57 perusahaan besar dari berbagai bidang. Enam tahun lalu fokus survey adalah big data, namun tahun ini fokus survey beralih ke Artificial Intelligence. Meskipun demikian, inti permasalahan tetap sama : ledakan data dan bagaimana memanfaatkannya. Bagaimana hasil survey tersebut?
    4. Deep learning neural network used to detect earthquakes
      Sebuah tim peneliti dari Harvard University dan MIT menggunakan teknologi jaringan syaraf tiruan untuk mendeteksi gempa bumi, dan menemukan metode ini lebih akurat daripada metode saat ini. Dalam penelitian ini para peneliti melatih sebuah deep learning neural network untuk membaca seismogram dan bagaimana membedakan antara gerakan rutin “noise” dan gempa bumi. Jaringan saraf yang dinamai ConvNetQuake ini mengidentifikasi 17 kali lebih banyak gempa daripada yang tercatat dalam katalog gempa Survei Geologi Oklahoma.

Tutorial dan Pengetahuan Teknis

  1. 5 Things Dealers Need to Understand About Big Data
    Wawancara dengan beberapa eksekutif di bidang dealership mengenai big data, apa nilai strategisnya bagi para dealer, dan bagaimana penerapan big data yang tepat serta kesalahan apa yang sering dilakukan perusahaan dealer dalam penerapan big data ini.
  2. Introduction to Python Ensembles
    Ensemble menjadi salah satu metode paling populer dalam pembelajaran mesin terapan. Hampir setiap solusi pemenang Kaggle menggunakannya, dan banyak pipeline data sains memiliki ansambel di dalamnya. Artikel ini menampilkan dasar-dasar ensamble -apa dan mengapa mereka dapat bekerja dengan sangat baik- dan memberikan tutorial langsung untuk membangun ensemble dasar.
  3. Apache Ignite: Setup Guide
    Artikel singkat mengenai setup Apache Ignite.
  4. 5 Fantastic Practical Machine Learning Resources
    Artikel ini menyajikan 5 sumber praktis mengenai machine learning, yang mencakup pembelajaran mesin dari dasar, pengkodean algoritma dari nol maupun menggunakan framework machine learning tertentu.
  5. Managing Large State in Apache Flink: An Intro to Incremental Checkpointing
    Artikel ini memberikan overview mengenai arsitektur di balik fitur incremental checkpoint Apache Flink. Flink memanfaatkan RocksDB untuk status lokal, dan mencatat sstables (file format yang digunakan untuk menyimpan data) mana yang perlu dibackup untuk membuat snapshot.
  6. Comparison of the Open Source OLAP Systems for Big Data: ClickHouse, Druid and Pinot
    Perbandingan antara ClickHouse, Druid, dan Pinot. Ketiganya adalah engine OLAP storage terdistribusi yang open-source. Dalam artikel ini dibahas secara cukup mendalam mulai dari persamaan, kinerja, dan beberapa perbedaan penting dalam hal data ingestion, replikasi dan eksekusi query.
  7. Dynamometer: Scale Testing HDFS on Minimal Hardware with Maximum Fidelity
    LinkedIn menguji kinerja Apache Hadoop DFS sebelum meng-upgrade versinya, dengan menggunakan alat load-testing yang disebut Dynamometer. Tool ini mensimulasikan beban produksi dengan bootstrap dari image FS NameNode, menjalankan sejumlah besar simulasi DataNode, dan menjalankan kembali operasi nyata berdasar log audit HDFS. Dynamometer ini sekarang tersedia di github.
  8. Machine Learning Algorithms for Business Applications – Complete Guide
    Artikel yang cukup komprehensif mengenai berbagai aalgoritma machine learning, lengkap dengan kekurangan dan kelebihannya dalam penerapan untuk dunia bisnis.
  9. A Gentle Introduction to Matrix Operations for Machine Learning
    Banyak algoritma machine learning menggunakan operasi matriks dalam deskripsinya. Beberapa operasi digunakan secara langsung untuk memecahkan persamaan, sementara yang lain memberikan stuktur atau landasan yang berguna dalam deskripsi dan penggunaan operasi matriks yang lebih kompleks. Tutorial ini menjelaskan operasi matriks aljabar linear yang penting, yang digunakan dalam deskripsi metode machine learning.

Rilis Produk

    1. Apache Lens 2.7.1
      Apache Lens versi 2.7.1 mencakup support Java 8, perbaikan pada konfigurasi per user dalam job scheduler, cube segmentation, retry untuk recover dari erroe transient, dan support UNION anntar tabel fact, serta beberapa perbaikan bug.
    2. Apache Oozie 4.3.1 released
      Apache Oozie 4.3.1 mencakup beberapa bug fixes dan peningkatan minor.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Feb 14 / 2018
  • Comments Off on Seputar Big Data Edisi #48
Apache, Artificial Intelligece, Big Data, Hadoop, Implementation, IoT, machine learning, Uncategorized

Seputar Big Data Edisi #48

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu xx bulan xx 2017

Artikel dan Berita

  1. Xiaomi partners with Naver in AI for IoT devices
    Clova, platform AI dari Naver akan memperkuat device IoT Xiaomi. Kerja sama ini menunjukkan keseriusan Naver dalam bidang AI, setelah November lalu mereka menjalin kerja sama dengan LG, setelah sebelumnya Naver juga membeli pusat AI Xerox di Eropa.
  2. New big data project to enhance safety at sea
    Grahaeme Henderson, wakil presiden pelayaran dan maritim Shell, mengumumkan sebuah inisiatif baru yang disebut HiLo, yang menggunakan data besar dan analisis prediktif untuk mencegah kecelakaan dalam pelayaran.
  3. Understanding What Consumers Want Without Ever Asking Them
    Menurut Harvard Business School, setiap tahun ada lebih dari 30.000 produk baru yang diluncurkan dan sekitar 80% di antaranya gagal. Awal bulan ini Coca-Cola meluncurkan empat rasa baru dan makeover kemasan untuk Coke Diet andalan mereka. Menurut statistik Harvard Business School di atas, tiga dari rasa baru itu akan gagal. Namun dalam era yang sarat informasi yang kita jalani saat ini, apakah hal tersebut masih menjadi masalah?
  4. Innovation in mining with IoT and AI monitoring technology
    Kemampuan untuk mengumpulkan dan menganalisis data lingkungan dan peralatan, dan melakukan penilaian risiko dan wilayah secara real time memberi manfaat yang signifikan bagi operasi skala besar. Terutama industri seperti pertambangan, yang beroperasi di lingkungan yang sempit, selalu berubah dan berpotensi bahaya. Tapi apakah teknologi IoT dan AI benar-benar menguntungkan? Dan apa sebenarnya manfaat teknologi tersebut untuk operasi penambangan?
  5. Top IoT Projects: 8 Case Studies
    Hampir semua orang setuju bahwa IoT akan menjadi sangat penting, tapi tidak semua memahami bagaimana mereka bisa mendapatkan keuntungan dari teknologi ini. IDC memperkirakan bahwa pengeluaran IO di seluruh dunia akan mencapai $772,5 miliar tahun ini, 14,6 persen lebih banyak dari tahun lalu, dan diyakini akan berlanjut hingga 2021, ketika total pendapatan akan mencapai $1,1 triliun.
    Tapi apa sebenarnya yang dibeli? Berikut ini 8 contoh kasus penggunaan IoT yang cukup menarik dan mewakili berbagai bidang.
  6. What 2018 holds for AI and deep learning
    Tahun 2018 ini diprediksikan menjadi tahun di mana banyak industri berusaha menggali manfaat dari deep learning dan berusaha menjadi intelligence enterprise. Berikut ini beberapa pandangan dari PwC Analytics Group mengenai prospek serta peluang deep learning dan AI di tahun 2018.

Tutorial dan Pengetahuan Teknis

  1. GeoBike, Part 2: Querying the Data
    Pada posting sebelumnya, telah dibahas mengenai pembuatan back-end dengan Redis, dan loading data dari General Bikeshare Feed Specification (GBFS) data feed menggunakan Python. Dalam seri ini dibahas mengenai bagaimana menentukan lokasi user, dan bagaimana melakukan query data.
  2. Introduction to Matrices and Matrix Arithmetic for Machine Learning
    Matriks merupakan elemen dasar yang penting dalam penerapan machine learning. Matriks banyak digunakan terutama dalam menjelaskan proses dan algoritma, misalnya representasi variabel data masukan (X) yang digunakan untuk men-train sebuah algoritma. Tutorial ini menjelaskan mengenai konsep dasar matriks dalam aljabar linier, dan bagaimana memanipulasinya menggunakan Python.
  3. A comparison between spaCy and UDPipe for Natural Language Processing for R users
    Dalam beberapa tahun terakhir ini NLP (Natural Language Processing) berkembang ke arah task yang multibahasa, tidak lagi terikat oleh satu bahasa, negara atau batasan legal tertentu. Dengan semakin berkembangnya open data berkaitan dengan task NLP, seperti http://universaldependencies.org/ , kita dapat dengan mudah membandingkan berbagai toolkit NLP. Dalam artikel ini dibandingkan dua package NLP dalam R, yaitu udpipe dan spacyr.
  4. Consider to Introduce Docker to Your Data Science Workflow
    Salah satu permasalahan yang banyak dihadapi oleh data saintis adalah konfigurasi environment. Setting environment seringlai berarti menginstal banyak package, menunggu compile package, dan berbagai proses trial and error lainnya. Penggunaan docker dalam data science workflow akan sangat membantu mengatasi permasalahan tersebut. Artikel ini membahas bagaimana mempersiapkan docker untuk menjalankan notebook Jupyter sederhana.
  5. A Simple Starter Guide to Build a Neural Network
    Artikel ini menjelaskan dasar-dasar membangun neural network dari nol, dengan meminimalisir berbagai konsep matematis dan saintifik di belakangnya.

Rilis Produk

  1. Apache Knox 1.0.0
    Apache Knox akhirnya mengumumkan rilis versi 1.0.0.
    Dalam rilis ini dilakukan repackaging class-class ke dalam package dengan nama yang lebih sesuai. Hal ini mungkin dapat menimbulkan permasalahan bagi user yang meng-ekstend class-class dengan package name yang lama. Oleh karena itu, dirilis versi 0.14.0 dengan fitur set yang kurang lebih sama dengan 1.0.0. Versi 1 ini juga mencakup beberapa perbaikan bug dari versi 0.14.0 serta penyempurnaan fitur Service Discovery dan Topology Generation.
  2. Apache Atlas 0.8.2 released
    Rilis ini mencakup perbaikan dan penambahan fitur di antaranya metadata types & instances, classification, lineage, search/discovery, serta security & data masking.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
Pages:1234567...12
Tertarik dengan Big Data beserta ekosistemnya? Gabung