:::: MENU ::::

Posts Categorized / Artificial Intelligece

  • Mar 23 / 2018
  • Comments Off on Seputar Big Data Edisi #52
Apache, Artificial Intelligece, Big Data, Forum Info, Hadoop, Implementation, Spark, Storm

Seputar Big Data Edisi #52

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu 3 bulan Maret 2018

Artikel dan Berita

  1. Cambridge Analytica harvested data from millions of unsuspecting Facebook users
    Cambridge Analytica, perusahaan yang melakukan profiling pemilih dalam kampanye Donald Trump, diduga mengumpulkan informasi pribadi milik lebih dari 50 juta profil Facebook, yang kemudian mereka gunakan untuk mempengaruhi dan melakukan ‘perang budaya’ dalam pemilu 2016 lalu.
  2. How Machine Learning is Revolutionizing Cybersecurity
    Machine learning telah terbukti bermanfaat dalam berbagai penerapan analisis data. Machine learning is particularly useful in various applications of data analysis. Kemampuan untuk belajar dari data, mengidentifikasi pola, mengotomasi pembuatan model, dan pengambilan keputusan, sangat bermanfaat untuk bidang keamanan saiber (cybersecurity), yang memanfaatkan data besar serta analisa pola perilaku.
  3. Is Your Company Ready For AI? Ask Yourself These Nine Questions
    Statista memprediksi bahwa pasar AI secara global akan bernilai lebih dari $ 10,5 miliar pada tahun 2020, dan bisnis akan menerapkan AI ke dalam operasi sehari-hari mereka dalam bentuk otomatisasi dan chatbots layanan pelanggan. Menurut CIOs, CTOs dan technology executive anggota Forbes Technology Council, berikut adalah sembilan pertanyaan untuk menentukan apakah AI adalah investasi cerdas untuk bisnis Anda saat ini.
  4. Hortonworks, Confluent and Waterline attempt to make Big Data easier
    Big data dan produk yang menyertainya memiliki kompleksitas yang seringkali tidak terhindarkan. Beberapa vendor besar menyadari hal ini, dan menawarkan berbagai solusi untuk memudahkan implementasi dan adopsi teknologi mereka untuk bisnis. Hortonwork, Confluent dan Waterline adalah beberapa di antaranya.
  5. Deep Learning Achievements Over the Past Year
    Pada musim natal lalu, tim statbot melakukan beberapa review terhadap pencapaian dari berbagai produk machine learning dalam setahun terakhir
  6. Top 5 Reasons Most Big Data Projects Never Go Into Production
    Pada akhir tahun 2016, Gartner merilis sebuah laporan yang menyatakan : “Hanya 15 persen dari proyek big data yang diimplementasikan ke dalam sistim produksi”. Pada kenyataannya hingga saat ini pun masih terjadi kendala-kendala yang dihadapi dalam implementasi big data.

Tutorial dan Pengetahuan Teknis

  1. Using Apache Kafka for Real-Time Event Processing
    Bagaimana implementasi Apache Kafka dalam mendukung pemrosesan secara reltime? Dalam posting ini, diperlihatkan bagaimana membangun pipeline pemrosesan aliran data menggunakan Apache Kafka.
  2. Top 5 Best Jupyter Notebook Extensions
    Ekstensi Notebook adalah plug-in yang dapat dengan mudah ditambahkan ke notebook Jupyter Anda. Berikut 5 Jupyter Extension yang paling sering digunakan.
  3. Managing isolated Environments with PySpark
    Melakukan konfigurasi node dalam cluster Hadoop/Spark dengan dependensi non-JVM biasanya cukup menyulitkan. Artikel ini menguraikan contoh solusi dan memberikan beberapa contoh code untuk menjalankan PySpark dengan Pandas dan library python lainnya.
  4. Data infrastructure at GO-JEK
    Dengan 100M order per bulan, 700ribu pengemudi aktif, dan 125 ribu merchant, GO-JEK memerlukan sistem yang handal. Mari ‘mengintip’ ke dalam infrastruktur data milik perusahaan terkemuka di Indonesia ini.
  5. [DATASET] Mozilla Common Voice
    Sekitar 400.000 rekaman dari 20.000 orang yang berbeda, menghasilkan total sekitar 500 jam rekaman suara. Saat ini merupakan koleksi dataset suara terbesar ke dua, dan jumlahnya masih terus bertambah.

Rilis Produk

  1. Apache PredictionIO 0.12.1 Release
    Apache PredictionIO adalah machine learning server yang dibangun di atas open source stack. Rilis 0.12.1 mencakup penambahan support untuk Spark 2.2, CleanupFunctions untuk Python, dan beberapa perubahan.
  2. Altair 2.0
    Altair adalah library Python untuk visualisasi statistik deklaratif berbasis Vega dan Vega-Lite. Kandidat untuk versi 2.0 sudah tersedia, dengan support untuk visualisasi interaktif Vega-Lite di Python.
  3. Tensorflow 1.6.0 released
    Tensorflow 1.6.0 mendukung CUDA 9.0 dan cdDNN 7, beserta beberapa fitur tambahan perbaikan bugs lainnya
  4. R 3.4.4 is released
    Rilis ini direncanakan merupakan rilis terakhir dari seri 3.4.x.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Mar 23 / 2018
  • Comments Off on MeetUp #19 Universitas Andalas, Padang
Apache, Artificial Intelligece, Big Data, Blockchain, Forum Info, Implementation, Komunitas, Social Media

MeetUp #19 Universitas Andalas, Padang

Pada meetup ke #19 ini idBigData menyapa rekan-rekan di kota Padang. Kali ini idBigData bekerja sama dengan Universitas Andalas, AIDI (Asosiasi Ilmuwan Data Indonesia), dan Labs247. Meetup dilaksanakan pada tanggal 13 Maret 2018 yang lalu, di gedung perpustakaan Universitas Andalas. Antusiasme rekan-rekan idBigData di Padang terlihat dari jumlah peserta yang mencapai sekitar 300 orang.

Acara dimulai pada pukul 9 pagi, dan dibuka dengan sambutan dari Rektor Universitas Andalas, Prof. Dr. Tafdhil Husni, S.E., M.B.A. dan Dekan Fakultas Teknologi Informasi, Dr. Ahmad Syafruddin Indrapriyatna, M.T.

Pembicara pertama adalah Husnil Kamil, M.T. dari Universitas Andalas, yang menyampaikan mengenai Big Data dalam Dunia Pendidikan. Dilanjutkan oleh CEO Labs247, Beno K. Pradekso, mengenai Big Data dan Deep Learning. Pembicara selanjutnya adalah chairman idBigData, Sigit Prasetyo, dengan materi Open Source Big Data Platform. Ditutup oleh Bagus Rully Muttaqien dari AIDI, menyampaikan topik Big Data dan Media Sosial.

Video meetup #19 dapat disaksikan di sini.


meetup-19-1

meetup-19-2

meetup-19-3

meetup-19-4

meetup-19-5

meetup-19-6

meetup-19-7

meetup-19-8

meetup-19-9

meetup-19-10

meetup-19-11

meetup-19-12

Contributor :


M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng.
Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun.
Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.
  • Mar 15 / 2018
  • Comments Off on Seputar Big Data Edisi #51
Apache, Artificial Intelligece, Big Data, Forum Info, Hadoop, Implementation, IoT, Komunitas, Spark

Seputar Big Data Edisi #51

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan Maret 2018.

Artikel dan Berita

  1. Dubai Decrees Itself the A.I. City-State of the Future
    Pemerintah UEA mencanangkan Dubai sebagai kota AI masa depan, dengan mendorong implementasi big data dan AI. Beberapa di antaranya adalah menyediakan menyediakan lingkungan yang terjangkau untuk melakukan inkubasi dan launching bisnis di bidang AI, setelah pada tahun 2016 PM UAE menginvestasikan US$270 juta untuk inovasi. Pada Oktober tahun lalu UAE menunjuk menteri bidang AI, yang merupakan menteri pertama di dunia yang khusus menangani bidang ini.
  2. Mengenal Kelas Big Data dan Komputasi Kognitif Pertama di Indonesia
    Fakultas Ekonomi dan Bisnis Universitas Indonesia (FEB UI) meluncurkan mata kuliah baru : Big Data dan Komputasi Kognitif yang pertama di Tanah Air. Kelas ini hadir atas kemitraan UI dengan perusahaan solusi kognitif dan platform cloud IBM Indonesia.
  3. Google’s March Madness AI contest offers 0,000 in prizes
    Google menyelenggarakan kompetisi AI untuk prediksi hasil turnamen basket antar perguruan tinggi, NCAA March Madness, dengan hadiah sebesar US$100,000. Dalam kompetisi ini peserta membuat software AI untuk prediksi pemenang, dengan data dari 40 juta pertandingan basket NCAA yang direkam sejak 2009.
  4. Baidu shows strategic vision with AI map merger
    Salah satu raksasa internet dari China, Baidu, baru-baru ini mengumumkan pengalihan bisnis peta digital mereka. Baidu Maps dialihkan ke bawah AI Group, setelah sebelumnya berada di bawah anak perusahaan yang memegang mesin pencari web. Langkah ini merupakan upaya mendorong bisnis AI mereka. Dikabarkan kemungkinan di masa datang Baidu Maps akan kembali dialihkan ke dalam bagian yang mengembangkan autonomous car.
  5. AI ‘more dangerous than nukes’: Elon Musk still firm on regulatory oversight
    Elon Musk mengatakan bahwa AI memiliki potensi bahaya yang lebih besar daripada nuklir. Oleh karena itu menurut Musk, perlu dibentuk sebuah badan independen yang dapat memastikan penerapan-penerapan AI dilakukan dalam batas yang aman untuk umat manusia di seluruh dunia.
  6. Elastic Plots Its Own Course to Big Data Success
    Elastic, perusahaan di belakang Elasticsearch, salah satu project open source terpopuler, adalah salah satu perusahaan terkemuka di bidang big data. Berikut ini beberapa ‘rahasia’ di balik kesuksesan Elastic.
  7. Waymo self-driving trucks to transport Google Atlanta data center gear
    Waymo, perusahaan self driving car milik Alphabet, melebarkan pengujian kendaraan swakemudi dari mobil penumpang biasa ke kendaraan besar, yaitu truk. Percobaan pertama mereka ditujukan untuk membantu data center Google di Atlanta, Georgia.

Tutorial dan Pengetahuan Teknis

  1. Gentle Introduction to Apache NiFi for Data Flow… and Some Clojure
    Tutorial mengenai Apache NiFi. Menjelaskan mengenai bagaimana membuat prosesor yang membaca dari file, prosesor yang menulis ke file, dan prosesor yang dapat menginsert data ke MongoDB.
  2. Getting started with Data Engineering
    Salah satu spesialisasi yang banyak dicari akhir-akhir ini adalah Data Engineer, bahkan kebutuhan data engineer ini diperkirakan melebihi kebutuhan terhadap data saintis. Artikel ini memberikan penjelasan yang cukup bagus mengenai apa itu data engineer, serta beberapa terminologi yang menyertainya.
  3. MongoDB and Data Streaming: Implementing a MongoDB Kafka Consumer
    Pengenalan singkat mengenai Apache Kafka dan bagaimana menggunakan MongoDB sebagai sumber dan tujuan data yang di-stream.
  4. Introducing Pulsar Functions
    For simple ETL, real-time aggregation, event routing, and similar use cases, Apache Pulsar is adding Pulsar Functions. Inspired by AWS Lambda and Google Cloud Functions, Pulsar Functions use a simple API and the Pulsar cluster for deployment. The post covers the design goals, deployment mechanism, runtime guarantees, and more.
    Apache pulsar menambahkan Pulsar Functions untuk menangani use case
  5. Installing Apache Spark 2.3.0 on macOS High Sierra
    Overview mengenai instalasi Apache Spark 2.3.0 di atas Mac OS.
  6. Daftar lengkap operasi aljabar linier yang diperlukan dalam menggunakan NumPy untuk aplikasi machine learning.
  7. [DATASET] LibriSpeech ASR corpus
    LibriSpeech adalah korpus yang berisi sekitar 1000 jam 16kHz audio dalam bahasa Inggris. Data didapatkan dari project audiobook LibriVox, yang telah disegmentasi dan diselaraskan.

Rilis Produk

  1. The Building Blocks of Interpretability
    Google merilis Lucid, library jaringan syaraf tiruan yang dibangun dari project DeepDream. Lucid digunakan untuk menambahkan efek artistik pada gambar. Di samping itu juga dirilis Google Colab, jupyter notebook yang disimpan di google drive, dan dapat langsung digunakan untuk menjalankan Lucid dan berbagai aplikasi deep learning tanpa perlu melakukan setup infrastruktur apapun.
  2. Semantic Image Segmentation with DeepLab in Tensorflow
    Google merilis DeepLab-v3+, model Tensorflow yang digunakan untuk melakukan segmentasi semantik image. Segmentasi semantik adalah proses memberikan label semantik setiap piksel dalam sebuah citra/image, seperti misalnya ‘langit’, ‘awan’, ‘ayam’, dsb.
  3. Apache MXNet (incubating) 1.1.0 Release
    Apache MXNet (incubating), sebuah framework deep learning, rilis versi 1.1.0.
    Tercakup di dalamnya peningkatan kinerja untuk GPU maupun CPU, penambahan dukungan operator, dan tutorial serta contoh penggunaan yang semakin lengkap.
  4. Apache Kylin 2.3.0 released
    Apache Kylin 2.3.0 merupakan rilis major, dengan lebih dari 250 perbaikan dan peningkatan. Apache Kylin adalah engine analytics terdistribusi, menyediakan antarmuka SQL dan OLAP di atas Hadoop.
  5. Apache Hivemall 0.5.0-incubating released
    Apache Hivemall adalah library machine learning yang diimplementasikan sebagai UDF/UDAF/UDTF. Versi 0.5.0 ini merupakan rilis pertama sejam Hivemall memasuki inkubator Apache. Hivemall berjalan di atas framework pemrosesan data berbasis Hadoop, yaitu Hive, Spark dan Pig.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Mar 09 / 2018
  • Comments Off on Seputar Big Data Edisi #50
Apache, Artificial Intelligece, Big Data

Seputar Big Data Edisi #50

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan maret 2018

Artikel dan Berita

  1. Korea to adopt AI, big data, blockchain for customs service
    Bea Cukai Korea Selatan akan mengadopsi beberapa teknologi terkini, seperti kecerdasan buatan (AI), big data dan blockchain, untuk meningkatkan kualitas pelayanan kepabeanan sebagai bentuk antisipasi atas pertumbuhan volume perdagangan dan ecommerce
  2. Cargill Offers Big Data, Digital Tools to Help Shrimp Farmers
    Cargill Inc. akan menawarkan solusi big data untuk meningkatkan produksi udang. Dengan memanfaatkan machine learning dan sensor diharapkan dapat membantu petani untuk memperoleh analisa berbagai hal mulai dari hubungan antar ukuran udang dan pola pemberian pakan hingga kualitas air dan cuaca yang dapat diakses melalui telepon genggam atau tablet.
  3. Why Is Health Care Cybersecurity So Bad? Blame the Insiders, New Verizon Report Says
    Bukan rahasia lagi bahwa bidang kesehatan sangat rentan terhadap serangan cyber bila dibandingkan dengan industri lainnya. Industri kesehatan adalah satu-satunya industri di mana aktor internal merupakan ancaman terbesar bagi sebuah organisasi.
  4. Alibaba is to Launch New A.I. and Big Data Cloud Products in Europe
    Pada MCW Barcelona 2018, Alibaba Cloud meluncurkan tiga produk utama – solusi pencarian berbasis gambar, Intelligent Services Robot dan Dataphin. Walaupun Alibaba Cloud telah memasuki pasar Eropa sejak 2016, dan telah meluncurkan produk AI, tapi hanya memfokuskan untuk melayani pelanggan China yang berbisnis di Eropa.
  5. Weighing Open Source’s Worth for the Future of Big Data
    Tidak diragukan lagi bahwa software open source menjadi motor penggerak kemajuan big data, bahkan vendor-vendor raksasa pun tidak ketinggalan menjadi penggiat dan pengguna open source. Namun bagaimana posisi software open source saat ini, termasuk dari sisi bisnis, dan bagaimana prospeknya di masa depan?
  6. Blockchains and APIs
    Kemajuan teknologi terutama yang berbasisan blockchain, memberi peluang bagi model bisnis baru, dikarenakan akan terjadi peningkatan jumlah perangkat yang terhubung dalam kehidupan kita sehari-hari. Artikel ini menjelaskan lengkap dengan contoh penerapan, bagaimana blockchain dan API membuka berbagai peluang untuk model-model bisnis baru.

Tutorial dan Pengetahuan Teknis

  1. Hortonworks DataFlow (HDF) 3.1 blog series part 5: Introducing Apache NiFi-Atlas integration
    Artikel ini menjelaskan mengenai bagaimana Hortonwork DataFlow mengintegrasikan Apache NiFi dengan Apache Atlas untuk mencatat data lineage pada Kafka, Hive, dan lain-lain.
  2. Spark Streaming Checkpointing on Kubernetes
    Sebuah job streaming Spark yang berlangsung dalam waktu lama memerlukan checkpoint, baik untuk data maupun metadata, agar dapat dilakukan recovery jika terjadi kegagalan. Artikel ini membahas mengenai konfigurasi metadata checkpoint serta beberapa setting tambahan yang diperlukan untuk menjalankan Spark di atas Kubernetes.
  3. Twitter sentiment analysis with Machine Learning in R using doc2vec approach (part 1)
    Word2vec adalah sebuah jaringan syaraf tiruan dengan 2 layer yang memproses teks. Inputnya berupa korpus teks, dan outputnya berupa sekumpulan vektor. Metode ini saat ini termasuk yang paling banyak dignakan dalam analisis sentimen. Artikel ini menguraikan dengan jelas implementasi word2vec untuk sentimen analisis Twitter menggunakan R.
  4. Understanding LSTM and its quick implementation in keras for sentiment analysis
    LSTM saat ini telah banyak digunakan untuk pengenalan suara, pemodelan bahasa, analisis sentimen dan prediksi teks. Artikel ini menjelaskan mengenai LSTM, apa kelebihannya dibanding RNN, dan bagaimana penerapannya untuk analisis sentimen dengan Keras.
  5. [DATASET] Labeled Faces in the Wild
    13.000 gambar wajah manusia yang disusun dan dilabeli, untuk digunakan dalam mengembangkan aplikasi yang melibatkan pengenalan wajah.

Rilis Produk

  1. Apache Storm 1.2.0
    Rilis 1.2.0 ini mencakup banyak perbaikan terhadap integrasi Kafka yang meningkatkan stabilitas, kemudahan konfigurasi, dan fitur-fitur baru. Dalam rilis ini juga mencakup sistem metriks yang baru untuk statistik internal dan API baru untuk user defined metrics, serta beberapa fitur lainnya yang terkait HBase, Flux maupun Kafka.
  2. Apache Flink 1.4.1
    Rilis ini merupakan bugfix pertama untuk Apache Flink seri 1.4. Mencakup lebih dari 60 perbaikan dan peningkatan minor terhadap Flink 1.4.0. Pengguna Flink 1.4.0 sangat disarankan untuk melakukan update ke versi ini.
  3. JupyterLab: Ready for Users
    JupyterLab, sebuah antarmuka berbasis web untuk Project Jupyter baru-baru ini diluncurkan versi Beta-nya. JupyterLab adalah lingkungan pengembangan interaktif untuk notebooks, code dan data. Dalam JupyterLab anda dapat menggunakan editor teks, terminal, data file viewers dan berbagai komponen custom lainnya, berdampingan dengan notebook di dalam sebuah work area.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Feb 14 / 2018
  • Comments Off on Seputar Big Data Edisi #48
Apache, Artificial Intelligece, Big Data, Hadoop, Implementation, IoT, machine learning, Uncategorized

Seputar Big Data Edisi #48

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu xx bulan xx 2017

Artikel dan Berita

  1. Xiaomi partners with Naver in AI for IoT devices
    Clova, platform AI dari Naver akan memperkuat device IoT Xiaomi. Kerja sama ini menunjukkan keseriusan Naver dalam bidang AI, setelah November lalu mereka menjalin kerja sama dengan LG, setelah sebelumnya Naver juga membeli pusat AI Xerox di Eropa.
  2. New big data project to enhance safety at sea
    Grahaeme Henderson, wakil presiden pelayaran dan maritim Shell, mengumumkan sebuah inisiatif baru yang disebut HiLo, yang menggunakan data besar dan analisis prediktif untuk mencegah kecelakaan dalam pelayaran.
  3. Understanding What Consumers Want Without Ever Asking Them
    Menurut Harvard Business School, setiap tahun ada lebih dari 30.000 produk baru yang diluncurkan dan sekitar 80% di antaranya gagal. Awal bulan ini Coca-Cola meluncurkan empat rasa baru dan makeover kemasan untuk Coke Diet andalan mereka. Menurut statistik Harvard Business School di atas, tiga dari rasa baru itu akan gagal. Namun dalam era yang sarat informasi yang kita jalani saat ini, apakah hal tersebut masih menjadi masalah?
  4. Innovation in mining with IoT and AI monitoring technology
    Kemampuan untuk mengumpulkan dan menganalisis data lingkungan dan peralatan, dan melakukan penilaian risiko dan wilayah secara real time memberi manfaat yang signifikan bagi operasi skala besar. Terutama industri seperti pertambangan, yang beroperasi di lingkungan yang sempit, selalu berubah dan berpotensi bahaya. Tapi apakah teknologi IoT dan AI benar-benar menguntungkan? Dan apa sebenarnya manfaat teknologi tersebut untuk operasi penambangan?
  5. Top IoT Projects: 8 Case Studies
    Hampir semua orang setuju bahwa IoT akan menjadi sangat penting, tapi tidak semua memahami bagaimana mereka bisa mendapatkan keuntungan dari teknologi ini. IDC memperkirakan bahwa pengeluaran IO di seluruh dunia akan mencapai $772,5 miliar tahun ini, 14,6 persen lebih banyak dari tahun lalu, dan diyakini akan berlanjut hingga 2021, ketika total pendapatan akan mencapai $1,1 triliun.
    Tapi apa sebenarnya yang dibeli? Berikut ini 8 contoh kasus penggunaan IoT yang cukup menarik dan mewakili berbagai bidang.
  6. What 2018 holds for AI and deep learning
    Tahun 2018 ini diprediksikan menjadi tahun di mana banyak industri berusaha menggali manfaat dari deep learning dan berusaha menjadi intelligence enterprise. Berikut ini beberapa pandangan dari PwC Analytics Group mengenai prospek serta peluang deep learning dan AI di tahun 2018.

Tutorial dan Pengetahuan Teknis

  1. GeoBike, Part 2: Querying the Data
    Pada posting sebelumnya, telah dibahas mengenai pembuatan back-end dengan Redis, dan loading data dari General Bikeshare Feed Specification (GBFS) data feed menggunakan Python. Dalam seri ini dibahas mengenai bagaimana menentukan lokasi user, dan bagaimana melakukan query data.
  2. Introduction to Matrices and Matrix Arithmetic for Machine Learning
    Matriks merupakan elemen dasar yang penting dalam penerapan machine learning. Matriks banyak digunakan terutama dalam menjelaskan proses dan algoritma, misalnya representasi variabel data masukan (X) yang digunakan untuk men-train sebuah algoritma. Tutorial ini menjelaskan mengenai konsep dasar matriks dalam aljabar linier, dan bagaimana memanipulasinya menggunakan Python.
  3. A comparison between spaCy and UDPipe for Natural Language Processing for R users
    Dalam beberapa tahun terakhir ini NLP (Natural Language Processing) berkembang ke arah task yang multibahasa, tidak lagi terikat oleh satu bahasa, negara atau batasan legal tertentu. Dengan semakin berkembangnya open data berkaitan dengan task NLP, seperti http://universaldependencies.org/ , kita dapat dengan mudah membandingkan berbagai toolkit NLP. Dalam artikel ini dibandingkan dua package NLP dalam R, yaitu udpipe dan spacyr.
  4. Consider to Introduce Docker to Your Data Science Workflow
    Salah satu permasalahan yang banyak dihadapi oleh data saintis adalah konfigurasi environment. Setting environment seringlai berarti menginstal banyak package, menunggu compile package, dan berbagai proses trial and error lainnya. Penggunaan docker dalam data science workflow akan sangat membantu mengatasi permasalahan tersebut. Artikel ini membahas bagaimana mempersiapkan docker untuk menjalankan notebook Jupyter sederhana.
  5. A Simple Starter Guide to Build a Neural Network
    Artikel ini menjelaskan dasar-dasar membangun neural network dari nol, dengan meminimalisir berbagai konsep matematis dan saintifik di belakangnya.

Rilis Produk

  1. Apache Knox 1.0.0
    Apache Knox akhirnya mengumumkan rilis versi 1.0.0.
    Dalam rilis ini dilakukan repackaging class-class ke dalam package dengan nama yang lebih sesuai. Hal ini mungkin dapat menimbulkan permasalahan bagi user yang meng-ekstend class-class dengan package name yang lama. Oleh karena itu, dirilis versi 0.14.0 dengan fitur set yang kurang lebih sama dengan 1.0.0. Versi 1 ini juga mencakup beberapa perbaikan bug dari versi 0.14.0 serta penyempurnaan fitur Service Discovery dan Topology Generation.
  2. Apache Atlas 0.8.2 released
    Rilis ini mencakup perbaikan dan penambahan fitur di antaranya metadata types & instances, classification, lineage, search/discovery, serta security & data masking.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Jan 29 / 2018
  • Comments Off on Seputar Big Data #46
Apache, Artificial Intelligece, Big Data, Forum Info, Hadoop, Implementation

Seputar Big Data #46

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu empat bulan Januari 2017

Artikel dan Berita

  1. Kominfo Dorong DPR Tetapkan UU Perlindungan Data Pribadi Tahun Ini
    Penetapan Undang-Undang (UU) Perlindungan Data Pribadi dinilai semakin krusial, mengingat tren big data telah meluas ke berbagai lini. Masyarakat sadar atau tanpa sadar telah menyerahkan informasi personal ke berbagai layanan internet. Kendati begitu, UU Perlindungan Data Pribadi ini masih mengambang, dan bahkan belum menjadi prioritas dalam Program Legislasi Nasional (Prolegnas) 2018. Namun Kominfo akan mendorong DPR untuk mengesahkan UU tersebut tahun ini.
  2. Google Suntik Dana Segar Rp16 Triliun untuk Gojek
    Gojek mendapatkan suntikan dana segar Alphabet, induk perusahaan Google dan beberapa rekan senilai US$1,2 miliar atau sekitar Rp16 triliun. Selain Google, investor asal Singapura, Temasek Holdings, KKR & Co, Warburg Pincus LLC dan platform online China Meituan-Dianping pun akan berpartisipasi dalam suntikan dana tersebut. Kabarnya rencana pendanaan ini sudah dibuka sejak tahun lalu dan diproyeksikan akan rampung dalam beberapa pekan.
  3. Indonesia menjadi tempat yang ideal untuk bisnis data center
    Indonesia menjadi tempat pengembangan bisnis pusat data dan teknologi kumputasi awan yang menarik bagi investor karena tingkat pengembalian modal investasi (ROIC) yang mencapai 11,6%, atau tertinggi di Asia Pasifik. Di Singapura, tingkat ROIC hanya 9,5%, sedang di Australia, karena mahalnya fasilitas di perkotaan, angka ROIC hanya 3,8% atau terendah.
  4. How Big Data Is Revolutionizing Sports
    Dunia olahraga tidak luput dari pengaruh big data. Saat ini semakin banyak klub maupun atlet yang memanfaatkan data untuk meningkatkan performa mereka. Artikel ini mengupas bagaimana data mengubah wajah dunia olahraga.
  5. Alphabet unveils Chronicle, a security company that uses big data to detect vulnerabilities
    Alphabet Inc meluncurkan unit bisnis baru yang akan menjual perangkat lunak cyber security ke perusahaan-perusahaan besar. Unit baru yang bernama Chronicle ini memanfaatkan kemampuan machine learning untuk menyaring dan menganalisis data dalam jumlah besar secara lebih cepat dan tepat dibanding metode tradisional.
  6. 4 tips for delivering more business value with short-term big data projects
    Banyak perusahaan yang menjalankan project big data kesulitan menunjukkan value bisnis yang didapat dari project yang mereka jalankan, terutama karena project big data biasanya berskala besar dan berjangka panjang. Berikut ini beberapa tips menjalankan project berjangka pendek untuk dapat memperoleh hasil yang nyata.

Tutorial dan Pengetahuan Teknis

  1. Introduction to distributed TensorFlow on Kubernetes
    Contoh implementasi TensorFlow dii atas kubernetes di Amazon cloud.
  2. Time Series Visualisations: Kibana or Grafana?
    Review mengenai Kibana dan Grafana, tools untuk data visualisasi, terutama untuk data time series. Bagaimana kedua tools tersebut dapat saling melengkapi dan apakah dirilisnya Kibana Timelion membuat Grafana menjadi redundan dalam penggunaan Kibana.
  3. An introduction to unified queuing and streaming
    Perbedaan antara queuing dan streaming kadang tidak terlalu jelas, dan kebingungan dalam hal ini seringkali dapat menyebabkan kesalahan desain. Artikel ini menjelaskan dengan baik untuk perbedaan antara keduanya, dilengkapi dengan beberapa keterangan tambahan tentang bagaimana Apache Pulsar mendukung kedua use case.
  4. Machine Learning with R Caret – Part 1
    Serial ini adalah mengenai pembelajaran mesin dengan R. Artikel ini menggunakan paket Caret di R. Pada bagian ini, pertama-tama akan dilakukan Exploratory Data Analysis (EDA) pada dataset nyata, dan kemudian menerapkan regresi linier non-reguler. Contoh kasusnya adalah melakukan prediksi output daya berdasarkan seperangkat pembacaan dari berbagai sensor dalam sebuah pembangkit listrik berbahan bakar gas alam.
  5. implyr: R Interface for Apache Impala
    Package dplyr menyediakan grammar untuk pemrosesan data di R. Package implyr membantu dplyr untuk menerjemahkan grammar tersebut ke dalam Impala-compatible SQL commands. Artikel ini menjelaskan mengenai instalasi dan contoh penggunaan implyr.
  6. Step by Step Tutorial: Deep Learning with TensorFlow in R
    Tutorial langkah demi langkah penerapan deep learning menggunakan TensorFlow di R.

Rilis Produk

  1. Apache Impala 2.11.0
    Apache Impala 2.11.0 mencakup peningkatan dalam integrasi S3 (support IAM role), code gen, dan support Kudu. Secara keseluruhan terdapat 200 ticket yang tercakup dalam rilis ini.
  2. Apache HBase 2.0.0 beta is Available
    Apache HBase 2.0.0 telah tersedia dalam versi beta. Terdapat 2000 perubahan yang tercakup dalam rilis ini.
  3. Apache Solr 7.2.1 released
    Rilis 7.2.1 mencakup 3 bug fixes dari versi 7.2.0, dan meliputi juga Apache Lucene 7.2.1 yang mengandung 1 bug fix dari versi 7.2.0-nya.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Jan 22 / 2018
  • Comments Off on Seputar Big Data Edisi #45
Apache, Artificial Intelligece, Big Data, Forum Info, Hadoop, Implementation, pertanian, Storage

Seputar Big Data Edisi #45

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ketiga bulan Januari 2018

Artikel dan Berita

  1. Alibaba neural network defeats human in global reading test
    Satu lagi bidang di mana AI dapat mengungguli manusia. Kali ini Alibaba neural network (dan Microsoft Research Asia) berhasil meraih skor lebih tinggi dari yang dicapai manusia dalam tes pemahaman bacaan (reading comprehension) kategori Exact Match. Tes yang bernama SQuAD ini berisi lebih dari 100 ribu soal-jawab berdasarkan lebih dari 500 artikel wikipedia. Dalam ranking nilai EM mereka tercatat skor tertinggi manusia sebesar 82.304, Alibaba 82.440 dan Microsoft 82.650.
  2. How Mining Companies manage Big Data Analytics to Benefit the Business
    Berbagai teknologi baru dalam industri pertambangan memberi kesempatan kepada perusahaan untuk menganalisis peralatan dan proses yang tidak pernah mereka lakukan sebelumnya. Namun demikian, dengan teknologi baru ini muncul tantangan baru: bagaimana mengelola data yang dihasilkan oleh teknologi tersebut untuk mendorong bisnis. Berikut ini beberapa keuntungan dan use case dari big data untuk industri pertambangan.
  3. Big Data, Small Target: The Smart Approach To Artificial Intelligence
    Tidak semua inisiatif big data berjalan baik, bahkan menurut Gartner, hanya 15% bisnis yang berhasil melewati tahap percontohan atau pilot project big data.
    Dengan semakin besarnya tekanan di dunia bisnis untuk melakukan penerapan AI, dikhawatirkan semakin banyak perusahaan yang mengadopsi teknologi ini tanpa memahaminya terlebih dahulu. Berikut ini beberapa tips untuk memulai proyek big data dan AI maupun ML di perusahaan anda.
  4. Big Data, Analytics, and Machine Learning: Changing Insurance
    Kesuksesan, kegagalan, dan perubahan dalam bisnis asuransi selama ini sebagian besar selalu ditentukan oleh data. Akan tetapi kemunculan big data dan machine learning mengubah peta permainan di dunia asuransi. Pemenangnya adalah yang dapat mengakses data yang paling relevan, menganalisisnya dengan cara baru dan unik, dan menerapkannya pada waktu dan tempat yang tepat, semuanya dengan kecepatan luar biasa.
  5. Big data could soon improve decision making for farmers and fishermen
    Sebuah proyek yang didanai bersama oleh program Horizon 2020 Uni Eropa, melihat bagaimana arus informasi yang dikumpulkan dari tanah, udara dan satelit dapat mendorong pertanian dan perikanan. Proyek Bioekonomi Berbasis Data (DataBio) ini meneliti berbagai aplikasi big data dalam pertanian, kehutanan dan akuakultur, dan bagaimana informasi dapat memberdayakan mereka yang bekerja di sektor-sektor tersebut.
  6. Big data analytics in supply chain: Tackling the tidal wave
    Jumlah data supply-chain tumbuh secara eksponensial, dan perusahaan-perusahaan mulai kewalahan dalam memanfaatkan secara efektif informasi yang tersedia. Penelitian baru mengungkapkan strategi yang dapat mereka adopsi untuk membantu memanfaatkan kekuatan big data.
  7. Georgia researchers are studying the ways AI can reduce traffic accidents in Atlanta
    Kemacetan parah yang terjadi di Atlanta kebanyakan adalah akibat dari kecelakan di persimpangan-persimpangan besar. Untuk mengatasinya, peneliti di Georgia University melakukan studi untuk mengembangkan sistem berbasis citra untuk memantau dan mempelajari keamanan persimpangan besar menggunakan AI dan database real-time berbasis cloud.

Tutorial dan Pengetahuan Teknis

  1. Building a Distributed Log From Scratch, Part 1: Storage Mechanics
    Artikel ini adalah bagian pertama dari serangkaian artikel mengenai message log, membahas mengenai mengapa log penting dalam big data, dan bagaimana mekanisme penyimpanannya.
  2. A Gentle Introduction to Neural Machine Translation
    Penerjemah otomatis merupakan salah satu tugas yang paling menantang dalam bidang AI. Pada awalnya sistem berbasis aturan (rule-based) digunakan untuk menangani permasalahan ini, yang kemudian digantikan oleh metode statistik pada tahun 90an. Saat ini metode yang banyak digunakan adalah model deep neural network. Artikel ini menjelaskan mengenai tantangan yang dihadapi dalam pengembangan penerjemah otomatis dan efektifitas model neural machine translation.
  3. Parsing in Python: Tools and Libraries (Part 8)
    Bagian terakhir dari 8 artikel mengenai parsing dalam python. Mengupas dengan detail berbagai tools dan library dalam python yang dapat digunakan untuk melakukan data parsing, dan apa kelebihan dari masing-masing tool dan library tersebut. Pastikan anda membaca seri-seri sebelumnya.
  4. Elasticsearch for Dummies
    Blog post ini menjelaskan mengenai dasar-dasar Elasticsearch, kelebihannya, cara menginstalnya dan bagaimana mengindeks dokumen menggunakan Elasticsearch.
  5. Apache Mesos, Apache Kafka and Kafka Streams for Highly Scalable Microservices
    Artikel ini menjelaskan mengenai bagaimana membangun infrastuktur mikroservis yang skalabel dan mission-critical menggunakan Apache Kafka, Kafka Streams API, dan Apache Mesos di dalam platform Confluent dan Mesosphere.
  6. A Primer on Web Scraping in R
    Mengakses informasi dari halaman web seringkali membutuhkan usaha ekstra. Sebenarnya banyak package yang telah tersedia dalam R untuk mempermudah data saintis yang ingin mengakses data tersebut. Artikel ini membahas beberapa di antaranya, lengkap dengan contoh langkah demi langkah penggunaannya.

Rilis Produk

  1. Apache BookKeeper 4.6.0
    Apache BookKeeper 4.6.0 mencakup peningkatan kinerja, sebuah API baru yang menggunakan Builder pattern, sebuah admin API baru, dan masih banyak lagi.
  2. Apache NiFi 1.5.0
    Rilis Apache NiFi 1.5.0 mencakup perbaikan support untuk Apache Kafka, integrasi dengan apache Atlas untuk lineage, perbaikan untuk KErberos handling, integrasi dengan NiFi registry untuk versi dan manajemen definisi flow, dan lain sebagainya.
  3. Apache MADlib 1.13
    Apache MADlib memungkinkan big data machine learning dari SQL. Rilis 1.13 mencakup perbaikan bugs dan fitur-fitur baru, termasuk implementasi HITS dan peningkatan untuk KNN.
  4. Apache Sentry 1.7.1
    Versi 1.7.1 of Apache Sentry dirilis dengan perbaikan security untuk CVE.
  5. Apache Samza 0.14.0
    Rilis 0.14.0 mencakup perbaikan kinerja (dengan RocksDB untuk status lokal, incremental checkpoint dan permintaan asinkronus ke servis eksternal), sebuah API baru untuk complex stream processing, sistem input/output yang pluggable, dan berbagai perbaikan yang memudahkan deployment cluster berskala besar.
  6. Apache HBase 1.4.0
    Apache HBase 1.4.0 mencakup lebih dari 660 issue. Fitur utama termasuk shaded client yang diharap dapat meningkatkan kompatibiltas, peningkatan terhadap autorestart, peningkatan metric RegionServer, dan lain-lain.
  7. Strimzi 0.1.0
    Rilis perdana dari Strimzi, yaitu sekumpulan image dan template konfigurasi untuk mendeploy Apache Kafka di atas Kubernetes/OpenShift.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Dec 29 / 2017
  • Comments Off on Seputar Big Data Edisi #44 [Kilas Balik 2017]
Apache, Artificial Intelligece, Big Data, Blockchain, Hadoop, Implementation, IoT

Seputar Big Data Edisi #44 [Kilas Balik 2017]

Edisi terkahir di tahun 2017 akan menampilkan beberapa berita yang dikutip dari berbagai site selama tahun 2017 yang akan sangat menarik jika dibaca kembali. Mulai dengan rilis baru Hadoop 3.0, penerapan Big Data di pemerintahan Indonesia seperti BI, Dirjen Pajak dan PT POS hingga berita tentang sebuah robot yang memperoleh status kewarganegaraan.

  1. The Apache Software Foundation Announces Apache® Hadoop® v3.0.0 General Availability
    Apache Hadoop 3.0.0 akhirnya dirilis minggu lalu. Beberapa fitur penting yang ditambahkan adalah HDFS erasure encoding, a preview dari v2 YARN Timeline Service, peningkatan YARN/HDFS Federation, dan lain sebagainya.
  2. Big Data Is the New Push for Bank Indonesia
    Seperti halnya bank central di negara lain seperti Rusia, China, Inggris dan lainnya, Bank Indonesia beralih menggunakan mesin atau yang sering disebut dengan istilah Big Data, untuk membantu membuat kebijakan menjadi lebih efektif.
  3. Usai Paradise Papers, DJP Bakal Punya Big Data Pajak dari AEoI
    Direktorat Jenderal Pajak (DJP) Kementerian Keuangan akan memiliki data dengan skala besar dan valid dari otoritas pajak seluruh negara saat implementasi pertukaran data secara otomatis (Automatic Exchange of Information/AEoI) per September 2018
  4. PT Pos Bangun Big Data Analytic
    Hingga kini, baru 36 persen masyarakat Indonesia yang memiliki akun bank. Sedangkan 64 persen masyarakat yang tinggal di pelosok belum tersentuh keuangan inklusif karena sulitnya akses ke perbankan. Untuk membantu masyarakat tersebut, PT Pos tengah membangun big data analytic. Lewat big data analytic, Pos akan membuat kredit skoring yang nantinya bisa dikerjasamakan dengan perbankan untuk penyaluran pembiayaan.
  5. Saudi Arabia grants citizenship to a robot for the first time ever
    Sebuah berita cukup menjadi sorotan, dimana sebuah robot bernama Sophia diberi status kewarganegaraan oleh pemerintah Arab Saudi. Hal ini merupakan sebuah tonggak sejarah akan kebangkitan teknologi AI.
  6. Top Trends in the Gartner Hype Cycle for Emerging Technologies, 2017
    Garner merilis The Gartner Hype Cycle for Emerging Technologies 2017, yang berfokus pada 3 mega trend, yaitu Artificial Intelligent, Transparently Immersive Experiences dan Digital Platforms. Para arsitek dan inovator teknologi harus mengeksplorasi dan memahami 3 mega trend tersebut untuk dapat melihat dampaknya terhadap bisnis.
  7. How Big Data Mines Personal Info to Craft Fake News and Manipulate Voters
    Banyak orang memasang atau membagikan status dan content lain di media sosial dengan maksud mempengaruhi orang lain. Tapi bagaimana jika justru status dan posting kita itu dipergunakan untuk mempengaruhi kita sendiri? Cambridge Analytica, salah satu perusahaan di balik kampanye Donald Trump, mengungkapkan mengenai “psychographic profiling”, yaitu memanfaatkan data-data sosial media untuk membentuk kampanye yang sesuai dengan profil emosi dan psikologis pengguna sosial media.
  8. The 10 Coolest Big Data Startups Of 2017 (So Far)
    Banyak startup yang bermain di area big data memfokuskan diri untuk memberikan solusi terhadap masalah dalam menghubungkan sumber data yang berbeda dan memindahan data ke dalam cloud untuk memudahkan akses dan analisa. Ada juga tren yang sedang berkembang yaitu penggunaan machine learnig dan artificial intelligence dalam aplikasi big data untuk membuat sistem yang lebih cerdas.
  9. What Amazon taught us this week: Data-centric companies will devour competitors
    Apa sebenarnya keuntungan yang bisa didapatkan Amazon dengan akuisisi jaringan retail Whole Foods, terutama dari sisi penguasaan data dan pemanfaatannya? Berikut ini analisis dan beberapa pelajaran yang didapat dari langkah yang diambil Amazon tersebut.
  10. Guizhou to become China’s ‘Big Data Valley’
    Akhir Mei lalu puluhan ribu pengunjung memadati “International Big Data Industry Expo 2017” yang diselenggarakan di Guizhou, China. Saat ini Guizhou dikembangkan sebagai “Big Data Valley”-nya China, yang menjadi tempat yang menarik bukan hanya bagi start-up, namun juga bagi industri besar seperti misalnya Alibaba, Qualcomm, IBM, Huawei, Tencent, Baidu, Lenovo dan Foxconn.
  11. Cloudera Announces Pricing of Initial Public Offering, Marking its Debut as a Public Company
    Cloudera memulai hari sebagai sebuah perusahaan terbuka dengan melakukan penawaran saham perdana seharga $15. Pada akhir hari mengalami peningkatan harga sebesar 20%.
  12. Firing on All Cylinders: The 2017 Big Data Landscape
    Pada tahun 2017 ini adalah sebuah phase penerapan Big Data dalam segala bidang, yang membuat istilah Big Data itu sendiri berangsur menghilang. “Big Data + AI” menjadi suatu pasangan yang digunakan banyak aplikasi modern yang dibangun, baik untuk penerapan terhadap konsumen maupun perusahaan.
  13. Gartner’s 2017 Take on Data Science Software
    Gartner telah merilis Gartner Magic Quadran for Data Science Platforms 2017. Dari sekitar 100 perusahaan yang menjual software data sains, Gartner memilih 16 perussahaan yang memiliki pendapatan tinggi atau pendapatan rendah tetapi pertumbuhan yang tinggi. Setelah mendapat masukan baik dari pelanggan maupun perwakilan perusahaan, Gartner memberikan nilai pada perusahaan dengan kriteria “kelengkapan visi” dan “kemampuan untuk melaksanakan” visi tersebut.
  14.  

    Contributor :


    Tim idbigdata
    always connect to collaborate every innovation 🙂
  • Dec 26 / 2017
  • Comments Off on Seputar Big Data Edisi #43
Apache, Artificial Intelligece, Big Data, Hadoop

Seputar Big Data Edisi #43

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke 3 bulan Desember 2017

Artikel dan Berita

  1. Retail: How to Keep it Personal & Take Care of Privacy
    Pemanfaatan informasi pelanggan untuk meningkatkan penjualan adalah hal yang sudah biasa dalam sektor retail. Yang perlu dicermati adalah, dengan semakin canggihnya teknologi pengumpulan, penyimpanan dan pengolahan informasi, bagaimana para pengusaha di sektor ini dapat meningkatkan personalisasi layanan mereka, dengan tetap menjaga privasi para pelanggannya.
  2. How AI can make us better at arguing
    Kemampuan untuk berdebat dan menyampaikan pemikiran adalah salah satu ciri khas manusia. Perdebatan merupakan bagian yang penting dalam berbagai aspek kehidupan, termasuk penentuan kebijakan dalam berbagai bidang. Salah satu yang perlu diwaspadai dalam era teknologi informasi saat ini adalah terbentuknya ‘filter bubbles’ di mana informasi yang kita dapatkan sudah dipersonalisasi atau disesuaikan dengan profil kita oleh penyedia informasi, termasuk Google, Facebook, bahkan media-media online seperti Fox News dan BBC. ARG-Tech, sebuah pusat penelitian di Universitas Dundee bekerja sama dengan BBC Radio melakukan percobaan dengan mendeploy dua jenis ‘teknologi debat’ dengan memanfaatkan data dan AI.
  3. Perkuat Sistem Big Data, Pemerintah Bakal Bangun Government Cloud
    Belanja kebutuhan IT pemerintah, khususnya untuk pengadaan data center semakin meningkat. Namun sejauh ini implementasi dan pemanfaatannya masih belum menyeluruh. Oleh karena itu pemerintah berencana membangun Government Cloud untuk mendorong adopsi teknologi.
  4. Industry Predictions: Main AI, Big Data, Data Science Developments in 2017 and Trends for 2018
    Tahun 2017 hampir berakhir, waktunya merangkum yang telah terjadi selama 2017 dan melakukan prediksi untuk tahun 2018. Berikut adalah kumpulan analisis dan prediksi menarik dari perusahaan terkemuka di bidang AI, Big Data, Data Science, dan Machine Learning: apa yang terjadi pada tahun 2017 dan apa yang mungkin terjadi di tahun 2018.
  5. Understanding the Network Monitoring Needs of Real-Time Data Streaming
    Real time data streaming saat ini semakin menjadi suatu kebutuhan, terutama untuk pemantauan jaringan. Artikel ini memberikan argumen mengenai kebutuhan tersebut, beserta contoh-contoh kasus nyata.
  6. The Difference between Data Scientists, Data Engineers, Statisticians, and Software Engineers
    Data scientists, data engineers, software engineers, and statisticians adalah beberapa profesi yang populer saat ini. Namun kita terkadang sulit membedakan perbedaan diantara mereka. Artikel ini mencoba mengupas kesamaan dan perbedaan di antara profesi-profesi tersebut.

Tutorial dan Pengetahuan Teknis

  1. Getting Started with TensorFlow: A Machine Learning Tutorial
    Tutorial pengenalan Tensorflow yang cukup detail, lengkap dengan contoh untuk dicoba secara hands-on.
  2. How to Perform Hierarchical Clustering using R
    Salah satu metode clustering yang cukup banyak digunakan saat ini adalah hierarchical clustering. Dalam teknik ini pengelompokan dilakukan secara berjenjang atau hirarkis. Artikel ini membahas secara detail mengenai konsep tersebut serta penerapannya dalam R.
  3. Introducing Heron Streamlets
    Heron kini memiliki Sebuah streamlet API yang yang mensupport model pemrograman tingkat tinggi, yang melengkapi low level API yang sudah dimiliki sebelumnya, yaitu Topology API. Streamletss API ini akan cukup familiar untuk anda yang terbiasa menggunakan sekuens Skala atau Java Stream. Artikel ini memberikan overview mengenai Streamlets lengkap dengan contoh code-nya.
  4. The Plight of the Data Consumer
    Apache Arrow merupakan salah satu project Apache yang populer namun tidak banyak diketahui secara detail, karena digunakan sebagai library internal. Artikel ini menjelaskan mengenai bagaimana Pandas dan library lainnya menggunakan Arrow untuk meningkatkan translasi data dan storage footprint.
  5. Using Hue to interact with Apache Kylin in your cluster or on AWS
    Apache Kylin adalan sistem database OLAP untuk big data, yang mensupport JDBC drivers dan dapat digunakan untuk menjalankan query dari Hue. Artikel ini menjelaskan mengenai langkah-langkah dasar penggunaan Hue dan Apache Kylin di atas AWS cluster.
  6. The Curious Case of the Broken Benchmark: Revisiting Apache Flink® vs. Databricks Runtime
    Tidak semua hal di internet itu benar. Termasuk juga hasil benchmark. Untuk memvalidasi suatu hasil perbandingan atau benchmark, cara yang paling tepat adalah melakukannya dengan use case kita sendiri. Artikel ini merupakan contoh kasus di mana hasil sebuah benchmark antara Apache Spark, Apache Flink, dan Apache Kafka Streams bisa berbeda karena adanya bug dalam data generator yang digunakan untuk masukan, dan perubahan pada konfigurasi.
  7. [DATASET] MIT-Adobe FiveK Dataset
    Dataset ini berisi 6 x 5000 image, yang terdiri dari 5000 foto yang diambil dengan kamera SLR oleh beberapa fotografer. Disimpan dalam format RAW, yang berarti lengkap dengan semua informasi yang direkam oleh sensor kamera. Selanjutnya 5 orang mahasiswa seni melakukan retouch menggunakan Adobe Lightroom untuk menghasilkan foto yang lebih artistik, seperti yang biasa dipakai dalam kartu pos.

Rilis Produk

  1. The Apache Software Foundation Announces Apache® Hadoop® v3.0.0 General Availability
    Apache Hadoop 3.0.0 akhirnya dirilis minggu lalu. Beberapa fitur penting yang ditambahkan adalah HDFS erasure encoding, a preview dari v2 YARN Timeline Service, peningkatan YARN/HDFS Federation, dan lain sebagainya.
  2. Apache HBase 1.1.13 is now available for download
    Apache HBase 1.1.13 merupakan rilis terakhir dari stream 1.1, mencakup beberapa perbaikan bug dan peningkatan.
  3. Apache Flink 1.4.0 Release Announcement
    Apache Flink 1.4.0 mencakup perbaikan fitur exactly-once, dan beberapa peningkatan internal lain.
  4. Introducing spark-bam
    Spark-bam adalah sebuah library untuk membaca file berformat BAM, yaitu salah satu format standar untuk data genomic.
  5. Apache Knox 0.14.0 Release
    Apache Knox 0.14.0 diharapkan menjadi versi terakhir sebelum versi 1.0. Rilis kali ini mencakup dukungan proxy Nifi dan Livy, konfigurasi jarak jauh melalui ZooKeeper, peningkatan dukungan untuk Websocket, dan lain-lain.
  6. Upgrade Hadoop version & new file reader
    Kafka-connect-fs adalah library yang mendukung loading data dari file melalui Kafka Connect.
  7.  

    Contributor :


    Tim idbigdata
    always connect to collaborate every innovation 🙂
  • Dec 20 / 2017
  • Comments Off on [Belajar Machine Learning 2] Loading dan Eksplorasi Data dengan Pandas dan Scikit-Learn
Artificial Intelligece, Big Data, Implementation, machine learning, Uncategorized

[Belajar Machine Learning 2] Loading dan Eksplorasi Data dengan Pandas dan Scikit-Learn

Cara paling cepat untuk menguasai sebuah tool atau platform adalah dengan membuat sebuah end-to-end project yang mencakup langkah-langkah utama dalam implementasi machine learning. Langkah tersebut antara lain adalah : loading data, summary data, evaluasi algoritma dan membuat beberapa prediksi.

Membuat end-to-end project berarti membiasakan diri dengan proses machine learning, dan kasus yang telah dikerjakan dapat menjadi semacam template yang bisa digunakan untuk mengolah berbagai dataset lainnya.

Untuk memulainya tidak perlu menggunakan dataset atau kasus yang terlalu rumit. Anda bisa memilih data yang tersedia di dalam library scikit-learn. Daftar lengkap datasetnya dapat dilihat di sini.

Dalam artikel ini akan digunakan dataset iris sebagai contoh kasusnya.

Dataset iris ini sangat sesuai untuk latihan karena :

  • Ukurannya tidak terlalu besar, yaitu 4 atribut dan 150 row, sehingga tidak akan membebani memori
  • Atributnya sederhana. Seluruh atribut numerik dalam unit dan skala yang sama, sehingga tidak memerlukan transformasi khusus

Meskipun teknik dan prosedur dalam penerapan machine learning sangat bervariasi, namun secara garis besar sebuah project machine learning memiliki tahapan sebagai berikut:

  • Definisi masalah
  • Menyiapkan data
  • Memilih/mengevaluasi algoritma
  • Melakukan tuning untuk memperbaiki hasil
  • enyajikan hasil

Salah satu hal yang paling penting dalam langkah-langkah awal project adalah memahami data. Dalam artikel ini akan disajikan mengenai loading dan beberapa fungsi eksplorasi data untuk melihat bagaimana dataset yang akan kita proses nantinya.

1. Cek Instalasi

Jalankan perintah-perintah berikut untuk mengecek versi package yang terinstall.
Versi yang package yang akan gunakan mestinya lebih baru atau setidaknya sama dengan yang terdapat pada output di bawah ini. Jika versi package anda sedikit tertinggal, mestinya tidak masalah, karena biasanya API-nya tidak terlalu banyak berubah. Anda masih dapat menjalankan code yang ada dalam latihan di bawah ini. Tapi jika ingin memperbaharui package yang ada, langkah update package dapat dilihat di posting sebelumnya.

Belajar_ML_2

Output yang didapatkan kurang lebih sbb (versi bisa berbeda):

Belajar_ML_2

Berikutnya adalah loading package yang akan digunakan. Lakukan import untuk mengecek apakah instalasi sudah ok. Jika terdapat error, stop dan resolve. Package di bawah ini perlu untuk menjalankan latihan dalam artikel ini.

Petunjuk setting environment bisa dilihat di posting sebelumnya. Jika terdapat pesan error yang spesifik, anda bisa mencari cara resolve-nya di forum-forum seperti Stack Exchange (http://stackoverflow.com/questions/tagged/python).

Belajar_ML_2

2. Loading Data

Jika langkah di atas berjalan dengan baik, load dataset iris dari package sklearn dengan menjalankan fungsi berikut:

Belajar_ML_2

Tips : Untuk mengetahui jenis sebuah object atau fungsi dalam python, kita bisa mengetikkan nama object atau fungsi yang ingin kita ketahui, diikuti tanda tanya, seperti pada contoh berikut :

Belajar_ML_2

Outputnya adalah informasi dari object tersebut, seperti berikut:

Belajar_ML_2

Untuk mengetahui apa saja yang terdapat di dalam dataset iris, tampilkan seluruh keys dalam dataset tersebut dengan perintah berikut ini:

Belajar_ML_2

Outputnya berupa daftar dari keys atau kata kunci yang terdapat dalam dictionary:

Belajar_ML_2

Dari outputnya kita dapat mengetahui bahwa dalam dataset iris terdapat key berikut : data, target, target_name, DESCR dan feature_names. Kita dapat mengakses dan menampilkan value-nya dengan key tersebut. Misalnya untuk menampilkan deskripsi dataset, lakukan sbb:

Belajar_ML_2

Output:

Belajar_ML_2

Seperti tampak pada deskripsi di atas, dataset iris memiliki 4 atribut numerik : sepal length, sepal width, petal length, dan petal width.

Terdapat 3 jenis spesies (class), yaitu

  • Iris-Setosa
  • Iris-Versicolour
  • Iris-Virginica

Terdapat 150 entry (150 rows data), yang terbagi rata ke dalam 3 kelas tersebut.

Atribut disimpan di elemen “data”, dan kelas/species di elemen “target”. Keduanya bertipe numerik.

Kita lihat bentuk datanya, dengan ‘mengintip’ beberapa baris data dan target, dengan command berikut:

Belajar_ML_2

Dari output di bawah terlihat bahwa format data adalah numerik, dan nilai target menunjukkan indeks dari array target_names.

Belajar_ML_2

3. Convert dataset ke dalam Pandas DataFrame

Untuk memudahkan pemrosesan dan eksplorasi data, kita akan mengubah dataset tersebut ke dalam format pandas DataFrame.

Pandas adalah package yang dibangun di atas library numPy. Pandas menyediakan data struktur yang efisien dan fleksibel, yang dirancang untuk melakukan analisis data dalam Python.
Keterangan lebih lanjut mengenai pandas dan berbagai object di dalamnya dapat dilihat di sini (https://pandas.pydata.org/pandas-docs/stable/)

Berikut ini command untuk mengubah dataset iris menjadi Pandas Dataframe:

Belajar_ML_2

4. Eksplorasi Dataset

Beberapa hal yang akan kita lakukan adalah :

  • Melihat dimensi dataset
  • Contoh datanya
  • Ringkasan statistik semua atribut
  • Mengelompokkan data berdasar variabel target

Yang pertama kita lihat dimensi datanya (jumlah row dan kolom) dengan menggunakan atribut shape

Belajar_ML_2

Output:
Belajar_ML_2

Selanjutnya kita ‘intip’ contoh data dengan menggunakan fungsi head. Dari sini terlihat dataset kita memiliki 4 atribut numerik dan 1 atribut string.

Belajar_ML_2

Output:

Belajar_ML_2

Statistical Summary

Selanjutnya kita lihat summary setiap atribut dengan fungsi describe. Fungsi ini menampilkan summary statistik untuk atribut numerik dari dataset kita, termasuk di dalamnya count, mean, nilai minimum dan maksimum, serta nilai2 persentilnya.

Belajar_ML_2

Dari summary tersebut terlihat bahwa seluruh nilai numerik memiliki skala yang sama (yaitu dalam cm), dan memiliki range yang serupa juga, yaitu antara 0 sampai 8 cm.

Belajar_ML_2

Distribusi Data

Bagaimana dengan distribusi datanya? Untuk melihat distribusi data, kita kelompokkan datanya berdasarkan kelas sbb:

Belajar_ML_2

Output:

Belajar_ML_2

Terlihat bahwa data terbagi menjadi 3 kelas dengan jumlah yang sama, yaitu masing-masing 50 row.

Visualisasi Data

Kita juga dapat melihat ‘bentuk’ data dengan lebih jelas dengan cara memvisualisasikannya. Yang pertama kita bisa melihat distribusi masing-masing atribut dengan menampilkannya dalam bentuk boxplot.

Belajar_ML_2

Belajar_ML_2

Kita juga bisa melihat sebaran datanya dengan bentuk histogram.

Belajar_ML_2

Belajar_ML_2

Dari histogram di atas tampak bahwa setidaknya ada 2 variabel yang kemungkinan memiliki sebaran normal. Asumsi ini dapat kita jadikan pertimbangan ketika memilih algoritma nantinya.

Interaksi Antar Variabel

Selanjutnya kita lihat interaksi antara variabel dengan menampilkan scatterplot. Hal ini bermanfaat untuk melihat adanya hubungan antara variabel-variabel input. Indikasi adanya korelasi antar variabel adalah dari pola scatterplot yang membentuk garis diagonal.

Belajar_ML_2

Belajar_ML_2

Setelah kita mendapat gambaran mengenai dataset yang akan kita proses, kita siap melakukan testing dan tuning algoritma.

Versi Jupyter notebook dari latihan ini dapat di unduh di :
https://github.com/urfie/belajar-python/blob/master/Belajar%20Machine%20Learning%20-%20Load%20and%20Explore%20Dataset.ipynb

Sumber : https://machinelearningmastery.com/machine-learning-in-python-step-by-step/

Contributor :


M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng.
Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun.
Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.
Pages:12
Tertarik dengan Big Data beserta ekosistemnya? Gabung