python Archives - idBigData idBigData

Apr 14 / 2021
Comments Off on Seputar Big Data Edisi #80

Seputar Big Data Edisi #80

Halo temans! Setelah absen sekian lama, Seputar Big Data hadir kembali nih. Masih menyajikan kumpulan berita, artikel, tutorial dan blog mengenai Big Data dan Artificial Intelligence yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan April 2021.

Artikel dan berita

BPK Terapkan Analisa Big Data dalam LKPP 2020
Ketua Badan Pemeriksa Keuangan (BPK) Agung Firman Sampurna mengatakan bahwa lembaganya menerapkan analisa data besar atau big data analytics dalam pemeriksaan Laporan Keuangan Pemerintah Pusat (LKPP) tahun 2020. Metode ini memanfaatkan data-data keuangan dan nonkeuangan yang saat ini tersimpan di BPK.
Elon Musk’s Neuralink: We taught a monkey to play Pong with its mind
Neuralink, startup milik Elon Musk yang bergerak dalam bidang implan otak, merilis video seekor monyet bernama Pager yang telah disambungkan dengan chip, yang memungkinkannya memainkan Pong dengan otaknya. Disebutkan bahwa iPhone dapat dipasangkan dengan perangkat Neuralink di otak monyet untuk mengamatinya, “Seperti saat Anda memasangkan ponsel ke speaker Bluetooth”. Tujuan awal dari teknologi ini adalah untuk membantu orang-orang dengan kondisi neurologis yang mengakibatkan ketidakmampuan mengontrol gerakan tangan dan lengan.
Meteorologists Aim to Use AI To Get an Edge on Natural Hazards and Disasters
Ahli meteorologi berencana menggunakan AI untuk membantu dalam deteksi dini dan mitigasi bencana, yang akhir-akhir ini semakin sering terjadi dan sulit diprediksi karena dampak perubahan iklim. Dalam kaitannya, International Telecommunication Union (ITU) bersama dengan Organisasi Meteorologi Dunia (WMO) dan Lingkungan PBB, telah meluncurkan Kelompok Fokus AI untuk Penanggulangan Bencana Alam. Ilmuwan ITU melihat bahwa Al menunjukkan potensi besar untuk mendukung pengumpulan dan pemantauan data, rekonstruksi dan prakiraan peristiwa ekstrim, serta komunikasi yang efektif yang dapat diakses sebelum dan selama terjadinya bencana.
Researchers detail systemic issues and risk to society in language models
Peneliti di DeepMind Google mengungkapkan kelemahan dari output model bahasa besar seperti GPT-3, dan memperingatkan bahwa hal ini dapat menimbulkan akibat yang serius. Efek negatif ini dapat menyebar secara tidak sengaja, karena kesalahan dalam apa yang harus dipelajari maupun dalam proses pelatihan model. Disebutkan bahwa, “Saat ini kami tidak memiliki banyak pendekatan untuk memperbaiki kesalahan spesifikasi ini dan masalah perilaku yang ditimbulkan.” Beberapa hal negatif yang mungkin terjadi adalah penyebaran informasi berbahaya seperti misalnya cara membuat senjata, atau hasutan untuk melakukan kekerasan. Salah satu contoh yang terjadi dalam sebuah pengujian adalah ketika model tersebut justru menyarankan seseorang yang berkonsultasi untuk melakukan bunuh diri.
Building a data stream to assist with COVID-19 research
Twitter membuat sebuah produk data terkait COVID-19 dan membuka akses kepada para peneliti akademis, termasuk akses bebas ke full history dari data publik Twitter. Dengan akses ini para peneliti dapat membuat kriteria tagging mereka sendiri, dan memanfaatkan data-data tersebut untuk penelitian mereka. Berbagai anotasi juga tersedia untuk memudahkan para peneliti mempelajari percakapan publik terkait COVID-19. Saat ini lebih dari 100 ilmuwan dan peneliti dari seluruh dunia telah menggunakan stream COVID-19 ini.
Monster Mash: A Sketch-Based Tool for Casual 3D Modeling and Animation
Animasi komputer 3D adalah bidang yang sulit dan sangat teknis. Untuk menyelesaikan satu adegan animasi memerlukan banyak langkah, seperti pemodelan, rigging, dan animasi, yang masing-masing merupakan sub-disiplin ilmu yang dapat memakan waktu bertahun-tahun untuk dikuasai. Karena kerumitannya, animasi 3D umumnya dipraktikkan oleh tim spesialis yang terampil. Muncul pertanyaan: mungkinkah mendemokratisasi proses animasi 3D sehingga dapat diakses oleh semua orang? Posting ini menjelaskan Monster Mash, tool open source yang memungkinkan para ahli maupun amatir membuat model 3D yang kaya, ekspresif, dan semua dilakukan dalam bidang 2D. Dengan Monster Mash, pengguna membuat sketsa karakter, dan perangkat lunak secara otomatis mengubahnya menjadi model 3D yang dapat dideformasi.

Tutorial dan pengetahuan teknis

Benchmark: Koalas (PySpark) and Dask
Koala adalah pustaka data science yang mengimplementasikan API Pandas di atas Apache Spark sehingga data scientist dapat menggunakan API favorit mereka untuk berbagai ukuran dataset. Entri blog ini membandingkan performa dua API pandas, yaitu Dask dan Koala di PySpark. Dari benchmark berulang ditunjukkan bahwa Koala bisa 4x lebih cepat daripada Dask ketika menggunakan satu node, 8x jika menggunakan cluster, dan dalam beberapa kasus, dapat mencapai 25x lebih cepat.
LSTM Network in R
Dalam tutorial ini dibahas mengenai LSTM (Long Short Term Memory) Network dan implementasinya menggunakan R. LSTM sangat bermanfaat untuk melakukan pemrosesan data sekuens, seperti misalnya teks, prediksi time-series, sekuens DNA, pengenalan wicara, dan lain sebagainya.
How do I know which graph to use?
Blog post ini membahas mengenai pertanyaan yang sangat sering diajukan dalam hal visualisasi data, yaitu : “jenis grafik mana yang paling tepat untuk digunakan?”. Artikel singkat ini disertai dengan contoh dan banyak link yang bermanfaat.
What Is Semi-Supervised Learning
Selain supervised dan unsupervised learning, ada pula tipe semi-supervised learning, yang mencoba menggabungkan kelebihan dan mengatasi tantangan dari kedua tipe machine learning tersebut. Entry blog ini mencoba memberikan pengenalan mengenai semi-supervised learning dan memberikan rekomendasi paper maupun buku yang membahas lebih lanjut mengenai topik ini.
Factorized layers revisited: Compressing deep networks without playing the lottery
Model machine learning berkembang pesat bukan hanya dari sisi kinerja namun juga ukurannya. Mulai dari BiT dengan 928 juta parameter, hingga GPT-3 dengan 175 miliar parameter. Hal ini mengakibatkan meroketnya biaya training model dan penerapannya, bahkan kebutuhan sumber daya untuk mentraining model ini disebut berdampak pada lingkungan. Banyak penelitian seputar kompresi model untuk menurunkan ukuran dan biaya. Yang paling populer dan banyak digunakan adalah metode pruning dengan memanfaatkan hipotesis bernama “tiket lotre”. Artikel ini mengulas metode alternatif untuk kompresi model dengan menggunakan faktorisasi.
GPS trajectory clustering with Python
Pertumbuhan perangkat seluler yang pesat telah menghasilkan sejumlah besar lintasan GPS yang dikumpulkan oleh layanan berbasis lokasi, jaringan geo-sosial, transportasi, maupun aplikasi ride-sharing. Pengelompokan lintasan GPS pun semakin banyak digunakan, misalnya untuk mengidentifikasi rute atau perjalanan. Artikel ini memberikan pengenalan singkat tentang pengelompokan lintasan GPS dan contoh implementasinya menggunakan Python.
[DATASET] Contract Understanding Atticus Dataset
CUAD adalah kumpulan data kontrak hukum yang dilengkapi label oleh pengacara. CUAD berisi 510 kontrak komersial dengan 13.000 label di 41 kategori. Pada awalnya dataset ini dimaksudkan untuk menguji seberapa baik sistem AI dapat menyoroti bagian-bagian kontrak yang relevan dengan label tertentu. CUAD dibuat oleh sekelompok annotator mahasiswa ahli hukum yang menerima 70-100 jam pelatihan tinjauan kontrak sebelum mereka mulai memberi label, dan masing-masing label tersebut divalidasi oleh validator tambahan. Dengan perhitungan tersebut, diperkiraan nilai CUAD mencapai lebih dari US$2 juta (9283 halaman ditinjau setidaknya 4 kali, setiap halaman membutuhkan 5-10 menit, dengan asumsi tarif US$500 per jam).

Rilis Produk

ContinualAI Releases Avalanche: An End-to-End Library for Continual Learning
Tim penelitian dan pengembangan dari ContinualAI dengan peneliti dari KU Leuven, ByteDance AI Lab, University of California, New York University dan institusi lain telah merilis Avalanche, pustaka end-to-end untuk pembelajaran berkelanjutan (continual learning) berbasis PyTorch. Avalanche dirancang untuk memudahkan implementasi, penilaian, dan replikasi algoritma continual learning di dalam berbagai setting dan mendukung reprodusibilitas studi sebelumnya. Library ini dapat membantu peneliti dan praktisi untuk : 1) Lebih sedikit menulis kode, lebih cepat membuat prototipe, dan mengurangi kesalahan; 2) Meningkatkan reprodusibilitas; 3) Meningkatkan modularitas dan penggunaan kembali; 4) Meningkatkan efisiensi kode, skalabilitas dan portabilitas; 5) Meningkatkan dampak dan kegunaan produk penelitian.
Release Apache MXNet (incubating) version 1.8.0
Apache MXNet (incubating) adalah kerangka kerja deep learning yang dirancang untuk mendukung efisiensi dan fleksibilitas. MXNet memungkinkan untuk menggabungkan pemrograman simbolik dan imperatif untuk memaksimalkan efisiensi dan produktivitas.
The Apache Software Foundation Announces Apache® DolphinScheduler™ as a Top-Level Project
Apache DolphinScheduler adalah sistem scheduler alur kerja Big Data visual yang terdistribusi dan extensible. Proyek ini pertama kali dibuat pada Desember 2017, dan masuk ke Apache Incubator pada Agustus 2019, dan pada awal April lalu dinyatakan sebagai top level project. Apache DolphinScheduler digunakan di berbagai perusahaan besar, termasuk Budweiser, China Unicom, IDG Capital, IBM China, JD.com, Lenovo, New Oriental, Nokia China, Qihoo 360, SF Express, dan Tencent.
Apache ZooKeeper 3.7.0 released
Versi ini merupakan rilis pertama dari branch 3.7. Beberapa fitur baru yang tercakup di antaranya adalah : API untuk start server dari Java, dukungan BCFKS key, perintah “whoami” API dan CLI, metrik keamanan tambahan, dukungan SASL di klien C dan Perl, dan lain-lain. Peningkatan dari 3.6.2 ke 3.7.0 dapat dijalankan seperti biasa, tidak diperlukan prosedur peningkatan tambahan khusus.
Pinterest open-sources big data analytics tool Querybook
Pinterest meng-open-source-kan Querybook, solusi manajemen data untuk kolaborasi teknik jarak jauh berskala enterprise. Tool yang digunakan secara internal ini disebut dapat membantu para developer membuat kueri, analisis, dan berkolaborasi satu sama lain melalui antarmuka notebook. Querybook dimulai pada 2017 sebagai proyek magang di Pinterest. Dirilis secara internal pada Maret 2018, Querybook menjadi solusi untuk big data analitik di Pinterest. Saat ini querybook memiliki rata-rata 500 pengguna aktif harian dan 7.000 kueri harian.
Apache Parquet MR release 1.12.0
Parquet-MR adalah implementasi java dari format Parquet. Parquet adalah format penyimpanan berbentuk kolom untuk Hadoop yang menyediakan penyimpanan dan pengkodean data yang efisien. Parquet menggunakan algoritma record shredding and assembly untuk merepresentasikan struktur berulang/nested.

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂

May 10 / 2019
Comments Off on Seputar Big Data edisi #72

Artificial Intelligece, Big Data, Hadoop, machine learning, Social Media

Seputar Big Data edisi #72

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama akhir minggu pertama bulan Mei 2019

Artikel dan berita

Google adds translation, object detection and tracking, and AutoML Vision Edge to ML Kit
Pada event I/O baru-baru ini Google mengumumkan 3 kemampuan baru ML Kit dalam versi beta, yaitu : API Translator on-device, API Object Detection and Tracking, serta AutoML Vision Edge. Ketiga fitur tersebut akan memungkinkan developer mobile untuk menyertakan AI di dalam aplikasinya, bahkan dapat melatih model untuk klasifikasi citra dengan data mereka sendiri.
Using AI to predict breast cancer and personalize care
Satu lagi pemanfaatan AI di bidang deteksi dan prediksi kanker, khususnya kanker payudara. Sebuah tim dari Laboratorium Ilmu Pengetahuan dan Kecerdasan Buatan (CSAIL) MIT dan Rumah Sakit Umum Massachusetts (MGH) telah menciptakan model deep learning yang dapat memprediksi dari mammogram jika seorang pasien beresiko mengembangkan kanker payudara di masa depan. Mereka melatih model pada mammogram dan hasil diagnosis lebih dari 60.000 pasien yang dirawat di MGH.
Security lapse exposed a Chinese smart city surveillance system
Baru-baru ini seorang peneliti keamanan menemukan data smart city yang terbuka aksesnya di Alibaba cloud. Data tersebut merupakan data detail surveillance yang berisi informasi detail mengenai pengenalan wajah, lokasi, bahkan ke mana saja dan berapa lama seseorang berada di tempat tersebut. Alibaba menyatakan data tersebut adalah milik salah satu klien mereka. Menilik dari jenis data yang tersimpan, kemungkinan besar klien tersebut adalah klien pemerintah.
Driving Business Decisions Using Data Science and Machine Learning
Dengan lebih dari 630 juta anggota, 30 juta perusahaan, dan 90 ribu sekolah di platformnya, LinkedIn menjadi salah satu yang terdepan dalam pengembangan dan pemanfaatan teknologi data. Di artikel ini LinkedIn berbagi pengalaman memanfaatkan data sains dan machine learning dalam mempertajam keputusan bisnis mereka.
Choosing the right data security solution for big data environments
Data adalah uang. Bahkan untuk sebagian pihak, data menjadi aset yang paling berharga. Namun sampai saat ini aspek keamanan data masih banyak diabaikan. Apa saja faktor yang perlu dipertimbangkan dalam membangun keamanan data?
Study shows how big data can be used for personal health
Para peneliti di Stanford University School of Medicine dan rekan mereka mengikuti kohort lebih dari 100 orang selama beberapa tahun. Setelah mengumpulkan data ekstensif mengenai susunan genetik dan molekuler kelompok tersebut, para peneliti mendapatkan pemahaman baru mengenai arti “sehat” pada level biokimia, dan bagaimana penyimpangan dari keumuman individu dapat menjadi tanda awal penyakit.

Tutorial dan pengetahuan teknis

Partition Management in Hadoop
Artikel ini membahas tentang masalah tabel Hive dengan banyak partisi dan file kecil serta solusinya secara detail.
The 3 Biggest Mistakes on Learning Data Science
Semenjak data science menjadi bidang yang populer, banyak sumber online maupun offline yang dapat ditemukan mengenainya. Namun tidak sedikit diantara mereka yang merasa kesulitan ataupun ‘tersesat’ ketika berusaha mempelajari bidang tersebut. Artikel ini mengupas mengenai 3 kesalahan besar yang sering dilakukan oleh mereka yang ingin belajar data sains.
Introduction to Message Brokers. Part 1: Apache Kafka vs. RabbitMQ
Meningkatnya jumlah peralatan yang terhubung ke IoT menyebabkan perlunya peningkatan kemampuan mengolah dan menganalisis data yang dihasilkan. Salah satu komponen yang sangat penting dalam hal ini adalah message broker. Pada artikel ini, kita akan melihat alternatif open source untuk message broker tersebut, yaitu : Apache Kafka dan Rabbit MQ.
Python at Netflix
Para penonton Netflix mungkin tidak menyadari bahwa mereka sedang menyaksikan program Python beraksi. Netflix menggunakan Python dalam siklus konten mereka, mulai dari memilih konten mana yang akan diproduksi, sampai pengoperasian CDN yang menyajikan video hingga ke 148 juta pelanggan. Artikel ini mengupas mengenai bagaimana Python digunakan dan dikembangkan di Netfilx.
Naive Bayes: A Baseline Model for Machine Learning Classification Performance
Menggunakan Pandas untuk menjalankan Teorema Bayes dan Scikitlearn untuk mengimplementasikan Algoritma Naive Bayes. Artikel ini menjelaskan pendekatan langkah demi langkah untuk memahami Algoritma Naive Bayes dan menerapkan berbagai opsi di Scikitlearn.
How to Develop a Convolutional Neural Network From Scratch for MNIST Handwritten Digit Classification
Klasifikasi digit tulisan tangan MNIST adalah dataset standar yang digunakan dalam computer vision dan deep learning. Tutorial ini menjelaskan bagaimana mengembangkan CNN untuk klasifikasi digit tulisan tangan dari nol, sehingga anda dapat memahami bagaimana merancang test harnes, melakukan evaluasi terhadap model, dan menentukan acuan kinerja untuk model pengklasifikasi.

Rilis Produk

Apache Drill 1.16.0 Release
Rilis Drill 1.16.0 ini ini mencakup penyelesaian 220 JIRA yang terdiri dari perbaikan bugs dan peningkatan.

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂

Mar 28 / 2019
Comments Off on Seputar Big Data edisi #67

Apache, Artificial Intelligece, Big Data

Seputar Big Data edisi #67

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu keempat bulan Maret 2019.

Artikel dan berita

Turing Award And Million Given To 3 AI Pioneers
The Association for Computing Machinery (ACM) memberikan penghargaan kepada Yoshua Bengio, Geoffrey Hinton dan Yann LeCun dengan award yang oleh banyak orang dianggap sebagai “Hadiah Nobel komputasi,” untuk inovasi yang mereka buat di bidang AI. Hadiah $1 juta yang didanai oleh Google, dinamai sesuai dengan ahli matematika Inggris Alan Turing, yang meletakkan dasar teoritis untuk ilmu komputer.
McDonalds Orders a Large Side of Personalisation Technology
McDonalds telah membeli perusahaan teknologi personalisasi dan “logika keputusan”, Dynamic Yield, yang dilaporkan bernilai $300 juta, dan menyatakan bahwa akuisisi tersebut akan membawa MCDonalds menjadi “salah satu perusahaan pertama yang mengintegrasikan teknologi keputusan ke dalam titik penjualan fisik.”
Menilik Dampak AI dalam Tiga Tahun di Indonesia
Presiden Direktur Microsoft Indonesia Haris Izmee mengatakan hasil penelitian bersama IDC Asia Pasifik menunjukkan bahwa penggunaan AI akan mendorong peningkatan inovasi di Indonesia hingga 1,7 kali lipat. Di Asia Pasifik sendiri, peningkatan inovasi karena AI akan meningkat 1,9 kali lipat. Haris mengatakan hal ini bagus untuk Indonesia. Inovasi dengan penggunaan AI akan menumbuhkan sistem digital ekonomi di Indonesia.
Amazon to fund $10M to improve fairness in AI research
Amazon bekerja sama dengan US National Science Foundation dengan memberikan total $10 juta dalam hibah penelitian selama tiga tahun ke depan untuk membantu meningkatkan fairness dalam bidang kecerdasan buatan.
How I Built the Perfect Data Science Team
Bagaimana membangun tim data sains berbeda dari tim development? Baca artikel ini untuk mendapatkan gambaran dari seorang ahli big data, terkait pengalamannya membentuk tim data saintis sejak 12 tahun yang lalu.
5 Practical Applications of AI in Contemporary Industries
Saat ini kecerdasan buatan merambah berbagai bidang. Sejumlah elemen AI telah menjadi bagian dari kehidupan kita sehari-hari. Dari rumah pintar dan Internet of Things hingga teknik manufaktur, kecerdasan buatan digunakan saat kita berbicara untuk meningkatkan kehidupan kita. Dalam artikel ini, Anda akan mempelajari lebih lanjut tentang lima cara praktis AI digunakan di beberapa bidang utama.

Tutorial dan pengetahuan teknis

R vs Python for Data Visualization
Artikel ini menunjukkan pembuatan plot serupa di R dan Python menggunakan dua paket visualisasi data paling populer, yaitu ggplot2 dan Seaborn.
Visualizing Trends in a Time Series With Pandas
Sekilas mengenai cara menggunakan Python dan library Pandas untuk membuat visualisasi data dengan data yang dikumpulkan dari Google Trends.
Reducing the Need for Labeled Data in Generative Adversarial Networks
Untuk sintesis gambar alami, hasil canggih dicapai oleh GAN bersyarat yang memerlukan data berlabel untuk training. Pendekatan ini membutuhkan sejumlah besar data berlabel yang biasanya jarang tersedia. Artikel ini menjelaskan mengenai pendekatan baru untuk mengurangi jumlah data berlabel yang diperlukan untuk melatih GAN bersyarat.
Uber Case Study: Choosing the Right HDFS File Format for Your Apache Spark Jobs
Apache Spark mendukung sejumlah format file yang memungkinkan beberapa records disimpan dalam satu file. Setiap format file memiliki kelebihan dan kekurangannya sendiri. Dalam artikel ini diuraikan mengenai format file yang digunakan oleh tim Pengumpulan Data Maps di Uber untuk memproses sejumlah besar citra dan metadata untuk mengoptimalkan pengalaman bagi konsumen.
Running Apache Flink on Kubernetes
Artikel ini memaparkan mengenai bagaimana mengembangkan sebuah aplikasi stream prosesing menggunakan Flink di atas Kubernetes.
Data Pipelines, Luigi, Airflow: Everything you need to know
Posting ini berfokus pada sistem manajemen alur kerja (workflow management system) Airflow : apa itu, apa yang dapat Anda lakukan dengannya, dan bagaimana perbedaannya dari Luigi. Airflow dikembangkan di Airbnb pada tahun 2014 dan pada 2016 ia bergabung dengan program inkubasi Apache. Luigi adalah paket python untuk membangun workflow kompleks, dikembangkan di Spotify.

Rilis Produk

The Apache Software Foundation Announces Apache® Unomi™ as a Top-Level Project
Apache Software Foundation menyatakan bahwa Apache Unomi lepas dari status inkubator dan menjadi top-level project.
Apache Unomi adalah Customer Data Platform (CDP) berbasis standard, yang mengelola pelanggan online, prospek, dan informasi pengunjung, untuk memberikan pengalaman yang dipersonalisasi dengan memperhatikan aturan privasi seperti GDPR dan pilihan “Do Not Track”. Project ini awalnya dikembangkan oleh Jahia, dan di-submit ke Apache incubator pada Oktober 2015.
Apache Solr 8.0.0 released
Sebagai rilis utama, Solr 8 menghapus banyak API yang sudah usang, mengubah berbagai default parameter dan perilaku. Beberapa perubahan mungkin memerlukan indeks ulang konten Anda. Oleh karena itu Anda dianjurkan untuk membaca “Upgrade Notes” di http://lucene.apache.org/solr/8_0_0/changes/Changes.html atau dalam file CHANGES.txt yang menyertai rilis. Solr 8.0 juga mencakup banyak fitur baru lainnya dan juga banyak optimisasi dan perbaikan bug dari rilis Apache Lucene yang sesuai.
Kubernetes 1.14: Production-level support for Windows Nodes, Kubectl Updates, Persistent Local Volumes GA
Kubernetes 1.14 terdiri dari 31 peningkatan: 10 pindah ke level stabil, 12 dalam level beta, dan 7 baru. Tema utama dari rilis ini adalah ekstensibilitas dan mendukung lebih banyak beban kerja di Kubernet dengan tiga fitur utama yang beralih ke general availability, dan fitur keamanan penting yang beralih ke level beta. Lebih banyak peningkatan yang lulus ke tingkat stabil dalam rilis ini daripada rilis Kubernet sebelumnya. Selain itu, dalam rilis ini terdapat peningkatan Pod dan RBAC yang penting.

Contributor :

Tim idbigdata
always connect to collaborate every innovation 🙂

Nov 21 / 2017
Comments Off on [Belajar Machine Learning 1] – Mempersiapkan Environment Python dengan Anaconda untuk Machine Learning

Artificial Intelligece, Big Data, machine learning, Uncategorized

[Belajar Machine Learning 1] – Mempersiapkan Environment Python dengan Anaconda untuk Machine Learning

Dalam beberapa seri artikel ke depan akan disajikan panduan praktis untuk memulai machine learning (dan deep learning) menggunakan Python.

Banyak di antara kita yang ingin belajar namun bingung dari mana harus memulainya. Mempelajari Machine learning, seperti dibahas pada artikel sebelumnya, paling cepat dilakukan dengan cara mengerjakan sebuah project. Rangkaian artikel ini akan memberikan beberapa arahan atau ide untuk anda.

Mengapa menggunakan python? Saat ini Python termasuk bahasa pemrograman yang paling banyak digunakan dalam data science dan machine learning.

Pada seri pertama ini akan dibahas mengenai bagaimana mempersiapkan environment Python untuk membuat program machine learning, dengan menggunakan Anaconda. Langkahnya adalah sbb:

Download Anaconda
Install Anaconda
Start dan Update Anaconda
Menggunakan dan me-manage conda environment untuk versi python yang berbeda-beda

Download Anaconda

Bagian ini mengenai bagaimana mendownload package Anaconda Python untuk platform anda.

Kunjungi download page Anaconda
Pilih installer yang sesuai dengan platform anda (Windows, OSX, atau Linux)
Pilih Python 3.x (dalam hal ini 3.6), proses download installer akan langsung berjalan
Catatan : Saat ini terdapat dua major version Python yang masih bayak digunakan, yaitu 2.x dan 3.x, namun mengingat trend dewasa ini lebih mayoritas implementasi dan pengembangan dilakukan dengan dan untuk python 3.x, dan support untuk versi 2.x sudah akan berakhir pada 2020, maka disarankan menggunakan versi ini. Python 2.x hanya digunakan untuk kebutuhan khusus yang tidak/belum disupport python 3.x.
Untuk windows 64 bit, installer python 3.6 berukuran kurang lebih 515 MB dengan nama file Anaconda3-5.0.1-Windows-x86_64.exe

Install Anaconda

Untuk menginstall Anaconda, double-click file installer yang sudah diunduh pada langkah 1 di atas. Sebelumnya, pastikan anda memiliki priviledge yang cukup untuk menginstall software baru di sistem anda.

Setelah doubleclick, akan muncul aplikasi installer, ikuti langkah-langkah yang muncul. Waktu instalasi biasanya di bawah 10 menit dan memerlukan disk space antara 1 atau 2 GB.

Anaconda Navigator dan environment grafis Anaconda akan sangat berguna nanti, namun untuk saat ini kita akan memulai dengan environment command line Anaconda yang disebut conda.

Anaconda Navigator

Conda cukup cepat dan simple, serta menampilkan hampir semua eror message, sehingga akan lebih mudah untuk mengetahui apakah environment yang anda install sudah dapat bekerja dengan baik dan benar.

Cek instalasi dan versi python

Untuk mengecek apakah conda terinstall dengan baik, lakukan langkah ini:

Buka terminal (command line window)
Cek instalasi dengan mengetikkan : conda -V
Cek versi Python dengan : python -V

Outputnya kurang lebih sebagaimana berikut:

Untuk memastikan environment conda sudah up-to-date, lakukan update dengan cara:

conda update conda

conda update anaconda

Cek environment SciPy

Langkah berikutnya adalah memeriksa versi library-library yang umumnya digunakan untuk pemrograman machine learning, yaitu: scipy, numpy, matplotlib, pandas, statsmodels, dan scikit-learn.

Untuk melakukannya, masuk ke python prompt, dan jalankan perintah-perintah berikut ini:

# scipy
import scipy
print(‘scipy: %s’ % scipy.__version__)
# numpy
import numpy
print(‘numpy: %s’ % numpy.__version__)
# matplotlib
import matplotlib
print(‘matplotlib: %s’ % matplotlib.__version__)
# pandas
import pandas
print(‘pandas: %s’ % pandas.__version__)
# statsmodels
import statsmodels
print(‘statsmodels: %s’ % statsmodels.__version__)
# scikit-learn
import sklearn
print(‘sklearn: %s’ % sklearn.__version__)

Outputnya kurang lebih sbb (di bawah ini adalah versi yang terakhir pada saat artikel ini dibuat) :

Untuk memutakhirkan versi library yang digunakan, bisa dilakukan secara individual dari command prompt, misalnya untuk scikit-learn, lakukan:

conda update scikit-learn

Sekarang anda sudah siap untuk mulai membuat project machine learning dalam Python.

Menggunakan Environment Anaconda

Dalam Anaconda, anda dapat menggunakan beberapa versi python dan library pendukung yang berbeda-beda dalam Anaconda. Caranya adalah dengan menggunakan conda environment.

Untuk melihat environment yang ada, gunakan:

conda env list

Untuk membuat environment baru, misalnya dengan nama myenv, lakukan langkah berikut:

conda create –name myenv

Anda bisa membuat environment dengan memilih versi python yang diperlukan, misalnya python 2.7 untuk environment dengan nama myenv27, dengan cara

conda create -n myenv27 python=2.7

Versi lengkapnya dapat dilihat di anaconda user guide bagian Managing Environment.

Sumber :
https://machinelearningmastery.com/setup-python-environment-machine-learning-deep-learning-anaconda/

Contributor :

M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng.
Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun.
Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.

Posts Tagged / python

Download Anaconda

Install Anaconda

Menggunakan Environment Anaconda