:::: MENU ::::

Posts Categorized / Spark

  • Dec 14 / 2017
  • Comments Off on Seputar Big Data Edisi #41
Apache, Big Data, IoT, Spark, Uncategorized

Seputar Big Data Edisi #41

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan Desember 2017

Artikel dan Berita

  1. Uber’s Uber Breach: A Stunning Failure In Corporate Governance And Culture
    Ketika Uber mengetahui data mereka bocor di akhir 2016 lalu, selain tidak memperingatkan pihak-pihak yang terkena dampaknya, mereka juga berusaha berkonspirasi untuk menutupi kasus tersebut. Bahkan mereka pun bersedia membayar hacker/pemeras yang membobol data mereka dalam usaha menyembunyikannya. Dalam artikel ini Forrester mengupas mengenai kasus tersebut.
  2. The Marine Biologist Using Big Data to Protect Ocean Wildlife
    Bagaimana para ahli biologi kelautan menggunakan big data untuk menjaga keragaman dan keseimbangan hayati kelautan dengan membangun beberapa platform untuk memonitor berbagai ancaman terhadap ekosistem laut.
  3. Big Data in Marketing; 5 Use Cases – There Are a Lot More Than Just Five
    5 contoh penggunaan big data dalam bidang marketing.
  4. Big data: Three ways to turn business intelligence into a business advantage
    Besarnya informasi yang dimiliki sebuah organisasi tidak selalu sejalan dengan jumlah insight yang mereka dapatkan. Dalam artikel ini CIO perusahaan retail House of Fraser memaparkan mengenai strategi mereka dalam menempatkan BI dan AI sebagai pendukung utama dalam pengambilan keputusan dalam perusahaan.

Tutorial dan Pengetahuan Teknis

  1. Graph Analytics Using Big Data
    Sebuah overview dan tutorial singkat mengenai bagaimana melakukan analisis graph menggunakan Apache Spark, graphframe dan Java.
  2. From lambda to kappa and dataflow paradigms
    Sebuah tinjauan singkat mengenai evolusi kerangka pemrosesan data dalam beberapa tahun terakhir ini, mulai dari framework yang sudah muncul lebih dulu (misalnya Storm dan Samza) serta beberapa framework baru seperti Beam, Spark, dan Flink.
  3. Comparing Pulsar and Kafka: unified queuing and streaming
    Overview mengenai Apache Pulsar (incubating) dan perbandingannya dengan Apache Kafka.
  4. scikit-learn: Creating a Matrix of Named Entity Counts
    Artikel yang menjelaskan mengenai implementasi model menggunakan named entities dan polyglot NLP library dari scikit-learn untuk mengikuti kompetisi Kaggle Spooky Author Identification.
  5. Transfer learning from multiple pre-trained computer vision models
    Dalam deep learning, sebuah model perlu dilatih menggunakan data yang besar untuk dapat digunakan. Semakin besar data yang digunakan untuk training model, semakin baik kinerjanya untuk data baru. Salah satu metode yang paling murah dan praktis adalah dengan ‘transfer learning’. Artikel ini menjelaskan bagaimana menggunakan model computer vision yang sudah ditraining, dalam keras TensorFlow abstraction library.
  6. Data acquisition in R (3/4)
    Seri ke 3 dari 4 artikel yang menjelaskan dengan sangat baik mengenai akuisisi data (loading, preproses, analisis dan visualisasi) dalam R, terutama data-data yang berhubungan dengan demografi.
  7. [FREE EBOOK] The Ultimate Guide to Basic Data Cleaning
    Data cleansing atau data cleaning merupakan langkah yang sangat penting dalam pengolahan data, karena kualitas insight yang dihasilkan dari proses analisis tergantung dari kualitas datanya. Ebook ini menjelaskan mengenai dasar-dasar data cleaning dalam 8 bab yang singkat, dilengkapi dengan contoh kasus.
  8. [DATASET] IMDB 5000 Movie Dataset
    Dataset yang digunakan untuk mengeksplorasi kemungkinan untuk memprediksi popularitas sebuah film sebelum film tersebut dirilis.

Rilis Produk

  1. Apache ZooKeeper 3.4.11
    Rilis Apache ZooKeeper 3.4.11 mencakup beberapa bug fixes dan peningkatan kinerja.
  2. Apache BooKeeper 4.5.1 Released
    Versi 4.5.1 dari Apache BooKeeper dirilis minggu ini. Di dalamnya terdapat penyelesaian terhadap beberapa bug kritikal.
  3. Apache Bigtop 1.2.1
    Apache Bigtop 1.2.1 dibangun di atas JDK8 dan mencakup Docker provisioner serta peningkatan pada beberapa project ekosistemnya.
  4. Burrow 1.0.0 Released
    Burrow adalah tool monitoring untuk Apache Kafka. Versi 1.0.0 yang baru-baru ini dirilis mencakup beberapa fitur baru dan perbaikan bugs.
  5. StreamSets Data Collector 3.0
    StreamSet merilis versi 3.0 dari SDC (StreamSet Data Collector), dan Data Collector Edge yang baru. Data Collector Edge adalah versi lightweight binary dari SDC. SDC versi 3.0 mencakup beberapa fitur baru yang berhubungan dengan Kafka, Google Cloud, Oracle CDC, MapR, dan lain sebagainya.
  • Nov 13 / 2017
  • Comments Off on Seputar Big Data Edisi #37
Apache, Artificial Intelligece, Big Data, Forum Info, Implementation, IoT, Spark

Seputar Big Data Edisi #37

Penggunaan big data untuk personalisasi pengobatan radioterapi untuk kanker prostat, Houston Astro yang memenangi World Series dengan kekuatan data, dan beberapa trend big data, AI serta Iot dalam industri transportasi adalah sebagian yang ditampilkan dalam edisi kali ini. Di seksi teknis disajikan vektorisasi UDF untuk PySpark, pengenalan Statistical Language Modeling and Neural Language Models, penggunaan Kafka untuk mentransformasi batch pipeline menjadi real time, dan pengenalan singkat mengenai dep learning. Rilis Apache Kafka 1.0, HDP 2.6.3, Apache Kylin 2.2.0 serta Apache Jena 3.5.0 menjadi berita open source rilis minggu ini.

Seputar Big Data edisi #37 adalah kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan November 2017

Artikel dan berita

  1. How big data won the 2017 World Series
    Mengulang kesuksesan Oakland Athletics yang diabadikan dalam Moneyball, tahun ini Houston Astro berhasil memenangi World Series 2017, final liga baseball paling bergengsi di dunia, dengan kekuatan data.
  2. The Future Of The Transport Industry – IoT, Big Data, AI And Autonomous Vehicles
    Beberapa trend ke depan dalam bidang AI, IoT dan Big Data yang akan membentuk wajah industri transportasi masa depan.
  3. 5 tactics to beat big data hiring challenges
    Mempekerjakan spesialis di bidang teknologi yang sedang trend sering kali menjadi tantangan tersendiri, termasuk dalam hal biaya. Tapi dengan strategi yang tepat, over-pay saat membangun tim baru dapat dihindari. Berikut ini 5 Strategi untuk merekrut talent dalam big data maupun spesialis teknologi lain yang sedang menjadi primadona.
  4. Big data analysis predicts risk of radiotherapy side effects
    Peneliti di The Institute of Cancer Research, London, untuk pertama kalinya menggunakan analisis big data untuk memprediksi resiko efek samping radioterapi, khususnya untuk pengobatan kanker prostat. Terobosan ini dapat membantu para ahli untuk mempersonalisasi pengobatan radioterapi di masa depan.

Tutorial dan Pengetahuan Teknis

  1. Introducing Vectorized UDFs for PySpark : How to run your native Python code with PySpark, fast.
    Spark 2.3 akan mencakup dukungan untuk vectorized UDF (User Defined Function) melalui integrasi menggunakan Apache Arrow.
    UDF yang dianotasi dengan menggunakan @pandas_udf dan menggunakan input atau output berupa pandas.Series memberikan peningkatan kinerja yang signifikan. Artikel ini memberikan beberapa contoh UDF, termasuk penambahan sederhana, probabilitas kumulatif, dan OLS. Artikel ini juga menyertakan sebuah microbenchmark yang menunjukkan peningkatan kecepatan 3x-100x.
  2. How to use Apache Kafka to transform a batch pipeline into a real-time one
    Blog ini menjelaskan dengan lengkap bagaimana membangun rangkaian data real-time end-to-end dengan membuat empat micro-services di atas Apache Kafka. Data ditarik dari HTTP endpoint dan dimasukkan ke dalam Kafka menggunakan Producer API. Dari sana, aplikasi Kafka Streams melakukan deteksi fraud dan menghitung statistik agregat. Akhirnya, Kafka Connect menulis data ke database PostgreSQL untuk melayani melalui REST API. Penjelasan tersebut memberikan wawasan mengenai Kafka Producer API, Avro dan Confluent Schema Registry, Kafka Streams High-Level DSL, dan Kafka Connect Sinks.
  3. Gentle Introduction to Statistical Language Modeling and Neural Language Models
    Pemodelan bahasa sangat penting bagi pemrosesan bahasa alami (Natural language processing – NLP). Model bahasa berbasis neural network telah menunjukkan kinerja yang lebih baik daripada metode klasik, baik untuk proses yang berdiri sendiri maupun sebagai bagian dari proses NLP yang lebih kompleks.
    Artikel berikut ini mengupas mengenai apa itu model bahasa dan beberapa contoh penggunaannya, serta bagaimana jaringan syaraf tiruan dapat digunakan untuk pemodelan bahasa.
  4. Want to know how Deep Learning works? Here’s a quick guide for everyone.
    AI dan Machine learning merupakan topik yang menarik banyak dibicarakan akhir-akhir ini. Salah satu metode yang banyak dimanfaatkan adalah deep learning. Artikel ini memberikan overview singkat untuk memahami apa itu deep learning dan bagaimana cara kerjanya.
  5. Kylo: Automatic Data Profiling and Search-Based Data Discovery
  6. [DATASET] Web data: Amazon reviews
    Dataset yang dapat digunakan untuk keperluan Natutal Language Processing. Mencakup ~35 juta review Amazon dalam kurun waktu 18 tahun. Termasuk di dalamnya informasi produk, user, rating dan teks review.

Rilis Produk

  1. Apache Kafka Goes 1.0
    Minggu ini, Apache Kafka versi 1.0.0 dirilis. Rilis ini mencakup peningkatan kinerja, TLS yang lebih cepat, dukungan Java 9, dan banyak lagi. Milestone-nya dibahas di blog Apache Software Foundation, sedangkan blog Confluent berikut ini menjelaskan beberapa perbaikan yang dilakukan dalam versi terbaru tersebut.
  2. Announcing the General Availability of HDP 2.6.3 and Hortonworks DataPlane Service
    Versi 2.6.3 HDP telah adalah rilis pertama yang mendukung Hortonworks DataPlane Service. Terdapat pula beberapa package versi baru (Spark, Zeppelin, Livy, Druid, Atlas, Knox, Ambari, SmartSense, dan Ranger).
  3. KSQL JDBC Driver
  4. Apache Kylin 2.2.0 released
    Apache Kylin adalah Distributed Analytics Engine yang menyediakan SQL interface dan multi-dimensional analysis (OLAP) di atas Apache Hadoop, mendukung pemrosesan datasets super besar. Rilis 2.2.0 ini adalah rilis major yang mencakup lebih dari 70 bug fixes dan berbagai peningkatan.
  5. Apache Jena 3.5.0 Released
    Apache Jena adalah framework untuk mengembangkan Semantic Web and aplikasi Linked Data dalam Java. Jena menyediakan implementasi standards W3C untuk
    RDF dan SPARQL. Rilis 3.5.0 ini memperkenalkan TDB2, sebagai peningkatan dari TDB1.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Nov 02 / 2017
  • Comments Off on Seputar Big Data Edisi #36
Apache, Big Data, Blockchain, Hadoop, Implementation, Spark

Seputar Big Data Edisi #36

Beberapa artikel teknis menarik mengenai Keras – sebuah Python Deep Learning library, pemanfaatan Apache Flink untuk risk engine, perbandingan antara Apache Arrow, Parquet dan ORC, serta tutorial mengenai penggunaan Spark dan SparkSQL untuk memproses file csv. Dari segmen news ditampilkan penerapan big data analytics oleh PT Pos Indonesia, MIT yang membangun FeatureHub untuk crowdsourcing big data analytics, dan implikasi blockchain bagi industri asuransi. Tidak ketinggalan juga beberapa rilis open source, diantaranya yaitu Apache Spark 2.1.2. Hive, Pandas, dan OpenNLP.

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu 4 bulan Oktober 2017.

Artikel dan Berita

  1. The Amazing Ways Spotify Uses Big Data, AI And Machine Learning To Drive Business Success
    Spotify, layanan musik on-demand terbesar di dunia, dikenal sebagai pendobrak batas teknologi. Perusahaan musik digital dengan lebih dari 100 juta pengguna ini terus meningkatkan kemampuan layanan dan teknologinya melalui beberapa akuisisi serta pemanfaatan big data, kecerdasan buatan dan machine learning.
  2. Crowdsourcing big-data analysis
    Langkah pertama dalam proses analisis big data dalah identifikasi fitur, yaitu data poin yang memiliki nilai prediktif, yang berguna dalam proses analisis. Langkah ini biasanya memerlukan intuisi manusia. Peneliti MIT membangun sebuah sistem kolaborasi, yang diberi nama FeatureHub. Dengan alat ini diharapkan proses identifikasi fitur dapat dilakukan secara efisien dan efektif. Dengan FeatureHub, para data saintis dan domain expert dapat masuk ke dalam sebuah situs untuk mereview permasalahan dan mengajukan fitur yang akan digunakan. FeatureHub kemudian akan melakukan pengetesan berbagai kemungkinan kombinasi fitur tersebut terhadap target data, untuk menentukan kombinasi mana yang paling tepat untuk permasalahan tertentu.
  3. Keuangan Inklusif, PT Pos Bangun Big Data Analytic
    Hingga kini, baru 36 persen masyarakat Indonesia yang memiliki akun bank. Sedangkan 64 persen masyarakat yang tinggal di pelosok belum tersentuh keuangan inklusif karena sulitnya akses ke perbankan. Untuk membantu masyarakat tersebut, PT Pos tengah membangun big data analytic. Lewat big data analytic, Pos akan membuat kredit skoring yang nantinya bisa dikerjasamakan dengan perbankan untuk penyaluran pembiayaan.
  4. What PredictionIO does for machine learning and Spark
    Apache PredictionIO dibangun di atas Spark dan Hadoop, dan menyediakan template yang dapat dikustomisasi untuk task-task yang umum.
    Aplikasi mengirimkan data ke server event untuk melakukan training model, kemudian meng-query engine untuk mendapatkan prediksi berdasarkan model tersebut. Kemudahan apa yang ditawarkan oleh Apache PredictionIO?
  5. Blockchain Implications Every Insurance Company Needs To Consider Now
    Teknologi blockchain sangat berpotensi mengguncang industri asuransi dan mengubah cara berbagi data, memproses klaim dan mencegah fraud. Namun implementasinya di industri asuransi saat ini masih dalam tahap eksplorasi awal. Untuk dapat merealisasikan potensi blockchain yang sangat besar implikasinya tersebut, Industri asuransi perlu secara aktif bekerja sama dengan para pionir, regulator, dan pakar-pakar industri. Perusahaan-perusahaan asuransi pun harus mulai mencoba memanfaatkan blockchain dalam proses internal mereka untuk mendapatkan pembelajaran guna memanfaatkan teknologi ini.

Tutorial dan Pengetahuan Teknis

  1. 7 Steps to Mastering Deep Learning with Keras
    Apakah anda tertarik untuk mempelajari Keras? Apakah Anda sudah memiliki pemahaman tentang bagaimana neural network bekerja? Artikel berikut ini menyajikan tujuh langkah praktis untuk menguasai dasar-dasar Keras dengan mudah dan cepat.
  2. StreamING Machine Learning Models: How ING Adds Fraud Detection Models at Runtime with Apache Flink®
    Artikel ini menjelaskan bagaimana ING menggunakan Apache Flink untuk risk engine mereka. Mereka menggunakan Apache Spark, Knime, dan Apache Zeppelin untuk training model secara batch dan menggunakan Flink untuk komponen real-time. Mereka menggunakan data PMML, yang dikirim melalui Kafka, untuk memperbarui aplikasi Flink. Arsitektur yang digunakan memungkinkan mereka menerapkan algoritma baru dengan zero downtime, seketika.
  3. Apache Arrow vs. Parquet and ORC: Do we really need a third Apache project for columnar data representation?
    Setelah Apache Parquet dan ORC, muncullah Apache Arrow sebagai representasi format data kolumnar. Apakah kemunculan Arrow menawarkan kelebihan atau perbedaan dibanding dua format yang lainnya? Artikel ini membahas dengan detail mengenai kolumnar data format dan perbandingan di antara ketiga format tersebut, lengkap dengan benchmark.
  4. ETL Pipeline to Transform, Store and Explore Healthcare Dataset With Spark SQL, JSON and MapR-DB
    Tutorial ini menjelaskan cara menggunakan Spark untuk membaca data dari file CSV, mengubahnya menjadi skema yang terdefinisi dengan baik (dalam hal ini Scala Case Class), dan melakukan query menggunakan SparkSQL. Ada juga contoh kode untuk menyimpan data di MapR-DB dan membacanya kembali.

Rilis Produk

  1. Spark Release 2.1.2
    Spark 2.1.2 baru saja dirilis. Ada lebih dari 100 perbaikan bug dan berbagai penyempurnaan pada versi ini.
  2. Pandas v0.21.0
    Ini adalah major rilis dari 0,20,3 mencakup sejumlah perubahan, deprecation, fitur baru, penyempurnaan, dan peningkatan kinerja API serta sejumlah besar perbaikan bug. User sangat disarankan melakukan upgrade ke versi ini.
  3. Hive – Version 2.3.1
    Hive versi 2.3.1 dirilis minggu lalu dengan beberapa bug fixing dan penyempurnaan.
  4. Apache OpenNLP 1.8.3
    Rilis ini memperkenalkan beberapa fitur baru, perbaikan bug, dan penyempurnaan. Versi ini memerlukan Java 1.8 dan Maven 3.3.9.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Aug 18 / 2016
  • Comments Off on Spark 2.0.0 – Kecepatan dan Kemudahan dalam Kemasan Simple
Apache, Hadoop, Komunitas, Spark

Spark 2.0.0 – Kecepatan dan Kemudahan dalam Kemasan Simple

Databrick akhirnya mengumumkan release Spark 2.0.0 pada 26 Juli 2016. Dua bulan sebelumnya mereka melansir preview-release untuk memberikan kesempatan para penggunanya bereksperimen dan memberikan feedback mengenai fitur-fitur baru Spark.

Release Spark versi 2.0.0 merupakan momen yang ditunggu-tunggu karena menjanjikan banyak kemajuan di sisi fitur dan performance, dan juga mencakup 2500 patches dari 300 lebih kontributor.

Beberapa hal yang dijanjikan oleh Spark 2.0.0 adalah :

Lebih mudah : Support ANSI SQL dan API yang disederhanakan. Spark berfokus pada dua hal : a) dukungan ANSI SQL dan b) penyederhanaan API. Beberapa hal yang dilakukan pada sisi programming API adalah: menggabungkan API developer dalam library Spark, seperti misalnya antara DataFrames dan Datasets, serta SQLContext dan HiveContext. API berbasis dataFrame dengan “pipeline” API-nya akan menjadi package utama dari API machine learning. Meskipun library yang lama tetap dipertahankan untuk backward compatibility, fokus di masa depan akan lebih pada pengembangan API berbasis DataFrame. User dapat menyimpan dan me-load pipeline dan model machine learning dalam berbagai bahasa pemrograman yang disupport oleh Spark. Support tambahan untuk R, yaitu : Algoritma terdistribusi untuk Generalized Linear Models (GLM), Naive Bayes, Survival Regression, and K-Means Mendukung UDF (user defined function) untuk dapat dijalankan di level partisi (dapply & gapply) serta tuning hyper-parameter (lapply)

Lebih cepat : peningkatan kecepatan 5 sampai 10 kali daripada Spark 1.6 untuk beberapa operator, sebagai hasil dari project Tungsten Fase 2 yang mencakup whole stage code generation dan optimisasi code Catalyst.

Lebih cerdas : Streaming terstruktur, yaitu menggabungkan berbagai macam komponen komputasi Spark yang mendukung komputasi streaming untuk menghasilkan aplikasi yang berkesinambungan. Selama ini pemrosesan streaming sering dinilai sebagai titik lemah dari Spark, dan Spark 2.0.0 bertujuan untuk mengatasi hal ini. Ada beberapa perbaikan yang dilakukan dalam Spark 2.0, di antaranya:
  • Intergrasi streaming API dengan batch job
  • Interaksi transaksional dengan storage system
  • Integrasi dengan komponen komputasi lain melalui Spark SQL, penggabungan dengan data statis, dan library yang sudah menggunakan DataFrame. Target selanjutnya adalah integrasi dengan MLlib dan library-library lain.

Contributor :


M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng. Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun. Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.

  • Jan 25 / 2016
  • Comments Off on Instalasi Spark 1.4.1 Cluster di Ubuntu 14.04 VMWare
Forum Info, Hadoop, Implementation, Spark, Uncategorized

Instalasi Spark 1.4.1 Cluster di Ubuntu 14.04 VMWare

Tutorial ini adalah kelanjutan dari Instalasi Hadoop Cluster di Ubuntu 14.04 VMWare. Diasumsikan bahwa Hadoop Cluster sudah disetting dan berjalan dengan baik seperti dalam tutorial tersebut.

Untuk dapat berjalan di atas cluster, Spark dapat dijalankan dengan menggunakan beberapa jenis cluster manager, yaitu Hadoop Yarn, Apache Mesos, ataupun cluster manager yang dimiliki Spark sendiri atau Spark stand alone cluster. Cluster manager ini yang akan mengalokasikan resource dalam cluster di mana Spark dijalankan. Untuk penjelasan lebih lanjut mengenai masing-masing arsitektur, dapat dibaca di sini

Untuk menjalankan spark dengan Spark cluster, berikut ini cara settingnya:

Versi software yang digunakan adalah :

  • Spark versi 1.4.1
  • Scala 2.10.4
  • Hadoop 2.6.0

Berikut ini konfigurasi cluster-nya:

IP Type Node Hostname
192.168.4.148 Hadoop Name node / Spark Master ubuntu1
192.168.4.149 Hadoop Data node 1 / Spark Worker ubuntu2
192.168.4.155 Hadoop Data node 2 / Spark Worker ubuntu3
  1. Download Apache Spark binary distribution dari siteApache Spark. Pilih spark distribution 1.4.1, Package type Pre-built for Hadoop 2.6 and later.
  2. tutorial04_01

    Copy file spark-1.4.1-bin-hadoop2.6.tgz ke 3 mesin di atas.

    Bisa juga langsung dengan perintah berikut di salah satu mesin,

    hduser@ubuntu1:~$ wget http://www.apache.org/dyn/closer.lua/spark/spark-1.4.1/spark-1.4.1-bin-hadoop2.6.tgz

    Lalu distribusikan ke mesin yang lain dengan perintah scp

    hduser@ubuntu1:~$ scp spark-1.4.1-bin-hadoop2.6.tgz hduser@ubuntu2:/home/hduser/
    hduser@ubuntu1:~$ scp spark-1.4.1-bin-hadoop2.6.tgz hduser@ubuntu3:/home/hduser/
  3. Download Scala 10.2.4
  4. hduser@ubuntu1:~$ wget http://www.scala-lang.org/files/archive/scala-2.10.4.tgz

    Lalu distribusikan ke mesin yang lain dengan perintah scp

    hduser@ubuntu1:~$ scp scala-2.10.4.tgz hduser@ubuntu2:/home/hduser/
    hduser@ubuntu1:~$ scp scala-2.10.4.tgz hduser@ubuntu3:/home/hduser/
  5. Extract package
  6. Extract package spark di atas, dan pindahkan ke direktori /usr/local/spark

    hduser@ubuntu1:~$ tar xzvf spark-1.4.1-bin-hadoop2.6.tgz
    hduser@ubuntu1:~$ sudo mv spark-1.4.1-bin-hadoop2.6 /usr/local/spark

    Extract package scala di atas, dan pindahkan ke direktori /usr/local/scala

  7. Update file .bashrc. Tambahkan 3 baris berikut ini ke akhir file $HOME/.bashrc dari user hadoop. Jika anda menggunakan shell selain bash, maka anda perlu meng-update config file yang bersesuaian
  8. export SCALA_HOME=/usr/local/scala
    export SPARK_HOME=/usr/local/spark
    export PATH=$HOME/bin:$SCALA_HOME/bin:$PATH

    Load setting dengan perintah

    hduser@ubuntu1:~$ . ~/.bashrc

    tutorial04_02

  9. Create direktori /home/hduser/sparkdata
  10. Sesuaikan file-file konfigurasi
  11. file /usr/local/spark/conf/spark-env.sh

    export SCALA_HOME=/usr/local/scala
    export SPARK_WORKER_MEMORY=256m
    export SPARK_WORKER_INSTANCES=1
    export SPARK_WORKER_DIR=/home/hduser/sparkdata
    export SPARK_MASTER_IP=ubuntu1

    tutorial04_03

    file /usr/local/spark/conf/slaves

    hduser@ubuntu1:~$ cp /usr/local/spark/conf/slaves.template /usr/local/spark/conf/slaves (copy file slaves.template ke file slaves)

    ubuntu1
    ubuntu2
    ubuntu3

    tutorial04_04

    hduser@ubuntu1:~$ cp /usr/local/spark/conf/spark-defaults.conf.template /usr/local/spark/conf/spark-defaults.conf (copy file spark-defaults.conf.template ke file spark-defaults.conf)

    file /usr/local/spark/conf/spark-defaults.conf.template

    spark.master spark://ubuntu1:7077 tutorial04_05

    Lakukan langkah 2-6 di atas untuk ke 2 server yang lain.

  12. Jalankan spark master dan worker
  13. Untuk menjalankan spark master dan node, jalankan perintah berikut di mesin master (ubuntu1) :

    hduser@ubuntu1:~$ /usr/local/spark/sbin/start-all.sh

    Cek apakah master dan node sudah jalan, dengan perintah berikut:

    hduser@ubuntu1:~$ jps

    Untuk server master, akan tampak service-service berikut ini (catatan: dfs dan yarn sudah di-start sebelumnya)

    tutorial04_06

    Untuk node worker, sbb:

    tutorial04_07
  14. Spark Shell dan Web Interface
  15. Untuk melihat web interface monitoring, jalankan spark-shell dengan perintah berikut ini:

    hduser@ubuntu1:~$ /usr/local/spark/bin/spark-shell

    Di scala shell, jalankan perintah berikut ini:

    scala> val input = sc.textFile("hdfs://ubuntu1:54310/data/README.txt")
    scala> val words = input.flatMap(line => line.split(" "))
    scala> val counts = words.map(word => (word, 1)).reduceByKey{case (x, y) => x + y}
    scala> counts.collect()

    Akan muncul log dan hasil count yang dimunculkan sebagian sbb:

    tutorial04_08

    Jalankan perintah berikut ini untuk menyimpan output ke hdfs:

    scala> counts.saveAsTextFile("hdfs://ubuntu1:54310/data/testSave")

    scala> counts.saveAsTextFile("hdfs://ubuntu1:54310/data/testSave")

    Untuk mengecek apakah file terbentuk, jalankan perintah berikut dari dari unix shell:

    hduser@ubuntu1:~$ hadoop fs -ls /data
    Found 2 items
    -rw-r--r-- 2 hduser supergroup 1366 2015-11-13 11:21 /data/README.txt
    drwxr-xr-x - hduser supergroup 0 2015-11-13 12:06 /data/testSave

    Bisa juga dengan menggunakan web interface hadoop di ubuntu1:50070, menu Utilities → Browse the File System

    tutorial04_09

    Untuk melihat isi file, gunakan perintah berikut:

    hduser@ubuntu1:~$ hadoop fs -cat /data/testSave

    Untuk melihat perintah lain yang dapat dilakukan di hadoop, gunakan perintah hadoop fs -help

Sekian Tutorial kali ini,

Semoga bermanfaat 🙂

Contributor :

M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng. Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun. Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.
  • Jun 16 / 2015
  • Comments Off on Mengintip Spark 1.4.0
Apache, Big Data, Hadoop, Spark

Mengintip Spark 1.4.0

spark

Tim developer Spark mengumumkan rilis keempat dari Spark versi 1. Rilis ini diklaim sebagai rilis terbesar dari Spark, yang melibatkan kontribusi dari 210 developer dan lebih dari 1000 perbaikan. Rilis ini diumumkan pada tanggal 11 Juni 2015 lalu.

Berbahagialah para penggemar R, karena pada rilis terbaru ini diperkenalkan untuk pertama kalinya SparkR yang merupakan R API untuk Spark. SparkR memungkinkan pengguna R untuk menganalisa dataset yang berjumlah besar dan menggunakan komputasi terdistribusi milik Spark untuk menjalankan proses analisa data dari shell milik R.

Spark 1.4 juga menambahkan fungsi untuk melakukan debugging secara visual dan utilitas untuk melakukan monitoring, yang didisain untuk membantu pengguna untuk memahami bagaimana aplikasi Spark berjalan.

Masih banyak lagi fitur-fitur yang ditambahkan baik dalam Spark Core, Spark SQL, Spark ML maupun Spark Stream. Untuk lebih detailnya dapat mengunjungi spark.apache.org/releases/spark-release-1-4-0.html

Sumber lain :
  1. www.databricks.com/blog/2015/06/11/announcing-apache-spark-1-4.html
  2. www.databricks.com/blog/2015/06/09/announcing-sparkr-r-on-spark.html
  3. www.zdnet.com/article/apache-spark-1-4-adds-r-language-and-hardened-machine-learning/
Contributor :

Sigit Prasetyo
Seorang pengembara dunia maya, sangat suka mengeksplorasi dan menelusuri tautan demi tautan dalam internet untuk memperoleh hal-hal menarik. Saat ini sedang berusaha mengasah ilmu googling. Memiliki kegemaran memancing walaupun saat ini lebih sering memancing di kantor, terutama memancing emosi.

Tertarik dengan Big Data beserta ekosistemnya? Gabung