:::: MENU ::::

Posts By / admin

  • Nov 19 / 2015
  • Comments Off on Ledakan Data di Bidang Genomics
Big Data, Forum Info, Implementation, Uncategorized

Ledakan Data di Bidang Genomics

Salah satu bidang yang menghasilkan data yang sangat besar adalah genomics. Seiring dengan semakin terjangkaunya biaya pemetaan dan semakin banyak genome yang dianalisis, data genomics akan mengalami ledakan yang dahsyat. Bidang ini bahkan diperkirakan akan menjadi penghasil data terbesar, melebihi data astronomi misalnya.

Menurut laporan yang dipublikasikan di jurnal PloS Biology (http://dx.doi.org/10.1371/journal.pbio.1002195), di tahun 2025 akan ada antara 100 juta sampai 2 milyar human genome yang telah dipetakan. Kapasitas penyimpanan data untuk keperluan ini saja dapat mencapai 2–40 exabytes (1 exabyte = 1018 bytes), karena jumlah data yang harus disimpan untuk sebuah genome setidaknya memerlukan 30 kali ukuran data genome itu sendiri. Hal ini untuk mengantisipasi adanya kesalahan yang mungkin timbul selama proses pemetaan dan analisis pendahuluan.

Jumlah tersebut melebihi perkiraan kapasitas penyimpanan data YouTube di tahun 2025, yang sebesar 1-2 exabytes, dan data Twitter yang diperkirakan mencapai 1-17 petabytes per tahun (1 petabyte = 1015 bytes). Jumlah data tersebut juga melebihi perkiraan data tahunan Square Kilometre Array (http://www.nature.com/news/cloud-computing-beckons-scientists-1.15298), sebuah project yang direncanakan menjadi project astronomi terbesar di dunia.

Namun permasalahan penyimpanan ini hanyalah salah satu permasalahan saja. Keperluan komputasi untuk mengumpulkan, mendistribusi, dan menganalisis data genomics ini akan jauh lebih besar lagi.

Perubahan Besar

Gene Robinson, ahli biologi UIUC yang juga salah satu co-author paper tersebut menyatakan, hal ini menegaskan bahwa bidang genomics akan memberikan banyak tantangan berat. Beberapa perubahan besar perlu dilakukan untuk dapat menangani ukuran data yang besar dan kebutuhan akan kecepatan analisis.

Narayan Desai, seorang computer scientist dari Ericsson San Jose mengatakan bahwa perbandingan data dengan bidang lain seperti dilaporkan dalam paper tersebut sebenarnya kurang tepat. Ada banyak hal yang tidak diperhatikan dalam melakukan perbandingan, seperti misalnya laporan tersebut menganggap ringan pemrosesan dan analisis video dan teks yang dilakukan oleh YouTube maupun Twitter, seperti misalnya untuk keperluan iklan yang terarah maupun penyajian video ke dalam format yang beragam.

Meskipun demikian, genomics tetap harus memperhatikan permasalahan mendasar mengenai berapa besar data yang sebenarnya akan dihasilkan di bidang ini. Karena sehebat apapun teknologi, kapasitas penyimpanan dan komputasi untuk mengumpulkan dan menganalisis data tetaplah terbatas, sehingga kedua hal tersebut harus digunakan dengan sebaik-baiknya. Karena proses pemetaan semakin terjangkau, komunitas genomics pun tumbuh dengan sangat pesat dan tersebar. Komunitas yang tersebar ini cukup menyulitkan dalam mengatasi permasalahan seperti yang disebutkan di atas. Bidang-bidang lain yang memerlukan banyak resource semacam ini, sseperti misalnya high-energy physics, komunitasnya lebih terpusat. Mereka memerlukan koordinasi dan konsensus untuk perancangan instrumen, pengumpulan data, dan strategi sampling. Berbeda dengan data genomics yang terkotak-kotak, meskipun akhir-akhir ini mulai muncul ketertarikan untuk menyimpan data-data genomics secara terpusat dalam cloud.

Kerja Sama

Berbeda dengan ahli genomics, setelah data mentah dikumpulkan para astronomer dan ahli fisika segera memprosesnya, dan kemudian data mentah tersebut dibuang. Cara ini menyederhanakan langkah-langkah distribusi dan analisis selanjutnya. Akan tetapi genomics belum memiliki standar baku untuk konversi data mentah menjadi data yang sudah diproses.

Menurut paper tersebut, jenis analisis yang ingin dilakukan oleh para ahli biologi terhadap data genomics ini juga sangat beragam dan metode yang digunakan belum tentu dapat berfungsi baik dengan peningkatan volume data yang besar. Misalnya untuk membandingkan dua genome diperlukan perbandingan antara dua set varian genetik. “Jika kita mempunyai satu juta genome, maka jumlah perbandingannya adalah satu juta kuadrat”, papar Saurabh Sinha, seorang komputer saintis dari UIUC dan salah satu co-author dari paper tersebut. “Algoritma yang digunakan untuk melakukan proses tersebut akan sangat kewalahan.”

Robert Brunner, seorang Observational cosmologist dari UIUC mengatakan, alih-alih membandingkan bidang ilmu, dia ingin ada sebuah kerja sama dalam mengatasi permasalahan terkait big-data yang mencakup banyak bidang, sehingga didapatkan manfaat yang lebih besar. Misalnya keterbatasan jenjang karir untuk spesialisasi komputasi dalam dunia sains, dan kebutuhan akan jenis penyimpanan dan kapasitas analisis yang belum tentu dapat dipenuhi oleh dunia industri.

“Genomics menghadapi tantangan yang sama dengan astronomi, ilmu mengenai atmosfer, ilmu tentang tumbuh-tumbuhan, fisika partikel, dan domain-domain big data yang lain,” kata Brunner. “Yang penting untuk dilakukan saat ini adalah menentukan apa masalah yang dapat kita pecahkan bersama-sama.”

Diterjemahkan dari : Genome researchers raise alarm over big data

Contributor :

M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng. Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun. Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.

  • Nov 17 / 2015
  • Comments Off on Microsoft Machine Learning Toolkit Bergabung ke Open Source
Big Data, Forum Info, Implementation, Uncategorized

Microsoft Machine Learning Toolkit Bergabung ke Open Source

Kurang dari seminggu setelah Google mengumumkan dibukanya status TensorFlow menjadi open source, Microsoft pun membuka akses ke machine learning platform mereka, DMTK (Distributed Machine Learning Toolkit).

DMTK dikembangkan oleh lab penelitian Microsoft Asia, dan di dalamnya mencakup server-based framework yang memungkinkan developer melakukan pemrograman machine learning dengan mudah. Toolkit ini juga mencakup dua algoritma yang dikembangkan Microsoft untuk melatih komputer untuk berbagai tugas.

Langkah Google dan Microsoft ini meramaikan persaingan dalam menanamkan pengaruh dan menciptakan tenaga-tenaga ahli di bidang machine learning, setelah sebelumnya di awal tahun ini Facebook juga membuka Torch , sistem deep-learning mereka. Sedangkan bagi Microsoft, strategi ini adalah langkah lebih jauh untuk menarik para developer, setelah mereka melengkapi Azure dengan kemampuan machine learning dalam cloud.

Saat ini DMTK sudah tersedia di github dengan lisensi MIT.

Contributor :

M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng. Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun. Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.

  • Nov 16 / 2015
  • Comments Off on Kini Anda pun Bisa Ikut Mengembangkan Google Machine Learning Engine
Big Data, Forum Info, Implementation, Uncategorized

Kini Anda pun Bisa Ikut Mengembangkan Google Machine Learning Engine

Baru-baru ini Google mengumumkan bahwa mereka membuka TensorFlow menjadi open source dengan lisensi Apache 2.

Tensor Flow sendiri adalah machine learning engine yang dipakai Google di banyak aplikasi mereka, mulai dari pengenalan suara, SmartReply yang membantu pengguna dengan mengidentifikasi email penting sekaligus memberikan usulan balasannya, pengenalan gambar yang memungkinkan kita melakukan pencarian berdasarkan foto, mengenali dan menerjemahkan tulisan dari sebuah foto, dan lain-lain.

Menurut Google, engine ini dapat digunakan baik dalam riset maupun komersial, mulai dari mesin besar sampai telepon genggam. TensorFlow menggunakan metode deep learning dalam prosesnya, namun dapat juga menggunakan reinforcement learning and logistic regression.

Tentunya tidak semua aspek dari machine learning engine ini dibuka untuk umum. Saat ini hanya beberapa algoritma saja yang dicakup dalam paket open source ini. Dan tentunya Google tidak membuka arsitektur dari infrastruktur luar biasa canggih di balik engine tersebut. Versi open source ini pun adalah versi yang hanya akan berjalan di single computer, bukan yang bisa berjalan di jaringan yang besar. Namun demikian, langkah ini tetaplah sebuah langkah yang luar biasa, mengingat TensorFlow adalah bagian dari aplikasi inti Google saat ini.

Dengan langkah ini Google mengharapkan akan banyak pihak yang ikut mengembangkan teknologi Artificial Intelligence, terutama dengan menggunakan tools mereka. Dengan demikian diharapkan teknologi ini dapat berkembang dengan lebih cepat. Cara ini juga diharapkan dapat mencetak banyak ahli di bidang AI, dan membantu Google untuk menemukan calon-calon potensial untuk ditarik bekerja di Google.

Google sudah mempersiapkan website yang dilengkapi dengan tutorial dan dokumentasi untuk mulai mempelajari machine learning. Kini siapapun dapat ikut serta mengembangkan TensorFlow, termasuk anda.

Selamat belajar!

Contributor :


M. Urfah
Penyuka kopi dan pasta (bukan copy paste) yang sangat hobi makan nasi goreng.
Telah berkecimpung di bidang data processing dan data warehousing selama 12 tahun.
Salah satu obsesi yang belum terpenuhi saat ini adalah menjadi kontributor aktif di forum idBigdata.
  • Nov 03 / 2015
  • Comments Off on Pivotal Analytics Engine Memperkuat Ekosistem Open Source Hadoop
Apache, Big Data, Forum Info, Implementation, Uncategorized

Pivotal Analytics Engine Memperkuat Ekosistem Open Source Hadoop

Akhir september 2015 lalu, Pivotal mengumumkan telah menyumbangkan HAWQ dan MADLib kepada dunia open source melalui Apache Software Foundation. Pivotal merupakan sebuah perusahaan penyedia perangkat lunak dan layanan pengembangan aplikasi untuk data dan analisis berbasis teknologi komputasi awan.

Apache HAWQ, diluncurkan pertama kali tahun 2013 dengan nama Pivotal HAWQ, yang dibangun berdasar pengetahuan dan pengalaman yang diperoleh dari pengembangan data warehouse sistem Pivotal Greenplum dan PostgreSQL. Apache HAWQ menyediakan kemampuan untuk melakukan query dengan antarmuka SQL pada Hadoop secara native. HAWQ dapat membaca dan menulis data dari HDFS.

Apache HAWQ memiliki beberapa keunggulan :

1. Kinerja yang sangat tinggi
Arsitektur pemrosesan paralel HAWQ memberikan throughput kinerja tinggi dan waktu respon yang cepat, berpotensi mendekati real time, dan dapat menangani data berskala petabyte, serta beroperasi secara native dengan Hadoop.

2.ANSI SQL
mendukung antarmuka SQL, yang tentu saja akan mudah diintegrasikan dengan aplikasi lain termasuk BI/visualisasi tools, serta mampu mengeksekusi query yang kompleks.

3. Integrasi dengan Ekosistem Hadoop.
Terintegrasi dan dapat dikelola melalui YARN, serta dapat diinstal dengan AMBARI. HAWQ juga mendukung Parquet, AVRO, HBase dan lainnya. HAQW mudah diupgrade untuk menjaga kinerja dan kapasitas melalui penambahan nodes.

MADlib merupakan machine learning library untuk SQL yang terintegrasi dengan HAWQ. MADlib dikembangkan oleh Pivotal, bekerjasama dengan peneliti dari Unversitas California, Berkeley, Universitas Standford, Universitas Florida dan klien dari Pivotal. MADlib telah digunakan di bidang finansial, otomotif, media, telekomunikasi dan industri transportasi.

Dalam press release yang diumumkan melalui pivotal.io, Gavin Sherry, Vice President dan CTO Pivotal, berkeyakinan bahwa teknologi HAWQ dan MADlib sebagai proyek inkubasi Apache akan memberikan kemampuan pemrosesan SQL yang belum pernah terjadi sebelumnya kepada pengembang dan pengguna Hadoop.

sumber :

http://pivotal.io/big-data/press-release/pivotal-open-sources-top-analytics-engine

http://hawq.incubator.apache.org/

http://madlib.incubator.apache.org/

Contributor :


Vinka Palupi
pecinta astronomi yang sejak kecil bercita-cita menjadi astronaut, setelah dewasa baru sadar kalau tinggi badannya tidak akan pernah cukup untuk lulus seleksi astronaut.
  • Oct 13 / 2015
  • Comments Off on Big Data untuk Penanggulangan Bencana : Ketika Data Menyelamatkan Jiwa
Big Data, Forum Info, Implementation, IoT, Uncategorized

Big Data untuk Penanggulangan Bencana : Ketika Data Menyelamatkan Jiwa

Menangani bencana alam adalah sebuah pekerjaan yang tidak mudah.Sering kali diperlukan koordinasi berlapis-lapis dan komunikasi antara berbagai organisasi bahkan berbagai negara untuk dapat memberikan bantuan dengan efektif. Permasalahan ini masih ditambah lagi dengan keadaan wilayah yang rusak setelah tertimpa bencana alam, dan putusnya jalur-jalur komunikasi akibat kerusakan infrastruktur. Di beberapa negara berkembang, infrastruktur ini tidak memadai bahkan kadang tidak tersedia sama sekali. Pemerintah biasanya memegang peranan penting dalam mengatasi tantangan-tantangan logistik semacam ini, akan tetapi beberapa tahun belakangan ini ada lagi hal penting yang terbukti sangat membantu penanganan bencana, yaitu adanya usaha pemerintah untuk mendukung kebebasan penggunaan dan penyebaran data sesudah kejadian-kejadian darurat.

Inisiatif untuk menyediakan open data dan mendukung pengembangan teknologi baru terkait data, terbukti telah menyelamatkan banyak jiwa. Mulai dari bencana gempa bumi tahun 2010 di Haiti sampai dengan gempa bumi di Nepal tahun 2015. Pembuat kebijakan di seluruh dunia perlu melihat contoh-contoh nyata tersebut untuk dapat meningkatkan dukungan mereka dalam hal penanggulangan bencana, maupun untuk lebih mempersiapkan diri menghadapi kemungkinan adanya bencana di masa yang akan datang.

Open data telah menjadi salah satu alat yang paling bermanfaat dalam membantu para relawan dan pekerja tanggap darurat, dengan memberikan informasi geospasial yang terkini dan akurat, dan memberikan informasi yang sangat diperlukan untuk melakukan perencanaan dan penentuan prioritas dalam pengambilan keputusan bagi organisasi kemanusiaan maupun pemerintah. Platform data geospasial semacam OpenStreetMap, yaitu sebuah project pemetaan yang bersifat open source, memungkinkan para relawan untuk memperkirakan tingkat kerusakan dengan cepat, dan memonitor pelaksanaan penanggulangan bencana.

Sesudah super taifun Haiyan melanda Filipina pada bulan November 2013, Palang Merah Internasional dan para relawan online berkolaborasi dalam melakukan lebih dari 1.5 juta update pada OpenStreetMap dalam waktu 6 hari saja, dengan menggabungkan laporan yang bersifat crowdsource dari berbagai pekerja lapangan dengan data dari lembaga geospasial Amerika serta data dari pemerintah Filipina.

Untuk mengantisipasi kedatangan Hurricane Sandy, pemerintah kota New York menerbitkan peta daerah evakuasi yang terbaru di portal open datanya, dan bekerja sama dengan organisasi seperti The New York Times dan Google’s Crisis Response Team untuk mengolah dan menggabungkan data dari penampungan, pusat distribusi makanan, dan jalur-jalur evakuasi. Sebuah pekerjaan yang diperkirakan memerlukan 10 kali lipat tenaga dibanding metode tradisional.

Saat ini usaha penanggulangan bencana untuk Nepal memanfaatkan Humanitarian Data Exchange, sebuah open portal yang menggabungkan data-data penting dari pemerintah, lembaga kemanusiaan, dan sumber akademik, yang sebelumnya sangat sulit atau memakan banyak waktu bagi para relawan dan pekerja sosial untuk mendapatkannya. Sebagai contoh, para relawan dapat menemukan data sebaran curah hujan dari USAID bersama dengan data batas administratif Nepal dari University of Georgia, serta data harga bahan makanan dari World Food Programme dari PBB.

Selain menyediakan data yang penting, pemerintah juga dapat berperan penting dalam mendukung inovasi teknologi yang dapat membantu para relawan. Sesudah Badai Sandy melanda New York, dilakukan upaya penanggulangan bencana menggunakan teknologi analytics yang dibuat oleh Palantir, sebuah perusahaan yang dimulai dari pendanaan CIA, untuk memprediksi lokasi-lokasi yang mungkin paling memerlukan obat-obatan, makanan, dan pakaian, serta mengkoordinasikan usaha untuk mengatasinya. Di Nepal, para relawan bencana berhasil menyelamatkan empat korban yang terjebak dalam reruntuhan dengan menggunakan sensor canggih dari NASA dan U.S. Department of Homeland Security, yang dapat mendeteksi detak jantung di balik timbunan reruntuhan. Dan baru-baru ini U.S. National Science Foundation bersama Lembaga Sains dan Teknologi Jepang menjalin kerja sama untuk mengembangkan teknologi tanggap darurat yang bersifat data-driven, mulai dari sistem penyampaian informasi yang context-aware sampai dengan algoritma pencarian yang dapat mengenali bau, untuk mendeteksi polutan dan bahan berbahaya menggunakan jaringan sensor dalam air maupun udara.

Tentunya tidak hanya pemerintah yang berperan penting dalam hal penanggulangan bencana, sektor swasta pun dapat menyumbangkan data yang penting untuk kejadian-kejadian darurat. Ketika gempa bumi dan tsunami Tohoku memporak porandakan Jepang pada 11 Maret 2011, pemerintah Jepang meminta pabrikan mobil semacam Toyota dan Honda untuk mengaktifkan GPS tracking di kendaraan yang mereka buat. Perusahaan-perusahaan ini menggunakan data perjalanan pengguna mobil mereka, yang menunjukkan di mana para pengemudi memutar arah akibat kerusakan jalan, kecelakaan dan hambatan lainnya, untuk membuat peta yang akurat tentang jalur-jalur yang aman dan masih dapat dilalui dalam waktu hanya 24 jam setelah terjadinya bencana.

Jenis-jenis data tools ini telah terbukti sangat membantu aksi tanggap darurat dan dapat menyelamatkan banyak jiwa. Dukungan yang terus menerus dari pemerintah sangat mendukung kesuksesan upaya semacam ini. Meyadari hal ini, para pembuat kebijakan hendaknya mengetahui cara-cara untuk dapat mendukung secara proaktif pengembangan dan penggunaan teknologi data bagi penanggulangan bencana, dan melakukan upaya pencegahan terhadap potensi masalah yang bisa muncul, tanpa menunggu datangnya keadaan darurat. Sebagai contoh, sebagian besar data geospasial yang sangat penting bagi kegiatan tanggap darurat sumbernya adalah dari pemerintah, akan tetapi tanpa komitmen yang mengikat secara hukum bagi pemerintah dan lembaganya untuk membuka akses terhadap open data, data krusial ini bisa jadi tidak terakses oleh para relawan.

Di tingkat lokal, negara bagian dan propinsi, para pengambil keputusan mestinya mencontoh apa yang dilakukan oleh pemerintah kota New York dan membangun portal open data yang robust, berisi informasi yang bermanfaat bagi masyarakat di masa darurat. Negara-negara yang memiliki sarana hendaknya terus berinvestasi dalam riset dan pengembangan project data yang dapat menjadi penyelamat jiwa dalam keadaan bencana.

Seiring munculnya metode baru yang berbasiskan data, seperti misalnya penggunaan data telepon selular untuk mengawasi penyebaran Ebola di Afrika Barat, masyarakat mungkin khawatir akan resiko terganggunya privacy sehingga enggan untuk berpartisipasi. Di samping itu, negara dengan aturan privacy yang ketat mungkin tidak dapat mengikuti jejak Jepang dalam kesuksesannya memanfaatkan sistem emergency car tracking yang disebutkan di atas. Meski demikian, para pengambil keputusan memiliki tanggung jawab untuk mempertimbangkan dengan sungguh-sungguh bahwa keuntungan penggunaan teknologi yang dapat menyelamatkan jiwa ini bisa jadi jauh lebih besar dari resiko privacy yang mungkin timbul.

Meskipun bencana alam dan bencana lainnya mungkin tak dapat dihindarkan terjadinya, penggunaan data telah terbukti dapat mengurangi kerusakan dan kerugian material maupun jiwa yang ditimbulkannya. Dan dengan dukungan dari para pembuat keputusan, mestinya penggunaan data dan teknologinya akan dapat menyelamatkan jauh lebih banyak lagi jiwa.

Diterjemahkan dari : http://www.datainnovation.org/2015/07/big-data-means-big-relief-for-disaster-victims/

  • Oct 08 / 2015
  • Comments Off on Penerapan Deep Learning Dalam Mendeteksi Malware
Forum Info, Implementation, Uncategorized

Penerapan Deep Learning Dalam Mendeteksi Malware

Tim data science dari Cylance , tengah mengembangkan pendeteksi malware dengan menggunakan teknik yang disebut “Deep Learning”, sebuah subset lebih rinci dari machine learning. Teknik ini yang diklaim mampu mendeteksi dan menentukan apakah sepenggal kode mengandung malware atau tidak hanya dalam waktu 100 milidetik bahkan kurang.

Dengan peningkatan jumlah malware yang dihasilkan setiap hari, kebutuhan untuk metode yang lebih otomatis dan cerdas untuk belajar, beradaptasi, dan menangkap malware sangat penting. Cylance memiliki sampai 2 petabyte data set untuk digunakan dalam teknik machine learning.

Matt Wolf, kepala data science di Cylance, mengatakan bahwa ia dan timnya biasanya menggunakan beberapa ratus CPU yang berjalan selama berhari-hari untuk memproses dan bekerja dalam mengolah data, dan membutuhkan waktu berminggu-minggu bahkan bulanan untuk melatih mesin untuk belajar tentang hal-hal tersebut. Dibutuhkan ratusan gigabyte memori, CPU dan "mesin besar," katanya.

Menurut Wolf, premis utama di balik machine learning adalah pencocokan pola. Ketika melihat sebuah malware, mungkin tidak akan terlihat pola. Tapi ketika melihat setengah dari miliaran contoh, mungkin ada banyak sekali pola yang relatif mudah untuk dibedakan. Tujuan dari model ini adalah untuk menemukan pola-pola ini.

Konsep dalam penggunaan machine learning dan deep learning bukan merupakan suatu hal yang baru, tetapi dalam beberapa tahun terakhir hal ini menjadi lebih realistis untuk diimplementasikan. Dengan opsi komputasi awan membuat biaya komputasi big data menjadi lebih terjangkau, karena kita tidak perlu membangun data center dengan ratusan server lagi.

Sebuah sistem deep learning akhirnya bisa menggantikan alat deteksi malware yang ada saat ini, Wolff mengatakan. "Sebuah sistim machine learning lebih efektif dari mesin berbasis signature”

Untuk informasi lebih lengkap, dapat mengakases artikel Researchers Enlist Machine Learning In Malware Detection DISINI

Contributor :


Sigit Prasetyo
Seorang pengembara dunia maya, sangat suka mengeksplorasi dan menelusuri tautan demi tautan dalam internet untuk memperoleh hal-hal menarik. Saat ini sedang berusaha mengasah ilmu googling. Memiliki kegemaran memancing walaupun saat ini lebih sering memancing di kantor, terutama memancing emosi.

  • Oct 06 / 2015
  • Comments Off on idBigdata MeetUp #5
Forum Info, Komunitas, Uncategorized

idBigdata MeetUp #5

Setelah pada MeetUp sebelumnya idBigdata mengunjungi kota Bandung, pada MeetUp ke – 5 ini idBigdata memilih Surabaya sebagai tuan rumah. Antusiasme idBigdata-ers sudah terlihat sejak hari pertama pendaftaran dibuka. Bahkan beberapa idBigdata-ers sudah hadir di venue 1 jam sebelum acara dimulai.

MeetUp kali ini bekerjasama dengan Jurusan Sistem Informasi FTIS-ITS dan dibuka oleh Bp. Dr Eng Febriliyan Samopa, ketua Jurusan Sistem Informasi FTIF-ITS.

Acara ini terdiri dari 4 sesi, di mana pada setiap sesi disediakan waktu diskusi sehingga para peserta bisa langsung bertanya atau sharing tentang pemaparan topik yg sedang diberikan. Pada sesi pertama bapak Noor Azam dari KLAS (Kelompok Linux Arek Suroboyo) memaparkan topik khusus berjudul Open Source & Bigdata. Sesi ini berakhir bersamaan dengan masuknya waktu dzuhur dan makan siang.

Peserta berkumpul kembali di venue MeetUp pada pukul 13.00, dan sesi kedua dilanjutkan oleh ibu Nur Aini, M.Sc, Eng, ITS dengan judul yang cukup provokatif : Linked Data, Even A Cow Can Find Your Data. Topik berlanjut ke arah yg lebih teknis di sesi 3, oleh Joko Mulyono dari Solusi247 dengan tema khusus : Real Time Processing.

Topik terakhir dengan judul : Berkenalan Dengan Solr dipaparkan oleh Sigit Prasetyo dari idBigdata sekaligus menjadi penutup dari rangkaian acara MeetUp ke – 5 idBigdata di ITS kali ini.

Acara diikuti oleh berbagai kalangan mulai dari akademisi, implementor di bidang bisnis, dan juga dari pemerintahan. MeetUp ke-5 idBigdata ini juga dapat diakses secara online melalui live.idBigdata.com. Diharapkan acara MeetUp ini bisa terus berlanjut sehingga komunitas idBigdata bisa terus bersinergi, berkolaborasi, dan berinovasi.

IdBigdata-ers juga bisa mengakses seluruh rangkaian acara MeetUp sebelumnya di live.idbigdata.com

Contributor :


Vinka Palupi
pecinta astronomi yang sejak kecil bercita-cita menjadi astronaut, setelah dewasa baru sadar kalau tinggi badannya tidak akan pernah cukup untuk lulus seleksi astronaut.

  • Jun 18 / 2015
  • Comments Off on Connected Cows
Big Data, Implementation, Uncategorized

Connected Cows

Connected Cows

Fujitsu mengembang sebuah sistim untuk membantu peternak dalam mengembangbiakkan hewan ternaknya. Fujitsu menggunakan teknologi dan metode Big Data terkini untuk membantu salah satu industri tertua di dunia yaitu peternakan.

Sebuah presentasi yang sangat menarik yang dibawakan oleh Joseph Sirosh, Corporate Vice President of the Information Management and Machine Learning Microsoft, pada saat Strata+Hadoop di San Jose pada bulan Februari 2015 lalu. Ia menceritakan secara singkat mengenai sebuah sistim yang dapat membantu peternak sapi dalam memprediksi waktu yang tepat untuk melakukan inseminasi buatan, dengan memanfaatkan Komputasi Awan, IoT, Machine Learning dan Data Science.

Peternak sapi di Jepang merasa kesulitan untuk melakukan hal-hal misalnya untuk mengetahui saat yang tepat untuk melakukan inseminasi buatan. Dikarenakan tanda-tandanya sangatlah singkat dan seringkali terjadi pada saat malam hari. Hal ini cukup menyulitkan, apalagi jika sapi yang dipantau berjumlah ratusan bahkan ribuan. Belum lagi memantau penyakit yang diderita oleh sapi.

Fujitsu membuat sebuah pedometer yang digunakan untuk menghitung jumlah langkah sapi setiap saat. Pedometer ini diletakkan di kaki sapi ini memiliki baterai yang mampu bertahan sampai 5 tahun dan mampu bertahan pada kondisi yang buruk di kandang sapi. Data-data jumlah langkah sapi ini dikirimkan melalui internet dan dianalisa oleh aplikasi yang dibuat dalam platform Microsoft Azure dan notifikasi akan dikirim ke ponsel atau komputer peternak.

Metoda pendeteksian masa subur sapi dengan menggunakan pola langkah diklaim memiliki tingkat keberhasilan sebesar 95%. Selain itu, dapat ditentukan waktu inseminasi buatan yang tepat untuk menghasilkan sapi jantan atau sapi betina. Sapi untuk pedaging atau sapi untuk menghasilkan susu. Yang lebih menarik adalah dengan pola langkah dapat dideteksi 8 - 10 jenis penyakit yang diderita oleh hewan ternak tersebut.


"Connected Cows?" - Joseph Sirosh (Strata + Hadoop 2015)

Contributor :


Sigit Prasetyo
Seorang pengembara dunia maya, sangat suka mengeksplorasi dan menelusuri tautan demi tautan dalam internet untuk memperoleh hal-hal menarik. Saat ini sedang berusaha mengasah ilmu googling. Memiliki kegemaran memancing walaupun saat ini lebih sering memancing di kantor, terutama memancing emosi.

  • Jun 16 / 2015
  • Comments Off on Mengintip Spark 1.4.0
Apache, Big Data, Hadoop, Spark

Mengintip Spark 1.4.0

spark

Tim developer Spark mengumumkan rilis keempat dari Spark versi 1. Rilis ini diklaim sebagai rilis terbesar dari Spark, yang melibatkan kontribusi dari 210 developer dan lebih dari 1000 perbaikan. Rilis ini diumumkan pada tanggal 11 Juni 2015 lalu.

Berbahagialah para penggemar R, karena pada rilis terbaru ini diperkenalkan untuk pertama kalinya SparkR yang merupakan R API untuk Spark. SparkR memungkinkan pengguna R untuk menganalisa dataset yang berjumlah besar dan menggunakan komputasi terdistribusi milik Spark untuk menjalankan proses analisa data dari shell milik R.

Spark 1.4 juga menambahkan fungsi untuk melakukan debugging secara visual dan utilitas untuk melakukan monitoring, yang didisain untuk membantu pengguna untuk memahami bagaimana aplikasi Spark berjalan.

Masih banyak lagi fitur-fitur yang ditambahkan baik dalam Spark Core, Spark SQL, Spark ML maupun Spark Stream. Untuk lebih detailnya dapat mengunjungi spark.apache.org/releases/spark-release-1-4-0.html

Sumber lain :
  1. www.databricks.com/blog/2015/06/11/announcing-apache-spark-1-4.html
  2. www.databricks.com/blog/2015/06/09/announcing-sparkr-r-on-spark.html
  3. www.zdnet.com/article/apache-spark-1-4-adds-r-language-and-hardened-machine-learning/
Contributor :

Sigit Prasetyo
Seorang pengembara dunia maya, sangat suka mengeksplorasi dan menelusuri tautan demi tautan dalam internet untuk memperoleh hal-hal menarik. Saat ini sedang berusaha mengasah ilmu googling. Memiliki kegemaran memancing walaupun saat ini lebih sering memancing di kantor, terutama memancing emosi.

  • Jun 16 / 2015
  • Comments Off on Big Data dan IoT meningkatkan layanan transportasi umum di London
Big Data, Implementation, IoT

Big Data dan IoT meningkatkan layanan transportasi umum di London

london transportation

Transportasi for London (TfL) menggunakan data transaksi pelanggan maupun data sensor untuk memberikan layanan yang lebih baik dan inovasi untuk memberikan kepuasan pada penggunanya. TfL merupakan sebuah badan pemerintah daerah yang mengelola dan mengawasi sistim transportasi bis, kereta api, taksi, jalan raya, jalur sepeda, jalan setapak dan bahkan feri yang digunakan oleh jutaan orang setiap harinya di kawasan London dan sekitarnya. Data diambil melalui sistem tiket serta sensor yang ada pada kendaraan dan sinyal lalu lintas, survei dan kelompok fokus, dan juga media sosial.

Lauren Sager-Weinstein, kepala analisis di TfL, mengatakan tentang dua prioritas utama dalam pengumpulan dan penganalisaan data yaitu layanan perencanaan perjalanan dan memberikan informasi kepada pelanggan.
"London tumbuh pada tingkat yang fenomenal," katanya.
"Populasi saat ini 8,6 juta dan diperkirakan akan mencapai 10 juta dengan cepat. Kita harus memahami bagaimana mereka berperilaku dan bagaimana mengelola kebutuhan transportasi mereka."

Data dan analisanya digunakan antara lain untuk :

  1. Pemetaan perjalanan. Data dibuat anonim dan digunakan untuk menghasilkan peta yang menunjukkan kapan dan dimana orang-orang bepergian, sehingga dapat memberikan gambaran secara keseluruhan yang lebih akurat, serta memungkinkan analisa yang lebih detail sampai pada level individu.
  2. Kejadian tak terduga. Analisa Big Data membantu TfL memberikan reaksi yang cepat ketika terjadi gangguan layanan transportasi. Seperti misalnya pada kejadian penutupan Putney Bridge yang dilintasi 870 ribu orang setiap harinya. Untuk mengatasi permasalahan semacam ini, informasi rute dan moda transportasi alternatif harus diberikan secara akurat.
  3. Berita perjalanan. Data perjalanan juga digunakan untuk mengidentifikasi pelanggan yang menggunakan rute tertentu secara rutin dan memberikan informasi terkini disesuaian dengan profile mereka.

TfL sedang berusaha untuk mengadopsi Hadoop dan solusi Open Source lainnya untuk mengatasi pertumbuhan data yang sangat cepat. Rencana kedepannya termasuk untuk meningkatkan kapasitas analisa real-time dan mengintegrasikan sumber data yang lebih banyak. TfL juga menyediakan data melalui API yang dapat digunakan oleh pengembang aplikasi lain. Semua itu bertujuan untuk memberikan layanan yang lebih baik mengenai perencanaan perjalanan dan informasi kepada pengguna jasa.

Sumber :
How Big Data and the Internet of Things improve public transport in London

Contributor :

Sigit Prasetyo
Seorang pengembara dunia maya, sangat suka mengeksplorasi dan menelusuri tautan demi tautan dalam internet untuk memperoleh hal-hal menarik. Saat ini sedang berusaha mengasah ilmu googling. Memiliki kegemaran memancing walaupun saat ini lebih sering memancing di kantor, terutama memancing emosi.

Pages:1...56789101112
Tertarik dengan Big Data beserta ekosistemnya? Gabung