:::: MENU ::::

Posts Categorized / Medical Analytics

  • Nov 28 / 2019
  • Comments Off on Seputar Big Data edisi #79
Seputar Big Data #79
AI, Apache, Artificial Intelligece, Big Data, Google, Hadoop, Komunitas, machine learning, Medical Analytics, Social Media

Seputar Big Data edisi #79

Seputar Big Data #79

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama pekan terakhir bulan November 2019

Artikel dan berita
  1. How to Become a Data Scientist (Skills + Qualifications)
    Kebutuhan akan data scientist saat ini sedang meningkat. Karir sebagai data scientist merupakan karir yang banyak dicita-citakan dan menawarkan gaji yang menggiurkan.
  2. An Intro to AI for people that hate math and can’t code
    Berikut adalah kursus singkat AI untuk manajer, pemilik bisnis, dan peran non-teknis lainnya yang ingin memahami Kecerdasan Buatan untuk mulai menggunakannya dalam institusi.
  3. McKinsey survey: AI boosts revenue, but companies struggle to scale use
    Survei Global McKinsey terbaru yang dirilis pekan lalu menemukan bahwa kecerdasan buatan memiliki dampak positif pada hasil bisnis, dengan 63% responden melaporkan peningkatan pendapatan setelah adopsi teknologi. Namun, hanya 30% perusahaan yang menerapkan AI ke beberapa unit bisnis, atau naik dari 21% tahun lalu.
  4. Introducing the Next Generation of On-Device Vision Models: MobileNetV3 and MobileNetEdgeTPU
    Google mengumumkan rilis source code dan checkpoint untuk model MobileNetV3 dan MobileNetEdgeTPU. Model-model tersebut adalah hasil perkembangan terbaru dalam teknik AutoML yang mengenali perangkat keras serta perkembangan dalam desain arsitektur. Pada CPU seluler, MobileNetV3 dua kali lebih cepat dari MobileNetV2 dengan akurasi yang setara, dan semakin maju untuk jaringan computer vision mobile.
  5. Powered by AI: Instagram’s Explore recommender system
    Menurut Facebook, lebih dari setengah pengguna Instagram yang mencapai 1 miliar mengunjungi Instagram Explore untuk menemukan video, foto, streaming langsung, dan Story setiap bulannya. Oleh karena itu, membangun mesin rekomendasi menjadi tantangan teknis, salah satunya karena tuntutan fungsi real time. Dalam posting blog ini Facebook mengupas cara kerja Instagram Explore, yang menggunakan bahasa kueri dan teknik pemodelan kustom. Sistem ini mengekstrak setidaknya 65 miliar fitur dan membuat 90 juta prediksi model setiap detiknya.
Tutorial dan Pengetahuan Teknis
  1. Scaling Apache Airflow for Machine Learning Workflows
    Apache Airflow adalah platform yang cukup populer untuk membuat, menjadwalkan, dan memantau workflow dengan Python, tetapi ia dibuat untuk keperluan proses ETL. Dengan menggunakan Valohai, kita dapat menggunakan Apache Airflow untuk membantu proses machine learning.
  2. Google’s BERT changing the NLP Landscape
    Salah satu perkembangan drastis dalam Pemrosesan Bahasa Alami (NLP) adalah peluncuran Representasi Encoder Bidirectional Google dari Transformers, atau model BERT - model yang disebut model NLP terbaik yang pernah didasarkan pada kinerja superiornya atas berbagai macam tugas.
  3. Exploring Apache NiFi 1.10: Parameters and Stateless Engine
    Pada artikel ini, dibahas versi terbaru Apache NiFi dan bagaimana menggunakan dua fitur baru terbesar: parameter dan stateless.
  4. Unsupervised Sentiment Analysis
    Salah satu implementasi dari metode NLP adalah analisa sentimen, di mana Anda mencoba mengekstrak informasi mengenai emosi penulis. Artikel berikut menjelaskan cara melakukan analisa sentimen menggunakan data tanpa label.
  5. Text Encoding: A Review
    Kunci untuk melakukan operasi teks mining adalah mengubah teks menjadi vektor numerik, atau biasa disebut text encoding. Setelah teks ditransformasi menjadi angka, kita dapat memanfaatkan berbagai algoritma pembelajaran mesin untuk klasifikasi dan klastering. Artikel ini membahas beberapa teknik encoding yang banyak digunakan dalam teks mining.
Rilis Produk
  1. Apache BookKeeper 4.10.0 released
    The 4.10.0 release incorporates hundreds of bug fixes, improvements, and features since previous major release, 4.9.0. Apache BookKeeper/DistributedLog users are encouraged to upgrade to 4.10.0.
    Rilis 4.10.0 adalah rilis major, yang mencakup ratusan perbaikan bug, peningkatan, dan fitur sejak rilis 4.9.0. Pengguna Apache BookKeeper/DistributedLog disarankan untuk melakukan upgrade ke 4.10.0.
  2. Apache Libcloud 2.6.1 release
    Libcloud adalah library Python yang mengabstraksi perbedaan berbagai API penyedia cloud. Library ini memungkinkan pengguna untuk mengelola layanan cloud (server, penyimpanan, load balancer, DNS, containers as a service) yang ditawarkan oleh banyak penyedia berbeda melalui API tunggal, terpadu, dan mudah digunakan.
    Libcloud v2.6.1 mencakup berbagai perbaikan bug dan peningkatan.
  3. Apache Kudu 1.11.1 Released
    Apache Kudu 1.11.1 adalah rilis perbaikan bugs.


Contributor :

Tim idbigdata always connect to collaborate every innovation 🙂
  • Apr 05 / 2019
  • Comments Off on Seputar Big Data edisi #68
AI, Artificial Intelligece, Big Data, Blockchain, Hadoop, Implementation, IoT, machine learning, Medical Analytics, Social Media, Storage, Storm

Seputar Big Data edisi #68

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu terakhir bulan Maret 2019.

Artikel dan berita

  1. Drillers Turning to Big Data in the Hunt for Cheaper Oil | Rigzone
    Industri minyak bumi dan gas alam mencari cara untuk menciptakan peluang bisnis baru dengan menggunakan teknologi informasi, kecerdasan buatan, big data dan analitik. Implementasi big data analytics ini diperkirakan akan men-disrupt dan mentransformasi bisnis, sebagaimana yang terjadi pada internet.
  2. Microsoft partners with OpenClassrooms to recruit and train 1,000 AI students
    Microsoft Microsoft berkerjasama dengan OpenClassroom, sebuah platform platform pendidikan online dari Perancis, untuk melatih dan merekrut siswa yang diperkirakan mampu menguasai bidang AI. OpenClassroom akan merekrut sekitar 1.000 kandidat AI dari seluruh AS, Inggris, dan Perancis.
  3. AI in Logistics: Data-Driven Shifts to Boost Your Business
    Bagi perusahaan yang bergerak dibidang logistik, AI merupakan suatu keharusan bagi organisasi untuk dapat bertahan dan meningkatkan daya saing. Menurut Forbes Insight, 65% pemimpin industri percaya bahwa logistik, transportasi, dan supply chain telah bergabung ke dalam era “transformasi menyeluruh.” Laporan Accenture juga mengungkapkan bahwa 36% organisasi besar, menengah, dan kecil telah berhasil mengadopsi AI untuk proses logistik dan supply chain. Dan 28% responden survei berada di ambang penyebaran AI di bidang ini.
  4. 11 Artificial Intelligence Trends Every Business Must Know in 2019
    Artificial Intelligence (AI) telah menjadi game changer bagi bisnis global dan membuka pintu ke berbagai kemungkinan yang tak terhitung. Dengan integrasi AI dalam bisnis, diperkirakan ekonomi global akan tumbuh secara eksponensial di tahun-tahun mendatang. Ada 11 poin penting yang harus menjadi fokus utama untuk membangun strategi AI di perusahaan.
  5. How Financial Institutions Are Becoming Champions Of Big Data
    Karena banyaknya regulasi dan undang-undang yang mengikat, menjadikan sektor keuangan memiliki ruang yang sempit dalam berinovasi. Akibatnya, pemanfaatan big data menjadi tertinggal. Namun saat ini, hal tersebut mulai berubah. Keberhasilan perusahaan Fintech dan bank tradisional akan bergantung pada kemampuan mereka untuk memanfaatkan big data dalam menggali potensi bisnis.
  6. Researchers find 540 million Facebook user records on exposed servers
    Peneliti keamanan dari UpGuard menemukan ratusan juta informasi pengguna Facebook ada di server publik tanpa sengaja. Cultura Colectiva, perusahaan media digital Meksiko, meninggalkan lebih 540 juta data pengguna, termasuk komentar, reaksi, nama akun dan banyak lagi, di Amazon S3 tanpa kata sandi, yang memungkinkan siapapun dapat mengakses data tersebut.

Tutorial dan pengetahuan teknis

  1. Setup your Raspberry Pi Model B as Google Colab (Feb ’19) to work with Tensorflow, Keras and OpenCV
    Tutorial mengenai instalasi Tensorflow, Keras dan OpenCV pada Raspberry Pi.
  2. Forget APIs Do Python Scraping Using Beautiful Soup, Import Data File from the web: Part 2
    Saat ini, Data memainkan peran penting dalam setiap industri. Dan sebagian besar data ini berasal dari internet. Dalam tutorial ini , menjelaskan mengenai penggunaan paket Beautiful Soup pada python untuk melakukan web scraping.
  3. The Importance of Distributed Tracing for Apache-Kafka-Based Applications
    Artikel ini menjelaskan bagaimana melengkapi aplikasi berbasis Kafka dengan kemampuan penelusuran terdistribusi untuk membuat aliran data antara komponen event-based lebih terlihat. Mencakup Kafka clients, aplikasi Kafka Streaming, Kafka Connect pipelines dan KSQL.
  4. 4 Approaches to Overcoming Label Bias in Positive and Unlabeled Learning
    Label bias dalam machine learning di mana data yang tersedia adalah data positif dan data tanpa label, adalah salah satu masalah paling umum yang dihadapi oleh praktisi machine learning. Hal ini bisa menjadi masalah sulit untuk dideteksi dan dapat secara serius menghambat generalisasi model. Artikel ini membahas 4 pendekatan untuk mengatasi masalah tersebut.
  5. A text mining function for websites
    Artikel mengenai contoh implementasi text mining untuk situs web, dengan menggunakan bahasa R.
  6. Spark Structured Streaming Joins
    Pada artikel ini, akan dijelaskan mengenai metode JOIN yang tersedia di Spark Structured Streaming. Dalam proses streaming, kita mungkin memiliki beberapa sumber data statis dan streaming. Data-data tersebut mungkin saja harus digabungkan. Kita akan mempelajari bagaimana Spark Structured Streaming menangani berbagai jenis JOIN antara dataset statis dan streaming.
  7. How to Load, Convert, and Save Images With the Keras API
    Keras merupakan pustaka deep learning menyediakan API yang sangat baik dalam mengolah gambar (load, prepare dan augment). Juga termasuk didalamnya fungsi-fungsi tidak terdokumentasi yang memungkinkan untuk memuat, mengkonversi, dan menyimpan file gambar dengan cepat dan mudah.

Rilis Produk

  1. Open-sourcing PyTorch-BigGraph for faster embeddings of extremely large graphs
    Tim Facebook AI mengumumkan open-sourcing PyTorch-BigGraph (PBG), sebuah tool yang memungkinkan produksi embedding grafik yang lebih cepat dan mudah untuk grafik besar.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Mar 14 / 2019
  • Comments Off on Seputar Big Data edisi #65
Big Data, Medical Analytics, Spark

Seputar Big Data edisi #65

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu kedua bulan Maret 2019.

Artikel dan berita

  1. Healthcare Innovation – 10 Recent Examples Of Powerful Innovation In Healthcare
    AI, design thinking, robotika, dan big data telah memasuki ke semua industri, tetapi mungkin dampak terbesarnya adalah di bidang kesehatan. Seiring berkembangnya teknologi dan inovasi di bidang kesehatan, startup dan rumah sakit telah menemukan cara luar biasa untuk meningkatkan penawaran mereka dan merevolusi industri.
  2. Lessons learned building natural language processing systems in health care
    Menerapkan sistem NLP untuk bidang kesehatan bukan hal yang mudah, karena membutuhkan pengetahuan umum dan medis yang luas, harus menangani beragam input, dan perlu memahami konteksnya. Tujuan artikel ini adalah untuk berbagi pengalaman dalam membangun sistem tersebut.
  3. TIBCO Snaps Up SnappyData: Spark + Geode on Steroids
    TIBCO Software telah membeli SnappyData, layanan platform data in-memory yang didukung oleh Apache Spark dan Apache Geode, dengan jumlah yang dirahasiakan. Kesepakatan itu, yang diumumkan Kamis 7 Maret lalu, adalah tanda terbaru dari konsolidasi industri di sektor analisa data, di tengah meningkatnya permintaan tools untuk data science yang lebih efektif.
  4. Beware the data science pin factory: The power of the full-stack data science generalist and the perils of division of labor through function
    Adam Smith menyatakan bahwa produktivitas tenaga kerja akan lebih maksimal apabila dilakukan pembagian kerja. Artikel ini membahas mengenai apakah optimasi semacam ini berlaku untuk penerapan data sains.

Tutorial dan pengetahuan teknis

  1. Catching a Unicorn with GLTR: A tool to detect automatically generated text
    GLTR (The Giant Language Model Test Room), adalah hasil kolaborasi antara MIT-IBM Watson AI lab and HarvardNLP. GLTR memeriksa jejak visual dari teks yang dihasilkan secara otomatis, sehingga memungkinkan analisis forensik tentang seberapa besar kemungkinan teks tersebut diasilkan oleh sistem otomatis. GLTR berpendapat bahwa teks yang dihasilkan secara otomatis, misalnya gpt2, terlihat nyata karena “terlalu bagus”. Generator teks meninggalkan jejak yang sulit untuk dideteksi manusia tetapi dapat diekspos dengan uji statistik.
  2. 3 Levels of Deep Learning Competence
    Deep learning bukanlah peluru ajaib, tetapi tekniknya telah terbukti sangat efektif dalam sejumlah besar domain masalah yang sangat menantang. Ini berarti bahwa ada banyak permintaan oleh bisnis untuk praktisi deep learning. Masalahnya adalah, bagaimana bisa yang mana merupakan praktisi yang baik dan kompeten?
  3. Kafka to HDFS/S3 Batch Ingestion Through Spark
    Ada beberapa kasus yang membutuhkan fungsi data ingestion dari Kafka ke HDFS/S3 secara batch, yang sebagian besar adalah untuk keperluan analisis data historis. Pada awalnya, topik ini terlihat mudah dan biasa saja. Tetapi ini penting dalam platform data yang menggunakan data riil dan langsung dari sistem seperti ecommerce, ads tech, platform agregat dan lain-lain.
  4. Hue in Docker
    Kontainer menawarkan cara modern untuk mengisolasi dan menjalankan aplikasi. Postingan ini adalah yang pertama dari seri yang menunjukkan cara menjalankan Hue sebagai layanan. Di sini, kita akan mengeksplorasi cara membangun, menjalankan, dan mengkonfigurasi image server Hue menggunakan Docker.
  5. Machine Learning with Big Data
    Menyimpan data adalah masalah tersendiri, tetapi bagaimana memprosesnya dan membangun algoritma machine learning menggunakan data tersebut juga penting. Dalam artikel ini akan dijelaskan bagaimana membangun platform machine learning yang bekerja paralel dan memiliki skalabilitas menggunakan komputasi awan dengan mudah untuk memproses data yang cukup besar.
  6. Exploring Neural Networks with Activation Atlases
    Neural network dapat belajar untuk mengklasifikasikan gambar dengan lebih akurat daripada sistem yang dirancang manusia secara manual. Ini menimbulkan pertanyaan: Apa yang dipelajari jaringan ini yang memungkinkan mereka untuk mengklasifikasikan gambar dengan sangat baik? Dengan menggunakan inversi fitur untuk memvisualisasikan jutaan aktivasi dari network klasifikasi gambar, OpenAI dan Google membuat atlas aktivasi fitur yang dapat mengungkapkan bagaimana jaringan merepresentasikan beberapa konsep.

Rilis Produk

  1. Introducing GPipe, an Open Source Library for Efficiently Training Large-scale Neural Network Models
    Divisi riset AI Google meng-opensource-kan GPipe, library untuk melatih deep neural network secara “efisien” di bawah Lingvo, kerangka kerja TensorFlow untuk pemodelan sekuens. Ini berlaku untuk jaringan apa pun yang terdiri dari beberapa lapisan sekuensial, dan memungkinkan peneliti untuk mengukur kinerja dengan relatif lebih mudah.
  2. Open Sourcing Peloton, Uber's Unified Resource Scheduler
    Peloton adalah scheduler resource terpadu, yang mampu mengelola sumber daya dengan beban kerja yang berbeda-beda, menggabungkan cluster komputasi terpisah. Peloton dirancang untuk perusahaan skala web seperti Uber dengan jutaan kontainer dan puluhan ribu node. Sebagai sistem cloud-agnostik, Peloton dapat dijalankan di data center on-premise ataupun cloud.
  3. R 3.5.3 now available
    Tim R Core mengumumkan kemarin rilis R 3.5.3, dan binari diperbarui untuk Windows dan Linux sekarang tersedia (dengan Mac pasti akan segera menyusul).

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Mar 08 / 2019
  • Comments Off on Seputar Big Data edisi #64
Apache, Big Data, Medical Analytics

Seputar Big Data edisi #64

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan Maret 2019.

Artikel dan berita

  1. Data Lakes Take Healthcare Analytics to the Next Level
    Pada dasarnya, data lake adalah arsitektur yang digunakan untuk menyimpan data bervolume besar, memiliki kecepatan tinggi, bervariasi tinggi, sebagaimana adanya data dalam repositori terpusat untuk Big Data dan analisa real-time. Organisasi layanan kesehatan dapat mengakses data dalam jumlah besar – terstruktur, semi terstruktur, dan tidak terstruktur – secara real time melalui data lake, dari mana saja.
  2. Kembangkan Pariwisata, Grab Bangun Big Data
    Baru-baru ini, Otoritas Pariwisata Thailand (TAT) dan Grab Thailand mengumumkan kerjasama strategis untuk membangun sistem data yang merupakan bagian dari proyek.
    Dengan sistem yang telah dimiliki oleh GrabTaxi Thailand, TAT bisa mengembangkan sistem lebih cerdas untuk pariwisata, yang akan mendukung strategi dan rencana pemasaran TAT
  3. How AI/ML Help Secure the US Power Grid Infrastructure
    Jaringan listrik Amerika Serikat adalah salah satu sistem paling kompleks di seluruh dunia. Pemerintah A.S. dan perusahaan-perusahaan listrik dan gas mulai fokus terhadap teknologi-teknologi masa depan di mana ilmu-ilmu baru seperti AI dan machine learning dapat dimanfaatkan untuk membantu mengamankan jaringan listrik, infrastrukturnya, dan pelanggan nasional.

Tutorial dan pengetahuan teknis

  1. A Gentle Introduction to Learning Curves for Diagnosing Machine Learning Model Performance
    Kurva model pembelajaran sering digunakan untuk mendeteksi masalah dalam proses learning, seperti misalnya apakah model underfit atau overfit, ataupun apakah dataset yang digunakan telah cukup representatif. Artikel ini membahas mengenai bagaimana melakukan evaluasi terhadap kinerja model, memvisualisasikan hasil evaluasi untuk mendapatkan kurva belajarnya, serta memanfaatkan kurva tersebut untuk mendeteksi permasalahan dalam proses learning itu sendiri.
  2. Journey to Event Driven – Part 3: The Affinity Between Events, Streams and Serverless
    Kunci dari desain sistem event-first adalah memahami bahwa serangkaian event menunjukkan perilaku. Dengan menyimpan aliran event di Kafka, kita memiliki catatan semua aktivitas sistem, dan juga mekanisme untuk mendorong reaksi. Artikel ini juga akan mengeksplorasi bagaimana karakteristik runtime FaaS (Function as a Service) cocok untuk berbagai jenis pemrosesan, karena dalam beberapa kasus, masalah latensi atau konkurensi perlu dipenuhi.
  3. Text Mining 101: What it Is and How it Works
    Sebuah pengantar yang bagus untuk bidang teks mining, yang mencakup kasus penggunaan populer, algoritma, dan implikasinya dalam AI dan ML.
  4. Spark Streaming and Kafka, Part 2 – Configuring a Kafka Connector
    Dalam posting sebelumnya, dibahas mengenai pengembangan Kafka Source Connector kustom, yang ditulis dalam Scala. Posting kali ini adalah mengenai konfigurasi dan setting Konektor tersebut.

Rilis Produk

  1. Apache Kafka 2.1.1
    Versi ini adalah bugfix rilis untuk Kafka 2.1.0. Perubahan yang tercakup dalam rilis ini dapat ditemukan dalam rilis note berikut ini :
    https://www.apache.org/dist/kafka/2.1.1/RELEASE_NOTES.html.
  2. Apache NiFi 1.9.0 release
    Selain lebih dari 100 perubahan, perbaikan bugs dan peningkatan, rilis ini juga mencakup fitur yang memudahkan integrasi dengan Apache Kudu dan Impala, serta memperkuat integrasi dengan Google BigQuery dan AWS. Komponen dan ekstensi baru dapat di-load secara runtime, sehingga meminimalisir downtime operasional.
  3. Apache Trafodion 2.3.0 is released
    Apache Trafodion adalah solusi SQL-on-Hadoop solution yang memungkinkan operasi transaksional di atas Apache Hadoop.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Nov 21 / 2018
  • Comments Off on Seputar Big Data edisi #55
Apache, Artificial Intelligece, Big Data, Implementation, machine learning, Medical Analytics

Seputar Big Data edisi #55

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke 2 bulan November 2018.

Artikel dan Berita

  1. If You Drive in Los Angeles, the Cops Can Track Your Every Move
    Palantir sejak tahun 2012 mengembangkan sistem Automatic License Plate Reader, yang menyimpan database foto kendaraan yang melintas di jalan raya. ALPR menggunakan kamera digital yang ada di gedung, lampu lalu lintas dan mobil patroli. Teknologi computer-vision dapat mengenali dan membaca plat kendaraan yang melintas.
  2. Machine learning, meet quantum computing
    Francesco Tacchino dan rekan-rekannya yang merupakan peneliti dari Universitas Pavia di Italia, telah membangun perceptron pertama di dunia yang diimplementasikan diatas komputasi kuantum dan menerapkannya untuk memproses gambar sederhana.
  3. A deep learning approach to identify Twitter users’ location during emergencies
    Peneliti dari National Institute of Technology Patna, India, baru-baru ini mengembangkan metode untuk mengidentifikasi lokasi geografis dari keadaan darurat dan bencana serta orang-orang yang berada di sekitarnya. Metode ini mereka publikasikan dalam the International Journal of Disaster Risk Reduction
  4. How AI and Genomics Can Help Fight Antibiotic Resistance
    Antimicrobial Resistance (AMR) merupakan ancaman global bagi kesehatan. AMR disebabkan oleh penggunaan antibiotik berlebihan oleh manusia dan ternak, serta peningkatan penggunaan produk pembersih dan kebersihan antibakteri. Para peneliti dari beberapa universitas dan bahkan perusahaan rintisan telah membuat inovasi untuk membantu mengatasi masalah tersebut dengan bantuan big data, AI dan gnomic.
  5. Machine Learning Can Create Fake ‘Master Key’ Fingerprints
    Baru-baru ini peneliti dari Tandon School of Engineering New York University, berhasil mengembangkan metode machine learning untuk menghasilkan sidik jari palsu yang disebut DeepMasterPrints. Sidik jari yang dihasilkan tidak hanya mampu menipu sensor ponsel cerdas, tetapi juga berhasil membuat ‘master finger print’ untuk banyak orang yang berbeda.
  6. Amazon Comprehend adds customized language lists to machine learning tool
    Tahun lalu Amazon mengumumkan Comprehend, alat pengolah bahasa alami untuk membantu perusahaan mengekstrak kata dan frasa umum dari korpus. Hari ini Amazon mengumumkan fitur baru Comprehend yang memungkinkan developer untuk membuat daftar kata dan frasa khusus tanpa perlu memiliki pengetahuan machine learning.
  7. A Facebook patent would use your family photos to target ads
    Facebook telah mengajukan paten yang akan memudahkan mereka untuk menargetkan iklan kepada seluruh anggota keluarga user dengan menganalisis foto yang mereka posting. Aplikasi yang diajukan pada tanggal 10 Mei tersebut mencakup suatu algoritma yang akan mengidentifikasi elemen-elemen foto – seperti wajah atau detail lainnya – dan melakukan referensi silang dengan data lain untuk membangun profil seluruh anggota keluarga dari seorang pengguna.

Tutorial dan pengetahuan teknis

  1. ColorUNet: A new deep CNN classification approach to colorization
    Sebuah tim peneliti di Stanford University baru-baru ini mengembangkan metode klasifikasi CNN yang merubah gambar hitam putih menjadi berwarna. Alat yang mereka buat diberinama ColorUnet, yang terinspirasi dari U-Net sebuah jaringan konvolusional (convolution network) untuk segmentasi gambar.
  2. Modeling: Teaching a Machine Learning Algorithm to Deliver Business Value
    Artikel yang merupakan bagian terakhir dari 4 seri mengenai penggunaan machine learning di Feature Labs. Dalam artikel ini membahas mengenai konsep dan implementasi dalam studi kasus Predicting Customer Churn
  3. Python Data Visualization 2018: Why So Many Libraries?
    Pada sesi khusus SciPy 2018 di Austin, perwakilan dari berbagai tools visualisasi Python open source berbagi visi mereka untuk masa depan visualisasi data dengan Python. Dipaparkan pula berbagai pembaruan pada Matplotlib, Plotly, VisPy, dan banyak lagi.
  4. Real-Time Stock Processing With Apache NiFi and Apache Kafka, Part 1
    Memproses sejumlah sumber data termasuk REST feeds, Social feeds, pesan, gambar, dokumen, dan data relasional dengan NiFi kemudian memfilter dan mengelompokkannya ke topik Kafka. Spark dan NiFi digunakan untuk pemrosesan event dan machine learning serta deep learning, sedangkan dashboard dibuat menggunakan Superset dan Spark SQL + Zeppelin.

Rilis produk

  1. Elasticsearch for Apache Hadoop 6.5.0 Released
    Tim developer Elascticsearch mengumumkan Elasticsearch for Apache Hadoop (ES-Hadoop) versi 6.50. Beberapa perbaikan dan fitur baru disematkan pada versi ini.
  2. Apache Phoenix 4.14.1 released
    Rilis ini mencakup fitur parity dengan dukungan versi HBASE dan perbaikan bug kritikal untuk indeks sekunder.

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
  • Nov 16 / 2018
  • Comments Off on Google AI Mendeteksi Kanker Payudara Stadium Lanjut Dengan Lebih Efektif dan Akurat
Big Data, Hadoop, Implementation, Medical Analytics

Google AI Mendeteksi Kanker Payudara Stadium Lanjut Dengan Lebih Efektif dan Akurat

Google AI mempublikasikan hasil yang luar biasa dari proyek LYNA, sebuah tool berbasis deep learning yang memiliki tingkat akurasi hingga 99% dalam mendeteksi metastasis pada kanker payudara.

Tumor metastasis adalah sel-sel kanker yang menyebar dari jaringan asal mereka ke organ atau jaringan lainnya dan membentuk tumor baru di bagian lain tubuh. Pendeteksian kanker yang telah bermetastasis ke kelenjar getah bening disekitarnya adalah tugas yang sulit dan memakan waktu.

Peneliti Google mengembangkan tools yang diberi nama Lymph Node Assistant (LYNA), tools berbasis deep learning yang diharapkan dapat membantu ahli patologi untuk dapat mendeteksi dan menganalisa metastasis lebih akurat, bahkan untuk ukuran yang sangat kecil (micrometastases)


gambar_mikroskopik
LYNA ditrain untuk mengenali karakteristik tumor menggunakan dua set slide patologis yang memberikannya kemampuan untuk menemukan metastasis dalam berbagai macam kondisi. Dalam tes, LYNA dilaporkan berhasil dengan benar membedakan slide dengan kanker dari slide tanpa kanker dengan keakuratan 99%. LYNA juga mampu menentukan lokasi kanker yang beberapa di antaranya terlalu kecil untuk dapat dilihat oleh manusia

Meskipun hasil yang didapat sudah cukup baik, namun para peneliti mengakui AI masih membutuhkan beberapa evaluasi karena belum digunakan dalam lingkungan klinis yang nyata. Namun demikian, mereka tetap optimis dan berharap LYNA dapat membantu meningkatkan akurasi dan ketersediaan diagnosa patologi di seluruh dunia.

Sumber :
https://ai.googleblog.com/2018/10/applying-deep-learning-to-metastatic.html

Contributor :


Sigit Prasetyo
Seorang pengembara dunia maya, sangat suka mengeksplorasi dan menelusuri tautan demi tautan
dalam internet untuk memperoleh hal-hal menarik. Saat ini sedang berusaha mengasah ilmu googling.
Memiliki kegemaran memancing walaupun saat ini lebih sering memancing di kantor, terutama memancing emosi.
  • Dec 04 / 2017
  • Comments Off on Seputar Big Data Edisi #40
Apache, Big Data, Blockchain, Forum Info, Hadoop, Implementation, Medical Analytics

Seputar Big Data Edisi #40

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke 4 bulan November 2017

Artikel dan Berita

  1. Nearly 40% of Data Professionals Spend Half of their Time Prepping Data Rather than Analyzing It
    Menurut survey yang dilakukan oleh TMMData bekerja sama dengan Digital Analytics Association, menemukan bahwa sekitar 40% dari para profesional yang bekerja di bidang pengolahan data, menghabiskan lebih dari 20 jam per minggu untuk mengakses, menggabungkan dan menyiapkan data daripada melakukan analisis data.
  2. Predicting Analytics: 3 Big Data Trends in Healthcare
    Perangkat wearable, sensor dan data lake menjadi suatu hal yang umum digunakan pada industri kesehatan, sehingga analisis data dapat menawarkan sistem perawatan yang lebih personal dan hemat biaya.
  3. Usai Paradise Papers, DJP Bakal Punya Big Data Pajak dari AEoI
    Direktorat Jenderal Pajak (DJP) Kementerian Keuangan akan memiliki data dengan skala besar dan valid dari otoritas pajak seluruh negara saat implementasi pertukaran data secara otomatis (Automatic Exchange of Information/AEoI) per September 2018
  4. Infrastructure 3.0: Building blocks for the AI revolution
    Saat ini kita telah memasuki era machine learning dan artificial intelligence. Gabungan antar data yang masif, sistem penyimpanan yang murah, sistem komputasi yang fleksibel dan perkembangan algoritma, terutama dalam bidang deep learning, telah menghasilkan aplikasi yang tadinya hanya ada dalam novel fiksi ilmiah

Tutorial dan Pengetahuan Teknis

  1. Using WebSockets With Apache NiFi
    Tutorial mengenai implementasi Websocket server dan client menggunakan Apache Nifi.
  2. Transactions in Apache Kafka
    Artikel lanjutan mengenai transaksi dalam Apache Kafka. Membahas mengenai berbagai aspek dari Kafka transaction API, yaitu use case, detail transaction API untuk Java client, dan pertimbangan yang perlu diambil dalam menggunakan API tersebut.
  3. A Framework for Approaching Textual Data Science Tasks
    Membahas secara singkat dan jelas mengenai kerangka kerja untuk proses-proses data sains tekstual, serta perbedaan antara NLP dan teks mining.
  4. An Introduction to Blockchain
    Popularitas blockchain saat ini semakin meningkat. Blockchain memberikan tingkat keamanan yang cukup tinggi, bahkan diklaim ‘hack resistance’
  5. Customer Analytics: Using Deep Learning With Keras To Predict Customer Churn
    Menyajikan dengan lengkap dan detail mengenai implementasi prediksi churn menggunakan R on Keras Deep Learning. Model yang dibuat adalah Artificial Neural Network, dengan akurasi sampai 82 % dengan menggunakan dataset IBM Watson Telco Customer Churn.
  6. Mapping “world cities” in R
    Tutorial mengenai data wrangling dan visualisation menggunakan R. Menampilkan peta “world cities”, yaitu kota-kota yang telah diidentifikasi oleh Jaringan Riset Globalisasi dan Kota Dunia (GaWC), sebagai kota yang sangat terhubung dan berpengaruh dalam ekonomi dunia.
  7. [DATASET] The MNIST Database of Handwritten Digits
    Kumpulan image untuk klasifikasi digit hasil tulisan tangan. Dataset ini dianggap bagus untuk deep learning karena cukup kompleks untuk digunakan dalam jaringan syaraf tiruan, namun tetap dapat diproses menggunakan sebuah CPU.
  8. [FREE EBOOK]
    Ebook dari Databricks, tentang pengenalan dasar dan praktis mengenai Spark, disertai contoh code.

Rilis Produk

  1. November Update of KSQL Developer Preview Available
    KSQL, streaming SQL engine untuk Kafka yang pada Agustus lalu diluncurkan versi developer preview-nya, merilis update pertama. Selanjutnya rilis update rencananya akan dilakukan sebulan sekali, dan program beta segera diluncurkan.
  2. Apache® Impala™ as a Top-Level Project
    Apache mengumumkan bahwa project Impala, database analitik untuk Apache Hadoop, naik statusnya menjadi top level project.

  3. Apache Kerby 1.1.0 released
    Apache Kerby adalah binding Java Kerberos yang menyediakan implementasi, library, KDC, dan berbagai fasilitas yang mengintegrasikan PKI, OTP dan token untuk environment cloud, Hadoop dan mobile.
    Versi 1.1.0 ini merupakan rilis major, yang mencakup implementasi dukungan cross-realm dan modul GSAPI.
  4.  

    Contributor :


    Tim idbigdata
    always connect to collaborate every innovation 🙂
  • Oct 10 / 2017
  • Comments Off on Seputar Big Data Edisi #32
Apache, Big Data, Implementation, Medical Analytics

Seputar Big Data Edisi #32

Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu ke 4 bulan September 2017

Artikel dan berita

  1. Using Big Data Medical Analytics To Address The Opioid Crisis
    Overdosis obat di tahun 2016, terutama yang berkaitan dengan opioid, menewaskan lebih dari 64 ribu orang di Amerika. Menurut CDC, jumlah tersebut merupakan kenaikan 21% dari tahun 2015. Krisis opioid merupakan problem yang dilematis, karena permasalahannya tidak hanya pada peredaran obat ilegal, namun juga peredaran resmi (obat yang diresepkan). Salah satu sarana yang dianggap dapat menjadi pendukung untuk mengatasi krisis ini adalah penggunaan big data medical analytics. Apa saja peluang dan tantangannya?
  2. Hadoop Was Hard to Find at Strata This Week
    Tidak hanya menghilang dari judul konferensi, dalam acara Strata Data (yang sebelumnya bernama Strata Hadoop), Hadoop pun terkesan menghilang dari peredaran. Banyak yang mengatakan bahwa hal ini terjadi karena “Spark membunuh Hadoop”. Apakah benar demikian? Bagaimana trend ke depannya?
  3. How to Select a Big Data Application
    Memilih software big data bisa menjadi sebuah proses yang rumit dan memerlukan pertimbangan yang matang, berdasar tujuan dan solusi yang tersedia. Artikel ini mencoba mengupas jenis-jenis solusi big data dan karakteristik apa yang perlu dipertimbangkan dalam memilihnya.

Tutorial dan Pengetahuan Teknis

  1. XGBoost, a Top Machine Learning Method on Kaggle, Explained
    XBoost atau eXtreme Gradient Boosting, adalah salah satu tools yang paling populer di kalangan kompetitor Kaggle dan data saintist, dan telah diujicoba dalam implementasi skala besar. XBoost bersifat fleksibel dan versatile, dan dapat digunakan untuk menangani hampir semua kasus regresi, klasifikasi dan ranking, serta fungsi buatan user. Sebagai sebuah software open source, XBost mudah diakses dan dapat digunakan di atas berbagai platform dan antarmuka. Artikel ini mencoba menjelaskan mengenai apa XBoost tersebut, dan apa saja kelebihannya.
  2. Comparison API for Apache Kafka
    Dalam artikel ini disajikan berbagai penerapan Kafka API, mulai dari consume data dari stream, menulis ke stream, sampai pendekatan yang lebih reaktif menggunakan Akka.
  3. PyTorch tutorial distilled – Migrating from TensorFlow to PyTorch
    Artikel yang mengupas dengan baik dan menarik mengenai PyTorch, dan tutorial mengenai bagaimana melakukan migrasi dari TensorFlow ke PyTorch.
  4. [FREE EBOOK] Deep Learning – By Ian Goodfellow, Yoshua Bengio and Aaron Courville
    “Deep Learning” adalah teksbook yang ditujukan untuk membantu mahasiswa dan praktisi untuk memasuki bidang machine learning, dan khususnya deep learning. Versi online dari buku ini sudah lengkap dan dapat diakses secara gratis.
  5. [DATASET] NIH Clinical Center provides one of the largest publicly available chest x-ray datasets to scientific community
    Pusat klinis NIH menyediakan dataset berupa hasil x-ray dada, yang bisa diakses oleh publik. Dataset ini berisi lebih dari 100.000 x-ray image, dari sekitar 30.000 pasien, termasuk di antaranya dengan berbagai penyakit paru-paru yang berat.

Rilis Produk

  1. Apache NiFi 1.4.0 Released
    Versi 1.4.0 ini adalah rilis fitur dan stabilitas, menekankan pada bug fixes yang penting dan penambahan prosesor dan controller services baru. Beberapa fitur baru di antaranya adalah support untuk Apache Knox, autorisasi grup dengan Apache Ranger, dan LDAP-base user authentication.
  2. Apache Solr Reference Guide for 7.0 released
    Setelah Solr 7.0 dirilis beberapa waktu yang lalu, Reference Guide Solr 7.0 dirilis minggu lalu. Dokumen yang berupa 1.035 halaman file PDF berisi dokumentasi untuk fitur-fitur baru, dengan daftar lengkap perubahan konfigurasi dan deprecation yang penting untuk diperhatikan untuk melakukan upgrade dari Solr versi sebelumnya.
  3. Theano To Cease Development After Version 1.0
    Theano, library komputasi numerik untuk Python yang merupakan pelopor di dunia machine learning, akan segera merilis versi 1.0, namun bersamaan dengan itu diumumkan bahwa kegiatan pengembangan Theano akan berakhir setelahnya. Support minimal akan dilanjutkan selama 1 tahun, dan selanjutnya sebagai open source Theano akan tetap dapat diakses bebas, namun tanpa support dari MILA.
  4. Yahoo open-sources Vespa, its most important software release since Hadoop
    Oath, anak perusahaan yang dibentuk ketika Verizon Communication Inc. mengakuisisi Yahoo, membuka salah satu komponen software yang berperan penting dalam melakukan web search dan men-generate rekomendasi dan iklan. Software yang di-open source-kan tersebut bernama Vespa, digunakan untuk menangani permasalahan yang ‘tricky’ dalam hal menentukan apa yang harus ditampilkan sebagai respon dari input user. Oath menggunakan Vespa untuk lebih dari 150 aplikasinya, termasuk Flickr.com, Yahoo Mail dan beberapa aspek dari Yahoo search engine.

 

Contributor :


Tim idbigdata
always connect to collaborate every innovation 🙂
Tertarik dengan Big Data beserta ekosistemnya? Gabung