Kumpulan berita, artikel, tutorial dan blog mengenai Big Data yang dikutip dari berbagai site. Berikut ini beberapa hal menarik yang layak untuk dibaca kembali selama minggu pertama bulan Oktober 2021
Artikel dan berita
- Old coal plant is now mining bitcoin for a utility company
Meskipun tidak memiliki wujud fisik, ternyata diperlukan konsumsi begitu banyak daya untuk menambang Bitcoin. Komputer-komputer di seluruh dunia memakan listrik setara dengan kebutuhan sebuah negara seukuran Belanda atau Polandia untuk menambangnya. Begitu pentingnya faktor listrik ini, sehingga sebuah perusahaan swasta bahkan memiliki pembangkit listrik sendiri untuk melakukan penambangan bitcoin. Salah satunya adalah perusahaan swasta di Amerika, yang meletakkan data center mereka di dekat pembangkit listrik tenaga batubara, sekitar 10 mil di luar St. Louis. Pembangkit listrik tersebut sempat mengalami kesulitan untuk mempertahankan operasionalnya agar tetap menguntungkan ketika harga listrik anjlok sebelumnya. - The limitations of AI safety tools
Pada tahun 2019, OpenAI merilis Safety Gym, seperangkat alat untuk mengembangkan model AI yang memperhatikan “batasan keamanan” tertentu, khususnya untuk reinforcement learning. Saat itu, OpenAI mengklaim bahwa Safety Gym dapat digunakan untuk membandingkan keamanan sebuah algoritma dan sejauh mana algoritma tersebut dapat menghindari kesalahan yang fatal saat belajar, misalnya menghindari tabrakan.
Sejak itu, Safety Gym telah digunakan dalam mengukur kinerja algoritma yang diusulkan dari OpenAI, serta para peneliti dari University of California, Berkeley, dan University of Toronto. Akan tetapi beberapa ahli mempertanyakan apakah “alat keamanan” AI ini benar-benar berfungsi efektif seperti yang dinyatakan oleh pembuatnya. - Researchers attempt an open source alternative to GitHub’s Copilot
Pada bulan Juni lalu OpenAI dan GitHub meluncurkan Copilot, service yang memberikan saran berupa serangkaian kode di dalam lingkungan pengembangan seperti Microsoft Visual Studio. Didukung oleh model AI yang disebut Codex — yang diekspos oleh OpenAI melalui API — Copilot dapat menerjemahkan bahasa alami ke dalam kode dalam berbagai bahasa pemrograman, mengartikan perintah dalam bahasa Inggris dan mengeksekusinya.
Saat ini sebuah komunitas sedang berupaya untuk membuat alternatif open source untuk model Copilot dan Codex, yang disebut dengan GPT Code Clippy. Para kontributor berharap untuk dapat membuat sebuah pair programmer AI yang memungkinkan para peneliti untuk mempelajari model AI skala besar yang dilatih menggunakan source code, untuk memahami kelebihan dan keterbatasannya. - Facebook whistleblower to testify at U.S. Senate hearing next week
Dua senator AS menyatakan bahwa seorang whistleblower Facebook akan bersaksi di hadapan sidang Senat minggu depan mengenai apa yang mereka sebut sebagai ‘efek toksik’ media sosial pada pengguna usia muda. Kesaksian pelapor ini akan sangat penting untuk memahami apa yang diketahui Facebook tentang efek racun platformnya terhadap pengguna muda, sejak kapan mereka mengetahui, dan apa telah yang mereka lakukan untuk mengatasi hal tersebut. - How Intelligent Marketers Use AI
Saat ini AI telah menjadi aspek penting dalam dunia marketing, dan telah digunakan dalam berbagai proses bisnis dan industri. Akan tetapi mungkin masih banyak pakar marketing yang merasa kewalahan menghadapi topik AI ini, diantaranya karena kurangnya keahlian teknis untuk memahami bagaimana sebenarnya cara kerja AI. Meski demikian, bagi marketer yang cerdas, tidak perlu menjadi spesialis IT untuk bisa mempelajari cara pemanfaatan AI. Artikel berikut ini menyajikan ulasan mengenai bagaimana para marketer menggunakan AI untuk meningkatkan kinerja mereka, dan bagaimana Anda dapat melakukannya juga.
Tutorial dan pengetahuan teknis
- Scaling LinkedIn’s Hadoop YARN cluster beyond 10,000 nodes
LinkedIn menggunakan Hadoop sebagai tulang punggung Big Data analitik dan pembelajaran mesin. Dengan volume data yang tumbuh secara eksponensial, mereka menggandakan ukuran klaster dari tahun ke tahun untuk menyesuaikan dengan tumbuhnya beban komputasi. Cluster terbesar mereka saat ini memiliki ~10.000 node, salah satu cluster Hadoop terbesar di dunia. Penskalaan arsitektur Hadoop YARN menjadi salah satu tantangan terbesar selama bertahun-tahun.
Dalam posting ini akan dibahas perlambatan klaster YARN yang terjadi ketika mereka mendekati jumlah 10.000 node, dan solusinya. Kemudian dibahasa mengenai bagaimana mereka secara proaktif memantau penurunan kinerja di masa mendatang, termasuk tools open-source mereka, DynoYARN, untuk memperkirakan kinerja klaster YARN dengan ukuran arbitrer. Terakhir, dijelaskan mengenai Robin, service internal yang memungkinkan untuk menskalakan klaster secara horizontal hingga melebihi 10.000 node. - Mengenal Feature Selection dalam Machine Learning
Feature selection merupakan salah satu cara untuk meningkatkan akurasi pada sebuah model machine learning. Melalui artikel singkat ini diharapkan kita dapat mengenal feature selection beserta teknik-tekniknya. - Modeling Pipeline Optimization With scikit-learn
Tutorial ini menyajikan dua konsep penting dalam data science dan machine learning, yaitu alur pembelajaran mesin dan optimalisasinya. Kedua prinsip ini merupakan kunci dalam machine learning. Tutorial ini akan membahas mengenai bagaimana cara membangun pipeline menggunakan sklearn.pipeline, melakukan grid search untuk mendapatkan parameter terbaik menggunakan GridSearchCV() dari sklearn.model_selection, dan melakukan analisis hasil dari GridSearchCV(), serta memvisualisasikannya. Dalam tutorial ini digunakan Ecoli Dataset dari UCI Machine Learning Repository. - Getting started with Kafka and Rust: Part 2
Tutorial ini merupakan bagian kedua dari 2 artikel mengenai bagaimana menggunakan Rust dengan Kafka. Dalam artikel ini dijelaskan Kafka Consumer API, sedangkan crate atau library yang digunakan adalah rust-rdkafka. - [FREE Ebook] R For Data Science – Hadley Wickham & Garret Grolemund.
Ditulis oleh Chief Data Science RStudio, yang juga penulis berbagai package penting R, di antaranya ggplot2, tidyverse, dll.
Buku ini menjelaskan dengan sangat baik tentang bagaimana mengolah data dan menghasilkan insight dalam R.
Dengan penyajian yang detail dan terstruktur, buku ini juga sesuai untuk pembaca yang baru mulai terjun ke data sains maupun baru mempelajari R.
Rilis Produk
- Apache Karaf runtime 4.3.3
Karaf menyediakan runtime modulith untuk enterprise, berjalan secara on-premis atau di atas cloud. Karaf memungkinkan user untuk lebih berfokus pada bisnis dan aplikasi. Rilis ini merupakan rilis penting pada seri Karaf 4.3.x, yang mencakup pembaruan, perbaikan, dan fitur baru, di ataranya kerangka repositori spesifikasi fitur, perbaikan kebocoran memori pada layanan status blueprint, perbaikan JMX exception push back ke klien, dan lain sebagainya. - Apache jclouds 2.4.0 released
Apache jclouds adalah toolkit multi-cloud open source untuk platform Java yang memberi Anda kebebasan untuk membuat aplikasi yang portabel di berbagai cloud, dan memberi Anda kontrol penuh untuk menggunakan fitur khusus cloud.
Versi 2.4.0 ini adalah rilis reguler yang mencakup pembaruan, peningkatan, dan perbaikan bug, di antaranya peningkatan kompatibilitas dengan Java 9 dan environment yang baru. - Apache IoTDB 0.12.2
Apache IoTDB (Database untuk Internet of Things) adalah database native IoT
dengan performa tinggi untuk manajemen dan analisis data, yang dapat diterapkan di edge dan cloud.
Rilis ini adalah versi bug fixing dari 0.12.1, yang mencakup sejumlah pembaruan, peningkatan, dan perbaikan. - Open-sourcing Mariana Trench: Analyzing Android and Java app security in depth
Mariana Trench (MT) adalah tools yang digunakan oleh Facebook untuk menemukan dan mencegah bug secirity dan privasi di aplikasi Android dan Java. Sebagai bagian dari upaya untuk meningkatkan keamanan melalui otomatisasi, baru-baru ini Facebook membuka MT untuk mendukung tugas security engineer.
Artikel ini adalah posting ketiga dari rangkaian pembahasan mengenai tools analisis statis dan dinamis yang digunakan oleh Facebook. MT sendiri adalah sistem terbaru, setelah Zoncolan dan Pysa, yang masing-masing dibuat untuk Hack dan Python.
Contributor :
Tim idbigdata
always connect to collaborate every innovation
always connect to collaborate every innovation