Computer File
Algoritma pengelompokan k-means paralel dengan mapreduce pada sistem terdistribusi hadoop
Kapasitas penyimpanan data yang sangat besar (big data) tidak sebanding dengan ke- cepatan akses terhadap data yang ukurannya besar tersebut. Salah satu solusi yang dapat menjawab permasalahan tersebut adalah dengan menerapkan sistem terdistribu- si. Apache Hadoop merupakan salah satu sistem terdistribusi. Hadoop dikembangkan karena penyimpanan dan pengolahan data yang telah ada tampaknya tidak memadai untuk menangani semua data yang terus muncul dalam jumlah besar setelah adanya Internet. Sistem terdistribusi yang dibangun harus memiliki kemampuan untuk dapat meng- olah data yang juga terdistribusi. Data yang jumlahnya sangat besar tidak akan ada manfaatnya jika tidak diproses untuk mendapatkan informasi berharga di dalamnya. Salah satu bentuk analisis data adalah pengelompokan atau clustering. Algoritma pengelompokan K-Means dipilih karena K-Means merupakan salah satu algoritma pengelompokan yang paling sederhana. Algoritma pengelompokan K-Means diterapkan dengan MapReduce pada sistem terdistribusi Hadoop. MapReduce terdiri dari fungsi Map atau pemetaan dan fungsi Reduce. Fungsi Map pada program MapReduce akan menjalankan prosedur untuk me- nempatkan setiap objek ke centroid atau pusat terdekat. Fungsi Reduce pada program MapReduce akan berperan dalam menjalankan prosedur untuk memperbaharui centroid atau pusat baru. Pada fungsi Reduce dilakukan proses pencarian pola bermanfaat yang dapat dianalisis dan diperoleh informasi berharga dari pola tersebut. Proses pengelompokan menggunakan algoritma K-Means paralel dengan MapReduce yang dirancang sangat berpengaruh terhadap inisialisasi centroid yang digunakan. Oleh sebab itu, centroid inisialisasi harus ditentukan terlebih dahulu melalui pengelom- pokan data sample. Proses pengelompokan menggunakan algoritma K-Means paralel dengan MapReduce yang dirancang juga berpengaruh terhadap jumlah komputer/slave yang digunakan. Semakin banyak objek data yang digunakan namun dengan semakin banyak pula komputer yang digunakan, maka waktu komputasi dalam mengeksekusi program akan semakin kecil.
Kata-kata kunci: Apache Hadoop, MapReduce, clustering, K-Means, big data
Barcode | Tipe Koleksi | Nomor Panggil | Lokasi | Status | |
---|---|---|---|---|---|
skp31434 | DIG - FTIS | Skripsi | INFO VEN a/15 | Gdg9-Lt3 | Tersedia namun tidak untuk dipinjamkan - No Loan |
Tidak tersedia versi lain