Computer File
Perbandingan fuzzy c-means dan k-means untuk text clustering menggunakan LSI
Salah satu cara untuk meningkatkan efektivitas dan efisiensi dalam pemrosesan data adalah dengan melakukan clustering. Data yang akan digunakan dalam penelitian ini berupa teks. Text clustering dilakukan untuk mengelompokkan dokumen berdasarkan kemiripan topik yang dibahas dalam teks-teks tersebut. Teks yang memiliki kemiripan topik akan berada dalam satu cluster. Kumpulan dokumen akan dibersihkan dengan melakukan text pre-processing. Setelah itu kumpulan dokumen yang sudah melalui text pre-processing akan dimodelkan dengan menggunakan Vector Space Model sehingga terbentuk matriks document-term. Matriks document-term memiliki dimensi yang besar. Latent Semantic Indexing (LSI) akan digunakan untuk mengurangi dimensi vektor matriks dan merepresentasikan dokumen ke dalam konsep (bukan kata-kata). Hasil dari LSI nantinya akan digunakan untuk melakukan clustering. Clustering dokumen akan dilakukan dengan metode Fuzzy C-Means. Hasil clustering dokumen dengan Fuzzy C-Means akan dibandingkan dengan hasil clustering dokumen dengan K-Means dengan parameter jarak intercluster, jarak intracluster, dan waktu yang dibutuhkan dalam pemrosesan. Dalam penelitian ini, akan dibuat sebuah desktop application dengan menggunakan bahasa Java. Perangkat lunak tersebut mengimplementasikan Algoritma LSI, Fuzzy C-Means, dan K-Means. Pengujian dibagi menjadi dua bagian, yaitu pengujian fungsionalitas untuk melihat apakah masukan dari pengguna direspon dengan baik oleh program, dan pengujian performa untuk mengukur bagaimana hasil dari algoritma yang diimplementasikan. Hasil pengujian menunjukan secara performa LSI-FCM bekerja lebih baik dibanding LSI-KMeans. Hasil text clustering dengan menggunakan algoritma LSI-FCM setiap anggotanya memiliki jarak yang lebih dekat dengan titik pusat clusternya dibanding dengan menggunakan algoritma LSI dan K-Means. Tetapi secara kecepatan LSI-FCM bekerja lebih lambat dibanding LSI-KMeans.
Kata-kata kunci: Text Clustering, Latent Semantic Indexing, LSI, Fuzzy C-Means, FCM,
K-Means
Barcode | Tipe Koleksi | Nomor Panggil | Lokasi | Status | |
---|---|---|---|---|---|
skp40823 | DIG - FTIS | Skripsi | INFO ARI p/21 | Perpustakaan | Tersedia namun tidak untuk dipinjamkan - No Loan |
Tidak tersedia versi lain