sumber: StatQues Clustering
Sejarah
Clustering
Ide
clustering pertama kali ditemukan oleh lloyd pada tahun 1957 namun ide lloyd
baru dipublikasi pada tahun 1982. Metode Clustering yang ditemukan disebut
K-Means atau K-Means Clustering. Pada tahun 1965 Forgey juga mempublikasikan metode
yang sama, sehingga metode clustering seringkali dikenal dengan lloyd-Forgy
clustering methods.
Secara
Bahasa Clustering adalah salah satu metoda untuk mengelompokkan
instance (sample) menjadi beberapa group atau subset atau cluster berdasarkan “kemiripan”
dengan instance yang lain.
Secara
prinsip clustering hampir mirip dengan classification, hanya saja dataset yang
digunakan tidak berpasangan atau tidak berlabel (non labeled).
Dataset
semacam ini dapat dijumpai di sekitar kita dan jenisnya relatif cukup banyak.
Sebagai contoh, perhatikan dataset jenis buku dan jumlah halamannya dibawah
ini:
Jumlah Halaman |
Jenis Buku |
200 |
Bahasa |
232 |
Matematika |
232 |
Bahasa |
222 |
Matematika |
244 |
Bahasa |
532 |
Matematika |
Dengan hanya
melihat jumlah halaman saja, maka kita tidak dapat mengambil kesimpulan apapun
tentang jenis bukunya. Tidak ada relasi antara kolom pertama dengan kolom
kedua.
Sehingga
cukup sulit untuk melakukan klasifikasi menggunakan metode classification yang
pernah anda pelajari sebelum sebelumnya. Jika kita diminta untuk melakukan pengelompokkan
data set semacam ini, apa yang tentu akan kita lakukan.
Nah disinilah
metode clustering dapat membantu kita.
Teknik
Clustering
Teknik Clustering
banyak di implementasikan pada bidang:
a. Market segmentation
b. Social networks analysis
c. Computing cluster
d. Astronomical data analysis
Pada algoritma
clustering, komputer akan mengelompokkan sendiri data set yang inputannya tanpa
mengetahui terlebih dahulu target classnya. Data set yang mirip akan
dikategorikan menjadi sebuah cluster.
Konsep
Hierarchical Clustering
Secara umum
ada dua jenis metoda Hierarchical Clustering,
yaitu:
Agglomerative
Hierarchical Clustering (bottom up) dan Divisive Hierarchical
Clustering Technique (Top-Down)
Cara kerja keduanya
berbeda, boleh dibilang divisive merupakan kebalikan dari aglomerative.
Sebelum
membahas Hierarchical Clustering lebih lanjut, ada baiknya mengenal terlebih
dahulu beberapa metode clustering yang ada.
Metode Clustering
Ada beberapa
metode clustering yang sudah dikembangkan, diantaranya:
Exclusive Clustering
disebut juga partitional clustering atau hard clustering. Merupakan jenis
clustering dimana masing-masing elemen hanya dimiliki oleh sebuah cluster dan
tidak boleh dimiliki oleh cluster lain.
- Overlapping Clustering
Disebut juga
soft clustering. Merupakan sebuah jenis clustering dimana elemen elemen boleh
dimiliki oleh beberapa cluster. - Hierarchical
Clustering,
Disebut juga
multilevel Hierarchical. Cluster yang lebih besar di kelompokkan menjadi dua
atau lebih cluster yang lebih kecil sehingga membentuk tree diagram yang
disebut dendrogram. - Density
Based Clustering
Jenis
clustering yang berhubungan dengan kerapatan objek (densitas), dimana cluster yang
lebih pada dipisahkan oleh cluster yang lebih renggang - Model Based
Clustering
Jenis
clustering yang elemennya dibentuk melalui asumsi atau model matematika atau
model statistika standar (seperti distribusi normal dan sebagaiannya)
Sebenarnya
masih ada beberapa jenis clustering yang lain, namun secara prinsip hampir sama
atau merupakan pengembangan dari clustering yang sudah.
Secara umum
konsep dasar Hierarchical Clustering yakni:
- Menemukan kemiripan (Similarity) antar
elemen cluster dengan prinsip nearest neighbor atau nearest cluster - Untuk mencari cluster tetangga atau
tetangga terdekat - Pembentukan hirarki (tree) yang
disebut dendogram
Nah demikian
pembahasan terkait dengan Hierarchical Clustering, semoga dapat membantu kalian
terutama yang membutuhkan informasi terkait dengan Hierarchical Clustering di
bidang datasains. Selalu pantau terus artikel artikel bermanfaat dari fatih
inspira yang teman-teman. See you next article.