Pahami dan Kenali Apa Hierarchical Clustering dalam Data Sains


sumber: StatQues Clustering

Sejarah
Clustering

Ide
clustering pertama kali ditemukan oleh lloyd pada tahun 1957 namun ide lloyd
baru dipublikasi pada tahun 1982. Metode Clustering yang ditemukan disebut
K-Means atau K-Means Clustering. Pada tahun 1965 Forgey juga mempublikasikan metode
yang sama, sehingga metode clustering seringkali dikenal dengan lloyd-Forgy
clustering methods.

 Secara
Bahasa Clustering adalah 
salah satu metoda untuk mengelompokkan
instance (sample) menjadi beberapa group atau subset atau cluster berdasarkan “kemiripan”
dengan instance yang lain.

Secara
prinsip clustering hampir mirip dengan classification, hanya saja dataset yang
digunakan tidak berpasangan atau tidak berlabel (non labeled).

Dataset
semacam ini dapat dijumpai di sekitar kita dan jenisnya relatif cukup banyak.
Sebagai contoh, perhatikan dataset jenis buku dan jumlah halamannya dibawah
ini:

Jumlah Halaman

Jenis Buku

200

Bahasa

232

Matematika

232

Bahasa

222

Matematika

244

Bahasa

532

Matematika

Dengan hanya
melihat jumlah halaman saja, maka kita tidak dapat mengambil kesimpulan apapun
tentang jenis bukunya. Tidak ada relasi antara kolom pertama dengan kolom
kedua.

Sehingga
cukup sulit untuk melakukan klasifikasi menggunakan metode classification yang
pernah anda pelajari sebelum sebelumnya. Jika kita diminta untuk melakukan pengelompokkan
data set semacam ini, apa yang tentu akan kita lakukan.

Nah disinilah
metode clustering dapat membantu kita.

Teknik
Clustering

Teknik Clustering
banyak di implementasikan pada bidang:

a. Market segmentation

b. Social networks analysis

c. Computing cluster

d. Astronomical data analysis

Pada algoritma
clustering, komputer akan mengelompokkan sendiri data set yang inputannya tanpa
mengetahui terlebih dahulu target classnya. Data set yang mirip akan
dikategorikan menjadi sebuah cluster.

Konsep
Hierarchical Clustering

Secara umum
ada dua jenis metoda Hierarchical Clustering, 
yaitu:

Agglomerative
Hierarchical Clustering (bottom up) dan 
Divisive Hierarchical
Clustering Technique (Top-Down)

Cara kerja keduanya
berbeda, boleh dibilang divisive merupakan kebalikan dari aglomerative.

Sebelum
membahas Hierarchical Clustering lebih lanjut, ada baiknya mengenal terlebih
dahulu beberapa metode clustering yang ada.

Metode Clustering

Ada beberapa
metode clustering yang sudah dikembangkan, diantaranya:

Exclusive Clustering
disebut juga partitional clustering atau hard clustering. Merupakan jenis
clustering dimana masing-masing elemen hanya dimiliki oleh sebuah cluster dan
tidak boleh dimiliki oleh cluster lain.

  1. Overlapping Clustering
    Disebut juga
    soft clustering. Merupakan sebuah jenis clustering dimana elemen elemen boleh
    dimiliki oleh beberapa cluster.
  2. Hierarchical
    Clustering,

    Disebut juga
    multilevel Hierarchical. Cluster yang lebih besar di kelompokkan menjadi dua
    atau lebih cluster yang lebih kecil sehingga membentuk tree diagram yang
    disebut dendrogram.
  3. Density
    Based Clustering

    Jenis
    clustering yang berhubungan dengan kerapatan objek (densitas), dimana cluster yang
    lebih pada dipisahkan oleh cluster yang lebih renggang
  4. Model Based
    Clustering

    Jenis
    clustering yang elemennya dibentuk melalui asumsi atau model matematika atau
    model statistika standar (seperti distribusi normal dan sebagaiannya)

Sebenarnya
masih ada beberapa jenis clustering yang lain, namun secara prinsip hampir sama
atau merupakan pengembangan dari clustering yang sudah.

Secara umum
konsep dasar Hierarchical Clustering yakni:

  1.  Menemukan kemiripan (Similarity) antar
    elemen cluster dengan prinsip nearest neighbor atau nearest cluster
  2. Untuk mencari cluster tetangga atau
    tetangga terdekat
  3. Pembentukan hirarki (tree) yang
    disebut dendogram

Nah demikian
pembahasan terkait dengan Hierarchical Clustering, semoga dapat membantu kalian
terutama yang membutuhkan informasi terkait dengan Hierarchical Clustering di
bidang datasains. Selalu pantau terus artikel artikel bermanfaat dari fatih
inspira yang teman-teman. See you next article.