본문 바로가기
Information Technology/Machine learning

K-평균 알고리즘

by JUNE LAB 2018. 1. 30.
336x280(권장), 300x250(권장), 250x250, 200x200 크기의 광고 코드만 넣을 수 있습니다.

K-평균 알고리즘

   K-평균(K-means algorithm)은 주어진 데이터를 k개의 클러스터로 묶는 알고리즘으로, 각 클러스터와 거리 차이의 분산을 최소화하는 방법으로 동작한다. 이 알고리즘은 자율 학습의 일종으로, 레이블이 달려 있지 않은 입력 데이터에 레이블을 달아주는 역할을 수행한다. 이 알고리즘은 EM 알고리즘을 이용한 클러스터링과 비슷한 구조를 가지고 있다.


개요

   K-평균 클러스터링 알고리즘은 클러스터링 방법 중 분할법에 속한다. 분할법은 주어진 데이터를 여러 파티션(그룹) 예를 들어 n개의 데이터 오브젝트를 입력 받았다고 가정하자. 이 때 분할 방법은 입력 데이터로 구성된 k개의 그룹으로 나누는 것이다. 이 때 그룹을 나누는 과정은 거리 기반의 그룹간 비유사도(dissimilarity)와 같은 비용 함수(cost function)을 최소화하는 방법으로 이루어지며, 이 과정에서 같은 그룹 내 데이터 오브젝트 끼리의 유사도는 증가하고, 다른 그룹에 있는 데이터 오브젝트와의 유사도는 감소하게 된다. K-평균 알고리즘은 각 그룹의 중심(centroid)과 그룹 내의 데이터 오브젝트와의 거리의 제곱합을 비용함수로 정의하고, 이 함수값을 최소화하는 방법으로 각 데이터 오브젝트의 소속 그룹을 업데이트 해 줌으로써 클러스터링을 수행하게 된다.


출처

  • 위키피디아, https://ko.wikipedia.org/wiki/K-%ED%8F%89%EA%B7%A0_%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98



댓글