[Clustering] K-means++ clustering 구현해보기
·
ML
서론K-means clustering 포스트에서 말했지만, k-means clustering은 초기 중심점을 랜덤으로 잡았었다. [Clustering] K-means clustering 구현해보기서론Clustering은 묶음으로 만들어버린다는 뜻이다.이때 뭘 묶어버리냐 하면, 관련있는 데이터들끼리 하나로 묶는다.   이름에 대해 이야기 해보자면 1. 몇개의 묶음으로 만들지에 대한ideadummy.tistory.com   K-means는 초기 중심점이 어디에 잡히는지에 따라 clustering 결과 차이가 많이 난다. 물론 최적의 결과가 나올 수도 있지만, 최악이 나올 수도 있다. 즉, 돌릴때마다 결과가 다르게 나올 가능성이 높다.   그리고 위키피디아를 보면, 초기 중심점이 이상하게 잡히면 알고리즘 실행..
[Clustering] K-means clustering 구현해보기
·
ML
서론Clustering은 묶음으로 만들어버린다는 뜻이다.이때 뭘 묶어버리냐 하면, 관련있는 데이터들끼리 하나로 묶는다.   이름에 대해 이야기 해보자면 1. 몇개의 묶음으로 만들지에 대한 것이 "k", 즉 k개의 묶음으로 만든다는 것이다.2. 묶어진 데이터들을 대표하는 데이터(중심점, centroid)를 구할때 "평균(mean)"을 사용하게 된다.결국 "k개의 묶음 만들기" 라고 할 수 있겠다.   K-means clustering에 대한 자세한 증명이 아닌, 구현(scratch)에 초점을 맞췄음을 미리 밝힌다.      관련있다란 무엇인가?데이터 a와 b가 어느정도로 관련있는지에 대해 어떻게 말할 수 있을까?"얼추 비슷해요~""좀 다르지 않나요?"이런 말은 공학도들 사이에서 죽고싶다는 말과 같다.k-m..