聚类分析是一种常用的数据分析方法,是数据挖掘与机器学习领域的重要研究方向之一。
聚类分析(cluster analysis)是将一组对象归类到同一类中,使得类内之间的距离尽量小,而类间之间的距离尽量大。其基本思想是将样本集合中相似的元素归为一类,不相似的元素归为不同的类,从而实现对数据集合的分类。
聚类分析常用于客户细分、市场分析、异常检测、图像分割、语音分析、基因组分析等领域。聚类分析通常可以分为层次聚类和划分聚类两大类。
层次聚类的一般策略是通过自底向上或者自顶向下的方式形成层次结构,具体方法包括凝聚聚类和分裂聚类。而划分聚类的一般策略是将样本集通过某种准则或者启发式算法划分成K个类别,具体方法包括k-means、EM算法等。