数据挖掘中的聚类算法聚成几类是人为设定还是自动的?用SOM神经网络做聚类是不是就是人为设定好聚几类?

这样聚类和分类的区别主要在什么地方啊?求指导
2025-04-15 12:50:57
推荐回答(4个)
回答1:

看了之前的回答,都不专业
聚类分析是一种无指导的分析,如果理解聚类的核心含义,你就能明白,聚类的数量是没有标准的,必须人为设定,但是特殊的聚类方法可以给你一些参考,比如:系统聚类,它可以生成聚类树,这样你就能直观判断分成几类合适。再比如:二阶聚类,系统模型会自动选择分成几类(如果不人为设定)。

聚类是无指导的训练样本,分类是有指导的训练样本,分类就是通过已知的样本建立分类规则,来预测新样本的分类,为什么是有指导的?因为分类是用样本的其它属性来解释、预测我们感兴趣的属性的模型,这是白话。举例:我们知道一批用户的人口统计变量、消费、工资和贷款还款情况,现在我们要用用户的人口统计变量、消费、工资来对用户的贷款还款情况进行预测,这就是分类模型,在这里要用到分类决策树。就是说我们用样本的其它属性来对样本的贷款还款情况建立分类规则,然后对未来的新样本进行预测,判断新用户是否是理想的放贷对象

回答2:

分类是开始有训练集,通过大量样本集进行分类,然后对待测数据进行归类,通过计算,看样本集中的数据属于哪一类就放在该类下面;而聚类是根据自己确定k值,确定聚类中心点,通过算法来实现聚类,聚类是无监督的。聚类算法聚类几类是需要大量数据分析的,通过取得k值的不同,看哪一次的聚类的效果最好。k值是认为确定,但是需要大量数据分析的。不是随机想分为几类就几类的

回答3:

SOM 算法的话,只能设置聚类的类别数上限值。返回的结果的类别数是不确定的,但是一定小于你设置的最大类别数。

回答4:

用模糊聚类可以不设定类别数,如果样本集有n条记录,最多可聚出n类,最少可聚出1类。如果要求最优聚类,既类内距离最小、类间距离最大的话,同城只能有1种最优聚类。