用于数据挖掘的聚类算法有哪些,各有何优势

2025-04-12 11:14:59
推荐回答(1个)
回答1:

  朴素贝叶斯(Naive Bayes, NB)
  超级简单像做些数数工作条件独立假设立NB比鉴别模型(Logistic归)收敛更快所需要少量训练数据即使条件独立假设立NB实际仍表现惊想做类似半监督习或者既要模型简单要性能NB值尝试

  Logistic归(Logistic Regression, LR)
  LR模型则化比起NB条件独立性假设LR需要考虑本否相关与决策树与支持向量机(SVM)同NB概率解释且容易利用新训练数据更新模型(使用线梯度降)想要些概率信息(更容易调整类阈值类确定性置信区间)或者希望更数据能便更新改进模型LR值使用

  决策树(Decision Tree, DT)
  DT容易理解与解释(某些言——确定我否其)DT非参数所需要担野点(或离群点)数据否线性问题(例DT轻松处理种情况:属于A类本特征x取值往往非或者非属于B类本特征x取值间范围)DT主要缺点容易拟合随机森林(Random Forest, RF)(或者Boosted树)等集习算提原外RF类问题经表现(我相信般比SVM稍)且速度快扩展像SVM需要调整量参数所近RF非流行算

  支持向量机(Support Vector Machine, SVM)
  高类确率拟合理论保证选取合适核函数面特征线性问题表现SVM维数通高文本类非流行由于较内存需求繁琐调参我认RF已经始威胁其位

  LR与DT问题(我更倾向LR与RF问题)做简单总结:两种都快且扩展确率面RF比LR更优LR线更新且提供用概率信息鉴于Square(确定推断科家应该趣化身)能事欺诈检测:想快速调整阈值改变假阳性率与假阴性率类结包含概率信息帮助论选择算各类本数量均衡(欺诈检测经发)需要重新采各类数据或者调整误差度量使各类更均衡