Flickr徽章

www.flickr.com
FlyingskyFu 的項目 前往 FlyingskyFu 的所有相片

生活的足迹

2010-03-07

分类树算法在feature数目少的数据集中运行快,否则慢

今天尝试跑了J48,对于只有150+个特征数目的dataset,运行时间反而是SVM,J48,Bayes三个里最快的;
当修改为针对12000个特征数的dataset的时候,SVM最快,J48最慢了。

这里里边也反应了分类树算法的特征:
依据对dataset的特征进行信息增益分析后,排序,优先选取最好的分类最清晰的特征进行划分,这是分类树的基本思想。这种思想决定了,在分类树算法面对一个特征数目很大的dataset的时候,反而运行时间比其他算法差。而在特征数少的时候,在运行时间上凸显它的优势。

No comments:

Post a Comment