飞翔的天空: 分类树算法在feature数目少的数据集中运行快，否则慢

2010-03-07

分类树算法在feature数目少的数据集中运行快，否则慢

今天尝试跑了J48，对于只有150+个特征数目的dataset，运行时间反而是SVM，J48，Bayes三个里最快的；

当修改为针对12000个特征数的dataset的时候，SVM最快，J48最慢了。

这里里边也反应了分类树算法的特征：

依据对dataset的特征进行信息增益分析后，排序，优先选取最好的分类最清晰的特征进行划分，这是分类树的基本思想。这种思想决定了，在分类树算法面对一个特征数目很大的dataset的时候，反而运行时间比其他算法差。而在特征数少的时候，在运行时间上凸显它的优势。

No comments:

Post a Comment

Subscribe to: Post Comments (Atom)