今天尝试跑了J48,对于只有150+个特征数目的dataset,运行时间反而是SVM,J48,Bayes三个里最快的;
当修改为针对12000个特征数的dataset的时候,SVM最快,J48最慢了。
这里里边也反应了分类树算法的特征:
依据对dataset的特征进行信息增益分析后,排序,优先选取最好的分类最清晰的特征进行划分,这是分类树的基本思想。这种思想决定了,在分类树算法面对一个特征数目很大的dataset的时候,反而运行时间比其他算法差。而在特征数少的时候,在运行时间上凸显它的优势。
No comments:
Post a Comment