Yin Guoqing Postgraduate of NJUPT

catboost

2018-05-13

catboost是俄罗斯最大搜索引擎Yandex开源,可以处理类别特征,同时假设了训练集和测试集的概率分布有差异,适合样本量少时使用。

Ordered TBS

最原始的想法如下式所示,然后论文指出了不足,并提出两个准则,一个是样本概率分布和总体概率分布一致,一个是方差应该尽量小,并提出了 Ordered TBS。

分布偏差

当样本量不足时,容易出现训练集上的分布和实际分布有所偏移,看论文公式只使用了一阶泰勒展开,没有像xgboost和lightgbm那样使用 二阶泰勒展开,提出orderd boosting并做出改进,和ordered TBS一样,都是先将严格样本随机排列,每轮迭代时保存n个模型,求每个样本 的残差时,只用排在该样本前的样本训练出的模型求解。具体的改进和内容需要仔细看原论文,有需要时再看吧,大致思想是这样。

树的实现

在oblivious tree的基础上做改进,可以看它的参考文献,不可以处理缺失值,需要人为对缺失值进行填充。Oblivious tree是完全二叉树,每层分裂点 使用同一个feature,同一个threshold,优化目标是最小化方差。


Comments

Content