AlexNet原论文作者是大神Alex Krizhevsky,属于多伦多大学Hinton组,获得 了2012ImageNet大赛冠军,为cifar-1000数据集分类。
梯度下降决策树(Gradient Boosting Decision Tree)是Boosting算法中的一种,本文对其进行简单的推导,并与xgboost对比。
卷积神经网络的反向传播算法推导中的注意事项。
当后验分布非常复杂时,为了计算的方便使用简单的分布去近似复杂的积分,如可以将变量进行分组,分组间满足条件独立性,$q(\theta, \mu, \sigma)=q_1(\theta)*q_2(\mu,\sigma)$,且由于 指数族分布的优良性质,常常将$q_1,q_2$假设为指数族分布。
矩阵可以看做行向量的组合或列向量的组合。
频率学派把概率模型中的参数视做一个客观存在的数,固定不变。贝叶斯学派认为一个数据集无法反应参数的具体值,所以认为参数服从某一分布。