国泰君安:学术纵横系列之五十五:机器学习模型中如何处理缺失值.pdf |
下载文档 |
资源简介
缺失值填充方法的选择:文章分析了截面均值填充和截面期望最大化方法(EM)填充在不同算法中的效果差异,并展示了其他四种缺失值填充和四种收益预测算法的效果。结论是股票收益预测效果与缺失值填充方法的关系不大,并且复杂的机器学习方法的表现可能不如简单 OLS 回归。
如何构建日夜收益防御型股头缺失值处理效果的解释:文章发现在大多数情况下,使用简单均值填充的效果最好。这可能是由于(1)数据截面相关性整体较低,因此已有数据对于缺失值数据而言提供的信息较为有限;(2)缺失值往往在时间维度上聚集出现,时间序列方法和 EM 算法能利用的信息有效度较低:(3)同一数据源的缺失值往往聚集出现,甚至会出现缺失值数量远大于观测值的情况,不利于进行严格的逻辑填充
已阅读到文档的结尾了