#这里我们使用随机森林来训练模型
reg = RandomForestRegressor(random_state=20)
reg.fit(X, y)
# 找到模型市值比预测值低最多的股票
factor = y - pd.DataFrame(reg.predict(X), index=y.index, columns=['market_cap'])
如果数据样本全拿来做训练集,样本内的数据表现都很好,是不是存在过拟合了?
每期截面按市值排序选前100的股票再剔除ST、双创之后可能只有几十只股票,用几十个样本去训练,样本量是不是过少了?
2023-03-28