TARGET设置为当日股价/半年前股价,若大于1则为盈利,设为1.小于等于1,设为0。 以后可以考虑再减去无风险收益率或者沪深300收益率,以体现超额收益。
数据来自于20180324的股价,20170901的股价,股票池为中证500和沪深300成分股(与数千只A股总量相比,它们的流动性、市值和规模具有显著特点,所以测试结果并不保证适用于其他股票,尤其是小市值不稳定的创业板块)
部分财务数据取对数减少其流动性,训练集为70%,测试集30%,没有考虑采用迅雷+验证+测试,因为数据量不够大。
选取财务数据为:个股行业,201709月公布财报时的股价,log流通市值,log总市值,pe,roe,log净利润,利润同比增长,净利润率,毛利率,log营业收入,mbrg主营业务收入增长率(%),nprg净利润增长率(%),20180323(财报半年后股价)。mbrg和nprg都有部分空缺值。
目标为预测股价是否增长。
对13个分类算法模型进行测试并评分,选出测试集准确最高的3个模型进行加权组合为集合模型
排名前三位的是三个决策树类模型
组合模型的准确度显著高过三个单独的模型,但三个决策树的组合不禁让我怀疑是否会过度拟合。
变量重要性比较图,差别不大,ROE较为重要
CHAID 树查看器,75%
C&R树:
C5.0:
--
LOGISTIC 分类
方程式用于 0
+ 0.00000000000000000000
方程式用于 1
0.0003492 * pe +
0.001576 * roe +
0.004322 * profits_yoy +
-0.05296 * net_profit_ratio +
0.005209 * gross_profit_rate +
0.007028 * mbrg +
-0.004223 * nprg +
-0.9064 * marketvalue_Log10 +
3.007 * totalvalue_Log10 +
2.537 * net_profits_Log10 +
-1.173 * business_income_Log10 +
9.481 * [industry=白酒] +
10.06 * [industry=百货] +
11.67 * [industry=半导体] +
8.279 * [industry=保险] +
9.406 * [industry=玻璃] +
-73.2 * [industry=仓储物流] +
9.078 * [industry=超市连锁] +
0.5356 * [industry=出版业] +
-1.141 * [industry=船舶] +
10.74 * [industry=电脑设备] +
10.54 * [industry=电气设备] +
2.065 * [industry=电器连锁] +
10.46 * [industry=电器仪表] +
9.407 * [industry=电信运营] +
-1.332 * [industry=多元金融] +
-0.1655 * [industry=房产服务] +
-0.2103 * [industry=服饰] +
1.235 * [industry=钢加工] +
9.663 * [industry=港口] +
9.816 * [industry=工程机械] +
0.7729 * [industry=公共交通] +
0.8514 * [industry=供气供热] +
0.1322 * [industry=广告包装] +
9.676 * [industry=航空] +
1.709 * [industry=红黄药酒] +
8.165 * [industry=互联网] +
2.06 * [industry=化工机械] +
10.09 * [industry=化工原料] +
10.54 * [industry=化纤] +
10.83 * [industry=化学制药] +
-0.04307 * [industry=环境保护] +
-0.1378 * [industry=黄金] +
7.757 * [industry=火力发电] +
10.49 * [industry=机场] +
9.776 * [industry=机械基件] +
9.982 * [industry=家居用品] +
10.75 * [industry=家用电器] +
7.33 * [industry=建筑施工] +
-1.836 * [industry=焦炭加工] +
7.917 * [industry=空运] +
53.2 * [industry=矿物制品] +
3.84 * [industry=林业] +
19.61 * [industry=旅游服务] +
9.343 * [industry=铝] +
-20.75 * [industry=煤炭开采] +
0.5587 * [industry=摩托车] +
11.34 * [industry=农药化肥] +
2.063 * [industry=农业综合] +
0.6792 * [industry=批发业] +
21.29 * [industry=啤酒] +
-7.317 * [industry=普钢] +
11.49 * [industry=其他建材] +
1.779 * [industry=汽车服务] +
8.598 * [industry=汽车配件] +
8.333 * [industry=汽车整车] +
-1.283 * [industry=铅锌] +
0.4774 * [industry=轻工机械] +
9.946 * [industry=区域地产] +
9.494 * [industry=全国地产] +
11.56 * [industry=染料涂料] +
18.25 * [industry=乳制品] +
9.661 * [industry=软件服务] +
1.447 * [industry=软饮料] +
-0.2329 * [industry=商贸代理] +
-0.7887 * [industry=商品城] +
10.86 * [industry=生物制药] +
6.504 * [industry=石油加工] +
0.4152 * [industry=石油开采] +
10.23 * [industry=食品] +
-0.216 * [industry=水力发电] +
-2.132 * [industry=水泥] +
-38.98 * [industry=水运] +
22.57 * [industry=饲料] +
3.261 * [industry=塑料] +
-2.684 * [industry=铁路] +
9.348 * [industry=通信设备] +
-0.4796 * [industry=铜] +
0.7619 * [industry=文教休闲] +
-1.559 * [industry=小金属] +
-1.829 * [industry=新型电力] +
10.36 * [industry=医疗保健] +
-0.4588 * [industry=医药商业] +
-0.7248 * [industry=影视音像] +
9.393 * [industry=元器件] +
-0.9525 * [industry=园区开发] +
17.83 * [industry=运输设备] +
20.67 * [industry=造纸] +
37.8 * [industry=证券] +
10.16 * [industry=中成药] +
21.55 * [industry=种植业] +
9.94 * [industry=专用机械] +
0.6874 * [industry=装修装饰] +
+ -22.5
朴素贝叶斯:
神经网络:
SVM: