-
Notifications
You must be signed in to change notification settings - Fork 10
实验指南 v0.1
iminders edited this page Apr 4, 2020
·
3 revisions
初步测试,td3优于ddpg 和a2c, 可以把重点放在调优td3上
算法的训练和评估时间不要使用默认的时间设置, 因为默认的评估周期太短了:https://github.com/tradingAI/tbase/issues/12
一,结论
- 一组实验得到的最优参数是什么
- 参数的优劣比较
- 适用于一股票还是多支股票
二,支撑结论的实验数据,图表
- 使用不同的seed跑多次实验,以支撑结论的可靠性
- 运行参数输入
- code 的版本
- 网络结构
- reward function, 不一定局限于已提供的reward, 也可自定义更复杂或更简单的reward
- gamma
- observation