Skip to content

实验指南 v0.1

iminders edited this page Apr 4, 2020 · 3 revisions

初步测试,td3优于ddpg 和a2c, 可以把重点放在调优td3上

算法的训练和评估时间不要使用默认的时间设置, 因为默认的评估周期太短了:https://github.com/tradingAI/tbase/issues/12

建议实验报告的形式:

一,结论

  • 一组实验得到的最优参数是什么
  • 参数的优劣比较
  • 适用于一股票还是多支股票

二,支撑结论的实验数据,图表

  • 使用不同的seed跑多次实验,以支撑结论的可靠性
  • 运行参数输入
  • code 的版本

超参数

  • 网络结构
  • reward function, 不一定局限于已提供的reward, 也可自定义更复杂或更简单的reward
  • gamma
  • observation

参考: https://www.jiqizhixin.com/articles/2018-12-10-11

Clone this wiki locally