以后就在这里进行项目迭代吧

目前思路是这样的

lxy把表格的信息大致提取一下（详情见模板）
中旬前完成，对初始数据的建模（我为主，zzj辅助）
第二周到第三周zzj搞数据（zzj为主，我为辅助）
each data
行情数据 Market Data 行情数据代表上市公司股票月度交易行情，主要包括价格、成交量、成交额、换手率等。
sheets
- DATA
- CN_EN

TYPE_NAME_CN	TYPE_NAME_EN
金融服务	Financial Service
银行	Bank
房地产	Real Estate
医药生物	Medicine and Biology
公用事业	Utilities
休闲服务	Leisure Service
综合	Composite
机械设备	Mechanical Equipment
有色金属	Non-Ferrous Metals
商业贸易	Commercial Trade
建筑装饰	Building Decorations
建筑建材	Building Materials
建筑材料	Building Material
家用电器	Household Appliances
交运设备	Delivery Equipment
汽车	Automobile
纺织服装	Textile and Garment
食品饮料	Food and Beverage
电子	Electronics
信息设备	Information Devices
计算机	Computer
交通运输	Transportation
轻工制造	Light Manufacturing
通信	Communication
农林牧渔	Animal Husbandry and Fishery
化工	Chemical Industry
传媒	Media
钢铁	Steel
采掘	Mining
非银金融	Non-bank Finance
国防军工	Defense and Military
信息服务	Information Services
电气设备	Electronic Equipment

三大表

财务数据包括三张表，分别为资产负债表 Balance Sheet、利润表 Income Statement、现金流量表 Cash Flow Statement。其中，由于非金融上市公司、证券、银行、保险四大行业的财务报表在结构上存在差异，所以每个类别又分为4个相对应的文档（csv格式）。这三张表代表了一个公司全部的财务信息，三大财务报表分析是投资的基础。
资产负债表：代表一个公司的资产与负债及股东权益，资产负债表是所有表格的基础。
利润表：代表一个公司的利润来源，而净利润则直接影响资产负债表中股东权益的变化。
现金流量表：代表一个公司的现金流量，更代表资产负债表的变化。现金流量表是对资产负债表变化的解释。现金的变化最终反映到资产负债表的现金及等价物一项。而现金的变化源泉则是净利润。净利润经过“经营”、“投资”、“筹资”三项重要的现金变动转变为最终的现金变化。

找到互相之间连接的键值

market

SECURITY_ID 证券内部编码，为通联数据内部编码，唯一，Int类型

TICKER_SYMBOL 证券在交易所的交易代码，如000001，String类型

TYPE_ID 行业ID，为行业在通联数据内部编码，唯一，String类型

TYPE_NAME 行业名称，如“金融服务”，String类型

提取表格信息模板（以现金流入流出case为例子）

训练集和测试集时间范围

训练集
- 日度数据
- 20130701 至 20140831
测试集
- 日度数据
- 20140901-未来30天20140930

df之间连接方式

用户信息表
- user id
用户申购赎回数据表
- user id
- report date
收益率表
- mfd date
shibor表
- mfd date
- 注意到上海银行间同业拆放利率在双休日是没有值得

目标变量

目标变量是20140901-未来30天20140930的申购和赎回总额
需不需要汇总数据
- 需要！
- 用户申购赎回表中是对每个用户而言的，没有对同一天的不同用户做汇总（
- 相关字段
  - total purchase amt 今日总购买量
  - total redeem amt 今日总赎回量
  - 汇总的变量是 report date

我们可以使用哪些数据进行预测

按照提交的模板
- 只有日度的时间范围
训练集中是否有提供预测目标对应的其他数据
- 没有

我们的流程

对数据所需要的背景知识有所了解，理解每个字段的含义
明确任务的目标
- 仅仅是预测任务还是什么别的？
- 我的意思是某些场景下可能需要模型有较高的可解释性
- 这会影响我们选择模型的范围
- 譬如有日期型数据，看看需不需要用时间序列处理方法
读取数据，做数据预处理
- 查看数据类型，填补缺失值
- 数据类型统一化
- 特殊情况：有汇总形式数据，可能要做差分
- 有类别类型数据，encode一下
- 数值型数据归一化
确定目标变量和解释变量
开始迭代
- 由idea出发，写出一些code，然后用一个单一指标评估模型好坏
- 接下来尝试多个模型，在计算资源有限的情况下，选中一个模型
- 接下来就使用各种方法减少偏差和方差
- 最后再放到测试集上进行测试
- 如果时间充裕，每隔几天就要更换一些参数，做微调
- 最终部署到应用环境中，看效果
- 再进行迭代

参考网站

https://github.com/Gustrigos/Eigen-Portfolio

https://www.joinquant.com/view/factorlib/list

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
自定义obj和metric的资料		自定义obj和metric的资料
.DS_Store		.DS_Store
README.md		README.md
info.md		info.md
myjf.py		myjf.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

以后就在这里进行项目迭代吧

each data

三大表

找到互相之间连接的键值

提取表格信息模板（以现金流入流出case为例子）

训练集和测试集时间范围

df之间连接方式

目标变量

我们可以使用哪些数据进行预测

我们的流程

参考网站

About

Releases

Packages

Languages

Veralxy/statpj

Folders and files

Latest commit

History

Repository files navigation

以后就在这里进行项目迭代吧

each data

三大表

找到互相之间连接的键值

提取表格信息模板（以现金流入流出case为例子）

训练集和测试集时间范围

df之间连接方式

目标变量

我们可以使用哪些数据进行预测

我们的流程

参考网站

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages