forked from wenddymacro/AppliedEconometrics
-
Notifications
You must be signed in to change notification settings - Fork 0
/
Copy pathAppliedEconometrics.tex
5602 lines (3700 loc) · 399 KB
/
AppliedEconometrics.tex
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
588
589
590
591
592
593
594
595
596
597
598
599
600
601
602
603
604
605
606
607
608
609
610
611
612
613
614
615
616
617
618
619
620
621
622
623
624
625
626
627
628
629
630
631
632
633
634
635
636
637
638
639
640
641
642
643
644
645
646
647
648
649
650
651
652
653
654
655
656
657
658
659
660
661
662
663
664
665
666
667
668
669
670
671
672
673
674
675
676
677
678
679
680
681
682
683
684
685
686
687
688
689
690
691
692
693
694
695
696
697
698
699
700
701
702
703
704
705
706
707
708
709
710
711
712
713
714
715
716
717
718
719
720
721
722
723
724
725
726
727
728
729
730
731
732
733
734
735
736
737
738
739
740
741
742
743
744
745
746
747
748
749
750
751
752
753
754
755
756
757
758
759
760
761
762
763
764
765
766
767
768
769
770
771
772
773
774
775
776
777
778
779
780
781
782
783
784
785
786
787
788
789
790
791
792
793
794
795
796
797
798
799
800
801
802
803
804
805
806
807
808
809
810
811
812
813
814
815
816
817
818
819
820
821
822
823
824
825
826
827
828
829
830
831
832
833
834
835
836
837
838
839
840
841
842
843
844
845
846
847
848
849
850
851
852
853
854
855
856
857
858
859
860
861
862
863
864
865
866
867
868
869
870
871
872
873
874
875
876
877
878
879
880
881
882
883
884
885
886
887
888
889
890
891
892
893
894
895
896
897
898
899
900
901
902
903
904
905
906
907
908
909
910
911
912
913
914
915
916
917
918
919
920
921
922
923
924
925
926
927
928
929
930
931
932
933
934
935
936
937
938
939
940
941
942
943
944
945
946
947
948
949
950
951
952
953
954
955
956
957
958
959
960
961
962
963
964
965
966
967
968
969
970
971
972
973
974
975
976
977
978
979
980
981
982
983
984
985
986
987
988
989
990
991
992
993
994
995
996
997
998
999
1000
\documentclass[cn,12pt,math=newtx,citestyle=gb7714-2015,bibstyle=gb7714-2015]{elegantbook}
\title{应用计量经济学讲稿}
\subtitle{效傲江湖:效应评估的独孤九剑}
\author{许文立}
\institute{安徽大学经济学院(AHU,合肥)、西蒙菲莎大学(SFU,温哥华)\\~~~~~~~~~~~~宏观经济研学会(CIMERS,武汉)、国民经济工程实验室(NEEL,北京)}
\date{\today}
\version{2.1}
\bioinfo{Email}{[email protected]}
\extrainfo{老师的真正重任应该是让学生超越自己。—— 尤达大师,《星球大战》}
\setcounter{tocdepth}{3}
\logo{cimers_logo.jpg}
\cover{cover1.png}
% 本文档命令
\usepackage{array}
\usepackage{longtable}
\usepackage{threeparttable}
\newcommand{\ccr}[1]{\makecell{{\color{#1}\rule{1cm}{1cm}}}}
\newcommand{\tabincell}[2]{\begin{tabular}{@{}#1@{}}#2\end{tabular}} %表格自动换行
\definecolor{customcolor}{RGB}{32,178,170}
\colorlet{coverlinecolor}{customcolor}
\begin{document}
\maketitle
\frontmatter
\chapter*{特别声明}
\markboth{Introduction}{前言}
自 2017 年7月,我开始写《应用计量经济学讲稿》以来,它受到很多学生和老师的喜爱,甚至有一些老师将其作为授课的参考资料。这让我大受鼓舞。
我爱人在澳大利亚国立大学留学期间推荐我看\textcolor{bule}{Stock and Watson(2016}的《Econometrics》。我看后爱不释手,当初的感觉就是怎么有写得这么通熟易懂的计量经济学教材。然后,正值我入职安徽大学前夕,想着为以后的学生写点授课的讲稿,不让学生还要费钱买那些“深奥难懂”的课本——唯一的作用就是在毕业季当做“礼物”送给学弟学妹们,以树立好学长的“形象”。在看完SW的计量经济学后,我果断参考这本教材写了《应用计量经济学讲稿》。
入职安徽大学一年后,我将这份计量经济学讲稿分享出来。
非常欢迎大家给我们提出有益意见和建议。个人和机构可以利用本讲稿进行教学活动,但请不要用于商业目的。版权和最终解释权归许文立所有。当然,文责自负。
\vskip 0.5cm
关注“宏观经济研学会”微信公众号的人可能有所了解,我的做事风格就是,深怕没人学我会的东西。因此,我也想再次呼吁大家:为了中国的经济学研究,不要藏着掖着啦,多分享,多奉献。
\vskip 0.5cm
\underline{老师的真正重任应该是让学生超越自己。—— 尤达大师,《星球大战》}
\vskip 1.5cm
\begin{flushright}
许文立\\
18, 9, 2020
\end{flushright}
\tableofcontents
\mainmatter
\chapter{引言}
从经验来看,计量经济学对于老师和学生来说都是一门非常有趣的课程,它甚至是一门受用终身的技能培训课程。\footnote{例如,许多计量微信群、计量微信公众号等等,读者基本是老师和一些对此感兴趣的高年级本科生与研究生。}因为现实世界太复杂,我们不能凭直觉判断事物(变量)之间的关系。例如,
1、\textbf{提高香烟消费税就能有效减少抽烟吗?}
吸烟有害健康!这句话更可能的含义是,吸烟对他人的危害。因为二手烟可能给其他人带去更加严重的健康问题。因此,吸烟是一个全球面临的公共健康问题,随处可见禁止吸烟标识。经济理论告诉我们,治理外部性的一种方法是征税。目前,中国烟草企业缴税包括:烟草税、消费税、增值税、城市维护建设税、教育费附加、进口关税、企业所得税。2015年烟草消费税从5\%提高到11\%,以期控烟。
经济理论告诉我们,烟草消费税提高,烟草价格上升,从而导致烟草需求量下降。但是经济理论不能告诉我们,消费税率提高1个百分点,烟草需求量下降多少。
2、\textbf{小班教学能提高教育产出吗?}
发达国家提倡小班教学,认为这样能改善教学效果,提高学生的教育产出。这几年,中国也越来越重视小班教学,例如,“应用经济学人才卓越班”,全班20 多人,大部分课程都单独授课。这样每个学生都可以得到老师更多的关注(当然,肯定有一些学生不希望老师太关注他),课堂讨论也能更充分,学习效果更好,学生成绩也能提高。
但是,真的是这样的吗?小班教学就意味着要雇佣更多的老师,建筑更多的教室,购买更多的教学设备等等,那么,校长(或者李院长)就会考虑这种“小班教学”是否“划算”。李院长可能想知道小班教学所带来的益处是什么?有多大?以便能与上述成本进行比较。
常识和日常经验告诉我们,小班教学确实有很大好处。但是常识不能告诉我们这个好处有多大。为了提供一个定量答案,我们必须要进行经验测量,基于数据——班级规模(学生数)与学生成绩——来分析小班教学对学生成绩的影响有多大。
3、\textbf{头发长得快能促进经济增长吗?}
曾经,我的老师们(也就是各位的师公们)经常告诉我们,一定要警惕“伪回归”(\textbf{也就是两个变量之间本来没有因果关系,生拉硬拽的把它们拿来做回归分析})。经常提到的例子是,头发与GDP就是伪回归,头发每天在长,GDP也每天在长,你能说头发促进了经济增长吗?那个时候,小伙子血气方刚,“天下唯我独尊”,我就要这么做回归,爱咋地咋地。咣当,计量经济学不及格!
到现在,我还是这么固执,坚持认为头发跟GDP是有关系的。所以,大家放心,期末不会不及格,除非你们交白卷。为什么头发生长会促进GDP?因为头发长出来了,你要去剪头发,理发所支付的费用会核算进GDP中,因此,你头发长得快,剪头发频率高,GDP就会增长越快。(当然,要是像某些女孩子一样,头上顶个碗,对着镜子自己动手剪刘海,那就不算GDP了)
4、\textbf{央行降低利率对GDP、消费、投资等的影响有多大?}
央行的货币政策(利率)对投资、消费会产生影响,进而影响到经济增长。但是这个效应分别为多大呢?这就需要用计量经济学去评估。
计量经济学就是定量的来回答这些看似复杂的问题。计量经济学为我们理解复杂的世界打开了一扇窗。
\section{计量经济学是什么?}
\begin{flushleft}
% \justifying
计量经济学(Econometrics)一词据说是由挪威经济学家R. Frisch(1895-1973)\footnote{Frisch是计量经济学会三个主要创始人之一,也是Econometrica杂志的首任主编,同时也是1969年第一届诺贝尔经济学奖的共同获得者。}创造出来的。Frisch在Econometrca第一卷的卷首语中写道(Econometrica,1933,1,pp.1-2):
\item[-] 经济理论与统计学和数学之间联系的进展;
\item[-] 经济问题的理论定量研究和经验定量研究;
\item[-] 计量经济学与经济统计学、数学在经济学中的应用不是一回事;
\item[-] 经验显示统计学、经济理论和数学都很重要,只有它们相互结合才能对现实世界的经济关系有更好的理解;
\item[-] 正是这三者的结合构成了计量经济学。
\par Frisch的这些定义在今天仍然适用,只是在某些用法方面可能发生了一些变化。\textbf{计量经济学}就是综合利用经济模型、数理统计和经济数据来分析经济问题。Stock and Watson(2015,Introduce to Econometrics Updated 3rd)说:“计量经济学是利用经济理论和数理统计技术来分析经济数据。”它可以分为两类:
(1)\textbf{计量经济理论,或者理论计量经济学}包括工具和方法的发展,以及对方法性质的研究;
(2)\textbf{应用计量经济学}描述了定量经济学的发展,以及利用经济数据来应用这些模型。
\end{flushleft}
\section{计量经济学的方法}
\begin{flushleft}
现代计量经济学的统一方法是由挪威经济学家T. Haavelmo(1911-1999)\footnote{T. Haavelmo是1989 年诺贝尔经济学奖得主。}开创的。1944年他在Econometrica上发表“The probability approach in econometrics”。他认为定量经济模型就是一个概率模型,因此,要在经济模型中加入随机性。那么,对经济模型的量化、估计和推断的恰当方法必须要以数理统计学为基础。这就是计量经济学的\textbf{概率方法}。
Haavelmo的概率方法很快就被经济学专业接受,发展,并广为传播。因此,当今的经济学定量研究离不开概率方法。
但是,最接近Haavelmo原始想法的并不是概率方法,而是\textbf{结构方法}。通常,计量经济模型和定量分析都是在模型正确设定的假设下进行的。\textbf{结构方法}则引出了似然分析,例如极大似然估计(MLE)和贝叶斯估计(BE)。但是结构方法最大的缺点是认为经济模型设定正确。
但是,更准确的是,我们应该把模型当做现实世界的一种抽象和近似。因此,推断的\textbf{准结构方法}就把模型当做一种近似,而非真实的。这种理论引出了“伪真实值”(pseudo-true value)、拟似然函数、拟MLE和拟似然推断。
与此紧密联系的是\textbf{半参数方法}。概率经济模型是一种局部设定模型,有一些经济特征并没有被设定。这种方法发展了最小二乘(LS)、广义矩方法(GMM)。这也是本课程主要关注的方法。
定量结构模型的另一个分支就是\textbf{校准方法}。与准结构方法相似,校准方法把模型理解为一种近似。它们之间的区别在于,校准方法拒绝统计推断,而是用模型与数据矩匹配的方法来选择参数。这是宏观计量中的主要方法。
\end{flushleft}
\section{计量经济学概念}
\begin{flushleft}
% \justifying
最常用的计量经济学概念就是\textbf{数据、数据集和样本}。它们是一系列可描述的信息,例如劳动收入、学习成绩、年龄、投资额和GDP等。
经济学家总是面对着有关变量的一系列重复测量值。而对于变量的不同重复测量,我们称为\textbf{观测值}。
经济学家通常用x,y和/或z来表示观测值。计量经济学中,通常用y来表示\textbf{被解释变量/因变量},而x和z表示\textbf{解释变量/自变量}。实数用小写字母表示,例如y;向量用粗体小写字母表示,例如\textbf{x}。例如,
\begin{equation}
\textbf{x}=
\left(
\begin{array}{c}
x_1\\
x_2\\
x_3\\
.\\
.\\
.\\
x_k
\end{array}
\right)
\end{equation}
加粗大写字母\textbf{X}表示矩阵。
带下标i(有时候也用j或其它字母表示)的变量表示观测值,例如
y$_i$,
x$_i$和
z$_i$。此外,带时间下标t的变量表示时间序列观测值。面板数据观测值带有it下标。
\begin{center}
\begin{tabular}{|l|}
\hline
第i个\textbf{观测值}是(y$_i$,x$_i$,z$_i$)。样本是{(y$_i$,x$_i$,z$_i$):i=1,⋯⋯,n}的集合。\\
\hline
\end{tabular}
\end{center}
小写希腊字母$\beta$,$\theta$等表示计量模型的未知参数。加粗希腊字母\textbf{$\beta$},\textbf{$\theta$}表示系数向量。
\textbf{回归模型}——微观计量中最主要的模型——量化一个变量发生变化导致另一个变量的变化程度。这里一个变量变化导致另一个变量变化就是\textbf{因果效应},例如,在红薯地里施肥会产出更多的红薯。测量因果效应的一种方法就是进行试验:在气候条件、土壤条件、土地面积等等相同的情况下,给一块地施肥1kg,而其余的地则不施肥。而哪块地施肥则是由抽签随机决定的。等到秋收季节,我们把红薯挖出来,施肥的红薯与没施肥的红薯之间的重量差就是施肥所带来的增产效应。这就是\textbf{随机控制实验},没有施肥的地块是
\textbf{控制组},施肥的地块是\textbf{处理组}。
\end{flushleft}
\section{数据、数据结构与数据来源}
\subsection{观测数据}
\begin{flushleft}
计量经济学通常就是量化一个变量对另一个变量的影响。例如,企业所得税对企业投资的影响。
从自然科学的角度来看,最理想的情形就是利用实验数据来回答这些问题。但是,经济学,或者社会科学中,做实验,要么成本很大,我们不能让一个企业缴纳30\%税率,另一个企业只缴纳10\%税率;要么,不道德,教育的影响,让一部分孩子不上学,这太不道德了。
因此,大多数的经济数据是可观测数据。(注意:目前的实验经济学是可以得到某些实验数据的。)例如,我们通常能收集到教育与工资的记录数据,据此,我们可以测算两个变量的联合分布。但我们并不能从观测数据中推断它们之间的因果关系。因为我们不能操纵个人教育层次和年限,来观测他的不同工资结果。
\end{flushleft}
\subsection{数据结构}
五种主要的数据结构:
(1)截面数据
(2)时间序列数据
(3)面板数据
(4)聚类数据:与面板数据相关。在聚类抽样中,观测值被归类——类别间相互独立,类别中相关。与面板数据的主要差别在于,聚类抽样并不显性建模误差结构。
(5)空间数据:根据空间指标而具有相互依赖性。
\subsection{数据来源}
目前,有许多公开的数据来源:
(1)国家统计局
(2)各种类型的统计年鉴
(3)CGSS
(4)其它微观调研数据
\section{计量软件}
目前,有许多计量软件:
(1)Stata
(2)Eviews
(3)R
(4)Matlab
(5)Python
(6)其它软件
\section{进一步阅读资料}
\chapter{概率与统计基础}
\section{概率论}
在本讲中,我会向大家介绍回归分析、结构分析和计量经济学中用到的核心概率与统计理论。我们生活在一个无处不随机的世界中。而概率论为量化和描述随机性提供了有用的工具。
\subsection{单变量分布}
\subsubsection{基本概念}
\textbf{结果(outcomes)}是一个随机过程中许多相互排斥的潜在结果(results)。例如,明天某一时刻的天气可能是晴天,可能是多云,可能是阴天,也可能是狂风暴雨。这些不同的天气情况就是结果(outcomes),但是只有其中一个结果(outcomes)会发生。而且,通常每种结果都不是等可能性发生的。而\textbf{概率}就是一种结果(outcome)在长期内出现次数的比例。例如,在你们写作课程论文期间,电脑宕机的概率为20\%,也就是说,你们在未来写100篇论文的时候,会有20篇论文写作过程中,电脑“挂”了(这个故事除了告诉我们概率的含义外,还提醒我们要注意时刻记得保存、备份重要文档)。
所有可能结果(outcomes)的集合成为\textbf{样本空间}。样本空间的子集成为\textbf{事件}。例如,“写论文过程中电脑宕机不会超过一次”成为一个事件,即电脑宕机次数{0,1}是电脑宕机这个样本空间的一个子集。
\textbf{随机变量}分为\textbf{离散随机变量},例如,0,1,2,3,⋯⋯和\textbf{连续随机变量}。计量经济学中使用的变量大部分为离散随机变量。
离散随机变量的\textbf{概率分布}是所有可能的变量值及其发生的概率列表(所有概率之和等于1)。\textbf{累积概率分布,cumulative probability distribution}就是随机变量小于等于某一特定值的概率,也称为累积分布函数,简写为\textbf{c.d.f.或者累积分布}。例如,电脑宕机的次数M是一个随机变量,每次宕机的概率如表1所示。
\begin{center}
\begin{table}[!h]
\caption{随机变量概率}\label{tab:digit}
\begin{center}
\begin{tabular}{lccccc}
\hline
&\multicolumn{5}{c}{结果(宕机次数)}\\
\cline{2-6}
&0&1&2&3&4\\
\cline{1-6}
概率分布&0.8&0.1&0.06&0.03&0.01\\
\cline{1-6}
累积概率分布&0.8&0.9&0.96&0.99&1\\
\hline
\end{tabular}
\end{center}
\end{table}
\end{center}
一个非常重要的离散分布函数是\textbf{伯努利分布(Bernoulli distribution)}
\begin{figure}[htbp]
\centering
\includegraphics[width=0.7\textwidth]{BF.jpg}
\caption{伯努利分布:来源于百度图片}
\label{fig:digit}
\end{figure}
而连续随机变量的累积概率分布与离散累积概率分布类似。连续随机变量的概率用\textbf{概率密度函数,probability density function}来概述。任何两点之间的概率密度函数所形成的区域就是该随机变量落在这两点之间的概率。概率密度函数可以简写为\textbf{p.d.f.,或者密度函数,或者密度}。
\begin{figure}[htbp]
\centering
\includegraphics[width=0.7\textwidth]{pdf.jpg}
\caption{概率密度函数:来源于Stock and Watson,2015,pp18}\label{fig:digit}
\end{figure}
\subsubsection{主要统计量}
\textbf{期望}
随机变量\emph{Y}的期望用\emph{E(Y)}表示,$\mu_{Y}$,指长期重复试验或发生的随机变量的均值。离散随机变量的期望是所有可能结果的加权平均,权数为每个结果发生的概率。
例如,上面的电脑宕机次数的期望为:
\begin{equation}
\emph{E(M)}=0.8\times0+0.1\times1+0.06\times2+0.03\times3+0.01\times4=0.35
\end{equation}
也就是说,电脑宕机次数的期望为0.35次。需要注意的是,实际电脑宕机次数肯定是一个整数,我们说“写论文期间电脑宕机了0.35次”没有任何意义。而公式(1)的计算结果表明,写论文过程中,电脑宕机的平均次数。那么,随机变量的期望计算公式为
\begin{equation}
\emph{E(Y)}=p_1y_1+p_2y_2+\cdots+p_ky_k=\sum_{i=1}^{k}{p_iy_i}
\end{equation}
\textbf{标准差和方差}
一个随机变量\emph{Y}的方差用$var(\emph{Y})$表示,其计算公式为$var(\emph{Y})=E\left[(Y-\mu_{Y})^2\right]$。
而标准差是方差的开方,用$\sigma_{Y}$表示。
\begin{equation}
\sigma_{Y}^2=var(\emph{Y})=E\left[(Y-\mu_{Y})^2\right]=\sum_{i=1}^{k}{(y_i-\mu_{Y})^2p_i}
\end{equation}
根据公式(3),我们计算电脑宕机次数的方差和标准差为
\begin{equation}
var(\emph{Y})=0.8\times(0-0.35)^2+0.1\times(1-0.35)^2+0.06\times(2-0.35)^2+0.03\times(3-0.35)^2+0.01\times(4-0.35)^2=0.647
\end{equation}
\begin{equation}
\sigma_{Y}=\sqrt{var(\emph{Y})}=\sqrt{0.647}\approx0.80
\end{equation}
\textbf{均值、方差的性质}
(1)$Z=a+bY$,a,b都是常数,那么$E(Z)=E(a+bY)=a+bE(Y)$;
(2)$var(Z)=var(a+bY)=b^2var(Y)$
\textbf{其它分布特征}
分布的特征除了均值和方差(或标准差)外,还有另外两个重要的形状指标:\textbf{峰度}—— 测量尾部有多“厚”,和\textbf{偏度}——测量分布非对称性程度。均值、方差、峰度和偏度都是分布的矩。
一个随机变量Y的分布的峰度计算公式为
\begin{equation}
S(Y)=\frac{E\left[(Y-\mu_{Y})^4\right]}{\sigma_{Y}^4}
\end{equation}
偏度的计算公式为
\begin{equation}
S(Y)=\frac{E\left[(Y-\mu_{Y})^3\right]}{\sigma_{Y}^3}
\end{equation}
\subsection{多变量分布}
大多数经济学问题都是以两个或多个随机变量的形式出现,例如,教育与工作收入、性别与工作收入等等。因此,我们必须了解多个随机变量的联合概率分布、边际概率分布和条件概率分布。
\textbf{联合概率分布}
两个离散随机变量($X,Y$)的联合概率分布就是两个随机变量同时取得某个值(例如,$x,y$)时的概率,其可以写成$Pr(X=x,Y=y)$。
\textbf{边际概率分布}
变量$Y$的边际概率分布仅仅只是Y概率分布的另一个名字,它是为了区分单一变量Y的分布和Y 与其他变量的联合概率分布。从联合概率分布中计算Y的边际概率分布,就是把Y 取某个特定值的所有概率相加。假设X取l个值,Y=y的边际概率分布为
\begin{equation}
Pr(Y=y)=\sum_{i=1}^{l}{Pr(X=x_i,Y=y)}
\end{equation}
\textbf{条件概率分布}
给定X的值,随机变量Y的概率分布就叫做Y的条件概率分布,表示为$Pr(Y=y|X=x)$。条件概率分布的计算公式为:
\begin{equation}
Pr(Y=y|X=x)=\frac{Pr(X=x,Y=y)}{Pr(X=x)}
\end{equation}
\textbf{条件期望}
给定X,Y的条件期望,也称为给定X,Y的条件均值,是给定X,Y的条件分布的均值。已知X=x条件下,Y的条件期望为
\begin{equation}
E(Y|X=x)=\sum_{i=1}^{k}{y_iPr(Y=y_i|X=x)}
\end{equation}
\textbf{期望迭代法则}
Y的均值是给定X的条件下Y的条件期望的加权平均,而权重是X的概率分布。数学表达式为
\begin{equation}
E(Y)=\sum_{i=1}^{k}{E(Y|X=x_i)Pr(X=x_i)}
\end{equation}
换句话说,Y的期望就是给定X条件下,Y的期望的期望
\begin{equation}
E(Y)=E[E(Y|X)]
\end{equation}
公式(12)右边的内部期望是给定X条件下Y的条件期望,而外部期望是利用X的边际分布计算得到。而(12)就是期望迭代法则。
需要注意的是,如果给定X条件下Y的条件期望为0,那么,Y的均值也为0。证明:$E(Y|X)=0$,$E(Y)=E[0]=0$,证毕。
\textbf{条件方差}
基于X的Y的条件方差是给定X的条件下Y的的概率分布的方差。公式为
\begin{equation}
var(Y|X=x)=\sum_{i=1}^{k}{[y_i-E(Y|X=x)]^2Pr(Y=y_i|X=x)}
\end{equation}
\textbf{相互独立}
两个随机变量X和Y,如果在不提供一个随机变量的信息情况下,能得出另一个随机变量的值,那么,称X,Y独立分布,或者相互独立。尤其是,如果给定X的条件下Y的条件分布等于Y的边际分布,那么X,Y相互独立,即对于所有的x,y,如果
\begin{equation}
Pr(Y=y|X=x)=Pr{Y=y}
\end{equation}
那么,X和Y相互独立。
把等式(14)代入公式(9)中,得到X和Y独立的另一个等价条件:\begin{equation}
Pr(X=x,Y=y)=Pr(X=x)Pr(Y=y)
\end{equation}
也就是说,两个独立随机变量的联合分布就是它们的边际分布之积。
\textbf{协方差和相关}
\textbf{协方差}是测度两个随机变量共变程度的一种指标。通俗地说就是,你变,我也变,绝对值越大,说明我们两个越“心有灵犀”。X和Y的协方差是X与其均值之差乘以Y与其均值之差的期望,用$cov(X,Y)$表示。数学公式为
\begin{equation}
cov(X,Y)=\sigma_{XY}=E[(X-\mu_x)(Y-\mu_Y)]=\sum_{i=1}^{k}{\sum_{j=1}^{l}{(x_j-\mu_X)(y_i-\mu_Y)Pr(X=x_j,Y=y_i)}}
\end{equation}
如果两个随机变量同方向变动,那么,协方差为正;如果反方向变化,则协方差为负;如果相互独立,则协方差为0。
由于协方差的单位为X的单位乘以Y的单位,因此,协方差的数值难以理解。为了解决“单位”问题,另一种表示X和Y之间相互依赖程度的测量指标就是\textbf{相关系数},即协方差除以标准差之积:
\begin{equation}
corr(X,Y)=\frac{cov(X,Y)}{\sqrt{var(X)var(Y)}}=\frac{\sigma_{XY}}{\sigma_X\sigma_Y}
\end{equation}
当$corr(X,Y)=0$,就说X和Y不相关。相关系数总是处于-1和1之间。
如果Y的条件均值不依赖于X,那么,X和Y不相关。
需要注意的是,独立,一定不相关;但不相关,不一定独立。
分布特征的性质:
(1)$E(X+Y)=E(X)+E(Y)=\mu_X+\mu_Y$
(2)$var(X+Y)=var(X)+var(Y)+2cov(X,Y)=\sigma_{X}^2+\sigma_{Y}^2+2\sigma_{XY}$
(3)$E(X^2)=\sigma_X^2+\mu_Y^2$
(4)$E(XY)=\sigma_{XY}+\mu_X\mu_Y$
\subsection{常用分布}
计量经济学中最常用的概率分布是正态分布、卡方分布、t分布和F分布。
\subsubsection{正态分布}
正态分布的 连续随机变量有钟型概率密度形状,如图3所示。
\begin{figure}[htbp]
\centering
\includegraphics[width=0.7\textwidth]{normal.jpg}
\caption{正态概率密度函数:来源于Stock and Watson,2015,pp36}\label{fig:digit}
\end{figure}
\textbf{数学定义:}一个连续随机变量$x_i$的概率密度函数为
\begin{equation}
f(x_i)=\frac{1}{\sqrt{2\pi\sigma^2}}e^{-\frac{1}{2\sigma^2}}(x_i-\mu)^2
\end{equation}
遵循正态分布,且均值为$\mu$,方差为$\sigma^2$。
由上述数学定义可以看出,正态分布有两个参数,均值$\mu$,方差$\sigma$,因此,正态分布又可以表示为$N(\mu,\sigma^2)$。而其中,$\mu$又可以叫做尺度参数(scale parameter),$\sigma$称为形状参数(shape parameter)。 (注意:尺度参数和形状参数在后面的DSGE模型的贝叶斯估计中经常用到。大家知道有这些名称即可。)由此,可以定义\textbf{标准正态分布},即均值为0,方差为1的正态分布$N(0,1)$,通常用Z表示。标准正态积累分布方程用大写希腊字母表示$\Phi$,$Pr(Z\le{c})=\Phi(c)$。标准正态分布函数的图形如图4所示。
\begin{figure}[htbp]
\centering
\includegraphics[width=0.7\textwidth]{snormal.jpg}
\caption{标准正态分布函数:来源于Brown,2010}\label{fig:digit}
\end{figure}
从图3和图4中可以看到,正态分布的图形是在均值$\mu$处对称的。从图3中还可以看出,随机变量值落在均值附近$\pm2\sigma$区间内的概率为0.95。
我在前面的1.1.2节给出了均值和方差的性质。这些内容也可以理解为随机变量的线性转换。即$x_i$是正态随机变量,那么它的线性变换$y_i$也是正态分布。且两个正态随机变量的线性组合仍然为正态分布。
如果$x_i$是独立、同分布(iid)的正态随机变量,那么
\begin{equation}
\overline{x}_i~N(\mu_x,\frac{\sigma^2}{n})
\end{equation}
\textbf{任何一个正态随机变量都可以通过线性变换转换成标准正态随机变量。这一过程称为变量标准化。}这也为不同均值方差的正态分布的概率计算带来了方便。\textbf{变量标准化}就是随机变量减去均值,然后除以标准差。
例1:假设$Y~N(1,4)$,求$Pr(Y\le2)$
$\frac{(Y-1)}{\sqrt{4}}=\frac{1}{2}(Y-1)$
$Y\le2$等价于$\frac{1}{2}(Y-1)\le{\frac{1}{2}(2-1)}$
$Pr(Y\le2)=Pr[\frac{1}{2}(Y-1)\le{\frac{1}{2}}]=Pr(Z\le{\frac{1}{2}})=\Phi(0.5)=0.691$
$\Phi(0.5)=0.691$可以从临界值表中查询。
下面,我们来看看,正态分布变换成标准正态分布的正式数学过程:
(1)首先,标准化
$Z=\frac{\overline{x}-\mu_x}{\sqrt{\frac{\sigma_x^2}{n}}}=\frac{\overline{x}}{\sqrt{\frac{\sigma_x^2}{n}}}-\frac{\mu_x}{\sqrt{\frac{\sigma_x^2}{n}}}$
(2)Z的均值
$EZ=\frac{E\overline{x}}{\sqrt{\frac{\sigma_{x}^{2}}{n}}}-\frac{\mu_x}{\sqrt{\frac{\sigma_{x}^{2}}{n}}}=\frac{\mu_x}{\sqrt{\frac{\sigma_{x}^{2}}{n}}}-\frac{\mu_x}{\sqrt{\frac{\sigma_{x}^{2}}{n}}}=0$
(3)Z的方差
$Var(Z)=E(\frac{E\overline{x}}{\sqrt{\frac{\sigma_{x}^{2}}{n}}}-\frac{\mu_x}{\sqrt{\frac{\sigma_{x}^{2}}{n}}})^2=E[\frac{n}{\sigma_x^2}(\overline{x}-\mu_x)^2]=\frac{n}{\sigma_x^2}\frac{\sigma_x^2}{n}=1$
正态分布在统计学中非常的重要。不仅是因为许多随机变量都遵循正态分布,而且更重要的是,任何样本随着其样本规模的增大,样本均值趋向于服从正态分布,这就是\textbf{中心极限定理}。
\subsubsection{卡方分布}
\textbf{卡方分布}是m个标准正态随机变量的平方和的分布,常用于检验某些类型的假设。其中,m称为自由度。例如,$Z_1$,$Z_2$,$Z_3$是标准正态随机变量,那么,$Z_1^2+Z_2^2+Z_3^2$就是一个自由度为3的卡方分布。一个自由度为m的卡方分布表示为:$\chi_m^2$。下面给出卡方分布的正式定义:
\textbf{定义:}假设$Z_1$,$Z_2$,$Z_3$,$\cdots$,$Z_n$是一组简单的随机样本,且服从$Z_i~N(0,1)$,那么,
\begin{equation}
\sum_{i=1}^n{Z_i}~\chi_n^2
\end{equation}
其中,n为卡方分布的自由度。
$\chi_n^2$的概率密度函数为
\begin{equation}
f_{\chi^2}(x)=\frac{1}{2^{\frac{n}{2}}\Gamma(\frac{n}{2})}x^{\frac{n}{2}-1}e^{\frac{-x}{2}},x\geq0
\end{equation}
其中,$\Gamma(x)$是伽马函数。如果任意一个服从正态分布的随机变量$x_i~N(\mu_x,\sigma_x^2)$,都有
\begin{equation}
\sum_{i=1}^n{(\frac{x_i-\mu}{\sigma})^2}~\chi_n^2
\end{equation}
卡方分布如图5所示。
\begin{figure}[htbp]
\centering
\includegraphics[width=0.7\textwidth]{chi.jpg}
\caption{卡方分布函数:来源于Brown,2010}\label{fig:digit}
\end{figure}
\subsubsection{t分布}
\textbf{t分布},也称为\textbf{学生t分布}是标准正态分布与自由度m的卡方分布除以m再开方的比率。用$t_m$表示。
\textbf{定义:}假设$Z_i~N(0,1)$,$Y~\chi_m^2$,且Z和Y相互独立,那么,
\begin{equation}
\frac{Z}{\sqrt{\frac{Y}{m}}}~t_m
\end{equation}
其中,m为t分布的自由度。t分布的概率密度函数如图6所示。
\begin{figure}[htbp]
\centering
\includegraphics[width=0.7\textwidth]{t.jpg}
\caption{t分布函数:来源于Brown,2010}\label{fig:digit}
\end{figure}
t分布也是钟型图案,类似于正态分布。但是当自由度较小(20或更小),更多落在尾部,也就说t分布比正态分布更扁平;当自由度大于等于30时,t分布近似于正态分布,而$t_{\infty}$ 等价于正态分布。
\subsubsection{F分布}
自由度为m,n的\textbf{F分布}\footnote{F分布是以伟大的统计学家Sir Ronald A. Fisher的名字命名的}是一个自由度为m的卡方随机变量除以m比上自由度为n的卡方随机变量除以n 的比值,表示为$F_{m,n}$。
\textbf{定义:}假设$Y~\chi_m^2,W~\chi_n^2$,且Y和W相互独立,那么,
\begin{equation}
\frac{Y/m}{W/n}~F_{m,n}
\end{equation}
其中,m,n是F分布的自由度。
注意:(1)如果x服从t分布,$x^2$服从F分布。(2)当分母的自由度趋向无穷时,$\frac{Y}{m}~F_{m,\infty}$。F分布的图形如图7所示。
\begin{figure}[htbp]
\centering
\includegraphics[width=0.7\textwidth]{F.jpg}
\caption{F分布函数:来源于Brown,2010}\label{fig:digit}
\end{figure}
\subsection{随机抽样与大样本近似}
\subsubsection{随机抽样与样本矩}
随机抽样就是从一个更大的总体中随机抽取一个样本。这个过程为了使样本均值(见1.3.1节)本身成为一个随机变量。那么,就可以探讨样本均值的分布——\textbf{抽样分布}。
\textbf{简单随机抽样}是指从总体N个单位中任意抽取n个单位作为样本,使每个可能的样本被抽中的概率相等的一种抽样方式。
因为$Y_1,Y_2,\cdots,Y_n$是从总体中随机抽取,因此,每一个样本$Y_i$的边际概率分布都相同,都与总体Y的分布相同。当$Y_i$有相同的边际概率分布时,我们称$Y_1,Y_2,\cdots,Y_n$ 为\textbf{同分布}。
在简单随机抽样下,已知Y1的值并不能为Y2提供任何信息。因此,给定Y1条件下,Y2的条件概率分布与Y2的边际概率分布相同。也就是说,在简单随机抽样下,Y1的分布独立于Y2的分布。当$Y_1,Y_2,\cdots,Y_n$来自于相同的总体,又独立分布时,我们称为\textbf{独立同分布(i.i.d)}。
考虑随机样本${Y_1,Y_2,\cdots,Y_n}$,假设$EY_i=\mu$,$Var(Y_i)=\sigma^2$。定义$S=Y_1+Y_2+\cdots+Y_n$为样本和。那么,
\begin{equation}
ES=E(Y_1+Y_2+\cdots+Y_n)=EY_1+EY_2+\cdots+EY_n=n\mu
\end{equation}
\begin{equation}
Var(S)=E(S-ES)^2=E(Y_1+Y_2+\cdots+Y_n-n\mu)^2=E[\sum_{i=1}^n{(Y_i-\mu)}=n\sigma^2
\end{equation}
定义\textbf{样本均值}为$\overline{Y}=\frac{\sum_{Y_i}}{n}$。那么,
\begin{equation}
E\overline{Y}=E\frac{S}{n}=\frac{1}{n}ES=\frac{1}{n}n\mu=\mu
\end{equation}
\begin{equation}
Var(\overline{Y})=E(\overline{Y}-\mu)^2=E(\frac{S}{n}-\mu)^2=frac{1}{n^2}E(S-n\mu)^2=\frac{\sigma^2}{n}
\end{equation}
\subsubsection{大样本近似}
目前,有两种方法刻画抽样分布:精确法和近似法。
精确分布又称有限抽样分布。
“近似法”利用近似式来表达抽样分布,这种方法依赖于大样本规模。抽样分布的大样本近似通常称为\textbf{渐近分布}——“渐近”是因为随着n趋向于无穷,近似就变成精确了。
注意:即使样本只有30个观测值,近似也非常精确。因为计量经济学中的观测值通常达到成百上千,因此,渐近分布能为精确抽样分布提供一个较好的近似。
当样本很大的时候,两个法则很关键:大数法则和中心极限定理。
\textbf{大数法则}是当样本规模很大时,$\overline{Y}$以很高的概率接近于$\mu_Y$。
\textbf{中心极限定理}是当样本规模很大时,标准化样本均值的抽样分布,$\frac{(\overline{Y}-\mu_Y)}{\sigma_{\overline{Y}}}$,近似服从正太分布。
因此,渐近正态分布并不依赖于Y的分布。渐近理论为回归分析提供了极大的简化。
\subsection{小结}
1、The probabilities with which a random variable takes on different values are summarized by the cumulative distribution function, the probability distribution function (for discrete random variables), and the probability density function (for continuous random variables).
2、The expected value of a random variable Y (also called its mean, mY),denoted E(Y), is its probability-weighted average value. The variance of Y
is $\sigma_Y^2=E[(Y-\mu_Y)^2]$, and the standard deviation of Y is the square root of its variance.
3、The joint probabilities for two random variables X and Y are summarized by their joint probability distribution. The conditional probability distribution of Y given X = x is the probability distribution of Y, conditional on X taking on the value x.
4、A normally distributed random variable has the bell-shaped probability density in Figure 4. To calculate a probability associated with a normal random variable, first standardize the variable and then use the standard normal cumulative distribution.
5、Simple random sampling produces n random observations $Y_1,\cdots,Y_n$ that are independently and identically distributed (i.i.d.).
6、The sample average, Y, varies from one randomly chosen sample to the next
and thus is a random variable with a sampling distribution. If $Y_1,\cdots,Y_n$ are
i.i.d., then:
a. the sampling distribution of $\overline{Y}$ has mean $\mu_Y$ and variance $\sigma_{\overline{Y}}^2=\frac{\sigma_{Y}^2}{n}$;
b. the law of large numbers says that $\overline{Y}$ converges in probability to $\mu_Y$; and
c. the central limit theorem says that the standardized version of $\overline{Y}$,
$\frac{(Y-\mu_Y)}{\sigma_{\overline{Y}}}$, has a standard normal distribution [N(0,1) distribution] when n is large.
\section{统计学概述}
\textbf{统计学}是应用数据来了解我们所生活世界的一门科学(Stock and Watson,2015)。统计工具能提供一些我们关注的总体分布特征。
我们对整个世界,或者整个中国经济、社会、人口感兴趣。但是,以目前的技术水平,我们不可能去调查14人口,因为调查总体的成本非常大。但我们又想知道总体分布特征,怎么办?统计学的主要任务就是来解决这个问题。回忆一下,前一节讲过的随机抽样。我们只需要从总体中随机抽取样本,然后,利用统计方法,结合随机样本信息来推断总体分布特征。这样也可以得到一个较为满意的近似结果。
计量经济学中使用的统计方法主要有三种:估计、假设检验与置信区间。\textbf{估计}就是从样本数据中,为一个总体分布特征——均值、方差等——计算出一个“最佳猜测”值。
\textbf{假设检验}就是提出一个假设,然后用样本证据来验证假设是否为真。\textbf{置信区间}就是利用一组样本数据来估计未知总体分布特征的范围或区间。
\subsection{估计}
再次回忆一下随机抽样,从总体中随机抽取的样本$Y_1,\cdots,Y_n$是独立同分布(i.i.d.),且与总体Y同分布,那么,样本均值$\overline{Y}$就能很自然地被当作是总体均值$\mu_Y$。这种样本均值也称为总体均值的\textbf{估计量}\footnote{估计量(estimator)是数据样本的一个函数;估计(estimate)则是估计量的数值。}。
但是,计算样本均值$\overline{Y}$是得到总体均值估计量的唯一一种方式吗?答案是否定的。$Y_1,\cdots,Y_n$都是与Y同分布,那么,$Y_1$也可以作为总体均值的一个估计量。以此类推,事实上,$\mu_Y$的估计量很多。那么,我们如何判断一个估计量比另一个估计量“更好”呢?我们前面讲过,抽样随机变量和样本均值都有概率分布,那么,这个问题还可以表达成:一个估计量的合意分布特征是什么呢?
既然,我们是从样本信息中推断未知总体分布特征。那么,最合意的结果肯定是,样本估计量尽可能的接近总体分布“真值”。由此,可以给出,合意结果的三个特征:
\textbf{无偏性}、\textbf{一致性}和\textbf{有效性}。注意,在后面的回归分析中,这三个特征非常非常重要。
\textbf{无偏性}~~~如果你通过重复抽样来评估一个估计量,一般来说,你会得到一个“真值”。因此,一个估计量的合意性质就是要使其抽样分布均值等于总体均值$\mu_Y$。 如果是这样,那么,我们就称这个估计量\textbf{无偏}。用$\hat{\mu_y}$来表示$\mu_Y$的估计量。用$E(\hat{\mu_y})$表示估计量抽样分布的均值。如果$E(\hat{\mu_y})=\mu_Y$,那么,估计量$\hat{\mu_y}$是无偏的,反之亦然。
\textbf{一致性}~~~当样本量很大时,由样本的随机变动引起的$\mu_Y$值的不确定性就非常小。也就是说,$\hat{\mu_y}$落入真值$\mu_Y$的一个较小区间内的概率随着样本量的增长而接近于1。即是说,$\hat{\mu_y}$是$\mu_Y$的一致估计。
\textbf{有效性}~~~如果你有两个无偏的估计量$\hat{\mu_y}$和$\tilde{\mu_Y}$,那么,你会如何选择?此时,你应该选择最小方差的估计量。如果$\hat{\mu_y}$的方差比$\tilde{\mu_Y}$更小,就说明$\hat{\mu_y}$ 比$\tilde{\mu_Y}$更有效\footnote{“有效性”这这个术语源于,如果$\hat{\mu_y}$比$\tilde{\mu_Y}$方差更小,那么,$\hat{\mu_y}$能更有效的利用数据信息}。
下面,我们来看看样本均值$\overline{Y}$是否满足上述估计量的三个标准。
(1)样本均值等于总体均值已经在1.4.1节证明$\overline{Y}=\mu$,因此,样本均值是无偏的。
(2)根据大数法则,见1.4.2节,样本规模越大,$\overline{Y}$以很大概率接近$\mu$,因此,样本均值是一致的。
(3)那怎么判断$\overline{Y}$是有效的估计量呢?回忆一下,我在前面提到过,$\mu_Y$的估计量还有很多,例如$Y_1,Y_2,\cdots,Y_n$。我们现在选择用$Y_1$与$\overline{Y}$进行比较。首先,$Y_1$与$\overline{Y}$都是无偏估计。而$Y_1$的方差为$Var(Y_1)=\sigma_Y^2$。 根据1.4.1节,$\overline{Y}$的方差为$\frac{\sigma_Y^2}{n}$。只要$n\ge2$,那么,$\overline{Y}$的方差就小于$Y_1$的方差,因此,$\overline{Y}$是有效估计量。
综上所述,我们也把样本均值$\overline{Y}$称为最优线性无偏估计(\textbf{B}est \textbf{L}inear \textbf{U}nbiased \textbf{E}estimator,\textbf{BLUE})。
此外,还有一点非常重要,那就是随机抽样的重要性。虽然我们不能实施一个完全随机的抽样,但是我们设计的抽样要尽可能降低偏误。
\subsection{假设检验}
待检验的假设成为\textbf{原假设}。假设检验就是用数据来比较原假设与另一个假设——\textbf{备择假设}。如果原假设不成立,那么,备择假设成立。在统计学中,原假设通常为总体均值等于某一特定值,用$H_0$表示,即
\begin{equation}
H_0:E(Y)=\mu_{Y,0}
\end{equation}
最常用的备择假设为$H_1:E(Y)\neq\mu_{Y,0}$,这种类型被称为\textbf{双向备择假设},因为该假设允许$E(Y)$要么大于特定值,要么小于特定值。
统计学理论将会告诉我们如何利用样本数据来判断是否接受$H_0$,还是接受$H_1$。
现实中,我们不可能知道总体均值,只能用随机抽样的样本均值$\overline{Y}$代替。那么,$\overline{Y}$不可能精确地等于$\mu_{Y,0}$。$\overline{Y}$与$\mu_{Y,0}$之间的差异,要么是因为真实均值并不等于$\mu_{Y,0}$(原假设为假),要么因为真实均值等于$\mu_{Y,0}$ (原假设为真)但由于随机抽样使得$\overline{Y}$与$\mu_{Y,0}$ 不等。这两种可能性,几乎区分不了,但我们可以计算一个概率来允许检验原假设。即利用数据来计算原假设的p值。
\textbf{p值,也称为显著性概率}是利用样本数据计算的一个对原假设不利的概率值。也就是说,p值越小,结果越显著。其数学定义为
\begin{equation}
p-value=Pr[|\overline{Y}-\mu_{Y,0}|\geq|\overline{Y}^{act}-\mu_{Y,0}|]
\end{equation}
其中,$\overline{Y}^{act}$表示用实际数据计算的样本均值,$Pr_{H_0}$原假设下计算的概率。也就是说,p值是$\overline{Y}$的分布尾部超出$\mu_{Y,0}\pm|\overline{Y}^{act}-\mu_{Y,0}|$的区域。如果p值越大,观测到的$\overline{Y}^{act}$就与原假设一致,如果p较小,则拒绝原假设。
\begin{figure}[htbp]
\centering
\includegraphics[width=0.7\textwidth]{p.jpg}
\caption{p值:来源于Stock and Watson,2015,pp74}\label{fig:digit}
\end{figure}
\textbf{t统计量}
\begin{equation}
t=\frac{\overline{Y}-\mu{Y,0}}{SE(\overline{Y})}
\end{equation}
当样本规模很大时,t的分布近似于标准正态分布$N(0,1)$
在假设检验中通常犯两类错误:(1)\textbf{第一类错误},原假设为真时却被拒绝;(2)\textbf{第二类错误},原假设为假时却没有拒绝。
如果你选择拒绝原假设(为真)的预设概率水平(例如,5\%),那么,只有p 值小于0.05时才拒绝原假设。在实践中,5\%对应的标准正态分布的尾部区域是$\pm1.96$之外的区域,即简单规则为
\begin{equation}
如果|t^{act}|\geq1.96,拒绝H_0
\end{equation}
也就是说,第一类错误的预设概率就是检验的\textbf{显著性水平}。
实践中,常用的显著性水平有:10\%、5\%、1\%、0.1\%。
\subsection{置信区间}
总体均值的95\%置信区间就是真值有95\%的概率落入该区间。当样本规模很大时,90\%、95\%、99\%对应的置信区间为
\begin{center}
$90\%:\mu_Y=[\overline{Y}\pm{1.64E(\overline{Y})}]$\\
$95\%:\mu_Y=[\overline{Y}\pm{1.96E(\overline{Y})}]$\\
$99\%:\mu_Y=[\overline{Y}\pm{2.58E(\overline{Y})}]$
\end{center}
\section{贝叶斯统计概述}
贝叶斯(T. Bayes,1702-1763)是英国数学家。他首先将归纳推理法用于概率论基础理论,并创立了贝叶斯统计理论,对于统计决策函数、统计推断、统计估算等作出了重要贡献。
贝叶斯于1763年在英国皇家学会学报上发表“An essay towards solving a problem in the doctrine of chances"。该文中提出的二项分布参数推断方法后来被称为贝叶斯定理。贝叶斯公式
\begin{equation}
P(A|B)=\frac{P(A)P(B|A)}{P(B|A)P(A)+P(B|A^c)P(A^c)}
\end{equation}
看上去贝叶斯公式只是把 A 的后验概率转换成了 B 的后验概率 + A 的边缘概率的组合表达形式,因为很多现实问题中$P(A|B)$很难直接观测,但是$P(B|A)$和$P(A)$却很容易测得,利用贝叶斯公式可以方便我们计算很多实际的概率问题。
具体可以参见:
(1)朱慧明,林静. 2009,《贝叶斯计量经济模型》,科学出版社
(2)Koop, G., Poirier, D. J., Tobias, J. L. (2007). Bayesian econometric methods. Cambridge University Press.
(3)Geweke, J. (2005). Contemporary Bayesian econometrics and statistics (Vol. 537). John Wiley and Sons.
(4)Koop, G., Korobilis, D. (2010). Bayesian multivariate time series methods for empirical macroeconomics. Foundations and Trends? in Econometrics, 3(4), 267-358.
\section{附录}
\chapter{一元线性回归}
2015年,政府提高香烟消费税对吸烟率的影响是什么?小班教学能提高学生测试得分吗?性别对工资的影响是什么?
其实,上述三个问题都是在问一个变量,X(包括消费税、班级规模和性别)的变化对另一个变量,Y (包括吸烟率、测试分数和工资)的影响。
线性回归模型就是把X和Y联系起来。这条回归线的斜率就是X变化一单位引起的Y的变化。因为Y 的总体均值未知,所以这个斜率也未知。而计量经济学就是要用X,Y的样本数据来估计回归线的斜率。
\section{线性回归模型估计}
\subsection{线性回归模型}
回顾一下小班教学的例子。李院长还不太确定是否要缩减你们本科的班级规模。假设你们是计量经济学家或者咨询师,李院长来向你们寻求帮助。李院长说,他面临着一个选择困难:一方面,父母肯定是希望小班教学;另一方面,缩小班级规模,就要雇佣更多的老师,要支出更多的经费。因此,他问你们:如果缩小班级规模,学生的成绩会发生什么变化?
也就是说,如果李院长要改变班级规模,例如每个班级缩减10名学生,那么,学生的标准化成绩会发生什么变化?我们用希腊字母,$\beta_{ClassSize}$,来表示班级规模变化引起的成绩变化,数学表达式为
\begin{equation}
\beta_{ClassSize}=\frac{Score Change}{Classsize Change}=\frac{\Delta{Score}}{\Delta{ClassSize}}
\end{equation}
其中,$\Delta$表示变化量;而$\beta_{ClassSize}$就是由班级规模变化引起的学生成绩变化与班级规模变化的比值。如果你们运气好,知道了这个$\beta_{ClassSize}$,例如,-0.5,那么,你们可以直接告诉李院长,班级规模变小,会让学生的成绩提高,且根据公式(1),提高的幅度为:
\begin{equation}
\Delta{Score}=\beta_{ClassSize}\times\Delta{ClassSize}
\end{equation}
那么,班级规模减少10名学生,预期学生成绩会提高$(-0.5)\times(-10)=5$。 也就说,每个班级减少10名学生,预期学生成绩会提高5分。据此,公式(1)定义了班级规模与学生成绩之间直线的斜率。因此,可以把这条直线写成
\begin{equation}
Score=\beta_0+\beta_{ClassSize}\times{ClassSize}
\end{equation}
这个时候,你会不会兴奋地拿着公式(3)跑到李院长办公室,告诉他,我不仅能告诉您每个班级减少10人,学生成绩会提高多少。而且,只要您告诉我班级规模,我还能预期到学生的平均成绩会是多少。但是,李院长会说,不好意思,我对你这个方程和结果表示怀疑。因为每个班的学生本身有差异,每个班的授课老师不同,可能用的课本也不同。这些原因都可能导致学生的成绩不同,因此,公式(3)并不是对所有班级都成立。
接受了李院长的建议,回去重新修正模型,加入影响学生成绩的其他因素,得到下式
\begin{equation}
Score=\beta_0+\beta_{ClassSize}\times{ClassSize}+OtherFactors
\end{equation}
其中,$OtherFactors$里面包含了李院长提到的,和没提到的影响学生成绩的因素。公式(4)更一般化,因为我们关注于班级规模与学生成绩,所以才能把其它因素统统“装进”$OtherFactors$中。假设有n个班级,$Y_i$表示第i个班级的平均成绩,$X_i$ 表示第i个班级的学生人数。那么,公式(4)就可以表示为
\begin{equation}
Y_i=\beta_0+\beta_1X_i+u_i
\end{equation}
公式(5)称为\textbf{一元线性回归模型},Y称为\textbf{因变量或被解释变量},X 称为\textbf{自变量或解释变量}。$\beta_0+\beta_1X_i$称为\textbf{总体回归线或总体回归方程}。截距$\beta_0$和斜率$\beta_1$是总体回归线的系数,也称参数。斜率$\beta_1$可以理解为X变化一单位,Y的变化程度。\footnote{需要注意的是,从数学上理解,截距$\beta_0$是X=0时Y的值,也就是总体回归线与Y轴的交点。但在经济学忠,这个截距有时候有经济学含义,有时候则没有经济学含义,例如班级规模为0 时,班级的平均成绩为$\beta_0$就不符合实际了,因此,这个时候要将其单纯理解成数学意义上的系数。}
$u_i$为\textbf{误差项},其对应着第i个班级平均成绩与总体回归线预测的成绩只检测差异的所有因素。因此,误差项包含除了X之外所有决定因变量Y的因素。
\subsection{系数估计}
在实际情形中,我们不可能知道总体分布,即我们不可能知道总体回归线中的两个参数值。但是从第二讲可知,我们可以从随机抽样的样本数据中估计总体参数。同理,我们也可以用数据来估计总体回归线的斜率与截距。
如果大家有兴趣,可以去调查一下班级大小与成绩的信息,然后自己估计一下回归系数。正如第一讲中提到,这类调查往往成本巨大,可能有一些机构或者教育部门有这类调查数据,但是很遗憾没有公开。那么,我们就暂且使用一下美帝的数据样本来作为例子。数据为1999年加利福利亚420个学区的测试分数和班级规模。表1中概述了这两个样本的分布。
\begin{table}[htbp]
\caption{测试分数与师生比的分布}\label{tab:digit}
\centering
\begin{tabular}{lcccccc}
\hline
&&&&\multicolumn{3}{c}{分位数}\\
\cline{5-7}
&样本量&均值&标准差&10\%&50\%&95\%\\
\cline{1-7}
学生-老师比&420&19.64&1.89&17.35&19.72&22.65\\
\cline{1-7}
测试分数&420&654.16&19.05&630.38&654.45&685.5\\
\hline
\end{tabular}
\end{table}
由表1可以看到,平均每个老师带19.64个学生,标准差为1.89。每个学区的分数均值为654.16,标准差为19.05。两个样本的散点图,如图1所示。分数与班级规模的相关系数为-0.226。
\begin{figure}[htbp]
\centering
\includegraphics[width=0.7\textwidth]{score.png}
\caption{学生-老师比与分数散点图}\label{fig:digit}
\end{figure}
根据散点图和相关系数,我们大致可以判断基于这些数据的直线应该是向右下倾斜。只要我们画出这条线,我们就得到了斜率$\beta_1$的估计值。但是我们如何画出这条线呢?最常用的方法就是普通最小二乘(OLS)来拟合这些数据。
(1)\textbf{OLS估计量}
OLS估计量使得估计的回归线尽量的接近观测数据。而接近程度则由给定X条件下,预测Y的误差平方和来测度。
假设$\hat\beta{_0}$和$\hat\beta{_1}$用来表示$\beta_0$和$\beta_1$的估计量。那么,第i 个观测值的误差为$Y_i-\beta_0-\beta_1X_i$。那么,误差平方和为
\begin{equation}
\sum_{i=1}^n{(Y_i-\beta_0-\beta_1X_i)^2}
\end{equation}
根据第二讲的统计学理论,存在唯一一对$\hat\beta{_0}$和$\hat\beta{_1}$ 来使得公式(6)最小化。由此得到的系数为$\beta_0$和$\beta_1$的OLS估计量。OLS回归线称为样本回归线或样本回归函数。第i个观测值$Y_i$与其预测值之差为余项(residual):$\hat{u}_i=Y_i-\hat{Y}_i$。
OLS估计量的公式为
\begin{equation}
\hat\beta{_1}=\frac{\sum_{i=1}^n{(X_i-\overline{X})(Y_i-\overline{Y})}}{\sum_{i=1}^n{(X_i-\overline{X})^2}}
\end{equation}
\begin{equation}
\hat\beta{_0}=\overline{Y}-\hat\beta{_1}\overline{X}
\end{equation}
OLS预测值及残差
\begin{equation}
\hat{Y}_i=\hat\beta{_0}+\hat\beta{_1}X_i
\end{equation}
\begin{equation}
\hat{u}_i=Y_i-\hat{Y}_i
\end{equation}
(2)\textbf{示例}
我们用Stata14来估计OLS回归线:
\begin{equation}
\hat{Y}=698.9-2.28\times{X}
\end{equation}
\begin{figure}[htbp]
\centering
\includegraphics[width=0.7\textwidth]{stata1.jpg}
\caption{stata结果}\label{fig:digit}
\end{figure}
我们在Y上面加hat是为了区别它为基于OLS回归线的预测值。负斜率意味着班级规模越大,平均测试分数越低。
\subsection{拟合度}
我们已经估计出了班级规模对测试成绩效应的线性回归,如公式(11)。正如李院长质疑的,我们都可能疑惑,估计的线性回归线对数据的拟合程度如何呢?
在计量经济学中,$R^2$和回归标准误(SER)用来测量OLS回归线对数据的拟合程度。$0\leq{R^2}\leq1$测量的是$X_i$能解释$Y_i$的方差的比例。SER测量的是$Y_i$ 离预测值有多远。
(1)\textbf{$R^2$}
根据预测值与残差的定义,可知
\begin{equation}
Y_i=\hat{Y}_i+\hat{u}_i
\end{equation}
根据$R^2$的定义,它的数学形式可以表达为\textbf{回归平方和或者解释平方和}(\textbf{explained sum of squares,ESS})与\textbf{总平方和}(\textbf{Total Sum of Squares,TSS})之比。
\begin{equation}
ESS=\sum_{i=1}^n{(\hat{Y}_i-\overline{Y})^2}
\end{equation}
\begin{equation}
TSS=\sum_{i=1}^n{(Y_i-\overline{Y})^2}
\end{equation}
那么,$R^2$的公式为
\begin{equation}
R^2=\frac{ESS}{TSS}
\end{equation}
我们还可以这么思考:X不能解释Y的方差的比例,同样可以表示出$R^2$。不能解释的部分就是\textbf{残差平方和(sum of squared residuals,SSR)},即$SSR=\sum_{i=1}^n{\hat{u}_i^2}$。综上所述,$TSS=ESS+SSR$。据此,
\begin{equation}
R^2=1-\frac{SSR}{TSS}
\end{equation}
注:一元回归中的$R^2$就是X和Y的相关系数的平方。$R^2$越接近于1,说明用X预测Y越好,即回归线拟合数据越好,反之亦然。
\textbf{SER}
回归标准误(SER)是回归误差标准差的估计量。它是观测值在回归线附近的分散程度的一种测量。OLS残差为$\hat{u}_i$。那么,
\begin{equation}
SER=\sqrt{S_{\hat{u}}^2},S_{\hat{u}}^2=\frac{1}{(n-2)}\sum_{i=1}^{n}{\hat{u}_i^2}=\frac{SSR}{(n-2)}
\end{equation}
其中,OLS残差的样本均值为0。
例如,图2中的回归结果,$R^2=0.0512,SER(MSE)=18.581$。这意味着,班级规模可以解释测试分数方差的5.21\%。而$SER=18.581$说明观测值在回归线附近分散较开,这也可以从图3中看出。
\begin{figure}[htbp]
\centering
\includegraphics[width=0.7\textwidth]{Rline.png}
\caption{回归线}\label{fig:digit}
\end{figure}
注意:\textbf{事实上,$R^2$很小(或者$SER$很大)本身并不能说明回归的“好坏”。很小的$R^2$只是表面,除了解释变量X外,还有其它重要的因素影响Y。但是较小的$R^2$ 或者较大的$SER$并不能给出缺失的重要因素是什么,它们仅仅说明现有的X只能解释Y方差的较小部分。}
\subsection{最小二乘的假设}
下面,我们简单的介绍一下OLS的三个假设。
\textbf{假设一:给定X的条件下,u的条件均值为0}
这个假设是说,“丢弃”到残差项u里的其它因素与X无关,即给定X条件下,这些因素的分布均值为0。该假设等价于总体回归线就是给定X条件下的Y的条件均值。且该假设也意味着$corr(X,u)=0$。
\textbf{假设二:($X_i,Y_i$)是独立同分布}
\textbf{假设三:$X_i,Y_i$不可能有较大奇异值}
较大的奇异值会使得OLS结果产生误差。这个假设就使得X,Y有非零的四阶矩:$0\leq{E(X_i^4)}\leq\infty$,$0\leq{E(Y_i^4)}\leq\infty$。也就说,X和Y 存在有限峰度。可能的来源:1、输入错误;2、单位错误。如果输入错误,就纠正它,如果不能纠正,就从样本中删除。
\section{假设检验和置信区间}
第一部分概述了一元回归系数的估计,这个部分将概述估计量有多精确地描述了抽样不确定性。
\subsection{回归系数的假设检验}
有一些人武断地说,班级规模并不会对测试分数产生影响。也就说,总体回归线的斜率$\beta{_1}=0$。下面,我们就来检验斜率是否为0。也就说,我们先假设$\beta{_1}=0$ (原假设)。然后,我们来判断是否接受或者拒绝原假设。
首先,我们回顾一下3.2节中的总体假设检验。
原假设为Y的均值为某一特定值$\mu_{Y,0}$,可以写成$H_0:E(Y)=\mu_{Y,0},H_1\neq\mu_{Y,0}$。
假设检验分三步走:
1、计算$\overline{Y}$的标准误$SE(\overline{Y})$;
2、计算t统计量,即$t=\frac{(\overline{Y}-\mu_{Y,0})}{SE(\overline{Y})}$;
3、计算p值,它是拒绝原假设的最低显著性水平。双边假设p值为$2\Phi{(-|t_{act}|)}$,其中,$t_{act}$是计算得到的t统计量,$\Phi$是积累标准正态分布。
在实践中,第三步的p值通常与临界值比较。例如,5\%显著性水平的双边假设对应着$|t_{act}|>1.96$。即是说,总体均值在5\%的显著性水平下显著异于假设值。
\textbf{系数的假设检验}
上面已经提到过,有些人觉得小班没有效果。我们应该假设$\beta_1=0$,那么,原假设和双边备择假设为
\begin{equation}
H_0:\beta_1=0~~vs.~~H_1\neq0
\end{equation}
那么,按照上述三步走:
第一步:计算$\hat{\beta}_1$的标准误$SE(\hat{\beta}_1)$。该标准误是$\sigma_{\hat{\beta}_1}$的一个估计值。即
\begin{equation}
SE(\hat{\beta}_1)=\sqrt{\hat{\sigma}_{\hat{\beta}_1}^2}
\end{equation}
其中,
\begin{equation}
\hat{\sigma}_{\hat{\beta}_1}^2=\frac{1}{n}\times\frac{\frac{1}{n-2}\sum_{i=1}^n{(X_i-\overline{X})^2\hat{u}_i^2}}{[\frac{1}{n}\sum_{i=1}^n{(X_i-\overline{X})^2}]^2}
\end{equation}
第二步:计算t统计量
\begin{equation}
t=\frac{\hat{\beta}_1-0}{SE(\hat{\beta}_1)}
\end{equation}
第三步:计算p值
\begin{multline}
p-value=Pr_{H_0}[|\hat{\beta}_1-0|>|\hat{\beta}_1^{act}-0|]\\
=Pr_{H_0}[|\frac{\hat{\beta}_1-0}{SE(\hat{\beta}_1)}|>|\frac{\hat{\beta}_1^{act}-0}{SE(\hat{\beta}_1)}|]=Pr_{H_0}(|t|\geq|t^{act}|)
\end{multline}
因为t统计量近似标准正态分布,因此
\begin{equation}
p-value=Pr(|Z|>|t^{act}|)=2\Phi(-|t^{act}|)
\end{equation}
如果p值小于5\%,即是说,在5\%的显著性水平下拒绝原假设。5\%的显著性水平对应着1.96的临界值。
在实践中,我们并不用分别按照上述步骤计算出估计量和统计量,因为现在我们有计量经济学软件包,例如Stata。我们把数据导入stata中,输入回归命令就可以直接得到上述三个步骤的结果,如图2所示。
例如,从图2中可以看出,$\beta_1$的标准误为0.48,系数为-2.28,那么$t=\frac{-2.28-0}{0.48}=-4.75$。t统计量的绝对值大于1.96,也就是在5\% 显著性水平下拒绝原假设。其实,我们计算的t统计量绝对值还要大于2.58 (1\%)。
\subsection{置信区间}
从样本数据并不能得到系数的真值。但是,我们能根据OLS估计量和标准误构建一个包含真值的置信区间。
系数$\beta_1$的95\%置信区间:
1、用5\%显著性水平的双边假设检验不能拒绝的一系列值;
2、有95\%的可能性包含$\beta_1$真值的区间
当样本规模很大时,$\beta_1$的95\%置信区间为
\begin{equation}
[\hat{\beta}_1-1.96SE(\hat{\beta}_1),\hat{\beta}_1+1.96SE(\hat{\beta}_1)]
\end{equation}
例如,班级规模与测试分数回归中的$\beta_1$的95\%置信区间为$[-2.28\pm1.96\times0.48]=[-3.22,-1.34]$
\subsection{虚拟变量}
迄今为止,我们讨论的自变量为连续型变量。还有一类回归因子为二值,即它只取两个值——0和1。例如,当班级规模小于20人时为小班,X取值为1,当班级规模大于等于20人时为大班,X取值为0。这样的变量也被称为\textbf{指示变量、哑变量或虚拟变量}。
虚拟变量回归与上述回归相同,但是对于虚拟变量回归系数的理解却有些不同。
二值因变量回归实际上就是执行了一个均值差分。假设$D_i$等于0或1,取决于班级规模大小:
\[ D_i=\begin{cases}
1,\quad X<20 \\
0,\quad X\geq20
\end{cases} \]
总体回归方程为
\begin{equation}
Y_i=\beta_0+\beta_1D_i+u_i
\end{equation}
因为$D_i$是二值,那么,不能再将$\beta_1$理解成斜率,因为回归方程不是一条线了。那么,我们应该如何理解$D_i$呢?当$D_i=0$时,回归方程变成
\begin{equation}
Y_i=\beta_0+u_i
\end{equation}
因为$E(u_i|D_i)=0$,所以$E(Y_i|D_i=0)=\beta_0$。也就是说,$\beta_0$是大班的情况下的平均分数。类似地,当$D_i=1$时,回归方程变成
\begin{equation}
Y_i=\beta_0+\beta_1+u_i
\end{equation}