学习笔记
$P({\omega \in \Omega, x(\omega) \in B}) = 0.2$
含义:
$\omega$ 表示事件
$x(\omega)$ 表示将事件映射到实数轴
$P$ 表示概率测度,是一个将事件映射到[0,1]之间的函数
$\int 1_A dP = P(A)$
简单函数
$\int \sum \limits_{i=1}^n 1_{A_i} dP = \sum \limits_{i=1}^n \alpha \int 1_{A_i} dP = \sum \limits_{i=1}^n P(A_i)$
若简单函数$f_n$单调递增收敛于$f$,即$f_n \uparrow f$
$\int f dP = \lim \limits_{n \to \infty} \int f_n dP$
若$f^+$为函数正的部分,$f^-$为函数负的部分,其他部分为0
$f = f^+ -f^- \Rightarrow \int f dP = \int f^+ dP - \int f^- dP$
$\bigtriangledown_{\theta} \int P_{\theta}(x)R(x)dx \
= \int \bigtriangledown_{\theta} P_{\theta}(x)R(x)dx \
= \int \bigtriangledown_{\theta} lnP_{\theta}(x)P(x)R(x)dx
= E [\bigtriangledown_{\theta} lnP_{\theta}(x)R(x)]$
若$y_i = x_i^T\beta + \varepsilon_i, \varepsilon_i \sim N(0, \sigma^2)$
$\hat \beta =(x^Tx)^{-1}x^Ty \
=(x^Tx)^{-1}x^T(x\beta + \varepsilon) \
=\beta + (x^Tx)^{-1}x^T \varepsilon \
=\beta + (\sum_i x_ix_i^T)^{-1}(\sum_i x_i \varepsilon_i) \
=\beta + n(\sum_i x_ix_i^T)^{-1}\frac{1}{n}(\sum_i x_i \varepsilon_i) \
=\beta + (\frac{1}{n}\sum_i x_ix_i^T)^{-1}(\frac{1}{n}\sum_i x_i \varepsilon_i) \
=\beta + (\frac{1}{n}\sum_i x_ix_i^T)^{-1}E(x_i\varepsilon_i)$
由于上面的假设
$E(x_i\varepsilon_i)=E(x_i)E(\varepsilon_i)=0$
所以$\hat \beta=\beta$
注意上面使用的技巧
矩阵可以表示为向量,
$x=\begin{bmatrix}
x_1^T \
x_2^T \
\vdots \
x_n^T
\end{bmatrix}$
$x^T=\begin{bmatrix}
x_1 & x_2 & \dots & x_n
\end{bmatrix}$
根据这个定义,两个向量对应元素(也是向量)相乘再相加,$x_Tx=\sum_i x_ix_i^T$
后面$\varepsilon$是个向量,$\varepsilon_i$是个标量。
https://huggingface.co/
https://paperswithcode.com/