Skip to content

Commit

Permalink
Added a half of the 9th lecture
Browse files Browse the repository at this point in the history
  • Loading branch information
DanMax03 committed Nov 9, 2023
1 parent b4f67c7 commit 157de61
Show file tree
Hide file tree
Showing 2 changed files with 111 additions and 10 deletions.
Original file line number Diff line number Diff line change
Expand Up @@ -100,33 +100,33 @@ \subsubsection{Основные определения}
\subsubsection{Метод центральных статистик}

\begin{definition}
Пусть одномерная функция $G(x, \theta)$ такова, что распределение $G(X, \theta)$ не зависит от параметра $\theta$. Тогда $G(X, \theta)$ называется \textit{центральной статистикой}.
Пусть одномерная функция $G(x, \theta)$ такова, что распределение $G(X, \theta)$ не зависит от параметра $\theta$ (другими словами, при любом фиксированном $\theta \in \Theta$ распределение статистики $G(X, \theta)$ остаётся неизменным). Тогда $G(X, \theta)$ называется \textit{центральной статистикой}.
\end{definition}

\begin{note}
Название тут несколько противоречивое, как и в случае упорядоченного множества: центральная статистика не является статистикой.
\end{note}
\begin{anote}
Название тут несколько противоречивое, как и в случае упорядоченного множества: центральная статистика сама по себе не является статистикой, однако при каждом фиксированном $\theta$ --- да.
\end{anote}

\begin{example}
Пусть $X_i \sim N(\theta, 1)$, $\theta \in \R$. Построим доверительный интервал для $\theta$ с уровнем доверия $\gamma$. За счёт УЗБЧ и ЦПТ мы имеем 2 прекрасных факта:
\begin{itemize}
\item $\ol{X} = \frac{1}{n}\sum_{i = 1}^n X_i \sim N(\theta, 1 / n)$

\item $\sqrt{n}(\ol{X} - \theta) \to N(0, 1),\ n \to \infty$
\item $\sqrt{n}(\ol{X} - \theta) \sim N(0, 1)$ (Действительно, $\ol{X} \sim N(\theta, 1 / n)$, тогда $\ol{X} - \theta \sim N(0, 1 / n)$ ну и домножение нормирует дисперсию)
\end{itemize}
Во втором факте оценка не зависит от $\theta$, этим мы и воспользуемся. Пусть $u_p$ --- $p$-квантиль $N(0, 1)$. Тогда мы можем сказать следующее про интервал $\sqrt{n}(\ol{X} - \theta)$:
\[
\forall \theta \in \Theta\ \ P_\theta(u_{\frac{1 - \eps}{2}} < \sqrt{n}(\ol{X} - \theta) < u_{\frac{1 + \eps}{2}}) = P(|\sqrt{n}(\ol{X} - \theta)| < u_{\frac{1 + \eps}{2}}) \xrightarrow[n \to \infty]{} \eps
\forall \theta \in \Theta\ \ P_\theta(u_{\frac{1 - \gamma}{2}} < \sqrt{n}(\ol{X} - \theta) < u_{\frac{1 + \gamma}{2}}) = P_\theta(|\sqrt{n}(\ol{X} - \theta)| < u_{\frac{1 + \gamma}{2}}) \xrightarrow[n \to \infty]{} \gamma
\]
Неравенство можно переписать так, чтобы $\theta$ оказалось посередине. Это же даст нам вид оценок:
\[
\ol{X} - \frac{u_{\frac{1 + \eps}{2}}}{\sqrt{n}} < \theta < \ol{X} - \frac{u_{\frac{1 - \eps}{2}}}{\sqrt{n}}
\ol{X} - \frac{u_{\frac{1 + \gamma}{2}}}{\sqrt{n}} < \theta < \ol{X} - \frac{u_{\frac{1 - \gamma}{2}}}{\sqrt{n}}
\]
Итак, чтобы получить доверительный интервал, нам нужно зафиксировать $\eps$ и после выбрать $n$ так, что нижняя оценка из сходимости окажется выше $\gamma$. Вид оценок, очевидно, не поменяется.
Итак, доверительный интервал --- это $\ps{\ol{X} - \frac{u_{\frac{1 + \gamma}{2}}}{\sqrt{n}}, \ol{X} - \frac{u_{\frac{1 - \gamma}{2}}}{\sqrt{n}}}$
\end{example}

\begin{note}
Пример выше, по факту, показал применение центральной статистики. В общем случае, пусть у нас есть центральная статистика $G(X, \theta)$, $\gamma_{1, 2} \in (0; 1) \colon \gamma_2 - \gamma_1 = \gamma$, а также $g_i$ --- обозначение $\gamma_i$-квантиля для функции распределения $G(X, \theta)$ при фиксированном $\theta$. Тогда:
Пример выше, по факту, показал применение центральной статистики, где можно отделить $X$ от $\theta$. В общем случае, пусть у нас есть центральная статистика $G(X, \theta)$, $\gamma_{1, 2} \in (0; 1) \colon \gamma_2 - \gamma_1 = \gamma$, а также $g_i$ --- обозначение $\gamma_i$-квантиля для функции распределения $G(X, \theta)$ при фиксированном $\theta$. Тогда:
\[
\forall \theta \in \Theta\ \ P_\theta(g_1 \le G(X, \theta) \le g_2) \ge \gamma_2 - \gamma_1 = \gamma
\]
Expand Down
103 changes: 102 additions & 1 deletion Lectures/5_Semester/Statistics/2023_Savelov/lectures/9lecture.tex
Original file line number Diff line number Diff line change
@@ -1,3 +1,104 @@
\subsubsection{Построение доверительных интервалов}

\textcolor{red}{Помогите\ldots лектор снова пошёл в разнос}
\begin{proposition}
Если нас имеется асимптотически нормальная оценка $\hat{\theta}_n(X)$ с непрерывным асимптотическим среднеквадратичным отклонением $\sigma(\theta) > 0$, то мы можем построить асимптотический доверительный интервал уровня доверия $\gamma$ для $\theta$ следующего вида:
\[
\ps{\hat{\theta}_n(X) - u_{\frac{1 + \gamma}{2}} \cdot \frac{\sigma(\hat{\theta}_n)}{\sqrt{n}}, \hat{\theta}_n(X) + u_{\frac{1 + \gamma}{2}} \cdot \frac{\sigma(\hat{\theta}_n)}{\sqrt{n}}}
\]
где $\sigma(\hat{\theta}_n)$ --- среднеквадратичное отклонение оценки $\hat{\theta}_n(X)$, $u_p$ --- $p$-квантиль распределения $N(0, 1)$.
\end{proposition}

\begin{proof}
Действительно, воспользуемся определением асимптотической нормальности:
\[
\forall \theta \in \Theta\ \ \sqrt{n}(\hat{\theta}_n(X) - \theta) \xrightarrow[n \to \infty]{d_\theta} N(0, \sigma^2(\theta))
\]
Поделим на $\sigma(\theta)$, чтобы перейти к $N(0, 1)$ в правой части, однако это создаст проблемы слева, ибо появится лишняя зависимость от $\theta$:
\[
\forall \theta \in \Theta\ \ \frac{\sqrt{n}(\hat{\theta}_n(X) - \theta)}{\sigma(\theta)} \xrightarrow[n \to \infty]{d_\theta} N(0, 1)
\]
Эту проблему можно решить при помощи леммы Слуцкого. Действительно, в силу асимптотической нормальности, $\hat{\theta}_n(X) \to^{P_\theta} \theta$, причём $\sigma(\theta)$ непрерывна по условию. Стало быть, есть сходимость $\sigma(\hat{\theta}_n(X)) \to^{P_\theta} \sigma(\theta)$. При помощи упомянутой леммы можем собрать это в следующий факт:
\[
\forall \theta \in \Theta\ \ \frac{\sqrt{n}(\hat{\theta}_n(X) - \theta)}{\sigma(\theta)} \cdot \frac{\sigma(\theta)}{\sigma(\hat{\theta}_n)} \xrightarrow[n \to \infty]{d_\theta} N(0, 1) \cdot 1 = N(0, 1)
\]
Далее мы классически рассматриваем вероятность попадания между $u_{\frac{1 - \gamma}{2}}$ и $u_{\frac{1 + \gamma}{2}}$, которая будет сходиться к $\gamma$. Её несложно свернуть в следующую форму:
\[
\forall \theta \in \Theta\ \ P_\theta\ps{\sqrt{n}\md{\frac{\hat{\theta}_n(X) - \theta}{\sigma(\hat{\theta}_n)}} < u_{\frac{1 + \gamma}{2}}} \xrightarrow[n \to \infty]{} \gamma
\]
Таким образом, мы нашли нужный асимптотический доверительный интервал.
\end{proof}

\subsection{Метод максимального правдоподобия}

\begin{note}
Далее мы живём в вероятностно-статистическом пространстве $(\cX, \B(\cX), \cP)$, $\cP = \{P_\theta, \theta \in \Theta\}$.
\end{note}

\begin{definition}
Пусть $X$ --- наблюдение с неизвестным распределением $P_\theta \in \cP$, причём $\cP$ доминируется относительно меры $\mu$. \textit{Функцией правдоподобия} называется функция $f_\theta(x) = p_\theta(x)$, где $p_\theta$ --- плотность $P_\theta$ по мере $\mu$.
\end{definition}

\begin{anote}
В физическом смысле, функция правдоподобия говорит статисту, насколько вероятен тот или иной исход.
\end{anote}

\begin{example}
Пусть $X = (X_1, \ldots, X_n)$ --- выборка с плотностью $p_\theta(x)$. Тогда функция правдоподобия является плотностью $X$ как наблюдения:
\[
f_\theta(x) = p_\theta(x) = \prod_{i = 1}^n p_\theta(x_i)
\]
\end{example}

\begin{definition}
Пусть $X$ --- наблюдене с функцией правдоподобия $f_\theta$. \textit{Оценкой параметра $\theta$ по методы максимального правдоподобия (ОМП)} называется такая статистика $\hat{\theta}(X)$, что верно равенство:
\[
\hat{\theta}(X) = \arg\max_{\theta \in \Theta} f_\theta(X)
\]
\end{definition}

\begin{anote}
То есть из всех возможных параметров ОМП выбирает тот, при котором заданная выборка наиболее вероятна.
\end{anote}

\begin{example}
Рассмотрим дискретную модель трёх бросков монетки с вероятностью $\theta$ получения орла и исход $X = (1, 1, 0)$. Тогда, для $\theta_1 = \frac{1}{9}$ мы имеем значение функции правдоподобия $\frac{8}{9^3}$, а для $\theta_2 = \frac{7}{8}$ это будет $\frac{7^2}{8^3}$ и это больше предыдущей вероятности. В связи с этим мы верим, что вторая монетка должна лучше предсказывать реальность, нежели первая.
\end{example}

\begin{example}
Найдём явно оценку ОМП в базовом случае $X_i \sim U[0; \theta]$. Тогда функция правдоподобия имеет вид:
\[
f_\theta(X) = \frac{1}{\theta^n} \prod_{i = 1}^n \chi\{0 \le X_i \le \theta\} = \frac{\chi\{0 \le X_{(1)} \le X_{(n)} \le \theta\}}{\theta^n}
\]
Так как мы считаем, что реализация выборки $X$ фиксирована при выборе $\theta$, то оценка должна быть очевидна: $\hat{\theta}(X) = X_{(n)}$.
\end{example}

\begin{definition}
Функция $L_\theta(x) = \ln f_\theta(x)$ называется \textit{логарифом функции правдоподобия}.
\end{definition}

\begin{note}
Далее мы дополнительно требуем, что $\cP$ является доминируемым семейством относительно меры $\mu$, а также расширяем и нумеруем \textit{условия регулярности}:
\begin{enumerate}
\item Множество носителей $A = \{x \in \cX \colon p_\theta(x) > 0\}$ не зависит от $\theta$

\item Наблюдение $X$ есть выборк из неизвестного распределения $P_\theta$

\item $\Theta \subseteq \R$ --- открытый интервал (возможно бесконечный)

\item Функция $p_\theta(x)$ непрерывно дифференцируема по $\theta$ при всех $x \in A$

\item Функция $p_\theta(x)$ трижды непрерывно дифференцируема по $\theta$ при всех $x \in A$

\item Интеграл $\int_A p_\theta(X)d\mu(x)$ трижды дифференцируем по $\theta$ под знаком интеграла

\item Имеет место конечность информации Фишера для одного наблюдения из выборки:
\[
\E_\theta\ps{\pd{}{\theta} \ln p_\theta(X_1)}^2 = i(\theta) \in (0; +\infty)
\]

\item Существует равномерная интегрируемая оценка сверху в некотором интервале вокруг любого параметра $\theta_0 \in \Theta$:
\[
\forall \theta_0 \in \Theta\ \exists c > 0, H(x) \such \E_\theta H(X) < \infty \wedge \forall \theta \in (\theta_0 - c; \theta_0 + c),\ x \in A\ \ \md{\pd{^3}{\theta^3} \ln p_\theta(x)} < H(x)
\]
\end{enumerate}
\end{note}

0 comments on commit 157de61

Please sign in to comment.