19/03/2015

Préliminaires

Me contacter

Biblio (1)

Le cours va être basé sur :

le bouquin de J. G. Kalbfleisch « Probability and Statistical Inference. Volume 2: Statistical Inference. Second Edition » (1985) Springer-Verlag.

Biblio (2)

D'autres bon bouquins sont :

  • Statistique : la théorie et ses applications de Michel Lejeune chez Springer, excellent ;
  • Mathematical Statistics and Data Analysis de John Rice, aussi excellent mais en anglais ;
  • All of Statistics et All of Nonparametric Statistics de Larry Wasserman, très bonnes synthèses mais un peu sèches pour les débutants ;
  • Mathematical Statistics de Keith Knight, ma meilleure source pour les preuves des théorèmes ;
  • Initiation aux probabilités et aux chaîne de Markov de Pierre Brémaud chez Springer, très bon si vous voulez un rappel sur les probas.

Introduction

Inférence statistique (1)

Un modèle probabiliste peut être employé pour fournir une description mathématique simple d'une grande quantité de données.

Nous pourions ainsi décrire un ensemble de 1000 mesures de tension artérielle comme un échantillon de 1000 valeurs indépendantes tirées d'une loie normale dont la moyenne μ et la variance σ2 seraient estimées à partir des données.

Un tel modèle fournit une description concise des données et peut, par exemple, servir à calculer une approximation de la fraction de mesures de tension artérielle contenue dans un domaine fixé.

La précision de ce type de calculs va nécessairement dépendre de la fidélité du modèle de loi normale aux données.

Inférence statistique (2)

Nous allons pricipalement discuter d'applications de modèles probabilistes à des problèmes d'inférence statistique où nous cherchons des conclusions générales basées sur une quantité limitée de données.

Concrétement, nous pouvons penser à un test de fiabilité d'un composant d'un avion : le composant est soumis à une contrainte réaliste jusqu'à ce qu'une rupture se produise. Ce type de tests est typiquement couteux et seulement un petit nombre de répliques est examiné.

Basé sur ce petit nombre d'observations, nous souhaitons tirer des conclusions valables pour des composants qui n'ont pas été testés. Le lien entre l'échantillon observé et les autres composants est fourni par le modèle probabiliste.

Inférence statistique (3)

Les données sont utilisées pour juger de l'adéquation du modèle et pour estimer les paramètres inconnus qu'il requiert.

Une quantité limitée de données peut nous induire en erreur et toute conclusion tirée va être sujette à une incertitude. L'estimation de l'étendue de cette incertitude est une partie essentielle du problème de l'inférence statistique.

Une estimation dont nous ignorons la précision est, au sens strict, inutile.

Le programme (1)

  • Nous allons commencer avec la méthode du maximum de vraisemblance qui nous fournit une procédure d'estimation systématique de paramètres inconnus ;
  • voir comment estimer un paramètre inconnu θ à partir de données collectées par deux expériences indépendantes ;
  • introduire la fonction de vraisemblance relative qui nous permettra d'ordonner différentes valeurs de θ suivant leur plausibilité ;
  • décrire la méthode du maximum vraisemblance pour un modèle probabiliste continu ;
  • décrire la méthode du maximum vraisemblance pour des données sensurées ;

Le programme (2)

  • discuter les propriétés d'invariance de la méthode du maximum vraisemblance ;
  • décrire l'approximation normale du logarithme de la fonction de vraisemblance relative ;
  • illustrer l'utilisation de la méthode de Newton pour trouver le maximum de la fonction de vraisemblance et pour trouver des intervalles de vraisemblance.

La méthode du maximum de vraisemblance (MMV)

Le contexte

  • Supposons qu'un modèle probabiliste a été formulé pour une expérience et que ce modèle n'implique qu'un seul paramètre inconnu θ.
  • L'expérience est effectuée et des données sont collectées.
  • Nous souhaitons utiliser les données pour estimer θ.
  • Plus généralement nous souhaitons déterminer quelles valeurs de θ sont plausibles étant données nos observations.

Le contexte formalisé et l'estimateur du maximum de vraisemblance

  • Les données observées peuvent être vues comme un événement E de l'espace des épreuves de notre modèle probabiliste.
  • La probabilité de E peut être calculée à partir du modèle et va, en général, être une fonction du paramètre inconnu : P(E;θ).
  • L'estimateur du maximum de vraisemblance (EMV) de θ est la valeur de θ qui maximise P(E;θ) et est habituellement noté \(\hat{θ}\).
  • C'est la valeur du paramètre qui « explique le mieux les données E » dans la mesure où elle maximise la probabilité attribuée à E par le modèle.

Premier exemple (1)

  • Supposons que nous ayons à estimer la fraction de personnes atteintes de tuberculose dans une grande population homogène.
  • À cette fin, nous sélectionnons aléatoirement n individus que nous testons et nous en trouvons x avec la maladie.
  • Comme la population est grande et homogène, nous supposons que nos n individus sont indépendants et que chacun à la probabilité θ d'avoir la tuberculose.
  • La probabilité de l'événement observé (des données) est alors : P(E;θ) = P(x sur n avec la tuberculose), soit : \[ P(E;θ) = {n \choose x} θ^x(1-θ)^{n-x}\, ,\] où \(0 \le θ \le 1\).

Premier exemple (2)

  • L'estimateur du maximum de vraisemblance \(\hat{θ}\) est la valeur de θ qui maximise cette quantité ; nous allons voir que \(\hat{θ}\) = x/n.
  • Pour maximiser la probabilité des données, nous estimons θ, la fraction de personnes malades dans la population, par x/n, la fraction de personnes malades dans l'échantillon.

Fonctions de vraisemblance…

  • Dans l'équation précédente, le facteur constant – une fois les données observées – \({n \choose x}\) n'a pas d'effet sur la valeur de \(\hat{θ}\).
  • Pour alléger nos expressions nous allons généralement supprimer ce type de constantes et ne garder dans l'expression de P(E;θ) que les termes qui impliquent θ.
  • La fonction de vraisemblance de θ est alors définie par: \[\mathsf{L}(θ) = c \cdot \mathsf{P}(\mathsf{E};θ) \, ,\] où c est une constante positive quelconque ne dépendant pas de θ.
  • Nous allons choisir c afin d'obtenir l'expression la plus simple possible pour L(θ).

Et fonction de log-vraisemblance

  • P(E;θ) et L(θ) sont souvent des produits de termes, il est alors plus simple de travailler avec leurs logarithmes.
  • Nous définissons ainsi la fonction de log-vraisemblance de θ par : \[\mathsf{l}(θ) = \log \mathsf{L}(θ) \, .\]
  • L'estimateur du maximum de vraisemblance (EMV) \(\hat{θ}\) est la valeur de θ qui maximise P(E;θ) ; elle maximise aussi L(θ) et l(θ).
  • Généralement il est plus simple de travailler avec la fonction de log-vraisemblance.

Exemple (suite)

  • Nous avions : P(E;θ) = \({n \choose x} θ^x(1-θ)^{n-x}\).
  • En choisissant : \(c= \frac{1}{{n \choose x}}\) qui ne dépend pas de θ, nous obtenons : \[L(θ) = θ^x(1-θ)^{n-x}\, .\]
  • La fonction de log-vraisemblance est alors : \[l(θ) = x \log θ + (n-x) \log (1-θ) \quad \mathsf{où} \quad 0 \le θ \le 1 \, .\]
  • L'EMV \(\hat{θ}\) est la valeur de θ qui maximise l(θ).

La fonction score

  • Trouver \(\hat{θ}\) revient à localiser le maximum de l(θ) en considérant toutes les valeurs possibles de θ.
  • Cela peut souvent se faire en dérivant l(θ) par-rapport à θ avant de chercher la (ou les) valeur(s) de θ qui annulle(nt) cette dérivée.
  • Pour ce garantir contre un point d'inflexion où un minimum, il est « recommandé » de s'assurer que la dérivée seconde au point localisé est négative.
  • La fonction score S(θ) est définie comme la dérivé première de la log-vraisemblance par rapport à θ : \[S(θ) = l'(θ) = \frac{dl(θ)}{dθ}\, .\]

La fonction d'information et l'espace des paramètres

  • La fonction d'information (observée) \(\mathcal{I}(θ)\) est définie comme l'opposée de la dérivée seconde de la log-vraisemblance par-rapport à θ : \[\mathcal{I}(θ) = -l''(θ) = -S'(θ) = -d^2l(θ) / dθ^2 \, .\]
  • Ni S(θ), ni \(\mathcal{I}(θ)\) ne dépendent du choix du facteur c précédent.
  • L'ensemble Ω des valeurs possibles de θ est appelé espace des paramètres.
  • Ω est typiquement un intervalle de R, comme [0,1] dans l'exemple précédent, et les dérivées première et seconde de l(θ) par-rapport à θ existent en tout point intérieur de Ω.