Séminaire

Algorithmes rapides pour l'estimation de la médiane géometrique et la classification non-supervisée "robuste" en grande dimension

Hervé Cardot (Université de Bourgogne)

5 avril 2011, 14h00–15h30

Toulouse

Salle MF 323

Statistics Seminar

Résumé

La médiane géométrique est une extension naturelle de la médiane pour des vecteurs aléatoires à valeurs dans des espaces vectoriels normés. Il s'agit du point de l'espace dont la distance moyenne aux points de la distribution est la plus petite. La médiane géometrique est, contrairement à la moyenne qui minimise la distance moyenne au carré, robuste et donc peu sensible aux points atypiques. Il est généralement difficile de détecter de tels points lorsqu'on dispose de grands échantillons de variables à valeurs dans des espaces de grande dimension (voire de dimension infinie). Nous proposons dans cet exposé un algorithme séquentiel extrêmement rapide de type gradient stochastique et montrons sa convergence (ps, L2 et en loi) vers la médiane géometrique. Nous présentons ensuite une extension directe de cet algorithme pour la classification non supervisée en introduisant un critère de type k-médianes. Cet algorithme peut s'interpréter comme une variante des k-means (à la MacQueen) basée sur des moindres normes plutôt que des moindres normes au carré. Ces techniques sont illustrées sur 5000 mesures individuelles d'audience relevées seconde par seconde par Médiamétrie au cours d'une journée. Travail en collaboration avec P. Cénac (IMB), P-A. Zitt (IMB) et J-M. Monnez (IECN). La médiane géométrique est une extension naturelle de la médiane pour des vecteurs aléatoires à valeurs dans des espaces vectoriels normés. Il s'agit du point de l'espace dont la distance moyenne aux points de la distribution est la plus petite. La médiane géometrique est, contrairement à la moyenne qui minimise la distance moyenne au carré, robuste et donc peu sensible aux points atypiques. Il est généralement difficile de détecter de tels points lorsqu'on dispose de grands échantillons de variables à valeurs dans des espaces de grande dimension (voire de dimension infinie). Nous proposons dans cet exposé un algorithme séquentiel extrêmement rapide de type gradient stochastique et montrons sa convergence (ps, L2 et en loi) vers la médiane géometrique. Nous présentons ensuite une extension directe de cet algorithme pour la classification non supervisée en introduisant un critère de type k-médianes. Cet algorithme peut s'interpréter comme une variante des k-means (à la MacQueen) basée sur des moindres normes plutôt que des moindres normes au carré. Ces techniques sont illustrées sur 5000 mesures individuelles d'audience relevées seconde par seconde par Médiamétrie au cours d'une journée. Travail en collaboration avec P. Cénac (IMB), P-A. Zitt (IMB) et J-M. Monnez (IECN).