Sélection de modèle : de la théorie à la pratique

Pascal Massart

Journal de la société française de statistique (2008)

  • Volume: 149, Issue: 4, page 5-27
  • ISSN: 1962-5197

Abstract

top
Since the seminal work of Akaike in the early seventies, optimizing some penalized empirical criterion such as the penalized log-likelihood has become a classical solution to the problem of choosing a proper statistical model from the data. For many model selection problems such as multiple change-point detection and variable selection for instance, it is desirable to let the dimension or the number of models of a given dimension grow with the sample size. A non asymptotic theory for model selection has therefore emerged during these last ten years in order to take this type of situations into account. The main issue both from a practical and a theoretical view point is to understand how to penalize an empirical criterion such as the log-likelihood in order to get some optimal selection procedure. Asymptotic theory provides some useful indications on the shape of the penalty but it often leaves to the user the choice of numerical constants. The optimal value for these constants is generally unknown. In some situations theory is indeed not sharp enough to lead to explicit values. In some other cases, the problem is more of a statistical nature since according to the theory, the optimal value should depend on the unknown distribution of the observations. Our purpose here is to promote some data-driven method to calibrate the penalty. This method is partly based on preliminary theoretical results that we shall recall and partly founded on some heuristics that we intend to explain.

How to cite

top

Massart, Pascal. "Sélection de modèle : de la théorie à la pratique." Journal de la société française de statistique 149.4 (2008): 5-27. <http://eudml.org/doc/93488>.

@article{Massart2008,
abstract = {Pour choisir un modèle statistique à partir des données, une méthode devenue classique depuis les travaux précurseurs d’Akaike dans les années 70 consiste à optimiser un critère empirique pénalisé, tel que la log-vraisemblance pénalisée. Dans bon nombre de problèmes de sélection de modèle tels que la sélection de variables ou la détection de ruptures multiples par exemple, il est souhaitable de laisser croitre la taille des modèles ou encore le nombre de modèles d’une dimension donnée avec le nombre d’observations. Une théorie non asymptotique de la sélection de modèles a donc émergé durant ces dix dernières années qui vise à prendre en compte ce type de situations. L’enjeu central aussi bien sur le plan théorique que pratique est de comprendre comment pénaliser un critère de type log-vraisemblance de façon à garantir une performance de sélection optimale. La théorie non asymptotique donne des indications sur la structure des pénalités qu’il convient d’utiliser mais n’est parfois pas suffisamment précise pour arbitrer la valeur de certaines constantes qui restent donc à calibrer au moment d’implémenter effectivement ce type de critères. Ces constantes peuvent être inconnues pour des raisons diverses. Il peut s’agir d’une faiblesse de la théorie qui garantit l’existence d’une constante absolue mais sans en donner la valeur numérique. Le problème peut être également de nature plus profondément statistique lorsque cette constante dépend objectivement de la loi inconnue des observations. Notre propos est ici de promouvoir une méthode de calibration de pénalité à partir des données. Cette méthode est en partie fondée sur des résultats théoriques établis et en partie sur une heuristique permettant de l’extrapoler à d’autres cadres que le cadre strict dans lequel la théorie permet de la valider.},
author = {Massart, Pascal},
journal = {Journal de la société française de statistique},
keywords = {change point detection; concentration inequalities; empirical processes; model selection; penalization; variable selection},
language = {fre},
number = {4},
pages = {5-27},
publisher = {Société française de statistique},
title = {Sélection de modèle : de la théorie à la pratique},
url = {http://eudml.org/doc/93488},
volume = {149},
year = {2008},
}

TY - JOUR
AU - Massart, Pascal
TI - Sélection de modèle : de la théorie à la pratique
JO - Journal de la société française de statistique
PY - 2008
PB - Société française de statistique
VL - 149
IS - 4
SP - 5
EP - 27
AB - Pour choisir un modèle statistique à partir des données, une méthode devenue classique depuis les travaux précurseurs d’Akaike dans les années 70 consiste à optimiser un critère empirique pénalisé, tel que la log-vraisemblance pénalisée. Dans bon nombre de problèmes de sélection de modèle tels que la sélection de variables ou la détection de ruptures multiples par exemple, il est souhaitable de laisser croitre la taille des modèles ou encore le nombre de modèles d’une dimension donnée avec le nombre d’observations. Une théorie non asymptotique de la sélection de modèles a donc émergé durant ces dix dernières années qui vise à prendre en compte ce type de situations. L’enjeu central aussi bien sur le plan théorique que pratique est de comprendre comment pénaliser un critère de type log-vraisemblance de façon à garantir une performance de sélection optimale. La théorie non asymptotique donne des indications sur la structure des pénalités qu’il convient d’utiliser mais n’est parfois pas suffisamment précise pour arbitrer la valeur de certaines constantes qui restent donc à calibrer au moment d’implémenter effectivement ce type de critères. Ces constantes peuvent être inconnues pour des raisons diverses. Il peut s’agir d’une faiblesse de la théorie qui garantit l’existence d’une constante absolue mais sans en donner la valeur numérique. Le problème peut être également de nature plus profondément statistique lorsque cette constante dépend objectivement de la loi inconnue des observations. Notre propos est ici de promouvoir une méthode de calibration de pénalité à partir des données. Cette méthode est en partie fondée sur des résultats théoriques établis et en partie sur une heuristique permettant de l’extrapoler à d’autres cadres que le cadre strict dans lequel la théorie permet de la valider.
LA - fre
KW - change point detection; concentration inequalities; empirical processes; model selection; penalization; variable selection
UR - http://eudml.org/doc/93488
ER -

References

top
  1. [1] AKAIKE H. (1973). Information theory and an extension of the maximum likelihood principle. In P.N. Petrov and F. Csaki, editors, Proceedings 2nd International Symposium on Information Theory. pages 267-281. Akademia Kiado, Budapest. Zbl0283.62006MR483125
  2. [2] ARLOT S. (2007). Model selection by resampling penalization. arXiv :math/0701542v2 
  3. [3] ARLOT S. (2008). V-fold cross-validation improved : V-fold penalization. arXiv :0802.0566v2 
  4. [4] ARLOT S. and MASSART P. (2008). Data-driven calibration of penalties for least-squares regression. arXiv :0802.0837v2. 
  5. [5] BARAUD Y. (2000). Model selection for regression on a fixed design. Probability Theory and Related Fields 117, no 4 467-493. Zbl0997.62027MR1777129
  6. [6] BAHADUR R.R. (1958). Examples of inconsistency of maximum likelihood estimates. Sankhya Ser.A 20, 207-210. Zbl0087.34202MR107331
  7. [7] BARAUD Y., COMTE F. and VIENNET G. (2001). Model selection for (auto-) regression with dependent data. ESAIM : Probability and Statistics 5, 33-49. http://www.emath.fr/ps/. Zbl0990.62035MR1845321
  8. [8] BARRON A.R., BIRGÉ L., MASSART P. (1999). Risk bounds for model selection via penalization. Probab. Th. Rel. Fields. 113, 301-415 . Zbl0946.62036MR1679028
  9. [9] BIRGÉ L. and MASSART P. (1993). Rates of convergence for minimum contrast estimators. Probab. Th. Relat. Fields 97, 113-150. Zbl0805.62037MR1240719
  10. [10] BIRGÉ L. and MASSART P. (1997). From model selection to adaptive estimation. In Festschrift for Lucien Lecam : Research Papers in Probability and Statistics (D. Pollard, E. Torgersen and G. Yang, eds.), 55-87, Springer-Verlag, New-York. Zbl0920.62042MR1462939
  11. [11] BIRGÉ L. and MASSART P. (2001). Gaussian model selection. Journal of the European Mathematical Society, no 3 , 203-268. Zbl1037.62001MR1848946
  12. [12] BIRGÉ L., MASSART P. (2007). Minimal penalties for Gaussian model selection. Probab. Th. Rel. Fields 138, no 1–2, 33–73. Zbl1112.62082MR2288064
  13. [13] BOUCHERON S., BOUSQUET O., LUGOSI G., MASSART P. (2005). Moment inequalities for functions of independent random variables. Ann. of Probability 33, no 2, 514-560. Zbl1074.60018MR2123200
  14. [14] BOUCHERON S. and MASSART P. (en préparation). A poor man’s Wilks phenomenon. Zbl1230.62072
  15. [15] BOUSQUET O. (2002). A Bennett concentration inequality and its application to suprema of empirical processes. C.R. Math. Acad. Sci. Paris 334, no 6, 495-500. Zbl1001.60021MR1890640
  16. [16] CASTELLAN G. (2003). Density estimation via exponential model selection. IEEE Trans. Inform. Theory 49, no 8, 2052-2060. Zbl1288.62054MR2004713
  17. [17] DANIEL C. and WOOD F.S. (1971). Fitting Equations to Data. Wiley, New York. Zbl0264.65011
  18. [18] DONOHO D.L. and JOHNSTONE I.M. (1994). Ideal spatial adaptation by wavelet shrinkage. Biometrika 81, 425-455. Zbl0815.62019MR1311089
  19. [19] EFRON B., HASTIE T., JOHNSTONE I. and TIBSHIRANI R. (2004). Least angle regression. Ann. Statist. 32 no 2, 407-499. Zbl1091.62054MR2060166
  20. [20] LEBARBIER E. (2005). Detecting multiple change-points in the mean of Gaussian process by model selection. Signal Processing 85, no 4, 717-736. Zbl1148.94403
  21. [21] LEDOUX M. (1996). On Talagrand deviation inequalities for product measures. ESAIM : Probability and Statistics 1, 63-87. http ://www.emath.fr/ps/. Zbl0869.60013MR1399224
  22. [22] LE PENNEC E. and MALLAT S. (2005). Sparse Geometric Image Representation with Bandelets. IEEE Trans. on Image Processing 14, no 4, 423-438. MR2128287
  23. [23] LOUBES J.M., MASSART P. (2004). Discussion to Least Angle Regression. Ann. of Statistics 32, no 2, 476-482. MR2060166
  24. [24] MALLAT S. (1999 ). A Wavelet Tour of Signal Processing. Academic Press. Zbl0998.94510MR1614527
  25. [25] MALLOWS C.L. (1973). Some comments on C p . Technometrics 15, 661-675. Zbl0269.62061
  26. [26] MASSART P. (2000). About the constants in Talagrand’s concentration inequalities for empirical processes. Ann. of Probability 28, no 2, 863-884. Zbl1140.60310MR1782276
  27. [27] MASSART P. (2007). Concentration inequalities and model selection. In Lectures on Probability Theory and Statistics, École d’Été de Probabilités de St-Flour XXXIII-2003 (J. Picard, ed.). Lecture notes in Mathematics no 1896, Springer, Berlin. Zbl1170.60006MR2319879
  28. [28] REYNAUD-BOURET P. (2003). Adaptive estimation of the intensity of inhomogeneous Poisson processes via concentration inequalities. Probab. Theory Relat. Fields 126, no 1, 103-153. Zbl1019.62079MR1981635
  29. [29] SCHWARTZ G. (1978). Estimating the dimension of a model. Ann. of Statistics 6, 461-464. Zbl0379.62005MR468014
  30. [30] TALAGRAND M. (1996). New concentration inequalities in product spaces. Invent. Math. 126, 505-563. Zbl0893.60001MR1419006
  31. [31] VAPNIK V.N. (1982). Estimation of dependencies based on empirical data. Springer, New York. Zbl0499.62005MR672244

NotesEmbed ?

top

You must be logged in to post comments.

To embed these notes on your page include the following JavaScript code on your page where you want the notes to appear.

Only the controls for the widget will be shown in your chosen language. Notes will be shown in their authored language.

Tells the widget how many notes to show per page. You can cycle through additional notes using the next and previous controls.

    
                

Note: Best practice suggests putting the JavaScript code just before the closing </body> tag.