Sélection de modèle : de la théorie à la pratique
Journal de la société française de statistique (2008)
- Volume: 149, Issue: 4, page 5-27
- ISSN: 1962-5197
Access Full Article
topAbstract
topHow to cite
topMassart, Pascal. "Sélection de modèle : de la théorie à la pratique." Journal de la société française de statistique 149.4 (2008): 5-27. <http://eudml.org/doc/93488>.
@article{Massart2008,
abstract = {Pour choisir un modèle statistique à partir des données, une méthode devenue classique depuis les travaux précurseurs d’Akaike dans les années 70 consiste à optimiser un critère empirique pénalisé, tel que la log-vraisemblance pénalisée. Dans bon nombre de problèmes de sélection de modèle tels que la sélection de variables ou la détection de ruptures multiples par exemple, il est souhaitable de laisser croitre la taille des modèles ou encore le nombre de modèles d’une dimension donnée avec le nombre d’observations. Une théorie non asymptotique de la sélection de modèles a donc émergé durant ces dix dernières années qui vise à prendre en compte ce type de situations. L’enjeu central aussi bien sur le plan théorique que pratique est de comprendre comment pénaliser un critère de type log-vraisemblance de façon à garantir une performance de sélection optimale. La théorie non asymptotique donne des indications sur la structure des pénalités qu’il convient d’utiliser mais n’est parfois pas suffisamment précise pour arbitrer la valeur de certaines constantes qui restent donc à calibrer au moment d’implémenter effectivement ce type de critères. Ces constantes peuvent être inconnues pour des raisons diverses. Il peut s’agir d’une faiblesse de la théorie qui garantit l’existence d’une constante absolue mais sans en donner la valeur numérique. Le problème peut être également de nature plus profondément statistique lorsque cette constante dépend objectivement de la loi inconnue des observations. Notre propos est ici de promouvoir une méthode de calibration de pénalité à partir des données. Cette méthode est en partie fondée sur des résultats théoriques établis et en partie sur une heuristique permettant de l’extrapoler à d’autres cadres que le cadre strict dans lequel la théorie permet de la valider.},
author = {Massart, Pascal},
journal = {Journal de la société française de statistique},
keywords = {change point detection; concentration inequalities; empirical processes; model selection; penalization; variable selection},
language = {fre},
number = {4},
pages = {5-27},
publisher = {Société française de statistique},
title = {Sélection de modèle : de la théorie à la pratique},
url = {http://eudml.org/doc/93488},
volume = {149},
year = {2008},
}
TY - JOUR
AU - Massart, Pascal
TI - Sélection de modèle : de la théorie à la pratique
JO - Journal de la société française de statistique
PY - 2008
PB - Société française de statistique
VL - 149
IS - 4
SP - 5
EP - 27
AB - Pour choisir un modèle statistique à partir des données, une méthode devenue classique depuis les travaux précurseurs d’Akaike dans les années 70 consiste à optimiser un critère empirique pénalisé, tel que la log-vraisemblance pénalisée. Dans bon nombre de problèmes de sélection de modèle tels que la sélection de variables ou la détection de ruptures multiples par exemple, il est souhaitable de laisser croitre la taille des modèles ou encore le nombre de modèles d’une dimension donnée avec le nombre d’observations. Une théorie non asymptotique de la sélection de modèles a donc émergé durant ces dix dernières années qui vise à prendre en compte ce type de situations. L’enjeu central aussi bien sur le plan théorique que pratique est de comprendre comment pénaliser un critère de type log-vraisemblance de façon à garantir une performance de sélection optimale. La théorie non asymptotique donne des indications sur la structure des pénalités qu’il convient d’utiliser mais n’est parfois pas suffisamment précise pour arbitrer la valeur de certaines constantes qui restent donc à calibrer au moment d’implémenter effectivement ce type de critères. Ces constantes peuvent être inconnues pour des raisons diverses. Il peut s’agir d’une faiblesse de la théorie qui garantit l’existence d’une constante absolue mais sans en donner la valeur numérique. Le problème peut être également de nature plus profondément statistique lorsque cette constante dépend objectivement de la loi inconnue des observations. Notre propos est ici de promouvoir une méthode de calibration de pénalité à partir des données. Cette méthode est en partie fondée sur des résultats théoriques établis et en partie sur une heuristique permettant de l’extrapoler à d’autres cadres que le cadre strict dans lequel la théorie permet de la valider.
LA - fre
KW - change point detection; concentration inequalities; empirical processes; model selection; penalization; variable selection
UR - http://eudml.org/doc/93488
ER -
References
top- [1] AKAIKE H. (1973). Information theory and an extension of the maximum likelihood principle. In P.N. Petrov and F. Csaki, editors, Proceedings 2nd International Symposium on Information Theory. pages 267-281. Akademia Kiado, Budapest. Zbl0283.62006MR483125
- [2] ARLOT S. (2007). Model selection by resampling penalization. arXiv :math/0701542v2
- [3] ARLOT S. (2008). V-fold cross-validation improved : V-fold penalization. arXiv :0802.0566v2
- [4] ARLOT S. and MASSART P. (2008). Data-driven calibration of penalties for least-squares regression. arXiv :0802.0837v2.
- [5] BARAUD Y. (2000). Model selection for regression on a fixed design. Probability Theory and Related Fields 117, no 4 467-493. Zbl0997.62027MR1777129
- [6] BAHADUR R.R. (1958). Examples of inconsistency of maximum likelihood estimates. Sankhya Ser.A 20, 207-210. Zbl0087.34202MR107331
- [7] BARAUD Y., COMTE F. and VIENNET G. (2001). Model selection for (auto-) regression with dependent data. ESAIM : Probability and Statistics 5, 33-49. http://www.emath.fr/ps/. Zbl0990.62035MR1845321
- [8] BARRON A.R., BIRGÉ L., MASSART P. (1999). Risk bounds for model selection via penalization. Probab. Th. Rel. Fields. 113, 301-415 . Zbl0946.62036MR1679028
- [9] BIRGÉ L. and MASSART P. (1993). Rates of convergence for minimum contrast estimators. Probab. Th. Relat. Fields 97, 113-150. Zbl0805.62037MR1240719
- [10] BIRGÉ L. and MASSART P. (1997). From model selection to adaptive estimation. In Festschrift for Lucien Lecam : Research Papers in Probability and Statistics (D. Pollard, E. Torgersen and G. Yang, eds.), 55-87, Springer-Verlag, New-York. Zbl0920.62042MR1462939
- [11] BIRGÉ L. and MASSART P. (2001). Gaussian model selection. Journal of the European Mathematical Society, no 3 , 203-268. Zbl1037.62001MR1848946
- [12] BIRGÉ L., MASSART P. (2007). Minimal penalties for Gaussian model selection. Probab. Th. Rel. Fields 138, no 1–2, 33–73. Zbl1112.62082MR2288064
- [13] BOUCHERON S., BOUSQUET O., LUGOSI G., MASSART P. (2005). Moment inequalities for functions of independent random variables. Ann. of Probability 33, no 2, 514-560. Zbl1074.60018MR2123200
- [14] BOUCHERON S. and MASSART P. (en préparation). A poor man’s Wilks phenomenon. Zbl1230.62072
- [15] BOUSQUET O. (2002). A Bennett concentration inequality and its application to suprema of empirical processes. C.R. Math. Acad. Sci. Paris 334, no 6, 495-500. Zbl1001.60021MR1890640
- [16] CASTELLAN G. (2003). Density estimation via exponential model selection. IEEE Trans. Inform. Theory 49, no 8, 2052-2060. Zbl1288.62054MR2004713
- [17] DANIEL C. and WOOD F.S. (1971). Fitting Equations to Data. Wiley, New York. Zbl0264.65011
- [18] DONOHO D.L. and JOHNSTONE I.M. (1994). Ideal spatial adaptation by wavelet shrinkage. Biometrika 81, 425-455. Zbl0815.62019MR1311089
- [19] EFRON B., HASTIE T., JOHNSTONE I. and TIBSHIRANI R. (2004). Least angle regression. Ann. Statist. 32 no 2, 407-499. Zbl1091.62054MR2060166
- [20] LEBARBIER E. (2005). Detecting multiple change-points in the mean of Gaussian process by model selection. Signal Processing 85, no 4, 717-736. Zbl1148.94403
- [21] LEDOUX M. (1996). On Talagrand deviation inequalities for product measures. ESAIM : Probability and Statistics 1, 63-87. http ://www.emath.fr/ps/. Zbl0869.60013MR1399224
- [22] LE PENNEC E. and MALLAT S. (2005). Sparse Geometric Image Representation with Bandelets. IEEE Trans. on Image Processing 14, no 4, 423-438. MR2128287
- [23] LOUBES J.M., MASSART P. (2004). Discussion to Least Angle Regression. Ann. of Statistics 32, no 2, 476-482. MR2060166
- [24] MALLAT S. (1999 ). A Wavelet Tour of Signal Processing. Academic Press. Zbl0998.94510MR1614527
- [25] MALLOWS C.L. (1973). Some comments on . Technometrics 15, 661-675. Zbl0269.62061
- [26] MASSART P. (2000). About the constants in Talagrand’s concentration inequalities for empirical processes. Ann. of Probability 28, no 2, 863-884. Zbl1140.60310MR1782276
- [27] MASSART P. (2007). Concentration inequalities and model selection. In Lectures on Probability Theory and Statistics, École d’Été de Probabilités de St-Flour XXXIII-2003 (J. Picard, ed.). Lecture notes in Mathematics no 1896, Springer, Berlin. Zbl1170.60006MR2319879
- [28] REYNAUD-BOURET P. (2003). Adaptive estimation of the intensity of inhomogeneous Poisson processes via concentration inequalities. Probab. Theory Relat. Fields 126, no 1, 103-153. Zbl1019.62079MR1981635
- [29] SCHWARTZ G. (1978). Estimating the dimension of a model. Ann. of Statistics 6, 461-464. Zbl0379.62005MR468014
- [30] TALAGRAND M. (1996). New concentration inequalities in product spaces. Invent. Math. 126, 505-563. Zbl0893.60001MR1419006
- [31] VAPNIK V.N. (1982). Estimation of dependencies based on empirical data. Springer, New York. Zbl0499.62005MR672244
NotesEmbed ?
topTo embed these notes on your page include the following JavaScript code on your page where you want the notes to appear.