Classification factorielle hiérarchique optimisée d’un tableau de mesures

Jean-Jacques Denimal

Journal de la société française de statistique (2007)

  • Volume: 148, Issue: 2, page 29-63
  • ISSN: 1962-5197

Abstract

top
The analysis of an ordinary table crossing units and variables is generally obtained from the use of different statistical techniques: Principal Component Analysis, Classifications applied to rows and columns of the table. When the dimensions of the table become large, the study of all the results given by these procedures and more particularly their synthesis may represent a long and tedious work. In the methodology proposed in this paper, factorial axes and hierarchy nodes are jointly built , making easier their interpretations. Optimization and pruning techniques allow us to obtain the best possible hierarchies restricted to their significative nodes. An application of the methodology to Russett data is proposed at the end of the paper.

How to cite

top

Denimal, Jean-Jacques. "Classification factorielle hiérarchique optimisée d’un tableau de mesures." Journal de la société française de statistique 148.2 (2007): 29-63. <http://eudml.org/doc/93460>.

@article{Denimal2007,
abstract = {L’analyse d’un tableau de mesures est généralement basée sur l’utilisation de l’analyse en composantes principales et de techniques de classification appliquées aux lignes et aux colonnes du tableau. Le dépouillement des résultats générés par ces analyses et surtout leur synthèse représentent souvent pour l’utilisateur un travail long et pénible principalement lorsque les dimensions du tableau sont élevées. La méthodologie proposée dans cet article permet de construire conjointement les axes factoriels et les noeuds des hiérarchies, facilitant ainsi leurs interprétations. Des étapes d’optimisation et d’élagage permettent d’obtenir les meilleures hiérarchies possibles restreintes à leurs noeuds significatifs. Un exemple d’application est également proposé en fin d’article.},
author = {Denimal, Jean-Jacques},
journal = {Journal de la société française de statistique},
keywords = {hierarchical classification; optimization; pruning techniques; factorial representations; cross-validation; permutation test},
language = {fre},
number = {2},
pages = {29-63},
publisher = {Société française de statistique},
title = {Classification factorielle hiérarchique optimisée d’un tableau de mesures},
url = {http://eudml.org/doc/93460},
volume = {148},
year = {2007},
}

TY - JOUR
AU - Denimal, Jean-Jacques
TI - Classification factorielle hiérarchique optimisée d’un tableau de mesures
JO - Journal de la société française de statistique
PY - 2007
PB - Société française de statistique
VL - 148
IS - 2
SP - 29
EP - 63
AB - L’analyse d’un tableau de mesures est généralement basée sur l’utilisation de l’analyse en composantes principales et de techniques de classification appliquées aux lignes et aux colonnes du tableau. Le dépouillement des résultats générés par ces analyses et surtout leur synthèse représentent souvent pour l’utilisateur un travail long et pénible principalement lorsque les dimensions du tableau sont élevées. La méthodologie proposée dans cet article permet de construire conjointement les axes factoriels et les noeuds des hiérarchies, facilitant ainsi leurs interprétations. Des étapes d’optimisation et d’élagage permettent d’obtenir les meilleures hiérarchies possibles restreintes à leurs noeuds significatifs. Un exemple d’application est également proposé en fin d’article.
LA - fre
KW - hierarchical classification; optimization; pruning techniques; factorial representations; cross-validation; permutation test
UR - http://eudml.org/doc/93460
ER -

References

top
  1. [1] Bencheikh Y.K. (1992). Classification automatique et modèles. Thèse Université de Metz. 
  2. [2] Bencheikh Y.K. (2004). Classification croisée et mélanges sur données quantitatives. Revue de Statistique Appliquée, LII(2), 71-86. 
  3. [3] Benzecri J.-P. (1976). L’Analyse des Données (Volumes I and II). Dunod, Paris. Zbl0503.62003
  4. [4] Benzecri J.-P., Jambu M., Lebeaux M.O. (1980). Aides à l’interprétation en classification automatique. Les cahiers de l’analyse des données, 5, 1, pp.101-123. 
  5. [5] Bruynooghe M. (1978). Large data set clustering methods using the concept of space contraction. Compstat. 3, Physika Verlag, Vienna, pp 239-245. 
  6. [6] Cazes P. (1984). Correspondances hiérarchiques et ensembles associés. Les cahiers du Bureau Universitaire de Recherche Opérationnelle, n 43-44, pp 43-142. 
  7. [7] Celeux G. (1988). Classification et modèles. Revue de Statistique Appliquée, XXXVI (4), 43-58 Zbl0972.62527MR983857
  8. [8] Denimal J.J. (2000). Correspondances hiérarchiques : une nouvelle approche. XXXII i e m e Journées de Statistiques, 15-19 mai 2000. Fès, Maroc. 
  9. [9] Denimal J.J. (2001). Hierarchical factorial analysis. 10th International Symposium on Applied Stochastic Models and Data Analysis. 12-15 juin 2001. Compiègne. 
  10. [10] Diday E. (1979). Optimisation en classification automatique. INRIA, Paris. Zbl0471.62056
  11. [11] Gifi A. (1990). Non linear multivariate analysis. John Wiley&sons, chichester. Zbl0697.62048
  12. [12] Govaert G. (1983). Classification croisée. Thèse d’Etat, Université Pierre et Marie Curie, Paris 6. 
  13. [13] Jambu M., Lebeaux M.O. (1978). Classification automatique pour l’analyse des données. Dunod, Paris. Zbl0419.62058MR634959
  14. [14] Juan J. (1982). Classification automatique hiérarchique selon les voisins réciproques. Les cahiers de l’analyse des données, Vol 7, no 2. Zbl0505.62041
  15. [15] Lebart L., Morineau A., Warwick K.M. (1984). Multivariate descriptive statistical analysis. New York, Wiley. Zbl0658.62069MR744990
  16. [16] Lerman I.C. (1979). Les représentations factorielles de la classification. R.A.I.RO., Vol 13, no 2 et no 3. Zbl0408.62051
  17. [17] Lerman I.C. (1991). Foundations of the Likelihood Linkage Analysis (LLA) classification method. Applied Stochastic Models and Data Analysis, Vol.7, pp 63-76. Zbl0800.62320MR1105871
  18. [18] Qannari E.M., Vigneau F., Courcoux PH. (1999). Classification des variables autour de composantes principales. Applications. XXXIe Journées de Statistiques, 17-21 mai 1999. Grenoble. 
  19. [19] Rao C.R., (1964). The use and interpretation of Principal Component Analysis in Applied Research. Sankhya A, 26, pp 329-358. Zbl0137.37207MR184375
  20. [20] Russett B.M. (1964). Inequality and Instability. World Politics, 21, pp 442, 454. 
  21. [21] Sas/Stat (1996). User’s guide, SAS institute Inc., Cary, Nc, USA. Zbl0853.46053
  22. [22] Tenenhaus M. (1998). La régression PLS. Editions Technip. Zbl0923.62058MR1645125
  23. [23] Tille Y. (2001). Théorie des sondages. Dunod. 
  24. [24] Umetrics Academy (1996). SIMCA-P for WINDOWS. Graphical Software for multivariate Process Modeling. 
  25. [25] Van Der Vaart A.W. (2000). Asymptotic Statistics. Cambridge University Press. Zbl0910.62001
  26. [26] Ward J.H., (1963). Hierarchical grouping to optimize an objective function. Journal of the American Statistical Association, 58, pp 236-244. MR148188
  27. [27] Wold H. (1985). Partial least squares. Encyclopedia of statistical Sciences, vol 6, Kotz S. & Johnson N.L. (Eds), John Wiley & sons, New York, pp 581, 591. 

NotesEmbed ?

top

You must be logged in to post comments.

To embed these notes on your page include the following JavaScript code on your page where you want the notes to appear.

Only the controls for the widget will be shown in your chosen language. Notes will be shown in their authored language.

Tells the widget how many notes to show per page. You can cycle through additional notes using the next and previous controls.

    
                

Note: Best practice suggests putting the JavaScript code just before the closing </body> tag.