Classification factorielle hiérarchique optimisée des lignes et des colonnes d’un tableau de contingence

Jean-Jacques Denimal

Journal de la société française de statistique (2007)

  • Volume: 148, Issue: 3, page 37-70
  • ISSN: 1962-5197

Abstract

top
Two hierarchical classifications are built on the sets I et J of a two-way contingency table k I J , using a new algorithm building each node from a particular correspondence analysis. In a second step, the classes of these two hierarchies are optimized through a type k-means procedure. Then, a pruning algorithm allows us to restrict the optimized trees to their significant nodes. Finally, the optimized and pruned hierarchies are mutually interpreted, each significant association being revealed through an exact conditional test based on the hypergeometric model. The methodogogy is then applied to the contingency table crossing departements and candidates to the 1995 presidential election.

How to cite

top

Denimal, Jean-Jacques. "Classification factorielle hiérarchique optimisée des lignes et des colonnes d’un tableau de contingence." Journal de la société française de statistique 148.3 (2007): 37-70. <http://eudml.org/doc/93464>.

@article{Denimal2007,
abstract = {Etant donné un tableau de contingence $k_\{IJ\}$, deux classifications hiérarchiques sont construites indépendamment sur $I$ et $J$ selon un algorithme particulier où chaque nœud obtenu est issu d’une analyse des correspondances particulière. Un algorithme d’optimisation du type de celui des nuées dynamiques est ensuite appliqué aux classes de chacune des deux hiérarchies. Enfin, une procédure d’élagage des branches permet de se séparer des nœuds non significatifs. Les deux hiérarchies optimisées et élaguées sont ensuite interprétées mutuellement, chaque association significative étant révelée par un test conditionnel exact basé sur un modèle hypergéométrique. Un exemple d’application au tableau de contingence croisant départements et candidats à l’élection présidentielle de 1995 est ensuite mené.},
author = {Denimal, Jean-Jacques},
journal = {Journal de la société française de statistique},
keywords = {contingency table; hierarchical classification; correspondence analysis; exact conditional test; optimization; pruning techniques},
language = {fre},
number = {3},
pages = {37-70},
publisher = {Société française de statistique},
title = {Classification factorielle hiérarchique optimisée des lignes et des colonnes d’un tableau de contingence},
url = {http://eudml.org/doc/93464},
volume = {148},
year = {2007},
}

TY - JOUR
AU - Denimal, Jean-Jacques
TI - Classification factorielle hiérarchique optimisée des lignes et des colonnes d’un tableau de contingence
JO - Journal de la société française de statistique
PY - 2007
PB - Société française de statistique
VL - 148
IS - 3
SP - 37
EP - 70
AB - Etant donné un tableau de contingence $k_{IJ}$, deux classifications hiérarchiques sont construites indépendamment sur $I$ et $J$ selon un algorithme particulier où chaque nœud obtenu est issu d’une analyse des correspondances particulière. Un algorithme d’optimisation du type de celui des nuées dynamiques est ensuite appliqué aux classes de chacune des deux hiérarchies. Enfin, une procédure d’élagage des branches permet de se séparer des nœuds non significatifs. Les deux hiérarchies optimisées et élaguées sont ensuite interprétées mutuellement, chaque association significative étant révelée par un test conditionnel exact basé sur un modèle hypergéométrique. Un exemple d’application au tableau de contingence croisant départements et candidats à l’élection présidentielle de 1995 est ensuite mené.
LA - fre
KW - contingency table; hierarchical classification; correspondence analysis; exact conditional test; optimization; pruning techniques
UR - http://eudml.org/doc/93464
ER -

References

top
  1. [1] BENZECRI J.P. (1976). L’Analyse des Données (Volumes I and II). Dunod, Paris. Zbl0503.62003
  2. [2] BRUYNOOGHE M. (1978). Large data set clustering methods using the concept of space contraction. Compstat. 3, Physika Verlag, Vienna, pp 239-245. 
  3. [3] DAZY F., LE BARZIC J.F. (1996). L’analyse des données évolutives. Technip. 
  4. [4] DENIMAL J.J. (2000). Correspondances hiérarchiques : une nouvelle approche. XXXII i e m e Journées de Statistiques, 15-19 mai 2000. Fès, Maroc. 
  5. [5] DENIMAL J.J. (2001). Hierarchical factorial analysis. 10th International Symposium on Applied Stochastic Models and Data Analysis. 12-15 juin 2001. Compiègne. 
  6. [6] DENIMAL J.J., CAMIZ S. (2001). Exact conditional tests for a reciprocal interpretation of hierarchical classifications built on a txwo-way contingency table. Metron,Vol. LIX, n . 3-4, pp 157,178. Zbl1003.62525MR1889707
  7. [7] DENIMAL J.J. (2007). Classification factorielle optimisée d’un tableau de mesures. Revue de Statistique Appliquée (à paraître). 
  8. [8] DIDAY E. (1971). Une nouvelle méthode en classification automatique et reconnaissance des formes. Revue de Statistique Appliquée, Vol.19, n 2 , pp 19,34. 
  9. [9] GAIL M., MANTEL N. (1977). Counting the number of r × c contingency tables with fixed margins. Journal of the American Statistical Association, Vol. 72, n 360 , pp 859,863. Zbl0372.62042MR461792
  10. [10] GOVAERT G.,(1984). Classification simultanée de tableaux binaires. Data Analysis and Informatics, 4, Diday et al. Eds, North Holland,pp 223,236. 
  11. [11] JUAN J. (1982). Classification automatique hiérarchique selon les voisins réciproques. Les cahiers de l’analyse des données, Vol 7, n 2 .  Zbl0505.62041
  12. [12] LANCASTER H.O. (1969). The Chi-squared distribution. John Wiley and Sons, New York. Zbl0193.17802MR253452
  13. [13] LEBART L., MORINEAU A., PIRON M. (1995). Statistique exploratoire multidimensionnelle.Dunod, Paris. Zbl0920.62077
  14. [14] MEHTA C.R., PATEL N.R. (1983). A network algorithm for performing Fisher’s exact test in r × c contingency tables. Journal of the American Statistical Association, Vol. 78, n 382 , pp 427,434. Zbl0545.62039MR711119
  15. [15] PATEFIELD W.M. (1981). An efficient method of generaing random r × c tables with given row and column totals. Applied Statistics, Vol. 30, pp 91,97. Zbl0467.62050
  16. [16] PLACKETT R.L. (1981). The analysis of categorical data. Second Edition, Griffin, London. Zbl0479.62046MR636258
  17. [17] WARD J.H. (1963). Hierarchical grouping to optimize an objective function. Journal of the American Statistical Association, 58, pp 236-244. MR148188

NotesEmbed ?

top

You must be logged in to post comments.

To embed these notes on your page include the following JavaScript code on your page where you want the notes to appear.

Only the controls for the widget will be shown in your chosen language. Notes will be shown in their authored language.

Tells the widget how many notes to show per page. You can cycle through additional notes using the next and previous controls.

    
                

Note: Best practice suggests putting the JavaScript code just before the closing </body> tag.