Conception et analyse de la forme limite d'une famille de coefficients statistiques d'association entre variables relationnelles. 1ère partie

Israël-César Lerman

Mathématiques et Sciences Humaines (1992)

  • Volume: 118, page 33-52
  • ISSN: 0987-6936

Abstract

top
This study gives a large synthesis view and prospective on a very general family of association coefficients between descriptive relational variables, that we have elaborated. On the other hand, very accurate technical results are provided. We assume the empirical observation of the descriptive variables on a set O of elementary objects. A given coefficients is obtained by a statistical normalization of a raw association index with respect to a hypothesis of no relation (or independence). The raw index s is conceived from a set theoretic representation of the two relational variables to be compared. The case where the two variables associated are unary, provides a clear setting up of the comparison problem. We particularly analyse the case where the two relation on O , induced by the two descriptive variables to be compared are binary. The latter case is extremely useful in qualitative data analysis. The normalization of the raw index s takes into account the distribution of the random raw index S under an independence hypothesis. The reduction of the “centred” index [ s - E ( S ) where E denotes the mathematical expecitation] is done with the standard deviation v a r ( S ) . It is specific expression of the variance v a r ( S ) , which enables to set up the limiting form of an association coefficient, under natural asymptotic conditions. Then, we carefully study the very important cases where the descriptive variables are nominal or ordinal qualitative. The limit expression permits to realize the nature of the normalization, from a purely formal point of view. Next, we take up the study of the general case of the comparison of two q -ary relations. Accurate results are given in the latter context. Finally, we express our current research and their future developement ; more particularly by situating the place of this work in our approach of data analysis by means of hierarchical classification.

How to cite

top

Lerman, Israël-César. "Conception et analyse de la forme limite d'une famille de coefficients statistiques d'association entre variables relationnelles. 1ère partie." Mathématiques et Sciences Humaines 118 (1992): 33-52. <http://eudml.org/doc/94426>.

@article{Lerman1992,
abstract = {Cette étude offre une large vision de synthèse prospective : mais aussi, des résultats techniques précis sur une famille très générale que nous avons élaborée de coefficients d'association entre variables descriptives relationnelles à partir de leur observation empirique sur un ensemble O d'objets élémentaires. Un même coefficient est obtenu à partir d'une forme de normalisation statistique par rapport à une hypothèse d'absence de liaison, d'un indice brut d'association. Ce dernier suppose une représentation de type ensembliste des deux variables relationnelles à comparer. Le cas où les deux variables sont unaires introduit et pose clairement le problème. Nous étudions particulièrement le cas où les deux relations induites par les deux variable sont binaires. Ce cas est d'un extrême utilité en analyse des données qualitatives. La normalisation suppose le centrage et la réduction par l'écart type de l'indice brut aléatoire. C'est une expression particulière de la variance de ce dernier qui permet de mettre en évidence la forme limite du coefficient d'association dans des conditions qualitatives nominales ou ordinales. L'expression limite permet de se rendre compte d'un point de vue purement formel de la nature de la normalisation ainsi effectuée. Nous abordons ensuite un cas assez général de recherches actuelles et développements futurs, en situant la place de ce travail dans l'aspect «classification hiérachique» de notre approche en analyse des données.},
author = {Lerman, Israël-César},
journal = {Mathématiques et Sciences Humaines},
keywords = {general family of association coefficients; descriptive relational variables; association index; independence; raw index; comparison problem; nominal; ordinal; limit expression; normalization; hierarchical classification},
language = {fre},
pages = {33-52},
publisher = {Ecole des hautes-études en sciences sociales},
title = {Conception et analyse de la forme limite d'une famille de coefficients statistiques d'association entre variables relationnelles. 1ère partie},
url = {http://eudml.org/doc/94426},
volume = {118},
year = {1992},
}

TY - JOUR
AU - Lerman, Israël-César
TI - Conception et analyse de la forme limite d'une famille de coefficients statistiques d'association entre variables relationnelles. 1ère partie
JO - Mathématiques et Sciences Humaines
PY - 1992
PB - Ecole des hautes-études en sciences sociales
VL - 118
SP - 33
EP - 52
AB - Cette étude offre une large vision de synthèse prospective : mais aussi, des résultats techniques précis sur une famille très générale que nous avons élaborée de coefficients d'association entre variables descriptives relationnelles à partir de leur observation empirique sur un ensemble O d'objets élémentaires. Un même coefficient est obtenu à partir d'une forme de normalisation statistique par rapport à une hypothèse d'absence de liaison, d'un indice brut d'association. Ce dernier suppose une représentation de type ensembliste des deux variables relationnelles à comparer. Le cas où les deux variables sont unaires introduit et pose clairement le problème. Nous étudions particulièrement le cas où les deux relations induites par les deux variable sont binaires. Ce cas est d'un extrême utilité en analyse des données qualitatives. La normalisation suppose le centrage et la réduction par l'écart type de l'indice brut aléatoire. C'est une expression particulière de la variance de ce dernier qui permet de mettre en évidence la forme limite du coefficient d'association dans des conditions qualitatives nominales ou ordinales. L'expression limite permet de se rendre compte d'un point de vue purement formel de la nature de la normalisation ainsi effectuée. Nous abordons ensuite un cas assez général de recherches actuelles et développements futurs, en situant la place de ce travail dans l'aspect «classification hiérachique» de notre approche en analyse des données.
LA - fre
KW - general family of association coefficients; descriptive relational variables; association index; independence; raw index; comparison problem; nominal; ordinal; limit expression; normalization; hierarchical classification
UR - http://eudml.org/doc/94426
ER -

References

top
  1. [1] Arabie P. and Hubert L.J., (1992), "Combinatorial Data Analysis" 1992, Annual Review of Psychology (to appear). MR1380312
  2. [2] Chah S., (1984), "Agrégation des préordonnances", Etude F-063, Centre Scientifique IBM deParis. 
  3. [3] Chah S., (1985), "Critères de classification sur des données hétérogènes ", Proceedings of the fourth international symposium on data analysis and informatics, edited by E. Diday and al, North Holland, 1986. Zbl0635.62057MR801503
  4. [4] Daniels H.E., (1944), "The relation between measures of corrélation in the universe of sample permutations", Biometrika, vol. 33,129-135. Zbl0063.01034MR10941
  5. [5] Daude F., (1990), "Normalisation sous hypothèse d'absence de lien ", Publication interne Irisa, Rennes, n°°549, septembre 1990, 42 pages. 
  6. [6] Efron B., (1986), "The Jasknife, the Boot-strap and other resampling plans", CBMS-NSF régional conférence séries in applied mathematics. Zbl0496.62036
  7. [7] Giakoumakis V. et Monjardet B., (1987), "Coefficients d'accord entre deux préordres totaux", Statistique et Analyse des Données, 12, pp. 46-99. Zbl0645.06001MR950147
  8. [8] Goodman L.A. and Kruskal W.H., (1954), "Measures of association for cross classifications", Journal of the American Statistical Association, Vol. 49, pp. 732-764. Zbl0056.12801
  9. [9] Goodman L.A. and Kruskal W.H., (1963), "Measures of association for cross classifications III : Approximate sampling theory", Vol. 58, pp. 310-364. MR156400
  10. [10] Hajek J., (1961), "Some extensions of the Wald-Wolfowitz-Noether theorem", Ann. Math. Stat.32, pp. 506-523. Zbl0107.13404MR130707
  11. [11] Hubert L.J., (1983), "Inference procédures for the évaluation and comparison of proximity matrices", in Numerical Taxonomy, Ed. J. Felsenstein, NATO ASI Séries, Springer Verlag. 
  12. [12] Hubert L.J., (1987), "Assignment methods in combinatorial data analysis ", Marcel Decker, New York, 1987. Zbl0628.62003MR863418
  13. [13] Kendall M.G., (1970), "Rank corrélation methods", Charles Griffin, fourth édition (first édition in 1948). Zbl0199.53501
  14. [14] Lecalvé G., (1976), "Un indice de similarité pour des variables de types quelconques", Statistique et Analyse des Données, 0 1 -02, pp. 39-47. 
  15. [15] Lerman I.C. (1973), "Etude distributionnelle de statistiques de proximité entre structures finies de même type ; application à la classification automatique", Cahiers du Buro, n° 19, Paris. 
  16. [16] Lerman I.C., (1976), "Formal analysis of a général notion of proximity between variables", Congrès Européen des Statisticiens, Grenoble, Sept. 1976, North Holland (1977). Zbl0367.62074MR478478
  17. [17] Lerman I.C., (1981), "Classification et analyse ordinale des données ", Paris, Dunod. Zbl0485.62051MR645150
  18. [18] Lerman I.C., (1983), "Association entre variables qualitatives ordinales nettes ou floues", Statistique et Analyse des données, vol. 8 n°7, pp. 41-73. Zbl0564.62036MR712841
  19. [19] Lerman I.C., (1984), "Justification et validité statistique d'une échelle [0,1] de fréquence mathématique pour une structure de proximité sur un ensemble de variables observées", Publ. Inst. Stat. Univ. ParisXXIX, fasc. 3-4, pp. 27-57. Zbl0661.62047MR782088
  20. [20] Lerman I.C., (1987a), "Construuction d'un indice de similarité entre objets décrits par des variables d'un type quelconque. Application au problème du consensus en classification", Rev. Statistique Appliquée, XXXV (2), pp. 39-60. Zbl0615.62068MR896003
  21. [21] Lerman I.C. (1987b), "Analyse de la forme limite de coefficients statistiques d'association entre variables relationnelles", Rapport de recherche n° 702, Inria, Juillet 1987. 
  22. [22] Lerman I.C., (1987c), "Maximisation de l'association entre deux variables qualitatives ordinales", Rev. math. Sci. hum., 25ème année, n° 100, 1987, pp. 49-56. Zbl0635.62048MR941909
  23. [23] Lerman I.C., (1988), "Structure maximale pour la somme des carrés d'une contingence aux marges fixées; une solution algorithmique programmée", Rairo, vol. 22, n°2, pp. 83 à 136. Zbl0639.90101MR952103
  24. [24] Lerman I.C., (1991), "Foundations of the Likelihood Linkage Analysis (LLA) Classification method", Applied Stochastic Models and Data Analysis, vol. 7, pp. 63-76 (J. Wiley). Zbl0800.62320MR1105871
  25. [25] Lerman I.C. et Ghazzali N., (1991), "Quoi retenir d'un arbre de classification ? Un essai en quantification d'image numérisée", Rapport de recherche n ° 1386, Inria, Janvier 1991. 
  26. [26] Lerman I.C., Gras R. et Rostam H., (1981), "Elaboration et évaluation d'un indice d'implication pour des données binaires" I et II ; I :Math. Sci. hum., 19ème année, n° 74, 1981 pp. 5-35, II : Math. Sc. hum., 19ème année, n° 75, 1981, pp. 5-47. Zbl0493.62093MR637324
  27. [27] Lerman I.C. et Peter Ph., (1985), "Organisation et consultation d'une banque de petites annonces" à partir d'une méthode de classification hiérarchique en parallèle", Journées Internationales Analyse des Données et Informatique IV, Octobre 1985, Versailles, North Holland (1986), pp. 121-136. 
  28. [28] Lerman I.C. et Peter Ph., (1989), "Classification of concepts described by taxonomic preordonnance variables with multiple choice. Application to the structuration of a species set of phebotomine" in Data Analysis, Learning symbolic and numerical knowledge, edited by E. Diday, Inria, Nova Science Publishers, (1989), pp. 73-87. 
  29. [29] Mantel N., (1967), "Détection of disease clustering and a generalized régression approach", Cancer Research, vol. 27, n° 2, pp. 209-220. 
  30. [30] Messatfa H., (1990), "Unification relationnelle des critères et structures optimales des tables de contingences", thèse de doctorat de l' Université Pierre et Marie Curie, 5 mars 1990. 
  31. [31] Mielke W., (1979), "On asymptotic non normality of null distributions of MRPP Statistics", Communications in Statistics, Theory and Methods, A8 (15), pp. 1541-1550. Zbl0422.62041
  32. [32] Noether G., (1949), "On a theorem by Wald and Wolfowitz", Ann. Math. Stat. vol. 20, pp. 455-458. Zbl0034.22601MR31670
  33. [33] Ouali-Allah M., (1991a), "Analyse en préordonnances des données qualitatives. Applications aux données numériques et symboliques", Thèse de l'Université de Rennes I, 5 décembre 1991, Rennes, Université de Rennes I. 
  34. [34] Ouali-Allah M., (1991b), "Avare : un programme de calcul des associations entre variables relationnelles", Publication interne Irisa, n° 591, juin 1991, 32 pages. 
  35. [35] Peter Ph. (1987), "Méthodes de classification hiérarchique et problèmes de structuration et de recherche d'informations, assistées par ordinateur", thèse de l'Université de Rennes I, 6 mars 1987, Rennes, Université de Rennes I. 
  36. [36] Suppes P. and Zinnes J.L., (1963), "Basic measurement theory" in Handbook of mathematical psychology, Eds Bush. Luce, Galanter, New York, J. Wiley, pp. 2-76. 
  37. [37] Tarski A., (1954), "Contribution to the theory of models", I, II. Indagationes Mathematicae, 16, pp. 572-588. Zbl0058.24702MR66301
  38. [38] Wald A. and Wolfowitz J., (1944), "Statistical tests based on permutations of the observations", Ann. Math. Stat., vol. 15, pp. 358-372. Zbl0063.08124MR11424

Citations in EuDML Documents

top
  1. Éric Térouanne, Corrélation entre variables nominales, ordinales, métriques ou numériques
  2. I.-C. Lerman, Coefficient numérique général de discrimination de classes d'objets par des variables de types quelconques. Application à des données génotypiques
  3. Israël-César Lerman, Philippe Peter, Indice probabiliste de vraisemblance du lien entre objets quelconques. Analyse comparative entre deux approches
  4. Israël-César Lerman, Kaddour Bachar, Comparaison de deux critères en classification ascendante hiérarchique sous contrainte de contiguïté. Application en imagerie numérique

NotesEmbed ?

top

You must be logged in to post comments.

To embed these notes on your page include the following JavaScript code on your page where you want the notes to appear.

Only the controls for the widget will be shown in your chosen language. Notes will be shown in their authored language.

Tells the widget how many notes to show per page. You can cycle through additional notes using the next and previous controls.

    
                

Note: Best practice suggests putting the JavaScript code just before the closing </body> tag.