Classifications de mots non étiquetés par des méthodes statistiques

Christel Beaujard; Michèle Jardino

Mathématiques et Sciences Humaines (1999)

  • Volume: 147, page 7-23
  • ISSN: 0987-6936

Abstract

top
Our goal is to develop robust language models for speech recognition. These models have to predict a word knowing its history. Although the increasing size of electronic text data, all the possible word sequences of a language cannot be observed. A way to generate these non encountered word sequences is to map words in classes. The class-based language models have a better coverage of the language with a reduced number of parameters, a situation which is favourable to speed up the speech recognition systems. Two types of automatic word classification are described. They are trained on word statistics estimated on texts derived from newspapers and transcribed speech. These classifications do not require any tagging, words are classified according to the local context in which they occur. The first one is a mapping of the vocabulary words in a fixed number of classes according to a Kullback-Leibler measure. In the second one, similar words are clustered in classes whose number is not fixed in advance. This work has been performed with French training data coming from two domains, both different in size and vocabulary.

How to cite

top

Beaujard, Christel, and Jardino, Michèle. "Classifications de mots non étiquetés par des méthodes statistiques." Mathématiques et Sciences Humaines 147 (1999): 7-23. <http://eudml.org/doc/94534>.

@article{Beaujard1999,
abstract = {Notre thématique de recherche est le développement de modèles de langage robustes pour la reconnaissance de la parole. Ces modèles doivent prédire un mot connaissant les mots qui le précèdent. Malgré le nombre croissant de données textuelles électroniques, toutes les possibilités de la langue ne sont pas présentes dans ces données, un moyen de les obtenir est de généraliser la représentation textuelle en regroupant les mots dans des classes. Les modèles de langage fondés sur des classes présentent alors une plus large couverture de la langue avec un nombre réduit de paramètres permettant une reconnaissance plus rapide des mots par les systèmes de reconnaissance de la parole dans lesquels ils sont introduits. Nous décrivons deux types de classification automatique de mots, appris statistiquement sur des textes écrits de journaux et de transcriptions de parole. Ces classifications ne nécessitent pas d'étiquetage des mots, elles sont réalisées suivant les contextes locaux dans lesquels les mots sont observés. L'une est basée sur la distance de Kullback-Leibler et répartit tous les mots dans un nombre de classes fixé à l'avance. La seconde regroupe les mots considérés comme similaires dans un nombre de classes non prédéfini. Cette étude a été réalisée sur les données d'apprentissage en français de domaines, de taille et de vocabulaire différents.},
author = {Beaujard, Christel, Jardino, Michèle},
journal = {Mathématiques et Sciences Humaines},
keywords = {classifications; mapping; distance; statistics; optimization; speech recognition; language modeling},
language = {fre},
pages = {7-23},
publisher = {Ecole des hautes-études en sciences sociales},
title = {Classifications de mots non étiquetés par des méthodes statistiques},
url = {http://eudml.org/doc/94534},
volume = {147},
year = {1999},
}

TY - JOUR
AU - Beaujard, Christel
AU - Jardino, Michèle
TI - Classifications de mots non étiquetés par des méthodes statistiques
JO - Mathématiques et Sciences Humaines
PY - 1999
PB - Ecole des hautes-études en sciences sociales
VL - 147
SP - 7
EP - 23
AB - Notre thématique de recherche est le développement de modèles de langage robustes pour la reconnaissance de la parole. Ces modèles doivent prédire un mot connaissant les mots qui le précèdent. Malgré le nombre croissant de données textuelles électroniques, toutes les possibilités de la langue ne sont pas présentes dans ces données, un moyen de les obtenir est de généraliser la représentation textuelle en regroupant les mots dans des classes. Les modèles de langage fondés sur des classes présentent alors une plus large couverture de la langue avec un nombre réduit de paramètres permettant une reconnaissance plus rapide des mots par les systèmes de reconnaissance de la parole dans lesquels ils sont introduits. Nous décrivons deux types de classification automatique de mots, appris statistiquement sur des textes écrits de journaux et de transcriptions de parole. Ces classifications ne nécessitent pas d'étiquetage des mots, elles sont réalisées suivant les contextes locaux dans lesquels les mots sont observés. L'une est basée sur la distance de Kullback-Leibler et répartit tous les mots dans un nombre de classes fixé à l'avance. La seconde regroupe les mots considérés comme similaires dans un nombre de classes non prédéfini. Cette étude a été réalisée sur les données d'apprentissage en français de domaines, de taille et de vocabulaire différents.
LA - fre
KW - classifications; mapping; distance; statistics; optimization; speech recognition; language modeling
UR - http://eudml.org/doc/94534
ER -

References

top
  1. [1] Adda G., Mariani J., Lecomte J., Paroubek P. et Rajman M., "The GRACE French Part-of-Speech Tagging Evaluation Task", Actes de Language Resources and Evaluation Conference, (1998), 433-441. 
  2. [2] Agosti M., Smeaton A., Information Retrieval and Hypertext, Kluwer Academic Publishers, 1996. 
  3. [3] Beaujard C., Jardino M., Bonneau-Maynard H., "Evaluation of a Class-Based Language Model in a Speech Recognizer ", Actes de International Workshop on Speech and Computer, (1997), 45-50. 
  4. [4] Beaujard C. et Jardino M., "Un Modèle de Langage Mixte Basé sur la Similarité des Mots dans un Système de Reconnaissance de Parole", Actes des Journées d'Étude sur la Parole, (1998), 343-346. 
  5. [5] Brown P.F. et al., "Class-based n-gram Models of Natural Language ", Computational Linguistics, (1992), vol.18 n°4. 
  6. [6] Celeux G. et al., Classification Automatiques des Données, Paris, Dunod Informatique, 1989. 
  7. [7] Cover T., Thomas J., Elements of Information Theory, Wiley & sons, 1991. Zbl0762.94001MR1122806
  8. [8] Dagan I., Marcus S. et Markovitch S., "Contextual Word Similarity and Estimation from Sparse Data", Computer Speech and Language, (1995), vol.9, 123-152. 
  9. [9] Duda R.O., Hart P.E., Pattern Classification and Scene Analysis, Wiley & sons, 1973. Zbl0277.68056
  10. [10] Farhat A., Isabelle J.F. et O'Shaughnessy D., "Clustering Words for Statistical Language Models Based on Contextual Word Similarity", Actes de IEEE International Conference on Acoustics Speech and Signal Processing, (1996), vol.1, 180-183. 
  11. [11] Gauvain J.L., Lamel L.F. et Adda G., "The LIMSI 1997 Hub-4E Transcription System", Actes de DARPA Broadcast News Transcriptions and Understanding workshop, (1998), 75-79. 
  12. [12] Huckle C., "Grouping Words Using Statistical Context", Actes de meeting of the Association for Computational Linguistics, (1995). 
  13. [13] Jardino M., "Multilingual Stochastic n-gram Class Language Models", Actes de IEEE International Conference on Acoustics Speech and Signal Processing, (1996), vol.1, 161-164. 
  14. [14] Jardino M., Beaujard C., "Rôle du Contexte dans les Modèles de Langage n-classes , Application et Evaluation sur MASK et RAILTEL", Actes des Journées Scientifiques et Techniques, (1997), 71-74. 
  15. [15] Jelinek F., Statistical Methods for Speech Recognition, MIT Press, (1998) 
  16. [16] Jelinek F., Mercer R.L. et Bahl L.R., "The Developpment of an Experimental Discrete Dictation Recognizer", IEEE, (1985), vol.73 n°11, 1616-1624. 
  17. [17] Lamel L.F. et al., "Developpment of Spoken Language Corpora for Travel Information ", Actes de European Conference on Speech Communication and Technology, (1995), vol.3, 1961-1964. 
  18. [18] Ney H., Essen U. et Kneser R., "On Structuring Probabilistic Dependences in Stochastic Langage Modelling ", Computer Speech and Language, (1994), vol.8. 

NotesEmbed ?

top

You must be logged in to post comments.

To embed these notes on your page include the following JavaScript code on your page where you want the notes to appear.

Only the controls for the widget will be shown in your chosen language. Notes will be shown in their authored language.

Tells the widget how many notes to show per page. You can cycle through additional notes using the next and previous controls.

    
                

Note: Best practice suggests putting the JavaScript code just before the closing </body> tag.