Pattern Generation using PatLib Library and Program OPatGen

David Antoš; Petr Sojka

Zpravodaj Československého sdružení uživatelů TeXu (2002)

  • Volume: 012, Issue: 1, page 3-12
  • ISSN: 1211-6661

Abstract

top
Paper describes technique of competing patterns as a method for data mining and effective storage. Development of time- and space-effective hyphenation algorithm from already hyphenated word list is a typical application. The program PatGen, being nearly twenty years old, doesn't suit today's needs (limitation to eight-bit encodings, monolithic, hard to maintain code, etc.). A new pattern generator, OPatGen, suitable for system Ω, has been designed and implemented from scratch in object-oriented manner. An architecture of OPatGen is outlined. It is based on genericlibrary PatLib for pattern handling. Possible applications of the pattern technology are listed (multi-level and compound word hyphenation, Thai segmentation, optical character recognition .

How to cite

top

Antoš, David, and Sojka, Petr. "Generování vzorů pomocí knihovny PatLib a programu OPatGen." Zpravodaj Československého sdružení uživatelů TeXu 012.1 (2002): 3-12. <http://eudml.org/doc/298045>.

@article{Antoš2002,
abstract = {Článek popisuje techniku generování vzorů jako prostředek pro získávání informace z rozsáhlých dat. Typickou aplikací této techniky je vytvoření časově i prostorově velmi efektivního algoritmu dělení slov ze seznamu již rozdělených slov. Doposud chyběl generátor vzorů dělení pro UNICODE (pro systémΩ) a rozšíření dosud užívaného programu PatGen, omezeného osmibitovým ASCII, nebylo již nadále únosné. Proto vyvíjíme knihovnu PatLib pro obecnou manipulaci se vzory a na ní postavený generátor vzorů dělení slov OPatGen. Popíšeme architekturu tohoto systému. Vzory lze použít i pro rozpoznávání hranic složených slov, proto zmíníme návrhy na rozšíření následníků TeXu o klasifikované dělení s více typy dělicích bodů a o automatické potlačování ligatur na švech složených slov.},
author = {Antoš, David, Sojka, Petr},
journal = {Zpravodaj Československého sdružení uživatelů TeXu},
language = {cze},
number = {1},
pages = {3-12},
publisher = {Československé sdružení uživatelů TeXu},
title = {Generování vzorů pomocí knihovny PatLib a programu OPatGen},
url = {http://eudml.org/doc/298045},
volume = {012},
year = {2002},
}

TY - JOUR
AU - Antoš, David
AU - Sojka, Petr
TI - Generování vzorů pomocí knihovny PatLib a programu OPatGen
JO - Zpravodaj Československého sdružení uživatelů TeXu
PY - 2002
PB - Československé sdružení uživatelů TeXu
VL - 012
IS - 1
SP - 3
EP - 12
AB - Článek popisuje techniku generování vzorů jako prostředek pro získávání informace z rozsáhlých dat. Typickou aplikací této techniky je vytvoření časově i prostorově velmi efektivního algoritmu dělení slov ze seznamu již rozdělených slov. Doposud chyběl generátor vzorů dělení pro UNICODE (pro systémΩ) a rozšíření dosud užívaného programu PatGen, omezeného osmibitovým ASCII, nebylo již nadále únosné. Proto vyvíjíme knihovnu PatLib pro obecnou manipulaci se vzory a na ní postavený generátor vzorů dělení slov OPatGen. Popíšeme architekturu tohoto systému. Vzory lze použít i pro rozpoznávání hranic složených slov, proto zmíníme návrhy na rozšíření následníků TeXu o klasifikované dělení s více typy dělicích bodů a o automatické potlačování ligatur na švech složených slov.
LA - cze
UR - http://eudml.org/doc/298045
ER -

References

top
  1. Câmpeanu, Cezar, Sânteau, Nicolae, Yu, Sheng, Minimal cover-automata for finite languages, In Champarnaud et al. [2], pages 43-46. (1999) 
  2. Automata Implementation, Third International Workshop on Implementing Automata, WIA '98, Berlin, Heidelberg, 1999. Springer-Verlag. (1999) 
  3. Antoš, David, Sojka, Petr, Generování vzorů dělení slov v UNICODE, Str. 23-32, Brno, Czech Republic, Feb 2001. Konvoj. (2001) 
  4. The New Oxford Dictionary of English, Oxford University Press, Oxford, 1998. (1998) 
  5. Haralambous, Yannis, A Small Tutorial on the Multilingual Features of PATGEN2, in electronic form, available from CTAN as info/patgen2.tutorial, January 1994. (1994) 
  6. Haralambous, Yannis, Plaice, John, Methods for Processing Languages with Omega, 1997. available as http://genepi.louis-jean.com/omega/tsukuba-methods97.pdf 
  7. Hars, Florian, Typo-I email discussion list, 4 January 1999. (1999) 
  8. Hein, Piet, Grooks, MIT Press, Cambridge, Massachusetts, 1966. (1966) 
  9. Hofstadter, Douglas R., Gödel, Escher, Bach: An Eternal Golden Braid, Basic Books, 1979. (1979) MR0530196
  10. Jiang, Tao, Salomaa, Arto, Salomaa, Kai, Yu, Sheng, Decision problems for patterns, Journal of Computer and Systems Sciences, 50(1):53-63, 1995. (1995) MR1322633
  11. Karttunen, Lauri, Gaál, Tamás, Kempe, André, Xerox finite-state tool, Technical report, Xerox research Centre Europe, Grenoble, June 1997. http://www.xrce.xerox.com/research/mltt/fssoft/docs/fst-97/xfst97.html. (1997) 
  12. Knuth, Donald E., The TeXbook, Addison-Wesley, Reading, MA, USA, 1986. (1986) 
  13. Kornai, András, Extended Finite State Models of Language, Cambridge University Press, 1999. (1999) MR1739880
  14. Breitenlohner, Peter, Liang, Franklin M., PATtern GENeration program for the TeX82 hyphenator, Electronic documentation of PATGEN programversion 2.3 fromweb2c distribution on CTAN, 1999. (1999) 
  15. Mohri, Mehryar, Pereira, Fernando C. N., Riley, Michael D., FSM Library - General-purpose finite-state machine software tools, FSM Library — General-purpose finite-state machine software tools, 1998. http://www.research.att.com/sw/tools/fsm/. (1998) 
  16. Roche, Emmanuel, Schabes, Yves, Finite-State Language Processing, MIT Press, 1997. (1997) 
  17. Sojka, Petr, Notes on Compound Word Hyphenation in TeX, TUGboat, 16(3):290–297, 1995. (1995) 
  18. Sojka, Petr, Hyphenation on Demand, TUGboat, 20(3):241-247, 1999. (1999) 
  19. Sojka, Petr, Competing Patterns for Language Engineering, Lecture Notes in Artificial Intelligence LNCS/LNAI 1902, pages 157–162, Brno, Czech Republic, Sep 2000. Springer-Verlag. (2000) 
  20. Sojka, Petr, Ševeček, Pavel, Hyphenation in TeX - Quo Vadis?, TUGboat, 16(3):280–289, 1995. (1995) 
  21. Turing, Alan, Computing machinery and intelligence, Mind, (59):433-460, 1950. (1950) MR0037064

NotesEmbed ?

top

You must be logged in to post comments.

To embed these notes on your page include the following JavaScript code on your page where you want the notes to appear.

Only the controls for the widget will be shown in your chosen language. Notes will be shown in their authored language.

Tells the widget how many notes to show per page. You can cycle through additional notes using the next and previous controls.

    
                

Note: Best practice suggests putting the JavaScript code just before the closing </body> tag.