Slovak Hyphenation Patterns: A Time for Change?

Petr Sojka

Zpravodaj Československého sdružení uživatelů TeXu (2004)

  • Volume: 014, Issue: 3-4, page 183-189
  • ISSN: 1211-6661

Abstract

top
Dělení slov neboli algoritmická segmentace velké množiny řetězců nějakého jazyka je problém častější než by se na první pohled zdálo. Pro volně šiřitelné slovenské dělení slov zatím existuje pouze řešení vycházející z definice slabiky ve slovenštině, bez rozsáhlého pokrytí výjimek. Z více než miliónu shromážděných a rozdělených slov se podařilo vygenerovat programem PatGen nové volně šiřitelné vzory, které se s nepravidelnostmi jazyka vyrovnávají lépe než dosud dostupné řešení. Výsledek je použitelný nejen v distribucích TeXu, ale i v dalších systémech jako například OpenOffice.org. Použité a diskutované techniky bootstrappingu, stratifikace a generování vzorů jsou použitelné při řešení širokého spektra dalších "segmentačních" aplikací.

How to cite

top

Sojka, Petr. "Slovenské vzory dělení slov: čas pro změnu?." Zpravodaj Československého sdružení uživatelů TeXu 014.3-4 (2004): 183-189. <http://eudml.org/doc/298582>.

@article{Sojka2004,
abstract = {Dělení slov neboli algoritmická segmentace velké množiny řetězců nějakého jazyka je problém častější než by se na první pohled zdálo. Pro volně šiřitelné slovenské dělení slov zatím existuje pouze řešení vycházející z definice slabiky ve slovenštině, bez rozsáhlého pokrytí výjimek. Z více než miliónu shromážděných a rozdělených slov se podařilo vygenerovat programem PatGen nové volně šiřitelné vzory, které se s nepravidelnostmi jazyka vyrovnávají lépe než dosud dostupné řešení. Výsledek je použitelný nejen v distribucích TeXu, ale i v dalších systémech jako například OpenOffice.org. Použité a diskutované techniky bootstrappingu, stratifikace a generování vzorů jsou použitelné při řešení širokého spektra dalších "segmentačních" aplikací.},
author = {Sojka, Petr},
journal = {Zpravodaj Československého sdružení uživatelů TeXu},
keywords = {dělení slov; segmentace; PatGen; přebíjející vzory; bootstarpping; stratifikace},
language = {cze},
number = {3-4},
pages = {183-189},
publisher = {Československé sdružení uživatelů TeXu},
title = {Slovenské vzory dělení slov: čas pro změnu?},
url = {http://eudml.org/doc/298582},
volume = {014},
year = {2004},
}

TY - JOUR
AU - Sojka, Petr
TI - Slovenské vzory dělení slov: čas pro změnu?
JO - Zpravodaj Československého sdružení uživatelů TeXu
PY - 2004
PB - Československé sdružení uživatelů TeXu
VL - 014
IS - 3-4
SP - 183
EP - 189
AB - Dělení slov neboli algoritmická segmentace velké množiny řetězců nějakého jazyka je problém častější než by se na první pohled zdálo. Pro volně šiřitelné slovenské dělení slov zatím existuje pouze řešení vycházející z definice slabiky ve slovenštině, bez rozsáhlého pokrytí výjimek. Z více než miliónu shromážděných a rozdělených slov se podařilo vygenerovat programem PatGen nové volně šiřitelné vzory, které se s nepravidelnostmi jazyka vyrovnávají lépe než dosud dostupné řešení. Výsledek je použitelný nejen v distribucích TeXu, ale i v dalších systémech jako například OpenOffice.org. Použité a diskutované techniky bootstrappingu, stratifikace a generování vzorů jsou použitelné při řešení širokého spektra dalších "segmentačních" aplikací.
LA - cze
KW - dělení slov; segmentace; PatGen; přebíjející vzory; bootstarpping; stratifikace
UR - http://eudml.org/doc/298582
ER -

References

top
  1. Antoš, David, Sojka, Petr, Generování vzorů dělení slov v UNICODE, V Kasprzak a Sojka [12], strany 23–32. (2001) 
  2. Antoš, David, Sojka, Petr, Pattern Generation Revisited, V Pepping [19], strany 7–17. (2001) 
  3. Antoš, David, Sojka, Petr, Generování vzorů pomocí knihovny PATLIB a programu OPATGEN, Zpravodaj CSTUG, 12(1):3–12, 2002. (2002) 
  4. Beeton, Barbara, Hyphenation Exception Log, TUGboat, 5(1):15, květen 1984. (1984) 
  5. Beeton, Barbara, Hyphenation Exception Log, TUGboat, 6(3):121, listopad 1985. (1985) 
  6. Beeton, Barbara, Hyphenation Exception Log, TUGboat, 7(3):146–147, říjen 1986. (1986) 
  7. Beeton, Barbara, Hyphenation Exception Log, TUGboat, 10(3):336–341, listopad 1989. (1989) 
  8. Beeton, Barbara, Hyphenation Exception Log, TUGboat, 13(4):452–457, prosinec 1992. (1992) 
  9. Proceedings of EACL 2003 Workshop on Computational Linguistics for South Asian Languages - Expanding Synergies with Europe, duben 2003 (2003) 
  10. Haller, Jiří, Jak se dělí slova, Státní pedagogické nakladatelství Praha, 1956. (1956) 
  11. Haralambous, Yannis, A Small Tutorial on the Multilingual Features of PATGEN2, dostupné na CTAN jako info/patgen2.tutorial, leden 1994. (1994) 
  12. Sborník SLT 2001, Brno, Czech Republic, únor 2001. Konvoj. (2001) 
  13. Knuth, Donald E., The TeXbook, volume A of Computers and Typesetting. Addison-Wesley, Reading, MA, USA, 1986. (1986) MR0378456
  14. Chlebíková, Jana, Ako rozděliť (slovo) Československo, Zpravodaj CSTUG, 1(4):10–13, 1991. (1991) 
  15. Lhotka, Ladislav, 10.5300/1991-4/8, Zpravodaj CSTUG, 1(4):10–13, 1991. (1991) DOI10.5300/1991-4/8
  16. Liang, Franklin M., Word Hy-phen-a-tion by Com-put-er, PhD thesis, Department of Computer Science, Stanford University, USA, srpen 1983. (1983) 
  17. Liang, Franklin M., Breitenlohner, Peter, PATtern GENeration program for the TeX82 hyphenator, dokumentace programu PATGEN verze 2.3 z distribuce web2c na CTAN, 1999. (1999) 
  18. Lieskovský, Ján, Systém pro práci se seznamy slov, Bakalářská práce, Masarykova univerzita v Brně, Fakulta informatiky, 2003. (2003) 
  19. EuroTeX 2001, Kerkrade, The Netherlands, září 2001. NTG. (2001) 
  20. Sojka, Petr, Notes on Compound Word Hyphenation in TeX, TUGboat, 16(3):290–297, 1995. (1995) 
  21. Sojka, Petr, Hyphenation on Demand, TUGboat, 20(3):241–247, 1999. (1999) 
  22. Sojka, Petr, Competing Patterns for Language Engineering, V Sojka et al. [24], strany 157–162. (2000) 
  23. Sojka, Petr, Antoš, David, Context Sensitive Pattern Based Segmentation: A Thai Challenge, V Hall a Rao [9]. (2003) 
  24. Proceedings of the Third International Workshop on Text, Speech and Dialogue—TSD 2000, Lecture Notes in Artificial Intelligence LNCS/LNAI 1902, Brno, září 2000. Springer-Verlag. (2000) 
  25. Sojka, Petr, Ševeček, Pavel, Hyphenation in TeX - Quo Vadis?, TUGboat, 16(3):280–289, 1995. (1995) 

NotesEmbed ?

top

You must be logged in to post comments.

To embed these notes on your page include the following JavaScript code on your page where you want the notes to appear.

Only the controls for the widget will be shown in your chosen language. Notes will be shown in their authored language.

Tells the widget how many notes to show per page. You can cycle through additional notes using the next and previous controls.

    
                

Note: Best practice suggests putting the JavaScript code just before the closing </body> tag.