Synonymní/variantní tvary verbálního substantiva jako problém konzistentní lemmatizace

Klára Osolsobě

https://orcid.org/0000-0003-2185-7815

Hana Žižková

https://orcid.org/0000-0002-6483-6603

https://doi.org/10.19195/0137-1150.179.11

Strony: 149-165

PDF (Čeština)

Abstrakt

Jako východisko pro náš příspěvek z oblasti počítačového zpracování přirozeného jazyka, konkrétně automatické morfologické analýzy, jsme zvolili dva koncepty, které byly propracovány v rámci projektu NovaMorf. První z nich představuje koncept vícenásobného lemmatu a druhý vy- jadřuje tzv. zlaté pravidlo morfologie, tedy požadavek na systematické zpracování variant, aby se každá varianta lišila dvojicí lemma + tag. Tyto dva požadavky vedou k systematickému korpuso- vému studiu variací v české morfologii. Cílem našeho příspěvku je podat ucelený obraz o důsledné lemmatizaci slovesných podstatných jmen zakončených na -ní/-tí, a to zejména v těch případech, kdy lze dějové jméno vytvořit od dvou podob kmene minulého, jako například nařčení/nařknutí, vysání/vysátí, zmražení/zmrazení ad.

Popis tvarosloví verbálních substantiv v synchronní podobě prezentovaný morfologickou anotací korpusů řady SYN (nejnověji syn_v10) vykazuje nekonzistentní řešení v případě, že ver- bální substantivum má variantní tvary. Zaměříme se tudíž na interpretace tvarů verbálních sub- stantiv od variant jednoho slovesa tvořených od variantního kmene, které lze interpretovat jako tvary synonymní/variantní. Také se budeme snažit zaznamenat nedostatky pokrytí morfologické- ho slovníku MorfFlex.

Bibliografia

Balhar, J. (2011). Český jazykový atlas. 4. díl. Praha: Academia.

Benko, V. (2014). Aranea: Yet Another Family of (Comparable) Web Corpora. In: P. Sojka, A. Horák, I. Kopeček, K. Pala (eds.), Text, Speech, and Dialogue. TSD 2014. Lecture Notes in Computer Science, vol. 8655 (s. 257–264). Cham: Springer.

Cvrček, V. a kol. (2010). Mluvnice současné češtiny 1. Praha: Nakladatelství Lidové noviny.

Cvrček, V., Vondřička, P. (2013). Morfio – application for analyzing morphological relations. Praha: FF UK. Dostupné z: http://morfio.korpus.cz (cit. 22. 9. 2022).

Cvrček V. a kol. (2016). Nová koncepce synchronních korpusů psané češtiny. Slovo a slovesnost 77 (2), s. 83–101.

Hajič, J. a kol. (2020). MorfFlex CZ 2.0, LINDAT/CLARIAH-CZ digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University. Dostupné z: http://hdl.handle.net/11234/1-3186.

Hlaváčová, J. (2009). Formalizace systému české morfologie s ohledem na automatické zpracování českých textů. Disertační práce. Praha: UK. Dostupné z: http://utkl.ff.cuni.cz/phpBB3/viewtopic.php?f=11&t=1.

Hnátková, M. a kol. (2014): The SYN-series corpora of written Czech. In: N. Calzolariet et al., Proceedings of the Ninth International Conference on Language Resources and Evaluation (LREC’14) (s. 160–164).

Holubová, V. (2006). Ke studiu variantnosti typu mísen(ý), míšen(ý) aneb Mísení/míšení na bázi korpusu. In: F. Štícha (red.), Možnosti a meze české gramatiky (s. 99–111). Praha: Academia.

Internetová jazyková příručka. (2022). Praha: ÚJČ AV ČR, 2008‒2022. Dostupné z: https://prirucka.ujc.cas.cz/?id=520#ref_id_125_3_1_2, (cit. 22. 9. 2022).

Jelínek T. a kol. (2021). SYN2020: A new corpus of Czech with an innovated annotation. In: K. Ekštein, F. Pártl, M. Konopík (eds.), Text, Speech, and Dialogue. TSD 2021. Lecture Notes in Computer Science, vol. 12848 (s. 48–59). Cham: Springer.

Komárek, M. a kol. (1986). Mluvnice češtiny 2. Praha: Academia.

Křen, M. a kol. (2022). Korpus SYN, verze 10 z 22. 2. 2022. Praha: Ústav Českého národního korpusu FF UK. Dostupné z: https://www.korpus.cz.

Křivan, J. a kol. (2022). Změny v morfologické anotaci korpusů řady SYN: nové možnosti zkoumání české gramatiky a lexikonu. Slovo a slovesnost, 83 (2), s. 122–145.

Osolsobě, K. (1996). Algoritmický popis české formální morfologie a strojový slovník češtiny. Disertační práce. Brno: MU.

Osolsobě, K. (2011). Morfologie českého slovesa a tvoření deverbativ jako problém strojové analýzy češtiny. Brno: Masarykova univerzita.

Osolsobě, K. a kol. (2017). Nová automatická morfologická analýza češtiny. Naše řeč 4, s. 225–234.

Osolsobě, K. (2017): Sloveso. In: P. Karlík, M. Nekula, J. Pleskalová (eds.), CzechEncy – Nový encyklopedický slovník češtiny. Dostupné z: https://www.czechency.org/slovnik/SLOVESO.

Petkevič, V. a kol. (2019). Parts of speech in NovaMorf, a new morphological annotation of Czech. Journal of Linguistics / Jazykovedný časopis, 70 (2), s. 358–369.

Suchomel, V. (2018). csTenTen17, a Recent Czech Web Corpus. In: A. Horák, P. Rychlý, A. Rambousek (eds.), Twelveth Workshop on Recent Advances in Slavonic Natural Language Processing (s. 111–123). Brno: Tribun EU.

Šlosar, D. (1981). Slovotvorný vývoj českého slovesa. Brno: UJEP.

Šmilauer, V. (1972). Nauka o českém jazyku. Praha: SPN.

Štícha, F. (ed.) (2013). Akademická gramatika spisovné češtiny. Praha: Academia.

Słowa kluczowe:

lemmatizace, verbální substantivum, varianty

Opublikowane

12-11-2024

Licencja

Utwór dostępny jest na licencji Creative Commons Uznanie autorstwa 4.0 Międzynarodowe.

Zasady cytowania

Osolsobě, K., & Žižková, H. (2024). Synonymní/variantní tvary verbálního substantiva jako problém konzistentní lemmatizace. Slavica Wratislaviensia, 179, 149–165. https://doi.org/10.19195/0137-1150.179.11