Vyučující
|
-
Pořízka Petr, PhDr. Ph.D.
|
Obsah předmětu
|
1. Základní pojmy, literatura a software 2. Metodologie: velikost korpusů, reprezentativnost a vyváženost dat, typy korpusů 3. České korpusy psaného a mluveného jazyka; ostatní projekty: elektronické slovníky, literární databáze, autorské korpusy 4. Korpusové nástroje a metody vytěžování dat (KWIC, konkordance, kolokace; regulární a booleovské výrazy, kolokační statistické indexy - asociační míry; frekvence a frekvenční distribuce) 5. Lingvistická anotace: lemmatizace, morfologické a syntaktické značkování (hlavní modely) 6. Strukturované vyhledávání dat - dotazovací jazyk CQL 7. Práce s lingvistickými daty v různých korpusových aplikacích či databázích Klíčovou součástí práce v semináři bude vyhledávání dat a vytváření jednoduchých i složitěji strukturovaných vyhledávacích formalismů v korpusových manažerech a databázi Český národní korpus (ČNK).
|
Studijní aktivity a metody výuky
|
Přednášení, Dialogická (diskuze, rozhovor, brainstorming), Metody práce s textem (učebnicí, knihou), Metody písemných akcí (např. u souborných zkoušek, klauzur), Demonstrace
|
Výstupy z učení
|
Cílem kurzu je seznámit účastníky se základními pojmy korpusové lingvistiky a připravit je na práci s korpusy, které se v posledních letech staly jednou ze základních pomůcek pro vědecké/exaktní studium jazyka. Účastníci kurzu seznámí se základními pojmy korpusové lingvistiky, vybranými korpusovými projekty a naučí se zacházet s několika českými korpusy prostřednictvím specializovaných softwarových nástrojů.
Cílem kurzu je seznámit studenty se základy korpusové lingvistiky a připravit je na práci s korpusy, které se v posledních letech staly jednou ze základních pomůcek pro vědecké studium jazyka. V teoretickém exkurzu jsou představeny vybrané korpusy psaného i mluveného jazyka, základní korpusová terminologie, softwarové aplikace a anotace korpusů. V praktické části kurzu si studenti osvojí techniky vyhledávání jazykových dat v různých korpusových aplikacích a jazykových korpusech.
|
Předpoklady
|
nespecifikováno
|
Hodnoticí metody a kritéria
|
Písemná zkouška, Rozbor produktů pracovní činnosti studenta (technické práce), Seminární práce
(1) pravidelná docházka (tolerance: 1 absence) a aktivní práce v semináři (2) průběžné plnění zadaných domácích úkolů, vč. samostudia (3) není-li splněn bod 2: absolvování zápočtového testu (4) vypracovaná sada finálních cvičení (CQL a vytěžování dat)
|
Doporučená literatura
|
-
Baker, P. - Hardie, A. - McEnery, T. A Glossary of Corpus Linguistics. Edinburgh 2006.
-
Benko, V. a kol. (2019). Webové korpusy Aranea. Olomouc.
-
Čermák - Klímová - Petkevič. Studie z korpusové lingvistiky. Praha 2000..
-
Čermák, F. - Blatná, R. (eds.). Jak využívat Český národní korpus. Praha 2005.
-
Čermák, F. - Blatná, R. Korpusová lingvistika: Stav a modelové přístupy. Praha 2006..
-
Čermák, F. (2017). Korpus a korpusová lingvistika. Praha.
-
Kol. Manuál práce s ČNK (wikidokumentace).
-
Osolsobě, K. (2014). Česká morfologie a korpusy. Praha.
-
Pořízka, P. (2014). Tvorba korpusů a vytěžování jazykových dat (metody, modely, nástroje). Olomouc.
|