Information package & Course catalogue

pro akademický rok 2026/2027
Univerzita Palackého v Olomouci

English

Hledání

Předmět: Vytěžování jazykových dat a databází

» Seznam fakult » FIF » KBH

Název předmětu	Vytěžování jazykových dat a databází
Kód předmětu	KBH/EJAZD
Organizační forma výuky	Seminář
Úroveň předmětu	Magisterský
Rok studia	nespecifikován
Semestr	Zimní a letní
Počet ECTS kreditů	4
Vyučovací jazyk	Čeština
Statut předmětu	nespecifikováno
Způsob výuky	Kontaktní
Studijní praxe	Nejedná se o pracovní stáž
Doporučené volitelné součásti programu	Není

Vyučující
Pořízka Petr, PhDr. Ph.D.
Obsah předmětu
Metody exaktně založené analýzu textu s využitím softwarových nástrojů a textových databází, tzv. korpusů. Hlavní okruhy a témata: I. práce s korpusovými (zejm. konkordančními) nástroji, konkrétně a. tvorba a následná analýza frekvenčního slovníku libovolného textu b. vytěžování dat: konkordance, n-gramy (klastry), kolokace/koligace, klíčová slova textu c. využití regulárních výrazů, lingvistické anotace (lemma, tag) a dotazovacího jazyka CQL (Corpus Query Language) k vytěžování dat filtrování dat II. prominentní jednotky a textu: tematické výrazy, klíčová slova, lexikální vazby a slovní profily III. možnosti komparace a detekce vzájemných shod či rozdílností mezi texty: klastrování a vícerozměrná analýza IV. tvorba vlastní databáze DATA - jazykové korpusy a databáze - texty různého charakteru (beletrie, odborná literatura, publicistika ad.) - webové texty
Studijní aktivity a metody výuky
Přednášení, Dialogická (diskuze, rozhovor, brainstorming), Metody práce s textem (učebnicí, knihou), Demonstrace
Výstupy z učení
Cílem kurzu je představit studentům možná využití kvalitativně-kvantitativních metod analýzy textu na základě metod tzv. korpusové lingvistiky; (do)vést je k tomu, aby tyto metody a postupy dokázali aplikovat a použít pro komplexní a přitom exaktní analýzu založenou na kvantifikaci. V kurzu budou k těmto účelům prezentovány vybrané softwarové nástroje (vč. tzv. dotazovacích jazyků) a korpusové databáze, které mohou sloužit jako rozsáhlý a přitom strukturovaný zdroj autentických jazykových dat. Studenti budou v průběhu semináře vedeni k tomu, aby si osvojili nejnutnější terminologii, teorii a metody k samostatné práci s textem (vč. extrakce z databází). Student bude schopen po absolvování kurzu využít jazykové databáze (tzv. korpusy), zejm. z portálu Český národní korpus (ČNK), osvojí si nejdůležitější nástroje a postupy vytěžování dat a bude schopen sestavit a vyhodnotit vlastní malý korpus jazykových dat pro speciální účely.
Předpoklady
nespecifikováno
Hodnoticí metody a kritéria
Rozbor produktů pracovní činnosti studenta (technické práce), Seminární práce (1) Účast na tutoriálech (kontaktní výuka) (2) Splnění korespondenčních úkolů (3) Seminární projekt
Doporučená literatura
Sketch Engine User Guide. Baker, P. - Hardie, A. - McEnery, T. (2006). A Glossary of Corpus Linguistics. Edinburgh. Machálek, T. (2018). KonText - rozhraní pro vyhledávání v korpusech. Praha. Pořízka, P. (2014). Tvorba korpusů a vytěžování jazykových dat (metody, modely, nástroje). Olomouc.

Studijní plány, ve kterých se předmět nachází

Fakulta	Studijní plán (Verze)	Kategorie studijního oboru/specializace	Doporučený ročník	Doporučený semestr

Univerzita Palackého v Olomouci, data aktuální k: 12.07.2026 23:53. Data byla vytvořena pro akademický rok 2026/2027