Název předmětu | Zpracování přirozeného jazyka |
---|---|
Kód předmětu | KOL/ZPJ |
Organizační forma výuky | Přednáška + Seminář |
Úroveň předmětu | Bakalářský |
Rok studia | nespecifikován |
Semestr | Zimní a letní |
Počet ECTS kreditů | 5 |
Vyučovací jazyk | Čeština |
Statut předmětu | Povinně-volitelný |
Způsob výuky | Kontaktní |
Studijní praxe | Nejedná se o pracovní stáž |
Doporučené volitelné součásti programu | Není |
Vyučující |
---|
|
Obsah předmětu |
1) Předzpracování nestrukturovaných dat 2) Zpracování strukturovaných rozsáhlých dat (XML, JSON) od kB až po TB. 3) NLP frameworky: Spacy, Udpipe, FLAIR, SPARK a NLTK a základní úlohy NLP: - zpracování vět, - analýza vztahů aktérů na základě závislostních pravidel, - určování sentimentu, - extrakce jmenných entit. 4) Modelování a vektorizace textu pomocí Bag-of-Words: - výhody, nevýhody, klasické úpravy, použití, - redukce použitím TF-IDF, SVD, PCA, - způsoby implementace, - výpočty podobností textů. 5) Sémantika - odvození latentní sémantiky na základě rozkladů PCA, SVD, MDS, - sémantické embeddingy Word2Vec, FastText, GloVe a jejich použití, - využití při analýze textů. 6) Kvantifiakce vlastností textů - identifikace tematických slov, klíčových slov, - identifikace témat pomocí LDA, - implementace automatické tvorby překladového slovníku pro zadaný jazyk pomocí paralelních korpusů, - implementace detekce synonymie. 7) OCR - použití Tesseract, PyTesseract, EasyOCR a dalších nástrojů, - implementace OCR včetně preprocessingu a postprocessingu jazykovými modely. 8) Speech-to-Text, Text-to-Speech - aktuálně dostupné technologie a modely Whisper, Seamless a další, - implementace jednoduchých úloh. 9) Velké jazykové modely (LLM) - LLM, generativní předtrénované transformery (GPT), - zero-shot, few-shot, RLHF, finetuning modelů, data ingestion, - BERT, LLAMA, Mistral a další, - implementace vlastního chatbota.
|
Studijní aktivity a metody výuky |
nespecifikováno |
Výstupy z učení |
V tomto kurzu si studenti osvojí dovednosti a prostředky pro zpracování přirozeného jazyka. Naučí se zpracovávat texty v různých formách od čistého textu, jeho předzpracování a získání z formátů jako XML a JSON, naučí se využívat nástroje Spacy, Udpipe, Spark, NLTK a další k řadě reálných úloh. Dále se naučí užívat klíčových konceptů a běžných metod používaných v jazykových korpusech, které vytvářejí základnu pro výzkum velkých dat. Kromě toho se naučí některé klíčové pojmy z lingvistiky, zejména morfologii, syntax a sémantiku, které jsou užitečné v oblasti NLP. Důraz je kladen na praktičnost získaných znalostí.
1) Navýšení schopností v programování. 2) Osvojení si typických úloh v praxi a průmyslu. 3) Osvojení si úloh pro výzkum v jazykovědě. |
Předpoklady |
1) Dokončené alespoň programování 2 v Pythonu.
|
Hodnoticí metody a kritéria |
nespecifikováno
1) Řešení zadaných úloh. 2) Aktivní účast. |
Doporučená literatura |
|
Studijní plány, ve kterých se předmět nachází |
Fakulta | Studijní plán (Verze) | Kategorie studijního oboru/specializace | Doporučený semestr | |
---|---|---|---|---|
Fakulta: Filozofická fakulta | Studijní plán (Verze): Lingvistika a Digital Humanities (2020) | Kategorie: Filologické vědy | 2 | Doporučený ročník:2, Doporučený semestr: Zimní |
Fakulta: Filozofická fakulta | Studijní plán (Verze): Lingvistika a Digital Humanities minor pro Obecnou lingvistiku a teorii komunikace (2020) | Kategorie: Filologické vědy | 2 | Doporučený ročník:2, Doporučený semestr: Zimní |
Fakulta: Filozofická fakulta | Studijní plán (Verze): Lingvistika a Digital Humanities maior (2020) | Kategorie: Filologické vědy | 2 | Doporučený ročník:2, Doporučený semestr: Zimní |
Fakulta: Filozofická fakulta | Studijní plán (Verze): Lingvistika a Digital Humanities minor (2020) | Kategorie: Filologické vědy | 2 | Doporučený ročník:2, Doporučený semestr: Zimní |
Fakulta: Filozofická fakulta | Studijní plán (Verze): Lingvistika a Digital Humanities maior pro Obecnou lingvistiku a teorii komunikace (2020) | Kategorie: Filologické vědy | 2 | Doporučený ročník:2, Doporučený semestr: Zimní |