Předmět: Zpracování přirozeného jazyka

» Seznam fakult » FIF » KOL
Název předmětu Zpracování přirozeného jazyka
Kód předmětu KOL/ZPJ
Organizační forma výuky Přednáška + Seminář
Úroveň předmětu Bakalářský
Rok studia nespecifikován
Semestr Zimní a letní
Počet ECTS kreditů 5
Vyučovací jazyk Čeština
Statut předmětu Povinně-volitelný
Způsob výuky Kontaktní
Studijní praxe Nejedná se o pracovní stáž
Doporučené volitelné součásti programu Není
Vyučující
  • Matlach Vladimír, Mgr. Ph.D.
Obsah předmětu
1) Předzpracování nestrukturovaných dat 2) Zpracování strukturovaných rozsáhlých dat (XML, JSON) od kB až po TB. 3) NLP frameworky: Spacy, Udpipe, FLAIR, SPARK a NLTK a základní úlohy NLP: - zpracování vět, - analýza vztahů aktérů na základě závislostních pravidel, - určování sentimentu, - extrakce jmenných entit. 4) Modelování a vektorizace textu pomocí Bag-of-Words: - výhody, nevýhody, klasické úpravy, použití, - redukce použitím TF-IDF, SVD, PCA, - způsoby implementace, - výpočty podobností textů. 5) Sémantika - odvození latentní sémantiky na základě rozkladů PCA, SVD, MDS, - sémantické embeddingy Word2Vec, FastText, GloVe a jejich použití, - využití při analýze textů. 6) Kvantifiakce vlastností textů - identifikace tematických slov, klíčových slov, - identifikace témat pomocí LDA, - implementace automatické tvorby překladového slovníku pro zadaný jazyk pomocí paralelních korpusů, - implementace detekce synonymie. 7) OCR - použití Tesseract, PyTesseract, EasyOCR a dalších nástrojů, - implementace OCR včetně preprocessingu a postprocessingu jazykovými modely. 8) Speech-to-Text, Text-to-Speech - aktuálně dostupné technologie a modely Whisper, Seamless a další, - implementace jednoduchých úloh. 9) Velké jazykové modely (LLM) - LLM, generativní předtrénované transformery (GPT), - zero-shot, few-shot, RLHF, finetuning modelů, data ingestion, - BERT, LLAMA, Mistral a další, - implementace vlastního chatbota.

Studijní aktivity a metody výuky
nespecifikováno
Výstupy z učení
V tomto kurzu si studenti osvojí dovednosti a prostředky pro zpracování přirozeného jazyka. Naučí se zpracovávat texty v různých formách od čistého textu, jeho předzpracování a získání z formátů jako XML a JSON, naučí se využívat nástroje Spacy, Udpipe, Spark, NLTK a další k řadě reálných úloh. Dále se naučí užívat klíčových konceptů a běžných metod používaných v jazykových korpusech, které vytvářejí základnu pro výzkum velkých dat. Kromě toho se naučí některé klíčové pojmy z lingvistiky, zejména morfologii, syntax a sémantiku, které jsou užitečné v oblasti NLP. Důraz je kladen na praktičnost získaných znalostí.
1) Navýšení schopností v programování. 2) Osvojení si typických úloh v praxi a průmyslu. 3) Osvojení si úloh pro výzkum v jazykovědě.
Předpoklady
1) Dokončené alespoň programování 2 v Pythonu.

Hodnoticí metody a kritéria
nespecifikováno
1) Řešení zadaných úloh. 2) Aktivní účast.
Doporučená literatura


Studijní plány, ve kterých se předmět nachází
Fakulta Studijní plán (Verze) Kategorie studijního oboru/specializace Doporučený ročník Doporučený semestr
Fakulta: Filozofická fakulta Studijní plán (Verze): Lingvistika a Digital Humanities (2020) Kategorie: Filologické vědy 2 Doporučený ročník:2, Doporučený semestr: Zimní
Fakulta: Filozofická fakulta Studijní plán (Verze): Lingvistika a Digital Humanities minor pro Obecnou lingvistiku a teorii komunikace (2020) Kategorie: Filologické vědy 2 Doporučený ročník:2, Doporučený semestr: Zimní
Fakulta: Filozofická fakulta Studijní plán (Verze): Lingvistika a Digital Humanities maior (2020) Kategorie: Filologické vědy 2 Doporučený ročník:2, Doporučený semestr: Zimní
Fakulta: Filozofická fakulta Studijní plán (Verze): Lingvistika a Digital Humanities minor (2020) Kategorie: Filologické vědy 2 Doporučený ročník:2, Doporučený semestr: Zimní
Fakulta: Filozofická fakulta Studijní plán (Verze): Lingvistika a Digital Humanities maior pro Obecnou lingvistiku a teorii komunikace (2020) Kategorie: Filologické vědy 2 Doporučený ročník:2, Doporučený semestr: Zimní