Vyučující
|
-
Matlach Vladimír, Mgr. Ph.D.
|
Obsah předmětu
|
1. Teorie: Hlubší pohled na vícerozměrná data (prokletí dimenzionality) a praktické důsledky 2. Rozšířené způsoby měření podobnosti mezi objekty (metriky, komprese, ?) 3. Zpracování textu a aktuální nástroje pro NLP: Úskalí NLP 4. Vektorové reprezentace textů, vektorizace slov, vět a celků (Word2Vec, GloVE, FastText, LASER) 5. Nástroje pro zpracování a vytěžování přirozeného jazyka, knihovny pro jazyk R a Python 6. Identifikace jazyka; identifikace sentimentu; identifikace pojmenovaných entit; vytěžování témat 7. Základy a praktické zpracování obrazu a aktuální přístupy: OCR 8. Grafické embeddingy 9. Shlukování na základě grafické podobnosti 10. Generování popisků 11. Vytěžování sociálních sítí a aplikace grafových algoritmů: 12. Identifikace klíčových rolí v sociálních sítích; identifikace skupin 13. Obecné: Získávání dat; role dat a metadat
|
Studijní aktivity a metody výuky
|
nespecifikováno
|
Výstupy z učení
|
Tento kurz navazuje a dál rozvíjí předchozí znalosti z kurzu zpracování dat v DH. Student se zde seznámí s pokročilými aplikacemi již představených metod na komplexní data vyžadující další formu zpracování. Jedná se především o stále rozsáhlejší potřeby zpracovávat multimediální data (obraz, video, text), vztahová data a meta-data.
|
Předpoklady
|
nespecifikováno
|
Hodnoticí metody a kritéria
|
nespecifikováno
Pravidelná účast na seminářích (max. 2 absence) Aktivní přístup na seminář Studium doporučených materiálů Písemná práce Absolvování zápočtu
|
Doporučená literatura
|
|