Aktuální otázky práva autorského a práv průmyslových 2025

Tento příspěvek se zaměřuje na otázku, zda při trénování jazykového modelu do chází k zásahu do práv nositelů autorských práv, a to zejména s ohledem na tzv. TDM výjimku a možnou výhradu z ní, jak je uvedeno níže. Pro úplnost doplňujeme, že článek se nezabývá situací, kdy je v rámci výstupu jazykového modelu uživateli zpřístupněno konkrétní autorské dílo nebo jeho část (na příklad doslovný text knihy či článku). 2. Proces Text and Data Mining (TDM) Text and Data Mining (TDM), česky vytěžování textu a dat, je automatizovaný proces analýzy velkého množství digitálních dat (například textů) za účelem objevová ní informací, vzorců a souvislostí, které nejsou na první pohled zřejmé. Cílem TDM není „číst“ jednotlivé dokumenty, ale pomocí počítačových algoritmů v nich odhalovat skryté vztahy. Sběr dat v rámci TDM zahrnuje různé metody získávání digitálního obsahu. Nejčastěji se využívá web scraping, tedy automatizované stahování dat z webových stránek pomocí specializovaných programů, dále přístup přes API, což je strukturo vaný způsob získávání dat z platforem jako například Twitter nebo Google Scholar, případně přímé stahování obsahu (článků, knih atp.) z vědeckých či jiných databází. Klíčovým vykonavatelem TDM je software, tedy specializovaný počítačový pro gram, jehož hlavní úlohou je automatizovaný sběr dat, jejich následné zpracování a čiš tění, strukturování a ukládání do databází. V praxi se TDM využívá například pro: a) vědecký výzkum: analýzu velkého množství studií s cílem objevit nové souvis losti, například mezi nemocemi, b) obchod: analýzu zákaznických recenzí pro identifikaci nejčastějších stížností na produkt, porovnávání cen mezi konkurencí atp. c) trénování AI: zpracování milionů webových stránek pro natrénování jazykové ho modelu. Pro rozvoj a trénování umělé inteligence, zejména velkých jazykových mode lů, je TDM klíčovou technikou. Touto metodou se získávají tzv. hrubá data, která se po zpracování do podoby datasetu využívají k učení jazykového modelu. V rámci TDM se zpracovávají především veřejně dostupná data, typicky z webových stránek. Jak již bylo zmíněno výše, při TDM dochází k vytváření kopií zpracovávaného obsahu, což může zahrnovat rozmnožování děl chráněných autorským právem.

35

Made with FlippingBook - Share PDF online