Je tu další týden a s ním i další úkol do předmětu Nástroje a metody datové analytiky. Tentokrát jsem k prezentaci měla i přednášku, takže splnění úkolů bylo přece jenom o něco lehčí. Přesto jsem do toho doslova zírala pěkně dlouho. Měla jsem krátké přestávky v zírání, kdy jsem naopak bušila hlavou do stolu, ale výsledek se nakonec přece jenom dostavil. 🙂
První úkol byl dle mého názoru užitečný jako automat na kondomy ve Vatikánu, ale věřím, že je to pouze mojí neznalostí praktického využití jazyka XPath. Zadání jako vždy znělo jednoduše. Na heureka.cz vyberte TOP 40 praček a vytvořte tabulku, kde bude název, cenové rozpětí a hodnocení praček. Samozřejmě, že přepis do tabulky nepřichází v úvahu, musíme využít XPath, protože je to mnohem jednoduší, a rychlejší. Upřímně říkám, že kdybych to přepsala, tak to mám hotové asi 5x rychleji, ale rozhodla jsem se úkol přece jenom pokořit.
Do chromu jsem si nainstalovala XPath Helper, který při podržení Shiftu ukazuje přesnou cestu k určitému prvku. Zde to bylo jednoduché. Po nalezení názvu první TOP pračky, jsem musela cestu upravit od zbytečných hloupostí. Zde jsem zvolila vědecky ověřenou metodu „pokus-omyl“, kdy jsem postupně mazala části kódu a popřípadě opět přidávala, pokud výsledek hodil chybu nebo zmizel nebo se tam naopak něco přidalo. Následně jsem zbytek kódu pomocí funkce IMPORTXML převedla do Google Sheets, kde se mi měly zhmotnit data v krásném výpisu. Bohužel se objevila akorát chyba „loading“. Takže znovu a znovu a znovu a jiný kód a googlení jak o život. Nakonec jsem naštvaně odešla od počítače. Moje překvapení bylo obrovské, když jsem se vrátila a v tabulce byla nějaká data. Sice špatná, ale byla tam!!! Nyní už jsem plná optimismu dodělala celý úkol, tabulku jsem si rozšířila o kolonku počet recenzí, protože bez této informace je procentuální hodnocení k ničemu. Takže zde představuji TOP 48 praček.
Odkaz na Google Sheets: zde

Sice ani po dokončení úkolu nemohu říct, že by mě XPath fascinoval, ale cítila jsem se skutečně dobře, když se v tabulce magicky začaly objevovat správné údaje jenom díky jednomu příkazu.
Druhý úkol byl úplně jiného rázu. Mohli jsem si vybrat jeden z nástrojů, pro analýzu textu. Já jsem si vybrala první variantu: https://demo.geneea.com/. Do nástroje jsem měla vložit delší článek a promyslet, co mě zaujalo, či zda bych tento nástroj někdy reálně využila. Asi jediný zádrhel nastal při hledání článku, aby byl dostatečně dlouhý, něčím třeba zajímavý a reálně k něčemu. Rada pro ostatní, googlit „zajímavý článek“ je k ničemu 😀
Nakonec jsem zvolila článek o výběru dětské autosedačky ze stránek DTestu.
Po zadání jsem vybrala jazyk článku a pak jen čekala na analýzu. Po krátkém čekání se některé části článku obarvily a já se dala do zkoumání, co to znamená.

- Geneea sama najde odkud článek je
- Zvýrazní organizace a spočítá Vám, kolikrát je která zmíněná
- Vyznačí „General“ výrazy, což budou pravděpodobně důležitá slovní spojení, protože v článku o autosedačkách mi vyznaila slova jako silniční nehoda, krční páteř, konstrukce, bezpečnostní pás, instalace a podobně. Přestože slova jsou v článku zmíněná většinou jenom jednou, jsou důležitá
- Další barvou jsou zvýrazněná čísla, data, url adresy
- Dále zvýrazní „ostatní“ nezařaditelné části článku

- Docela rozsáhlou tabulkou jsou Attributes, která zobrazuje Attribute a Entity, zda je zde Negace a kolikrát jsou zmíněny.

- Tabulka Relations. Věnuje se slovesům a jejich objektům a subjektům.
O tomto nástroji jsem nikdy neslyšela a tento úkol byl první křest ohněm. Myslím si, že může mít využití a určitě se k němu vrátím. Pokud budu mít nějaký dlouhý text, u kterého budu potřebovat rychle zjistit základní informace, můžu si ho zde analyzovat a udělat si rychlý přehled o důležitých informacích, které budou ve článku.