Název sekce
|
Informace pro podnikovou sféru a Competitive Intelligence
|
Od fulltextových a analytických dotazů k vizualizaci vztahů
Jan Žbirka, Economia Online, a. s.
Příspěvek předvádí práci analytika nad otevřenými informačními zdroji (Hospodářské noviny, Ekonom, Obchodní věstník) pomocí
nejmodernějších fulltextových a vizualizačních technologií, včetně jejich vzájemného propojení.
Přitom postupuje od jednoduchého fulltextového dotazu a jednoúrovňového váženého dotazu k víceúrovňovému analytickému
dotazu s rozlišením rozpoznávacích a hodnotících vah.
Poté ukazuje konsolidaci získaných vah do kalendáře a její grafické znázornění.
V další etapě je předveden rozklad tématu na podtémata a možnosti zobrazení i pohybů v kontextové matici.
V následné etapě vizuální analýzy jsou rozlišeny fáze úvodního hrubého náhledu (syntéza), vlastní vizuální analýzy vazeb
(analýza),
výsledného zobrazení hlavních vazeb (syntéza).
V závěru je zdůrazněna nutnost propojení a předvedeny metody propojení obrazových (grafických) a textových informací
Úvod
Pro vytvoření a provoz systémů v oblasti Competitive
Intelligence je třeba vytvořit systém s vyváženými informačními zdroji, nástroji, znalostmi a dovednostmi.
Úvod k úvodu
První dvě složky: informační zdroje (otevřené i interní) a nástroje
(vyhledávací a analytické) jsou vyzrálé, neboť mají za sebou delší vývoj, a proto mohou být poměrně dobře
propracovány.
Naproti tomu složka znalostí je mladá, atraktivní, má budoucnost, ale je nezralá, a proto je
pochopitelnou lákavou výzvou nejen pro odborníky.
V jejím stínu se pak ztrácí složka praktických dovedností (a trpělivého výkonu), které patří přítomnost
a zároveň je spolehlivým mostem do budoucnosti. Přesto je opomíjenou Popelkou. Právě proto ji však rád věnuji
pozornost.
Tento příspěvek je tedy určen těm, kdo dokáží takovou Popelku ocenit.
Dokončení úvodu
Postupně se zde seznámíme s typickými potřebnými a
používanými dovednostmi.
Přitom budeme postupovat od jednoduchého fulltextového dotazu a jednoúrovňového váženého dotazu k
víceúrovňovému analytickému dotazu s rozlišením rozpoznávacích a hodnotících vah.
Poté si ukážeme konsolidaci získaných vah do kalendáře a její grafické znázornění.
V další etapě bude předveden rozklad tématu na podtémata a možnosti zobrazení i pohybů v kontextové
matici.
V závěrečné etapě vizuální analýzy budou rozlišeny fáze úvodního hrubého náhledu (syntéza), vlastní vizuální
analýzy vazeb (analýza), výsledného zobrazení hlavních vazeb (syntéza).
Ukažme si tedy nyní krok za krokem výstup po pyramidě potřebných dovedností.
Fulltextové dotazy
Jednoduchý dotaz
Přestože zejména fulltextové vyhledávání ve WWW stránkách na mé
tváři většinou vyloudí shovívavý úsměv (pole pro zadání dotazu zpravidla do dvaceti znaků), rozhodně se nestydím zadávat
jednoduché dotazy.
Výsledek jednak umožní téměř obratem uživateli předat první výstup, nad
kterým je teprve schopen jasněji formulovat, co nechtěl příp. chtěl, a zadruhé umožní připravit podklady (cca 5-10
dokumentů) pro kvalifikovanější zadání dotazu.
Jednoúrovňový vážený dotaz
Jednoúrovňový vážený dotaz může být kompromisem mezi rychlostí
zpracování dotazu a přesností vyhledaných výsledků. Hlavní hledané výrazy jsou vedle sebe na jedné úrovni.
Nejrelevantnějším je zvýšena váha, nejméně relevantním je snížena (např. Extáze – má příliš široké sémantické pole).
Víceúrovňový analytický dotaz
Dotaz má hlubší strukturu, na úrovni listů rozlišuje,
větvemi u kořene hodnotí.
Konsolidace naměřených hodnot
Naměřené hodnoty z fulltextového vyhledávání (zejména skóre
relevance, ale i např. délku zpráv můžeme konsolidovat (sloučit) s kalendářem.
Nad grafickým vyjádřením potom můžeme analyzovat vlny zájmu o danou
problematiku (zejména v řezech podle času a zdrojů).
Kontextové analýzy
Uživateli zpravidla nestačí ohodnocení článků pomocí skóre relevance,
ale potřeboval by vědět, které hlavní složky a do jaké míry k tomuto ohodnocení přispívají. Zpracovatel přitom pro
první sloupec použije kompletní téma (zde uvedené v podkapitole Víceúrovňový analytický dotaz) a pro další sloupce
potom vybraná podtémata téhož dotazu. Uživatel se po takto namapovaném prostoru může samostatně pohybovat (zde např.
setřídit podle relevance ve sloupci prevence).
Uživatel si rovněž může sám klasifikovat vyznění článku (neutrální,
kladné, záporné, nehodnoceno) vůči tématu i podtématům (na výše uvedeném obrázku vlevo dole) a na závěr dostane
sumarizace těchto hodnocení.
Vztahové analýzy
U vztahové analýzy se mi osvědčilo jasně rozlišovat fáze úvodního
hrubého náhledu (syntéza), vlastní vizuální analýzy vazeb (analýza), výsledného zobrazení hlavních vazeb (syntéza).
Jako ve všech jiných oborech i zde je nutná počáteční jasná
intuice. Dovednosti pro tuto fázi nejsou předmětem tohoto příspěvku. Atributy této fáze jsou rychlost a lehkost.
Naproti tomu druhá fáze vlastní analýzy se vyznačuje značnou pracností a vyžaduje velkou trpělivost.
Výsledkem je potom vztahová mapa (mapy) pro formulaci hypotéz, jejich ověřování, a dále pak formulace závěrů.
Například výše uvedený diagram se zabýval společnostmi, které posílají
ČKD do konkurzu. Jednu obklopují izolované informace, druhé dvě jsou některými dokumenty provázány a za jednou z nich
je široký vějíř dalších informací.
Další analýza byla zaměřena ve směru tohoto vějíře a ukázala další souvislosti.
Někteří uživatelé k některým případům považují za postačující
takovéto namapování problému, neboť pod ikonami se skrývají analytické karty s vybranými dokumenty. Hypotézy a závěry
si chtějí učinit sami.
Závěrečnou fází je pak syntetické zobrazení pouze hlavních vztahů (s rozlišením prokázaných a hypotetických).
Atributem této fáze je vysoká zodpovědnost.
Závěr
Příspěvek se pokusil předvést práci analytika (se zaměřením na
potřebné dovednosti) nad otevřenými informačními zdroji (Hospodářské noviny, Ekonom, Obchodní věstník) pomocí nejmodernějších
fulltextových a vizualizačních technologií, včetně jejich vzájemného propojení.
Základem této práce je formulace víceúrovňového analytického dotazu, i když pro ad hoc dotazy (resp. pro
dotazy v časové tísni) lze použít i jednoúrovňový vážený dotaz příp. jednoduchý dotaz.
Víceúrovňový analytický dotaz potom nemusí sloužit pouze pro vyhledávání, ale s výhodou jej lze použít
též pro konsolidace naměřených hodnot do kalendáře a kontextové analýzy.
Týž dotaz může být také podkladem k filtraci dat pro vztahové analýzy. U nich je pak třeba rozlišovat tři
základní fáze zpracování a v diagramech potom odlišit zejména prokázané vazby od hypotetických. Součástí diagramu
musí být též klíčové dokumenty, uložené v analytických kartách pod ikonami.
Při vztahových analýzách si analytik musí být vědom jak vysoké zodpovědnosti, tak možné nebezpečnosti takové
práce.
|