1. Relevance, pertinence a funkce informačního systému v komunikačním procesu. Selekční jazyk. Efektivnost informačního
systému
Intenzivní propojení systémů z hlediska konceptu komunikačního procesu mezi systémem tvorby informací, jejich
zpracováním a zpřístupněním a dále pak se systémem potřeby a využívání informací pomocí jejich vzájemných vazeb je předpokladem
zpřístupnění relevantních, resp. pertinentních informací uživateli. Cílem celého procesu je schopnost poskytnou informace, které
jsou relevantní jak z hlediska formálního, tak věcného a zároveň vyhovují uživateli z hlediska jeho potřeb, jsou pertinentní.
Relevance, pertinence přesnost (precision) a úplnost (recall) vyhledávání jsou ústředními body, kolem kterých se proces
zpřístupňování informací odehrává a které jsou měřítkem efektivnosti komunikační funkce informačních systémů.
Zpřístupnění relevantních, resp. pertinentních informací uživateli předpokládá jasná pravidla pro zpracování
dokumentu a dotazů jak na úrovni strukturální, tak na úrovni sémantické. Důležitou úlohu hraje jazyk komunikace. Je možno
hovořit o třech úrovních relevance: syntaktické, sémantické a pragmatické.
Z hlediska operací a procesů probíhajících v informačním systému je možno rozlišit relevanci akvizice k
informačnímu fondu a relevanci obou vzhledem k funkci informačního systému, relevanci z hlediska vstupního zpracování (relevanci
z hlediska indexace dokumentu), tj.relevanci selekčního obrazu k dokumentu, relevanci z hlediska výstupního zpracování
(relevanci obsahové analýzy vzhledem k dotazu), tj. relevanci selekčního dotazu a předpisu.
Informační systém je efektivní pouze tehdy, když dostatečně plní svůj účel, tj. své celkové poslání.
Spočívá k zajištění informovanosti uživatelů. Efektivnost informačního systému nezáleží pouze na něm, ale i na jeho okolí. Faktory
podílející se na efektivnosti: společenská potřeba informačního útvaru, tematické pokrytí, organizace v příslušné tematické oblasti,
selekční systém (metody ukládání a vyhledávání informací), typy výstupů neboli informačních služeb, jejichž efektivnost je závislá
na struktuře uživatelské skupiny, šíření a distribuce informací, informační hodnota zpracovávaných dokumentů.
Kritéria efektivnosti: ekonomická efektivnosti (zisk, nákladovost, rentabilita), kritéria selekční
efektivnosti (poskytnutí relevantních informací), kritéria časová a schopnost se přizpůsobit změnám.
2.Vymezení rámce systému zpřístupňování plných textů z hlediska reálných možností i perspektiv
Zdroje plných textů : plné texty volně přístupné na Internetu (elektronické časopisy, elektronická
vydavatelství/nakladatelství/informační agentury - archivy a databáze), plné texty získané od
autora/vydavatele/nakladatele/distributora, automatický sběr dat. Zpracování bibliografických záznamů a plných textů :
tradiční v integrovaném knihovnickém systému (ALEPH apod.), v lince zpracování bibliografických záznamů z plných textů (extrakce,
automatická indexace doplněna ručně nebo zcela automatická) za současné tvorby URL a metadat ve formě UNIMARC/MARC 21, DC, XHTML,
XML/RDF a/nebo pomocí webovského formuláře. Identifikace plných textů: URL, URN, SICI, DOI. Propojení:
ruční/automatické, on-line/off-line, statické/dynamické, uzavřené/otevřené. Vyhledání a zpřístupnění plných textů: "subjects
gateways", témata, předmětové kategorie, OPAC - bibliografické záznamy (UNIMARC/MARC 21) s URL adresou, pojmové vyhledávání a
fulltextové vyhledávání (TOPIC) v kombinaci s rejstříky, metatagy DC, jazyky XHTML XML/RDF, protokoly HTTP, Z 39.50, SFX,
internetové vyhledávače. Uložení plných textů: archivy, databáze - servery (nakladatelé/vydavatelé, informačních agentury,
digitální knihovny). Výstupy: seznam článků (řazení dle relevance, do skupin - clustering aj.), formáty
(citace/DC/abstrakt/plný text, UNIMARC/MARC21 XHTML, XML/RDF), tisk. Export metadat a plných textů. Uživatelé:
lokální/interní, externí, registrovaní, neregistrovaní, zkušební registrace. Služby : neplacené, placené v rámci konzorcia
nebo mimo, přes IP, login, heslo nebo volně. Platby: mikroplatby, paušál, předplatné.
V České republice jsou poměrně dobře zpřístupňovány plné texty novin, týdeníků aj. časopisů. V Národní knihovně
se řeší kromě jiných dva projekty VaV financované z rozpočtu MKČR, které se zabývají zpřístupněním českých plných textů -
výzkumný záměr Propojení analytických záznamů s plnými texty a optimalizace zpřístupnění plných textů a programový projekt
Souborná databáze Kooperačního systému článkové bibliografie - optimalizace integrace a správy heterogenních dat.
Náplní projektů je propojení analytických záznamů s plnými texty a optimalizace integrace a správy
heterogenních dat souborné databáze Kooperačního systému článkové bibliografie. Bibliografické záznamy článků, publikovaných v
českém periodickém tisku a zpracovávané spolupracujícími knihovnami, jsou postupně propojované s elektronickou podobou článku a
takto prezentované na Internetu. Obě části souborné databáze - vznikající databáze plných textů ANL FULL a báze bibliografických
záznamů ANL ve formátu UNIMARC - vyžadují permanentní kvalitní SW a HW podporu.
3. Zpracování článků v ČR. Kooperační systém článkové bibliografie (KOSABI). Báze ANL, ANL FULL
Zpracování článků v ČR je poměrně rozsáhlé co do zdrojů, které se analyticky zpracovávají, tak co do
typů institucí, které tuto činnost provozují a má dlouhou tradici. Systém zpracování článků se vyvíjel paralelně po linii oborové,
regionální a národní. Automatizace umožnila určitý průnik systémů a v roce 1992 vzniká automatizovaný Kooperační systém článkové
bibliografie, Výsledkem kooperace KOSABI je souborná centralizovaná databáze ANL v systému ALEPH, do které přispívají instituce
participující v KOSABI. Některé instituce zároveň budují své lokální báze.
Součástí širšího kooperačního systému článkové bibliografie po linii oborové je zpracování článků
lékařské a zdravotnické literatury Národní lékařskou knihovnou. Kromě toho se zpřístupňují informace o článcích v některých
vysokoškolských a vědeckých institucích. Na úrovni městských knihoven je funkční systém LANIUS a jeho produkt Souborný katalog
článků.
Nově jsou některé báze kooperačního systému zpřístupňované z jednotného rozhraní, které poskytuje projekt
Jednotná informační brána. Báze ANL vychází jako řada ČNB - Články v českých novinách, časopisech a sbornících. Pro
zpřístupňování plných textů z databáze TAMTAM (Anopress) bylo založeno konzorcium.
Obsah báze ANL a ANL FULL
(počty jsou přibližné)
Počet zpracovaných dokumentů : ANL - 708 000 bibliografických záznamů, ANL FULL - 92 000 plných
textů s metadaty .
Počet zpracovávaných titulů: ANL -210 v NKČR, 469 ve spolupracujících institucích; ANL FULL
- 30 titulů.
Časové pokrytí: báze ANL 1990/91 - , báze ANL FULL 1997-.
Obory: filozofie, psychologie, knihovnictví, náboženství, politika, ekonomika, ekonomie,
sociologie, právo, pedagogika, matematika a přírodní vědy, lékařství (okrajově), technika a průmysl (omezeně), hudba, film, výtvarné
umění, sport (omezeně), jazykověda a literatura, historie, geografie a všeobecnosti.
Zpracovávané typy titulů a výběr článků z hlediska úplnosti: v kooperačním systému jsou
zpracovávány články a statě české novinové, časopisecké a periodické sborníkové produkce (sborníky vysokých škol, muzeí, archivů,
materiály z konferencí, ročenky, odborné i polytematické časopisy, kulturně-politické časopisy a populárně-naučné časopisy).
A: Seriály vydávané AVČR a vysokými školami v ČR (časopisy, sborníky, ročenky)
B: Seriály (časopisy, sborníky, ročenky) vydávané ostatními institucemi v ČR
C: Noviny (ústřední i regionální) a kulturně-polické časopisy
D: Populárně-naučné časopisy
1=excerpce je prováděna v úplnosti (100-80% počtu článků)
2=excerpce je prováděna částečně (80-25% počtu článků)
3=excerpce je prováděna výběrově (25%- počtu článků)
A: 1
B: 1 (sborníky ročenky), 1-2 (odborné časopisy)
C: 2,3
D: 3
Báze ANL - kategorie A-D, báze ANL FULL zatím kategorie C, z kategorie B periodikum Národní knihovna (též
samostatná aplikace ve formátech HTML, PDF).
Typy článků: faktograficky přínosné články, články odborné, články s dokumentární a uměleckou
hodnotou, oficiální dokumenty (projevy, vyhlášení, komuniké, usnesení), zprávy a informace o kulturních, sportovních, politických,
vědeckých aj. akcích (konferencích, seminářích, festivalech, jednáních, zasedáních, výstavách, divadelních, rozhlasových a
televizních inscenacích, besedách, sportovních soutěžích), souhrnné a hodnotící články, závažné polemiky, diskuze a komentáře. Dále
jsou zachyceny reportáže, biografické články (životopisné, jubilejní, nekrology, rozhovory, profily osobností, vzpomínky), literární
texty (básně, povídky aj. ještě nepublikované, nové překlady), fejetony, sloupky, úvodníky (pouze hodnotné), recenze publikací
různého zaměření, gramofonových desek, kompaktních desek, filmů apod. Obě báze jsou výběrové.
Metodika popisu báze ANL a ANL FULL
Obě báze obsahují záznamy, které respektují UNIMARC a pravidla popisu AACR2, pro oblast systematické indexace
MDT-MRF, verbální věcná indexace kombinuje klíčová slova, věcné obecné kategorie a předmětová hesla. Vyváženost vazby mezi
jednotlivými vrstvami popisu je klíčovým momentem. Báze ANL FULL obsahuje navíc Dublin Core (14 prvků) a Anl Core (20
prvků) ve formátech HTML, XHTML, XML. V rámci kooperačního systému byla stanovena pravidla pro výběr titulů k popisu (na základě
územní gesce - tituly regionální a celostátní provenience a dále pak na základě odborného zaměření). Dále byly stanoveny zásady
výběru článků co do úplnosti i co typů.
Vzájemné srovnání bází ANL a ANL FULL
Bibliografické záznamy báze ANL jsou propojeny s plnými texty báze ANL FULL. Báze ANL FULL je doplněna
portálem volně přístupných textů na Internetu (po linii regionální a oborové - cca 100 titulů). Bázi doplňuje samostatná
aplikace pro zpřístupnění periodika Národní knihovna v HTML a PDF.
Báze ANLnaopak obsahuje navíc přímé linky na některé volně přístupné plné texty na Internetu navíc
(Ikaros, U nás, Bulletin SKIP, Daidalos, Knihovní obzor, Lesnická práce, Psychiatrie, Psychologie dnes, Vesmír, Harmonie, Collection
of Czechoslovak Chemical Communications, Veřejná správa). K článkům pojednávajícím o zákonech jsou připojována plná znění
zákonů.
4. Architektura systému pro zpřístupňování plných textů. Linka zpracování. Systém TOPIC a pojmové vyhledávání. Báze ANL FULL
v systému TOPIC
4.1 Architektura systému, ve kterém vzniká báze ANL FULL a částečně báze ANL - datový a funkční model
Báze vzniká v rámci linky zpracování bibliografických záznamů z plných textů získaných z databáze TAMTAM za
současného generování metadat Dublin Core ve formátech HTML, XHTML, XML v kvalifikované a nekvalifikované formě. Báze je
provozována v systému TOPIC (pojmově orientovaný vyhledávací systém). Pro interní uživatele NKČR jsou přístupné plné texty i
metadata. Pro externí uživatele jsou běžně přístupná pouze metadata, plné texty zatím zkušebně na 7 dnů. Technologie zpracování
a zpřístupnění článků v systému TOPIC vychází z a navazuje na již vyvinutou technologii firmy Anopress, s.r.o.
- On-line získávání dokumentů z databáze TamTam přes vstupní filtr
pro linku zpracování - aplikace TT NK_Special (TamTam NK_Special), textové dokumenty vstupují do linky se
strukturovanou hlavičkou, kde jsou dohodnutými znaky a návěštími označeny příslušné údaje (v budoucnu možná další úprava
vstupních filtrů podle charakteru získávaných dokumentů z jiných zdrojů). Pozn.: off-line získávány retrospektivně starší
dokumenty.
- Zpracování plných textů
(extrakce dat z hlavičky dokumentu, doplnění a generování DC, UNIMARC, výstup v ANSEL, UNICODE, UNICODE-UTF 8) -
aplikace TTDE (TamTam Data Extractor) na lokálních pracovních stanicích.
- Konverze, generování dat URL, SICI, DC v HTML, XHTML+-, XML+-, indexace, uložení a vyhledání informací
(vyhledávání pomocí textu dotazu, formulářů, topiků, rejstříků) - aplikační a datový server: VIS 3.6 TOPIC ( v budoucnu
Portal One SE) - fulltextový vyhledávací systém, server Dell PoweEdge 6300 (0,5 GB RAM, 50 GB, Pentium III). MKINDEX
- indexace, generování XML- a XML+, jednorázové aplikace/moduly (TTEXPORT-TamTamExport, TTXMLGen -TamTam XML generator,
TTDT-TamTam Data Tester, TTDF-TamTam Data filter, TTDC- TamTam Data Convertor, MKDOC.PHP - propojení bibliografického záznamu s plným
textem).
- Zobrazení a zpřístupnění informací - Internet Information Server pro Win v. 4.0 (v budoucnu Win 2000) -
komunikace v síti, zobrazování dat a metadat v uživatelských formátech (citace bez/s odkazy, výsledky jednoduché, se
souhrnem, seskupené) a pracovních formátech (klíčová slova, DC v HTML, XHTML+ -, XML+ -), tisk. Obecné základní informace,
nápovědy, autorizace, statistika zobrazených informací přes Internet aj.
Poznámky:
- Program pro import bibliografických záznamů do ALEPHu mimo aplikaci
- Export dat z ANL FULL pro uživatele - bude řešen
4.2 Linka zpracování bibliografických záznamů z plných textů a propojení bibliografických záznamů a plných textů
Pracovník oddělení analytického zpracování NK nejprve vybere a vyhledá příslušné články ke zpracování v této
databázi. Stažení vybraných článků na počítač příslušného pracovníka v podobě komprimovaného souboru. Po jeho dekompresi je text
článku naimportován do příslušného adresáře. Po otevření formuláře ke zpracování se objeví v levém části formuláře pro editaci
seznam názvů článků. Po kliknutí na článek se automaticky objeví extrahované údaje z hlavičky článku v příslušných rubrikách
formuláře a hlavičkách TTDE.
Poznámka: částečná podoba strukturovaných údajů v textu dokumentu, který vstupuje do linky zpracování, je
uvedena v kapitole 5.
- Rozšířený formulář je nástroj vyvinutý pro editaci a doplnění extrahovaných dat. Data je možno upravovat také v hlavičce
ANIMARC-A, UNIMARC. Automaticky se generují údaje v
rozsahu minimálního záznamu stanoveného pro popis článků (kromě notace MDT), tj. údaje zejména jmenného popisu a kódované údaje.
Automaticky se generuje souhrn článku (první věty textu). Pokud je zvolena příslušná funkce, je možno automaticky generovat klíčová
slova. Další údaje věcného popisu - předmětové kategorie doplněné MDT, hesla se doplňují. Automaticky se generuje URL, SICI,
téměř celé pole LKR (k propojení se zdrojovým dokumentem - vazba up and down na analytický záznam - experimentálně zatím vazby
zkoušeny u deníku Právo, Magazín Práva, Reflex, Respekt, Týden).
Formulář má tři strany. První obsahuje jmenné a věcné údaje, druhá pouze věcné, třetí jmenné a věcné
údaje.
UNIMARC-A
hlavička je hlavička s bibliografickými údaji pro importní vstupní soubor záznamů do ALEPHu (řádkový UNIMARC), do
které se automaticky generují tatáž data jako do formuláře pro editaci a úpravy zanesené do tohoto formuláře. Tato hlavička je také
přístupná pro editaci samostatně. Jde o řádkový UNIMARC.
UNIMARC hlavička, hlavička pro klasický UNIMARC
s týmiž vlastnostmi jako hlavička UNIMARC-A - slouží k eventuelnímu importu pro systémy, které jsou založeny na UNIMARCU -
řádkový UNIMARC. Do hlavičky jsou generované tytéž údaje jako do výše jmenované hlavičky.
DUBLIN hlavička
s týmiž vlastnostmi jako předchozí dvě hlavičky sloužící ke generování metadat Dublin Core - vychází z poslední verze
Dublin Set Elements, z 15 jeho prvků aplikuje 14 (pro jemnější vyhledávání jsou určeny tzv. prvky Anl Core).
Zobrazovací hlavička
slouží k zobrazení údajů v hlavičce plného textu.
Indexovací hlavička
slouží k indexaci uložených údajů v databázi ANL FULL.
Po odrážce různé je možno nastavit tvar výstupní hlavičky pro UNIMARC-A nebo UNIMARC a spustit
ruční vstup dat, nastavit kód výstupních dat (ANSEL, UNICODE, UTF-8). Standardně nastaven výstup UNIMARC-A v kódu ANSEL.
Následuje odeslání záznamů pomocí volby odeslat na dolní liště, import do ALEPHu (program vyvinutý v NK),
import na server FULL.NKP.CZ. Pro propojení plných textů s bibliografickými záznamy v systému ALEPH (doplnění URL adres
do záznamů) byl vytvořen skript MKDOC.PHP. Propojení probíhá ne základě dynamicky generovaného odkazu na dokument.
Program vyhledá požadovaný dokument dle identifikace (identifikační číslo), provede statistiku a kontrolu autorizace a na jejím
základě zobrazuje plný text, abstrakt a citaci dokumentu v rámci databáze ANL FULL na serveru FULL.NKP.CZ.
4.3. Systém TOPIC a pojmové vyhledávání
Systému TOPIC (pojmově orientovaný vyhledávací systém, concept based retrieval)je systém třetí
generace založený na následujících principech: rozklad pojmu na podpojmy, vážení jednotlivých podpojmů (větví pojmového stromu),
neostré vyhodnocování dotazů.
Dotaz v systému třetí generace reprezentuje pojem, resp. ideu vyhledávaného tématu.Jádrem dotazu je
stromová hierarchická struktura, která rozkládá hledané téma na podtémata a přiřazuje jednotlivým částem váhy, které vyjadřují do
jaké míry příslušné téma přispívá k celkovému určení tématu. Systém dále vypočítá míru relevance vyhledaných dokumentů. Oproti běžně
používaným operátorům TOPIC používá operátor ACCRUE se specifickými vlastnostmi. Tento operátor sbližuje operátory and a or.
Každý topik obsahuje tedy tři základní charakteristiky - strukturu, váhy a operátory (viz dále).
Podstata systému TOPIC
Topik je předem definovaný strukturovaný dotaz.
Jednotlivá slova do topiku vkládáme pomocí operátorů a modifikátorů. Určujeme tím, v jakých vztazích k dalším
pro dané téma typickým výrazům se mají tato slova v textech vyskytovat a jaký mají pro daný dotaz význam, resp. váhu. K tvorbě
topiků se používá editor a dotaz v něm má strukturu členěné osnovy nebo stromu. Systém vyhledá všechny dokumenty, v nichž
se v určených souvislostech vyskytují alespoň některá ze zadaných slov. Přihlíží i k pádovým koncovkám. Každému
nalezenému dokumentu program přiřadí ohodnocení relevance v podobě čísla a to formou číselného skóre, kdy vychází jednak z četnosti
výskytu zadaných slovních kombinací a jednak zohledňuje váhy, které jsme přisoudili jednotlivým větvím. Fulltextové vyhledávání
pomocí tropiků se vyznačuje úplností, značnou přesností a vysokou mírou přizpůsobivosti individuálním potřebám uživatelů.
Úplnost (recall) znamená, že systém zachytí prakticky všechny dokumenty, které se v té či oné míře týkají daného
tématu. Přesnost (precision) vyhledávání souvisí s hodnotou skóre: platí, že text, který obsahuje větší počet slovních
kombinací typických pro určité téma, se k tomuto tématu váže.
Soubor vytvořených topiků je možno organizovat do znalostní báze. Každý TOPIC má své jméno a popis.
Určování důležitosti dokumentů
Zda nějaký dokument dotazu vyhovuje či ne záleží na tom, jakými operátory jsou jednotlivá slova
spojena. U běžných fulltextových technologií je možné klíčová slova spojovat operátory and nebo or.
AND - dokument obsahuje všechna klíčová slova, která požadujeme, tj. přesné vyhledávání .
OR - dokument obsahuje alespoň jedno klíčové slovo, tj. úplné vyhledávání (vyhledány všechny potenciálně
možné dokumenty).
Oba operátory lze kombinovat pomocí operátoru ACCRUE (zapisuje se jako čárka při vyhledávání) a je
založen na principu " čím více různých klíčových slov je nalezeno, tím je dokument důležitější". Na prvním místě jsou
dokumenty obsahující všechna slova, na dalších dokumenty obsahujíc méně a méně různých klíčových slov. Pro přesné vyhodnocení
důležitosti (relevance) dokumentu se berou v úvahu uvedené váhy slov a četnost jejich výskytu. Důležitý je operátor
Near/nn, který umožňuje vyhledání jen takových dokumentů, kde je určitá množina slov ve vzdálenosti definována číslem nn.
U systému TOPIC odpadá tedy dilema mezi přesností a úplností, řeší je operátor ACCRUE.
Kvantifikace obsahu dokumentů
Pomocí široké škály operátorů lze stanovit způsob vyhodnocování důležitosti dokumentů vzhledem k dotazu.
Toto číslo se nazývá relevance a nabývá hodnot 0,001 až 1.00.
Shlukování (clustering) - funkce, která umožňuje vyhledané dokumenty shlukovat podle možného
společného kontextu. Shlukování je založeno na statistické analýze obsahu prováděné při jeho indexaci. Pro každý dokument je vybrána
řada slov (Významový vektor), která s určitou pravděpodobností vystihuje obsah dokumentu, a na základě něj se vytváří
automatická anotace v podobě nejvýznamnější vět z dokumentu (summary).
Příklad topiku(zjednodušená osnova):
¨VýzkumVesmíru <Accrue><
0.70¨ VýzkumVesmíru-Kosmonautika <Accrue><
0.80¨ VýzkumVesmíru-PozorováníHvězd <Accrue><
0.60¨<Stem>dalekohled
0.60¨<Stem>hvězdář
0.60¨<Stem>observatoř
Topik lze také znázornit ve stromové struktuře a znakové situaci.
4.4 Báze ANL FULL v systému TOPIC. Jak se zaregistrovat. Jak vyhledávat. Výsledky vyhledávání a zobrazení
Bližší charakteristika báze ANL FULL obsah, zdroje, registrace (viz též bod 3 dříve)
Databáze ANL FULL obsahuje vybrané plné texty celostátních deníků a některé kulturně politické a ekonomické
časopisy s přibližnou retrospektivou od r. 1997(Profit, Reflex, Respekt, Strategie, Týden, Kapitál, Úspěch,
Bankovnictví, Ekonom). Velmi výběrově obsahuje některé regionální tituly. Obsahuje též periodikum Národní knihovna.
Báze je průběžně aktualizována v rámci linky zpracování bibliografických záznamů z plných textů od
května 2001. Do konce března 2002 bylo v lince zpracováno celkem cca 13 000 plných textů. Je také průběžně doplňována off-line. Ve
zdrojových kódech plných textů jsou obsaženy všechny již zmíněné hlavičky (DC, UNIMARC aj.). DC ve formátu XML je generován do
zvláštní databáze.
Vyhledáváníje možné z každého slova z textu, pomocí slov i frází, pomocí bibliografických údajů, dále pak tzv. topiků
(definovaných dotazů, resp. témat v rámci jednotlivých oborů) a pomocí rejstříků.
Topikyjsou uspořádány do 7 tematických oblastí, ty se dělí do 20 tematických skupin a skupiny obsahují zatím 114
detailních témat.
Tematické oblasti:
- - Ekonomika, obchod, finance
- - Hospodářství, výroba
- - Humanitní a společenské vědy
- - Matematika a přírodní vědy
- - Lékařství, zdravotnictví, technika
- - Sport, volný čas
Při zobrazení jsou texty vybaveny citací (bibliografický popis, resp.metadata), automaticky tvořeným
souhrnem (začátek článku).
4.4.1 Jak se zaregistrovat
Externí uživatelé se mohou zatím zaregistrovat pomocí formuláře v nabídce Registrace na dobu 7 dnů. Po vyplnění
povinných údajů bude těmto uživatelům zasláno e-mailem potvrzení registrace s aktivačním odkazem a heslem - po odeslání tohoto
odkazu je registrace aktivována a prostřednictvím přiděleného hesla zajištěn bezplatný zkušební přístup na dobu sedmi dnů.
Rutinní zpřístupňování plných textů bude možné po vyřešení autorskoprávních, popř. ekonomických otázek souvisejících se
zpřístupňováním plných textů.
Nabídka Přihlášení slouží k autentifikaci registrovaného uživatele. Ve formuláři pro přihlášení je třeba vyplnit jméno a
přidělené heslo.
4.4.2 Jak vyhledávat. Druhy dotazů v databázi ANL FULL a systému TOPIC
Báze ANL FULL obsahuje jak bibliografický popis v různé míře podrobnosti podle vývoje systému, tak plný
text, přičemž obě tyto části jsou indexovány a lze z nich paralelně vyhledávat a docílit tím větší míru relevance výsledku
vyhledávání k položenému dotazu. Systém umožňuje velmi sofistikované kladení dotazů vyžadující určitou zkušenost. Na druhé
straně je možné položit dotaz velmi jednoduchým způsobem. Systém umožňuje tři způsoby hledání: vyhledávání (searching) pomocí
formulářů a pole dotaz, pomocí topiků - předem strukturovaných dotazů v rámci rozšířeného formuláře, prohlížení (browsing)
rejstříků.
A. Formuláře - tři základní formuláře podle pokročilosti vyhledávání.
Základní formulář
Nabídky:
Dotaz - hledat v textu (formulace dotazu)
Období pro vyhledání od do
Typ seznamu výsledků (článků):
jednoduchý (pouze název s nabídkou zobrazovacích formátů)
se souhrnem (plus souhrn, který je tvořený počátečními větami článku)
seskupený (skupiny článků uspořádané podle shody v klíčových slovech).
Rozšířený formulář
Nabídky:
Obsahujestejné nabídky jako základní formulář, navíc pak vyhledávání podle imlicitních polích ve
struktuře formuláře. Je možno zvolit, zda vyhledávat v těchto implicitních polích způsobem <contains> nebo způsobem =.
Pro seznam výsledků je možno navíc navolit oproti základnímu formuláři skóre relevance, od které zobrazovat články, zobrazit
určitý počet článků na stránku, dále třídit dle skóre relevance, názvu, zdroje, data vydání, stran, a to sestupně či
vzestupně.
Hledat v textu - odpovídá poli Dotaz v základní formuláři (formulace dotazu)
Období pro vyhledání od do
Implicitní pole:
název, autor (s nabídkami pro jednotlivé údaje)
číselné údaje (s nabídkami pro jednotlivé údaje)
předmět (s nabídkami pro jednotlivé údaje)
další nabídky: typ článku (s nabídkami pro jednotlivé typy článků)
zdrojový dokument (s nabídkami zdrojových dokumentů)
Způsob vyhledání řetězců (v implicitních polích):
<contains> (postačí výskyt řetězce v poli)
= je požadováno přesné zadání i porovnání řetězce
Typ seznamu výsledků (článků):
jednoduchý (pouze název s nabídkou zobrazovacích formátů)
se souhrnem (plus souhrn, který je tvořený počátečními větami článku)
seskupený (skupiny článků uspořádané podle shody v klíčových slovech)
Skóre (relevance, od které zobrazovat články)
Výsl./str. (počet článků na stránku)
Třídění:dle skóre (relevance)
dle názvu
zdroje
data (vydání)
stran
a to sestupně nebo vzestupně.
Rozšířený formulář s tématy
Nabídky:
Tento formulář mástejné nabídky pro vyhledávání jako rozšířený formulář, umožňuje vyhledávat navíc
podle témat, resp. topiků, resp. dotazů. Pro bázi ANL FULL jsou nadefinovány některé topiky, rozdělené do tří úrovní.Topik slouží
k tomu, že hledaný výraz vyplněný do textu dotazu a různě zpřesňovaný je navíc upřesněn topikem, tj. tématem. Např. hledáme-li v
bázi výraz hvězdy, výsledek obsahuje několik tisíc dokumentů. Specifikujeme-li tento výraz pro vyhledávání v rámci astronomie,
najdeme pouze několik set dokumentů.
B. Dotazy - druhy dotazů se liší náročností formulace a možností ovlivnit výsledek vyhledávání .
Prostý dotaz
Obsahuje slova nebo fráze oddělené čárkami nebo logickými spojkami, formulace mohou obsahovat různé
konvence. Při vyhledávání se všechna slova skloňují a mají stejnou váhu.
Formulářový dotaz
Obsahuje kromě možnosti pro zadání hledaného slova nebo fráze jako u prostého dotazu i pole pro zadání
podmínek pro jednotlivé položky strukturované části textové databáze. Jde o rozšíření prostého dotazu.
Tematický dotaz, resp. topik - definujeme jednotlivá témata.
Topik je typ dotazu, na jehož základě se vyhledají dokumenty, které se týkají určitého tématu, oboru nebo
problému.
Topiky jsou rozděleny v bázi do tří úrovní. Lze zatím vyhledávat podle některých nadefinovaných topiků
(označeny šipkou vlevo). Topiky viz dříve.
C. Metodika vyhledávání pomocí formulářů, pole dotaz, topiků
Uživatel zvolí typ vyhledávacího formuláře popř. změní jeho implicitní parametry. Vlastní dotaz potom je
možné zadat kombinací výše uvedených prostředků.
Pole
Pole dotaz, resp. text dotazu -obsaženo ve všech formulářích.
Nejjednodušší dotaz tvoří jediné slovo, fráze.Pro zadávání složitějších nebo víceslovných dotazů je možno
použít logické operátory (and, or, not a další), případně další konvence, např. zástupné znaky. Uvedením návěští se vyhledávání
omezuje na příslušné pole.
Základní operátory:
and - v poli jsou obsaženy všechny hledané výrazy
or - pole obsahuje alespoň jeden hledaný výraz
not - hledaný výraz nesmí být v poli přítomen
Konvence pro všechny formuláře - pole dotaz, resp. text dotazu(ukázka):
Př. 1
hvězdy
Vyhledají se dokumenty, které obsahují různé gramatické tvary zadaného slova (hvězdy, hvězdám...).
Př. 2
hvězdy, asteroidy, planetky
Vyhledá dokumenty, které obsahují různé gramatické tvary slov ”hvězdy” nebo ”asterioidy” nebo ”komety” (čárky lze nahradit
operátorem or nebo <accrue>, který je přesnější).
Př. : 3
”meteorický roj” or ”padající hvězdy” .
Vyhledá dokumenty, které obsahují různé gramatické tvary frází ”meteorický roj
nebo ”padající hvězdy”.
Př.: 4
komety <near> kolize
Vyhledá dokumenty, které zároveň obsahují různé gramatické tvary slov ”komety” i ”kolize”, a seřadí je podle
textové vzdálenosti mezi těmito slovy.
Př.:5 - vyhledávání pomocí nadefinovaných prefixů
zdr=Respekt and naz=Rafinovaný odraz skutečnosti
src=Respekt and ti=Rafinovaný odraz skutečnosti
dc.source=Respekt and dc.title=Rafinovaný odraz skutečnosti
Implicitní pole - obsažena v rozšířeném formuláři a v rozšířeném formuláři s tématy (viz dříve)
.
Téma - jedno nebo více témat je možno vybrat označením v seznamu v pravém pruhu od formuláře
(maximálně 3 témata pomocí klávesy Ctrl). Témata lze kombinovat vzájemně mezi sebou i s dotazem v poli dotazu, resp. textu
dotazu.
Relace mezi tématy a poli je možné zaškrtnutím voleb příslušných voleb v pravé dolní části
formuláře (volba and, or).
D. Rejstříky
V rejstřících je možno listovat a vybrat výraz, podle kterého chceme vyhledávat. Tyto výrazy jsou
hypertextově propojeny v citacích s metadaty, resp. údaji bibliografického popisu. Podle rejstříků doporučujeme
vyhledávat údaje zejména týkající se předmětu dokumentu (předmětové kategorie, hesla - věcná a geografická, osoby, korporace,
akce, klíčová slova, dokument/dílo). Rejstřík se zobrazuje v levém okně, v pravém okně se zobrazují vyhledané
články.
Bylo nadefinováno 17 rejstříků: autoři, název zdroje, zdroj ročník číslo, datum vydání, předmětové
kategorie, předmět, místo, hesla (věcná a geografická), osoby, korporace, akce, klíčová slova, dokument/dílo, typ článku, MDT,
geografické vymezení, časové vymezení.
4.4.3 Výsledky vyhledávání, zobrazení výsledků
A. Způsoby zobrazení seznamu výsledků (názvů vyhledaných článků)
V záhlaví seznamu výsledků uveden počet vyhledaných článků. Počet vyhledaných dokumentů na
stránku je dán volbou v poli Výsl./str. V závislosti na této volbě se potom zobrazuje počet stran s možností
listování.
U jednotlivých článků zobrazeno vždy, resp. standardně (zleva): tři formáty pro zobrazení údajů o článku, skóre relevance,
datum vydání, název článku, velikost plného textu.
- jednoduchý
(standardní zobrazení)
- se souhrnem
(standardní zobrazení plus souhrn)
- seskupený
(standardní zobrazení plus články uspořádané do skupin podle shody v klíčových slovech podle společného kontextu,
clustering)
B. Třídění seznamu výsledků (názvů vyhledaných článků)
Skóre(relevance, od které zobrazovat názvy článků)
Výsl./str.(počet článků na stranu)
Třídění:dle skóre (relevance)
dle názvu
zdroje
data (vydání)
stran
a to sestupně nebo vzestupně.
C. Zobrazení údajů o článku - formáty zobrazení
Uživatelské formáty
- Citace článku, souhrn
- bibliografické údaje o článku, resp. metadata s odkazy pro další hledání
- Citace článku, plný text
- bibliografické údaje o článků, resp. metadata s odkazy pro další hledání a plný text článku
- DC/HTML
- Dubline Core Metadata
- Název článku hypertextově aktivní -
zobrazení citace a plného textu bez odkazů
Pracovní formáty
V záhlaví plného textu jsou navíc různé pracovní formáty - klíčová slova, UNIMARC (komunikativní
formát), Dublin Core - formát pro zpřístupňování elektronických dokumentů a jeho aplikace, které obsahují metadata
(DC/HTML/META, DC/XHTML kvalifikovaný a nekvalifikovaný, DC/XML kvalifikovaný a nekvalifikovaný). Jsou určeny pro
budoucí vývoj systému a zpřístupnění plných textů.
Metadata
Ve všech variantách zobrazení je obsažena citace, resp. biliografické údaje, resp. metadata.
( Dublin Core a Anl Core).
Př.6:
Název:
|
Cesta mezi hlavou a rukou |
Podnázev:
|
Když některé věci nenapíšu, nikdy se je nedozvím, říká publicista a
spisovatel Pavel Kosatík |
Hlavní autor:
|
Pavel Kosatík |
Další autor: |
Karel Hvížďala |
Zdroj:
|
Mladá fronta Dnes |
Zdroj-příl.: |
Ekonomika |
ISSN:
|
1210-1168 |
Roč. |
12, č. 204 (1.9.2001), s. C/5 |
Rubrika:
|
Kultura - Pohledy |
Předmět. ktg.:
|
politika: politici |
|
literatura: česká literatura |
|
hromadné sdělovací prostředky: novináři |
MDT:
|
323-051, 070-051, 821.162.3-051 |
Osoba jako předmět:
|
Masaryk, Jan, 1886-1948 |
|
Peroutka, Ferdinand, 1895-1978 |
|
Kohout, Pavel, 1928- |
Téma jako
předmět: |
politici-Československo-stol. 20. |
|
novináři-Československo-stol. 20. |
|
spisovatelé-Československo-stol. 20. |
Typ dokumentu:
|
rozhovory |
5. Další možný vývoj prezentovaného systému a zpřístupňování plných textů
- Marc 21.
- Testování možnosti spojení automatické sklizně dat a automatické indexace v kombinaci s linkou zpracování metadat z plných textů
a zvážení efektivity tohoto spojení.
- Předpoklad automatické indexace - existence homogenního nástroje k věcné indexaci.
- Budování digitální knihovny na základě propojování citací.
- Testování možnosti spojení automatické sklizně dat a automatické indexace textů v kombinaci s linkou zpracování metadat z plných
textů a zvážení efektivity tohoto spojení (projekt Webarchiv).
- Řešení legislativně právních otázek a otázek plateb (jasné oddělení textů poskytovaných zdarma a za úplatu)
- Rozšíření linky zpracování na další instituce a aplikace moderních metod zpracování a zpřístupnění na KOSABI
- Orientace na další typy periodik.
Kvalitní a dostatečně rychlé zpřístupňování plných textů českých odborných a vědeckých periodik včetně
periodik vydávaných vysokými školami by se mělo stát prioritou v aktivitách, které se soustřeďují na zpřístupnění těchto
textů.
- Spolupráce s autory, nakladateli, vydavateli.
Popsaná linka zpracování automatické indexace je použitelná po úpravě vstupním filtrem i na data existující v jiné databázi, event.
v komunikaci mezi autorem, nakladatelstvím, bibliografickou agenturou, knihovnou/informační institucí a naopak.
Předpokládá však do jisté úrovně strukturovaný vstupní text, ze kterého data mohou být extrahována.
V této struktuře mohou být zachyceny údaje nejen jmenné povahy (autor apod.), ale i povahy věcné (klíčová
slova, abstrakt).Ty je potom možno převést pomocí vstupního filtru do linky automatické indexace k dalšímu zpracování.
- Pro identifikaci článků ve struktuře textu pro další zpracování v lince jsou důležité následující údaje z možných 15 prvků
DC:
1. Název(Title)
- Tvůrce (Creator)
- Zdroj / Vztah (Source/Relation) - tj., název zdroje, roč., číslo, datum, strany
- Nakladatel (Publisher)
- Předmět (Subject) - klíčová slova nebo hesla nebo výrazy tezauru
- Popis (Description) ve formě abstraktu
- Práva (Rights)
- Identifikátor (Identifier)
2) Pro konverzi či zápis údajů obsažených v hlavičce textu dokumentu je možno použít schéma definované na základě pokynů pro
přispěvatele do časopisů (v běžném editoru), je možno použít i speciálních maker.
Výsledek konverze:
#NAZ#Název článku#/NAZ#
#ATR#Hlavní autor#/ATR#
#AT2#Další autor#/AT2#
#ZDR#Název zdroje#/ZDR#
#ROC#Ročník#/ROC#
#CIS#Číslo#/CIS#
#DAT#Datum vydání zdroje#/DAT#
#STR#Počáteční strana#/STR#
#VYD#Vydavatel#/VYD#
#KEY#klíčové slovo, klíčové slovo#/KEY#
#SUM#Abstrakt#/SUM#
#COP#Práva#/MIS#
#ISN#ISSN#/ISN#
#IDE#Identifikační číslo#/IDE#
4) Zobrazení metadat po konverzi do DC v lince zpracování
<META name="DC.Title" content="Název">
<META name="DC.Creator.personalName" content="Hlavní autor">
<META name="DC.Contributor.personalName" content="Další autor">
<META name="DC.Source" content="Název zdroje, roč. X , č. X (datum), s. X">
<META name="DC.Publisher" content="Vydavatel">
<META name="DC.Date.issued" scheme="W3C-DTF" content="Datum vydání">
<META name="DC.Subject" content="klíčové slovo">
<META name="DC.Subject" content="klíčové slovo">
<META name="DC.Description.abstract" content="Abstrakt">
<META name="DC.Rights" content="Práva">
<META name="DC.Source" scheme="ISSN" content="ISSN">
<META name="DC.Identifier"content="Identifikátor">
5) V rámci linky zpracování se potom údaje mohou dále editovat a následně konvertovat do HTML podoby a příslušných formátů.
Závěr
Strukturovat nestrukturované informace a užívat takových vyhledávacích systémů, které mají kvalitní nástroje k uchopení
nestrukturovaných plných textů nebo semistrukturovaných textů, protože tyto ve velké míře převažují.
Použitá literatura:
1. ANDĚROVÁ, I. Kooperační sytém článkové bibliografie a propojení analytických záznamů s plnými texty - východiska a současný
stav. Národní knihovna : knihovnická revue. 2001, roč. 12, č. 1, s. 26-37. Též dostupný z: <http://full.nkp.cz/nkdb/index.html>.
2. CÍGLER, I., Königová, M., Lukavec, P., Vacek, V. Hodnocení efektivnosti informačních systémů. Systémová analýza v
informatice. ČVTS, 1974. S. 98-115.
3. JONÁK, Z. Inteligence systémů zpracování textů. Ikaros [online]. 2000, č. 1 [ cit. 2000-01-05]. Dostupný z: <http://www.ikaros.cz/ikaros/2000/c01/isko/z_jonak.htm>.
4. JONÁK, Z. Reflektuje teorie informace a komunikace dostatečně na zvýšený zájem společenských věd o semiotické a komunikační
aspekty života? Ikaros [online]. 1999, č. 3 [cit. 1999-03-01]. Dostupný z: <http://www.ikaros.cz/1999/c03/veda2.htm>.
5. PAPÍK, R. Trendy v rozvoji informačních služeb. Ikaros [online]. 1999, č. 8 [cit. 1999-09-01]. Dostupný z: <http://www.ikaros.cz/ikaros/1999/c08/usti/usti_papik.htm>.
6. Saracevic, T. The concept of relevance in information science : a historical review. Introduction to Information
Science. New York : Academic Press, 1976. S. 79-137.
7. Topic : systém pro inteligentní vyhledávání dokumentů. Praha : Tovek, 19?.
8. Vejlupek, T. SPEIS - koncept jednotného využívání a jednotné nabídky informačních zdrojů a informačních služeb od různých
poskytovatelů. Praha , 2001. 18 s.
9.Zemanová, I. Problematika relevance a pertinence. Vývoj a současný stav. Diplomová práce.
Praha. FFUK , 1977. 164 s.
Informace prezentované v článku jsou přístupné na adrese http://full.nkp.cz .
e-mail: ivana.anderova@nkp.cz
|