Inforum 2002 - papers


Role informačních profesionálů v současném světě a Zakončení konference Předseda: Jan Vymětal	23.5.2002 13:15 - 15:55 Nová aula
Neviditelný web - co vyhledávací stroje nenajdou
Martin Lhoták, Knihovna Akademie věd ČR, oddělení IT, Praha
Vyhledávací stroje typu Alta Vista, Google, atd. jsou nejčastěji používaným nástrojem k prohledávání Internetu. Umí ovšem indexovat pouze menší část webu a zbytek týkající se především obsahově bohatých a hodnotných databází (univerzitních, knihovních, firemních, vládních atd.) nelze tímto způsobem prohledávat. Příspěvek se věnuje případům, ve kterých nelze tento obsah Internetu vyhledávácími stroji vyhledat a zároveň předkládá způsoby, jak se k těmto rozsáhlým zdrojům dostat. Neviditelný web a především jeho zmapování je další výzvou pro informační profesionály.
Pro informační profesionály, ale v podstatě pro kohokoli kdo používá Internet k vyhledávání informací, se staly vyhledávací stroje a adresáře denně používaným nástrojem. Myslím, že se mnou budete souhlasit, že v mnoha případech je to pomůcka naprosto skvělá, mnohdy si ovšem po neúspěšných pokusech říkáte: “Jak to, že to ten zatracený Google (Altavista, Kompas, …) nemůže najít?! Vždyť to někde musí být!” Chyba může být na několika místech. Třeba nepoužíváte správný vyhledávací stroj nebo zadáváte dotaz nesprávně. Možná se snažíte zjistit nové zprávy běžným strojem, místo abyste využili stroj k tomu určený. Někdy požadovaná informace na Webu prostě není, a proto ji také nelze nalézt. I přes obrovské množství zdrojů zpřístupněných na Webu nelze očekávat, že tam lze nalézt odpověď na všechno. Stále tu zůstávají “staré dobré” knihy a knihovny a možná právě tam najdeme co hledáme. V některých případech autor nechce mít stránky v databázi vyhledávacího stroje, jinde je překážkou vyplnění registračního formuláře. Může se ovšem stát, že informace na Webu existuje, ovšem vyhledávací stroje ji neumí nalézt nebo ji nemají indexovanou ve své databázi. V tomto případě hovoříme o jevu nazývaném Invisible (neviditelný) Web, v některých případech Opaque (temný, neprůhledný) Web. Co se skrývá pod těmito názvy? Mimo jiné jde o kvalitní a rozsáhlé databáze univerzit, knihoven, úřadů a společností o jejichž obsahu nám běžné nástroje nic neřeknou. Kromě toho velké množství dalšího materiálu zůstává z různých důvodů skryto. Abychom věděli proč se velká část Webu vyhledávacím strojům skrývá, je dobré začít přímo u nich. Velmi stručné shrnutí jak pracují vyhledávací stroje Program tzv. spider nebo crawler automaticky prochází Web Neděje se to v reálném čase (tím myslím při zadání dotazu) Některé stránky nejsou navštíveny i několik týdnů a nedají se tedy vyhledat Indexuje se obsah stránek a ukládá do databáze Vyhledávací stroj zpřístupní svůj index na Internetu Rozhraní vyhledávacího stroje v prohlížeči Stránka s výsledky dotazu s příslušnými linky Co je Neviditelný Web? Stručná definice: “Materiál “na Webu”, který běžné vyhledávací nástroje - stroje (Google, Altavista) neumí automaticky procházet, indexovat a tudíž vyhledávat.” Proč je dobré znát Neviditelný Web? Data opomenutá běžnými vyhledávacímy stroji NW může obsahovat informaci kterou hledáme a jinde není Promarněný čas: jak dlouho hledáme na nesprávných místech? • Výhody specializovaných databází Kvalita obsahu NW Co je “Opaque” Web? Neprůhledný, temný Web - téměř Neviditelný Web Materiál, který může být procházen spidery/crawlery, ale po určitý čas (případně nikdy) není. Není přístupný běžnými vyhledávacími stroji Co vyhledávací stroje nenajdou? Spider/crawler navštíví “site”, ale hledá pouze do určité hloubky V některých případech indexuje jen část “site” Některé formáty souborů Momentálně vyhledává PDF soubory pouze Google.http://www.google.com/help/faq_filetypes.html Některé další stroje umí také více formátů, ale tyto funkce nejsou volně přístupné. Vzhledem k rozšiřování služeb je možné, že v době publikování tohoto článku bude tato Další problematické soubory - PPT, DOC, XLS, FLASH, streaming media. Site/stránka je přístupný/á pouze po registraci Spider/crawler se neumí zaregistrovat. Firewall nebo jiné zařízení znemožňuje přístup Nejsme vítáni. Dynamicky generované stránky (cgi, javascript, asp, většina stránek s ”?” v URL) Spider/crawler zjistí ”?” v URL a zastaví se. Autor použil tzv. NO-ROBOT TAG Některé/všechny spidery/crawlery mají zakázaný přístup. “Dead End Page” - stránka není linkována z žádné jiné stránky, kterou vyhl. stroj zná Primární způsob procházení Webu spiderem/crawlerem - využívá linky ze známých stránek. Stránka nebyla nahlášena vyhledávacímu stroji Sekundární způsob pro získávání nových stránek Materiál je v javasript pop-up windows Spidery/crawlery často nesledují javasript příkazy Materiál je některými stroji indexován, jinými ne Neexistují dva stejné vyhl. stroje! http://www.searchengineshowdown.com/ Někdy ovšem více vyhledávacích strojů využívá stejnou databázi. Například All the Web poskytuje svou databázi pro Lycos. Stránka se již od poslední návštěvy spider/crawleru změnila (časové zpoždění) Běžně spider/crawler vrací na stránku po několika týdnech. Pouze v případech významných serverů se vrací častěji. U vyhledávacích strojů specializovaných na zprávy i několikrát denně. Obsah je konstantně obnovován (Real-Time) Spiders/spider/crawlers neprocházejí neustále obnovovaný obsah http://www.trip.com/trs/trip/flighttracker/flight_tracker_home.xsl Obsah je kompletně indexovatelný, ale velikost stránky přesahuje limit Google 101kB, Altavista 110 kB,AllTheWeb vše Site nebylo funkční, když ho chtěl spider navštívit Nový obsah není indexován. Nutno doufat, že se spider brzy vrátí. “Pravý” Neviditený Web materiál generovaný z databází často neexistuje unikátní URL stránka je vytvořena na základě Vašeho požadavku - spidery/crawlery neumí zadávat dotazy Brány pro Neviditelný Web V podstatě se jedná o adresáře databází, které jsou vytvářeny informačními profesionály. Mají navíc často přidanou hodnotu díky popisu jednotlivých zdrojů. Gary Price’s Direct Search + Invisible-Web.net Gary Price a Chris Sherman jsou v současnosti nejuznávanějšími odborníky na oblast neviditelného webu. Gary Price udržuje svůj Direct Search a společně se starají o Invisible-Web.net http://gwis2.circ.gwu.edu/~gprice/direct.htm - www.invisible-Web.net Intelliseek - http://www.invisibleWeb.com cca 10000 databází - http://www.profusion.com cca 1000 databází (lze přímo prohledávat) Librarians’ Index to the Internet - 8200 zdrojů vybraných a ohodnocených knihovníky - http://www.lii.org Neviditelný Web & Informační profesionál - co je třeba si uvědomit? Existence NW, 2-50 větší než indexovaný Web Unikátnost materiálu Kvalita obsahu Aktuálnost materiálu Vyhledávací stroje umí často nalézt vstupní stránky do databází, ale materiál pod těmito vstupními stránkami jim není přístupný Není to jediné řešení, pouze další forma přístupu Běžné vyhledávací stroje jsou stále esenciální Neviditelný Web & Informační profesionál - co je možné dělat? Vytvářejte a zdokonalujte vlastní kolekce Prozkoumávejte pečlivě celé stránky Vytvářejte linky přímo k interface daného zdroje Šetřete čas Vašim uživatelům Udržujte aktuálnost Budoucí trendy Budou vznikat nové brány a sbírky Obsah NW se bude narůstat Stále větší část Webu budou pokrývat vyhledávací stroje Bude docházet k ztrátě funkčnosti individuálních vyhledávacích nástrojů Neviditelný Web - příklady: *Real-Time Informace* Burza - akcie on-line - http://markets.ft.com/markets/home/us - http://www.akcie.cz/ Země z pohledu satelitů v reálném čase - http://www.fourmilab.ch/cgi-bin/uncgi/Earth/action?opt=-p *Komerční informace* Veřejné informace o firmách v USA SEC EDGAR (Public Company Filings) - http://www.10kwizard.com/ Kompass (česky) - vyhledávání informací B2B - http://www.kompass.com *Computer Science* Slovník internetových pojmů - http://www.netlingo.com/ ResearchIndex - digitální knihovna vědecké literatury - http://www.researchindex.com *Intelektuální vlastnictví* Digitální knihovna intelektuálního vlastnictví - http://ipdl.wipo.int/ US Copyrigt Office - www.loc.gov/copyright/rb.html *Slovníky a jazyky* Acronym Finder - http://www.acronymfinder.com/ Lexical FreeNet - vyhledává slova podle vztahů - http://www.lexfn.com/ *Umění* Mezinárodní adresář knihoven umění - IFLA - http://iberia.vassar.edu/ifla-idal/ Tezaurus umění a architektury - http://www.getty.edu/research/tools/vocabulary/aat/ *Cestování* Vzdálenosti - http://www.indo.com/distance/ Hotely - http://www.hotelguide.com *Zdraví a medicína* DIRLINE - adresář inf. zdrojů - http://dirline.nlm.nih.gov/ Výzkum - http://www.clinicaltrials.gov/ct/gui/c/b Nové léky - http://www.phrma.org/searchcures/newmeds/webdb/ *Novinky a události* Audio - vyhledávání v audio databázi 14.000 hod. záznamů - www.speechbot.com Moreover - pokrývá 1800 zdrojů - www.moreover.com/news/index.html *Věda* sciBASE - http://www.thescientificworld.com/scibase/search.asp Vlastnosti chemických sloučenin - http://www.chemfinder.com/ Zemětřesení - http://wwwneic.cr.usgs.gov/neis/epic/epic.html *Volný čas* Festivaly, kulturní události - celosvětově - http://www.festivals.com/ Kultura v USA - divadlo, hudba, opera, tanec, galerie, muzea - http://www.culturefinder.com Použité zdroje: SHERMAN Chris, PRICE Gary: The Invisible Web: Uncovering Information Sources Search Engines Can´t See, Medford NJ: Information Today Inc., 2001 World Wide Web
O autorovi: Od roku 1997 (po ukončení studií) do současné doby pracuje v Knihovně AV ČR v oddělení automatizace/IT, od roku 1998 ve funkci vedoucího. Přednáškové činnosti týkající se IT v knihovnách od roku 1999.


	© 2002 Albertina icome Praha s.r.o. INFORUM^® a IN^® jsou registrované ochranné známky. Všechna práva vyhrazena. Aktualizováno 20.05.2002	Grafický design	Zpracování dat