Detaily příspěvku konference
Prezentace posterů
Koordinátor: Filip Vojtášek, Albertina icome Praha s.r.o.
Kdy a kde: 28. 5. 2009, 16.20 - 17.05, Vencovského aula
Automatizované ukládaní webových stránek v závislosti na různém výchozím URL
Autor: Ari Pirkola, University of Tampere, Finsko
Spoluautoři:
Tuomas Talvensaari, University of Tampere, FinskoPlné texty
Abstrakt:
Web crawling refers to the process of gathering data from the Web. Focused crawlers are programs that selectively download Web documents (pages), restricting the scope of crawling to a pre-defined domain or topic. The downloaded documents can be indexed for a domain specific search engine or a digital library. In this paper we describe the focused crawling technique, review relevant literature, and report novel experimental results. Crawling is often started with URLs that point to the pages of central North-American and European universities, research institutions, and other organizations in North-America and Europe. In the experiments we investigated, first, how strongly this central region of the Web is connected to three other large geographical regions of the Web: Australia (top level domain .au), China (.cn), and five South-American countries (.ar, .br, .cl, .mx, and .uy). Test topics were selected from the domains of genomics and genetics that are typical scientific fields. We found that two focused crawling processes, one started from the central region and the other from the region of Australia / China / South-America, overlap only to a small extent, identifying mainly different relevant documents. Document relevance was assessed (1) by a human judge and (2) by assigning probability scores to documents using a search engine. Second, we investigated the coverage (number) of relevant documents obtained for different focused crawling processes started with URLs from the four different geographical regions. The results showed that all regions considered in this study are good starting points for focused crawling in the domains of genetics and genomics since each of them yielded a high total coverage. As genomics and genetics are typical scientific fields we assume that the obtained results are generalizable to other scientific domains. We discuss what implications the observed results have for the selection of crawling strategy in scientific focused crawling tasks.
O autorovi:
Dr. Ari Pirkola (http://www.uta.fi/~liarpi) received his PhD in 1999 in Information Studies at the University of Tampere, Finland. Since then, he has served as a researcher and teacher in the Department of Information studies at the University of Tampere. Currently he is working as a Finnish Academy research fellow. His research areas are information retrieval (IR), in particular cross-language and multilingual information retrieval, language technology applications in IR, Web crawling and Web IR, and genomics IR. Pirkola has authored over 60 scholarly publications, most of which are published in leading international conferences and journals. He is a reviewer of several international journals and conferences and a board member of the National Language Technology Graduate School and the journal Informaatiotutkimus.
Ostatní příspěvky v sekci
Oborová brána TECH – jednotný přístup k EIZ nejen pro techniky
Autor: Alena Brůžková, Národní technická knihovna, Praha
Spoluautoři:
Jitka Hladká, Andrea Kučerová, Národní technická knihovna, PrahaInfogram: nová platforma pro podporu informačního vzdělávání
Autor: Eva Dohnálková, Česká zemědělská univerzita v Praze
Spoluautoři:
Hana Landová, Česká zemědělská univerzita v Praze - Studijní a informační centrum / Univerzita Karlova v Praze - Filozofická fakulta - Ústav informačních studií a knihovnictvíKurzy v Univerzitní knihovně Svetozara Markovice na téma evaulace vědecké práce
Autor: Aleksandra Popovic, University of Belgrade - University Library "Svetozar Markovic", Srbsko
Spoluautoři:
Stela Filipi-Matutinovic, University of Belgrade - University Library "Svetozar Markovic", SrbskoNadstavbové služby pro elektronické informační zdroje s použitím technologie SFX
Autor: Ondřej Fabián, Univerzita Tomáše Bati ve Zlíně
Spoluautoři:
Lukáš Budínský, Univerzita Tomáše Bati ve ZlíněHodnocení vědy s využitím citačních rejstříků v Srbsku
Autor: Stela Filipi-Matutinovic, University of Belgrade - University Library "Svetozar Markovic", Srbsko
Spoluautoři:
Aleksandra Popovic, University of Belgrade - University Library "Svetozar Markovic", SrbskoHodnocení vědy s využitím citačních rejstříků v Srbsku
Autor: Stela Filipi-Matutinovic, University of Belgrade - University Library "Svetozar Markovic", Srbsko
Spoluautoři:
Aleksandra Popovic, University of Belgrade - University Library "Svetozar Markovic", SrbskoOborová brána TECH – jednotný přístup k EIZ nejen pro techniky
Autor: Alena Brůžková, Národní technická knihovna, Praha
Spoluautoři:
Jitka Hladká, Andrea Kučerová, Národní technická knihovna, PrahaNapĺňanie projektu „Vytvorenie siete s informačným prepojením vedeckých, akademických a špeciálnych knižníc vrátane ich modernizácie“.
Autor: Zuzana Halienová, Slovenská národná knižnica, Martin
Elektronický průvodce informacemi z Evropské unie: příručka pro knihovníky a informační pracovníky
Autor: Jitka Hradilová, Karlova univerzita v Praze - Filozofická fakulta - Ústav informačních studií a knihovnictví
Spoluautoři:
Patrick Overy, Univerzita v Exeteru, Velká BritánieNapĺňanie projektu „Vytvorenie siete s informačným prepojením vedeckých, akademických a špeciálnych knižníc vrátane ich modernizácie“.
Autor: Zuzana Halienová, Slovenská národná knižnica, Martin
Aplikace klasických a moderních ontologií při tvorbě znalostních bází lékařských algoritmů
Autor: Adéla Jarolímková, CESNET, z.s.p.o., Praha
Spoluautoři:
Petr Lesný, Kryštof Slabý, Jan Vejvalka, Fakultní nemocnice v Motole, PrahaInfogram: nová platforma pro podporu informačního vzdělávání
Autor: Eva Dohnálková, Česká zemědělská univerzita v Praze
Spoluautoři:
Hana Landová, Česká zemědělská univerzita v Praze - Studijní a informační centrum / Univerzita Karlova v Praze - Filozofická fakulta - Ústav informačních studií a knihovnictvíElektronický průvodce informacemi z Evropské unie: příručka pro knihovníky a informační pracovníky
Autor: Jitka Hradilová, Karlova univerzita v Praze - Filozofická fakulta - Ústav informačních studií a knihovnictví
Spoluautoři:
Patrick Overy, Univerzita v Exeteru, Velká BritánieAplikace klasických a moderních ontologií při tvorbě znalostních bází lékařských algoritmů
Autor: Adéla Jarolímková, CESNET, z.s.p.o., Praha
Spoluautoři:
Petr Lesný, Kryštof Slabý, Jan Vejvalka, Fakultní nemocnice v Motole, PrahaKurzy v Univerzitní knihovně Svetozara Markovice na téma evaulace vědecké práce
Autor: Aleksandra Popovic, University of Belgrade - University Library "Svetozar Markovic", Srbsko
Spoluautoři:
Stela Filipi-Matutinovic, University of Belgrade - University Library "Svetozar Markovic", SrbskoNadstavbové služby pro elektronické informační zdroje s použitím technologie SFX
Autor: Ondřej Fabián, Univerzita Tomáše Bati ve Zlíně
Spoluautoři:
Lukáš Budínský, Univerzita Tomáše Bati ve Zlíně