WebArchiv: Projekt zaměřený na českou národní bibliografii elektronických zdrojů
Exploze v elektronickém publikování, tj. zejména v tvorbě elektronických zdrojů přístupných v síti Internet, vyžaduje nový přístup ke zpracování, ochraně a zpřístupňování těchto informací. Dálkově přístupné elektronické zdroje se stávají nedílnou součástí národní produkce a národního kulturního dědictví, i ”obrazem doby”, který je třeba zachytit a uchovat pro budoucnost. Také při budování digitálních knihoven, které se stávají globálními integrovanými systémy umožňujícími uživatelům přístup k dokumentům bez ohledu na jejich typ či lokalitu, se vedle digitalizovaných dokumentů začíná věnovat pozornost rovněž dokumentům, které jsou publikovány na Internetu a existují často pouze v elektronické podobě.
Ve světě (zejména v USA, Kanadě, Austrálii a v evropských severských zemích) existuje již několikaletá zkušenost s projekty zaměřenými na sbírky elektronických dokumentů publikovaných v síti Internet. V Evropě se za podpory Evropské komise zabývají, resp. zabývaly touto problematikou společné mezinárodní projekty (CoBRA+ [1], BIBLINK [2], NEDLIB [10]), jejichž cílem je stanovit budoucí úlohu evropských národních knihoven ve vztahu k elektronickým publikacím a vytvořit podmínky pro propojení národních bibliografických agentur a vydavatelů elektronických publikací, které by bylo užitečné pro obě strany. Na projekt CoBRA+ navazuje v současné době nový projekt podporovaný Evropskou komisí, The European Library, jako společný projekt CENL (Conference of European National Librarians) a FEP (Federation of European Publishers), jehož cílem [12] je vytvořit společný systém pro přístup do národních depozitních sbírek (hlavně digitálních) v Evropě. K nejvýznamnějším národním projektům patří PANDORA (Austrálie) [9], EVA (Finsko) [3], INDOREG (Dánsko) [4], Kulturarw3 (Švédsko) [5] a DNEP (Nizozemí) [6].
Vzhledem k tomu, že v případě internetových elektronických zdrojů se jedná o nehmotné dokumenty, vůči nimž navíc je zpracovatelská instituce v externím postavení, je zajištění jejich pokud možno trvalého zpřístupnění podmíněno řešením řady problémů, z nichž některé jsou společné s tvorbou/zpřístupňováním tradičních dokumentů převáděných do digitální formy či digitálních dokumentů uložených na hmotných nosičích (např. digitální zvukové záznamy), některé jsou zcela specifické pro tuto kategorii digitálních dokumentů. Při procesu integrace internetových elektronických zdrojů do fondů knihoven vystupují do popředí technické, knihovnické, organizační a legislativní aspekty, které lze stěží od sebe oddělit.
V zásadě je třeba řešit několik okruhů problémů:
Řešení problematiky v České republice
V rámci programových projektů výzkumu a vývoje Ministerstva kultury ČR získala Národní knihovna České republiky grant na řešení projektu Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet. Tento dvouletý pilotní projekt (2000 – 2001) je zaměřen na problematiku registrace, konzervace a zpřístupnění elektronických zdrojů (zejména dostupných online v síti Internet) jako součásti české národní bibliografie.
Na uvedeném projektu, který je znám pod jednoduchým názvem WebArchiv, spolupracuje NK ČR s Ústavem výpočetní techniky Masarykovy univerzity v Brně a s Ikaros, o. s. WebArchiv se prezentuje na webových stránkách na adrese http://webarchiv.nkp.cz.
Aplikace v našich podmínkách představuje mj. stanovení kritérií výběru zdrojů pro národní bibliografii, legislativní zajištění akvizice domácích elektronických publikací, technické a programové řešení jejich indexace i archivace, zajištění standardů pro budoucí čitelnost zdrojů a pro vyhledávání v síti; archivace a zpřístupnění primárních síťových elektronických zdrojů vyžadují řešení otázek autorského práva, vytvoření podmínek pro kooperaci centrálních, regionálních a specializovaných knihoven, resp. informačních pracovišť a propojení s vydavateli elektronických zdrojů.
Řešitelé proto věnovali značnou pozornost informačním průzkumům, získání dostupných informačních materiálů publikovaných v tištěné a zejména v elektronické formě, jejich analýze a navázání kontaktů s vytypovanými zahraničními pracovišti, od nichž lze získat cenné informace, zkušenosti i softwarové nástroje jako výsledky řešených národních i mezinárodních projektů.
Jedním z nejrozsáhlejších a nejvýznamnějších mezinárodních projektů na tomto poli byl projekt NEDLIB [10], společný projekt evropských národních knihoven. Cílem jeho řešení bylo vytvořit základní infrastrukturu, na níž by se mohla budovat síťově propojená evropská depozitní knihovna. Řešení projektu bylo ukončeno k 31. lednu 2001, webovská stránka se nadále udržuje. Tento projekt, který navázal na řadu podobně zaměřených národních i nadnárodních projektů (v oblasti našeho zájmu zejména projekty Nordic Metadata I, II [11] severských zemí), se zabýval všemi elektronickými dokumenty, včetně méně problematických off-line zdrojů. Díky jeho širokému záběru je vhodné a možné převzít mnohé z toho, čeho v něm bylo dosaženo.
Od kolegů z Helsinki University Library jsme získali softwarové nástroje (výsledky projektů NEDLIB a Nordic Metadata), které byly u nás v rámci projektu lokalizovány. K účelům testování těchto softwarových nástrojů na vybraném vzorku elektronických zdrojů slouží server s OS Linux a odpovídajícími kapacitami operační i diskové paměti. Tento stroj má ve fázi testování suplovat unixový server a slouží k instalování nástrojů pro stahování a archivaci dokumentů, pro ukládání údajů pro popis zdrojů a pro ukládání zdrojů do webového archivu.
Řešení pilotního projektu představuje principiálně testování dvou metod, které by v optimálním případě měly být aplikovány paralelně s cílem umožnit dlouhodobé uchování a využívání elektronických zdrojů:
Oblast problematiky vztahů knihoven, vydavatelů a legislativy
Pro účely pilotní fáze projektu, jejímž smyslem je testovat stanovené postupy při zpracování online dostupných elektronických dokumentů, bylo vybráno celkem 14 elektronických domácích odborně zaměřených časopisů jako vhodný vzorek publikačních aktivit v prostředí World Wide Web. Výrazem ”domácí” se v tomto kontextu míní ty dokumenty, které jsou zpřístupněny na serverech s doménou I. stupně ”.cz”. Kategorie ”elektronický časopis” byla vymezena v souladu s příslušnými mezinárodními normativními předpisy – ISBD(S), ISBD(ER) a AACR2R – jako podmnožina seriálových publikací. Z těchto titulů pouze časopis Ikaros soustavněji podléhá bibliografické kontrole v celostátním měřítku (v oborové bibliografické databázi KKL od srpna 1999 a v databázi článků z českých periodik ANL jako součásti České národní bibliografie od května 1999).
Výběr časopisů byl proveden na základě spolupráce s vysokoškolskými a dalšími odbornými knihovnami. Základními kritérii výběru byla neomezená dostupnost na webu, vydávání minimálně po dobu jednoho roku a nereklamní charakter časopisu (tzn. není pouze prostředkem prezentace vydavatele – soukromé osoby, osob nebo instituce). Základní identifikační údaje byly excerpovány jednak z vlastních primárních dokumentů, jednak ze sekundárních zdrojů (zejména ISSN Register). Z těchto časopisů je pouze menší část označena ISSN. Většina vychází pouze v elektronické podobě, některé tituly však mají charakter tzv. online supplementu, který do jisté míry figuruje jako samostatný dokument, neboť se po obsahové stránce s tištěným časopisem zcela neshoduje a také má odlišnou periodicitu. Zvláštní skupinu seriálů, která se vymyká zaběhnuté klasifikaci seriálových publikací, avšak je třeba ji brát rovněž v úvahu, tvoří průběžně aktualizované systémy (někdy označované jako zpravodajské servery), které mají z technického hlediska charakter dynamické databáze, z níž jsou jednotlivé dokumenty generovány na základě uživatelského dotazu. Z této skutečnosti pak plynou ve srovnání se staticky zpřístupňovanými časopisy (tj. časopisy, jejichž obsah se mění v určitých intervalech) různá omezení při registraci dokumentů na analytické úrovni. Úmyslně byly opomenuty elektronické verze tištěných časopisů, přestože jim bylo přiděleno vlastní ISSN.
Předběžně byla dohodnuta spolupráce při testování využití metadatového schématu Dublin Core (viz dále) s několika informačními a dalšími institucemi, které působí současně jako vydavatelé elektronických zdrojů, neboť v rámci svých webových prezentací mj. publikují dokumenty, které nejsou jiným způsobem dostupné, avšak z hlediska cílových uživatelských skupin jsou považovány za významné.
Spolupráce s vytypovanými vydavateli bude nutná hlavně z právních důvodů. Dohody o spolupráci by měly řešitelům projektu umožnit testování výše uvedených nástrojů se souhlasem vydavatelů testovaných zdrojů, tj. umožnit přístup do zdrojů a jejich stahování a uložení na serveru umístěném v NK ČR. Problematiku archivace a zpřístupňování elektronických online zdrojů z právního hlediska bude ovšem třeba výhledově řešit obdobně jako u ostatních druhů dokumentů, tj. uzákoněním práva povinného výtisku pro depozitní knihovny. Otázka zákonů o povinném výtisku i otázka autorského zákona v této souvislosti je velmi živá, v současné době se jí intenzivně zabývá i konference CENL společně s FEP. Na této úrovni došlo prozatím k dohodě, že vydavatelé budou poskytovat elektronické online publikace depozitním knihovnám na bázi dobrovolnosti. Byla stanovena pravidla pro dobrovolné poskytování kopie elektronických online dokumentů do elektronického archivu. Ve fázi pilotních projektů by měly knihovny s vydavateli dohodnout otázky definic pojmů dokument a vydavatel, otázky postupů a řízení celého procesu. Implementace by měla být průběžně monitorována a na základě zkušeností by měla být navržena účinná a oběma stranám vyhovující legislativa. Smyslem ustanovení CENL/FEP [12] bylo nalézt taková řešení, která umožní uložení dokumentů v knihovních fondech, tj. vytváření (relativně) kompletní sbírky dokumentů, ale současně umožní také kontrolu přístupu k uloženým dokumentům tak, aby nedocházelo k narušení komerčních zájmů vydavatelů. Zdůrazňuje se, že implementace zásad v ustanovení musí přinášet výhody oběma stranám: knihovnám v uchování kompletní národní produkce pro současné i budoucí uživatele, vydavatelům v uchování jejich produkce elektronických dokumentů a zpřístupnění informací o jejich existenci pro širší veřejnost prostřednictvím soupisů národních bibliografií.
Podle analýzy provedené na základě dostupných informačních pramenů i dotazů adresovaných na vybrané depozitní knihovny je již v některých zemích právo povinného výtisku (depozitní kopie) online elektronických zdrojů zajištěno zákonem, jinde probíhá schvalovací řízení takového zákona. Výsledky analýzy byly publikovány v časopise Ikaros, č. 10/2000 [17].
Oblast problematiky informačních technologií
Z výsledků zkoumaných zahraničních projektů a výzkumů jsou pro náš projekt důležité tyto body:
Registrace, ochrana, archivace
Průměrná doba existence elektronického dokumentu na Internetu se pohybuje v desítkách dní. Z hlediska institucí, jejichž zájmem je dlouhodobé uchovávání kulturního dědictví, je proto nutné přistoupit k aktivní ochraně těchto dokumentů formou archivace.
Z dosavadních zahraničních zkušeností, z počtu již existujících dokumentů a z pokračujícího exponenciálního růstu počtu elektronických online dostupných dokumentů vyplývá, že jediný prakticky reálný/zvládnutelný způsob vytváření relativně úplného konzervačního fondu (elektronický archiv) a národní bibliografie je postup plně automatizovaný. Selektivní přístup lze uplatnit u velmi omezeného výseku specifických publikací na Internetu.
Odhadovaná velikost ”národního webu” je překvapivě relativně malá (poměřováno technickými i cenovými parametry již dnes běžně dostupných archivačních technologií); na základě aproximací experimentálně zjištěných parametrů v severských zemích (Finsko a Švédsko) ji odhadujeme kolem 300 GB. Současné technologie nám dovolují realizovat automatizovaný způsob archivace za přijatelnou cenu, pokud se omezíme jen na oblast národních elektronických zdrojů.
V rámci projektu NEDLIB [10] jsou vyvíjeny nástroje pro sběr, archivaci a indexaci elektronických online dokumentů. Některé z těchto nástrojů jsou k dispozici zdarma a jejich lokalizace a nasazení je v našich podmínkách reálné. Nejvýznamnějším z této skupiny nástrojů je NEDLIB Harvester, nástroj pro stahování a archivaci elektronických dokumentů.
Zpřístupnění archivovaných dokumentů
Ve švédském projektu Kulturarw3 [5] byly realizovány první pokusy o zpřístupnění webového archivu s využitím webového prohlížeče. Nástroj pro dokonalejší zpřístupnění archivovaných dokumentů je v projektu NEDLIB sice také vyvíjen, ale už nebude k dispozici zdarma. Tento nástroj by měl umožňovat prohlížení archivovaných dokumentů nejen v rámci vzájemných odkazů, ale i vzhledem k časové ose.
V dlouhodobějším horizontu se zde otevírá pole pro uplatnění přístupů z oblasti analýzy přirozeného jazyka (překračuje rámec stávajícího projektu). Jak vlastní sběr a archivace, tak zejména zpřístupnění dokumentů vyžaduje odpovídající národní legislativní rámec.
Metadata
Pro zkvalitnění automaticky vytvářených indexů je vhodné propagovat mezi veřejností publikující v prostředí World Wide Web jednotné metadatové standardy pro popis elektronických zdrojů, použitelné přímo samotnými autory. Nejvýznamnějším z těchto standardů je Dublin Core (DC) [14], případně z něj odvozené standardy. V minulém roce bylo dosaženo jistého pokroku v rozvoji kvalifikovaného DC a byly nastartovány významné iniciativy k širšímu uznání standardu DC (ANSI/NISO standardizace).
Vytvoření českého překladu nejnovější verze standardu Dublin Core Metadata Element Set, Version 1.1 se ujala Masarykova univerzita v Brně. Pro iniciativu Dublin Core byly vytvořeny české webové stránky [13]. Národní česká verze DC byla zaregistrována v rámci DCMI (Dublin Core Metadata Initiative) [15]. Byly zpracovány přehledové analýzy z oblasti vývoje a využití standardu Dublin Core [18], [19].
V rámci řešení projektu byla vytvořena beta-verze lokalizovaného DC-metadatového formuláře převzatého od Helsinské univerzitní knihovny z projektu Nordic Metadata (obr. 1). Tento nástroj podporuje kvalifikovaný DC podle nejnovější specifikace a zároveň umožňuje propojení na nástroj pro automatické přidělování URN. Podporuje jak syntaxi HTML, tak XML (RDF). Hardwarové nároky pro provoz těchto nástrojů jsou minimální, protože jde o relativně jednoduché skripty v programovacím jazyce Perl. Oba tyto nástroje jsou k dispozici všem zájemcům publikujícím především na českém Internetu.

Obr. 1 Lokalizovaný generátor
záznamu metadát ve schématu
Dublin Core Vyvinutý v rámci projektu Nordic Matadata
Záznamy v metadatovém schématu Dublin Core vygenerované pomocí lokalizového formuláře jsou pokusně zařazovány do zdrojových kódů článků elektronického časopisu Ikaros.
Jednoznačná globální trvalá identifikace
Pro usnadnění identifikace elektronických dokumentů byl vytvořen koncept Uniform Resource Name (URN) [16] – jednoznačných identifikátorů dokumentu. Tyto identifikátory jsou generovány a žadatelům přidělovány automaticky. Jednou z aplikací URN mohou být registrační čísla národní bibliografie (NBN), dále ISBN a ISSN. Další možností je vytvořit identifikátor URN na základě kontrolního součtu MD5 – tímto způsobem je možné snadno ověřit i to, zda byl dokument po přidělení tohoto identifikátoru změněn.
V této oblasti lze také převzít zkušenosti a postupy z projektů Nordic Metadata I a II [11] a projektu NEDLIB [10].
Závěr
V rámci dosavadního řešení projektu WebArchiv byla analyzována řada zahraničních i mezinárodních projektů zabývajících se problematikou získávání, registrace, ochrany a zpřístupňování elektronických online dokumentů. Výzkum ukázal, že se jedná o velmi komplexní problematiku, zahrnující oblast spolupráce a propojení knihoven s vydavateli, oblast práva a oblast informačních technologií. Navíc vyžaduje aplikaci mezinárodních standardů a kompatibilitu řešení s jinými podobnými projekty.
Díky tomu, že lze využít výsledků jiných projektů (zahraničních a mezinárodních) a že značná část nástrojů potřebných pro realizaci projektu je volně k dispozici, je možné v relativně krátkém čase a za relativně nízkých finančních nákladů připravit v rámci pilotního projektu podmínky pro jeho realizaci. Na druhé straně je nutné počítat s tím, že jen samotná instalace, lokalizace a vzájemná integrace není samozřejmou záležitostí a že na dosažení požadované funkčnosti bude třeba intenzivně pracovat.
Řešení právních otázek, které nelze samozřejmě v této souvislosti opomenout, je záležitost dlouhodobá. Nejprve bude nutné zvážit všechny aspekty (provozní, technické aj.), které se vážou k množině dokumentů podléhajících povinnosti vydavatelů poskytovat/ohlašovat vydané publikace, a teprve následně bude možné připravit podklady pro změnu zákona obsahujícího ustanovení o povinném výtisku seriálových publikací (”tiskový zákon”), resp. výklad a směrnice k zákonu týkajícímu se povinného výtisku neperiodických publikací a k autorskému zákonu (zákon č. 37/1995 Sb., o neperiodických publikacích; zákon č. 46/2000 Sb., o právech a povinnostech při vydávání periodického tisku a o změně některých dalších zákonů (tiskový zákon); zákon č. 121/2000 Sb., o právu autorském, o právech souvisejících s právem autorským a o změně některých zákonů (autorský zákon).
Použité informační zdroje
1. Cobra+ [online]. Boston Spa : British Library, 1997 [cit. 20. června 2001]. Dostupné na World Wide Web: http://portico.bl.uk/gabriel/en/projects/cobra.html.
2. Biblink [online]. Bath (Anglie) : UKOLN, last updated 12-Jul-2000 [cit. 20. června 2001]. Dostupné na World Wide Web: http://hosted.ukoln.ac.uk/biblink/.
3. EVA : the acquisition and archiving of electronic network publications [online]. Helsinki (Finsko) : Helsinki University Library, last updated 15-Dec-1997 [cit. 20. června 2001]. Dostupné na World Wide Web: http://www.lib.helsinki.fi/eva/english.html/.
4. INDOREG : Internet Document Registration : project report [online]. Ballerup (Dánsko) : Dansk Bibliotheks Center, 16-Sep-1997 [cit. 20. června 2001]. Dostupné na World Wide Web: http://www.purl.dk/rapport/html.uk.
5. Kulturarw3 Heritage Project [online]. Stockholm (Švédsko) : Royal Library, [1998] [cit. 20. června 2001]. Dostupné na World Wide Web: http://kulturarw.kb.se/html/projectdescription.html.
6. Feijen, Martin. DNEP : fond holandské produkce elektronických publikací. Národní knihovna, 6, 1995, č. 6, s. 206-210. ISSN 0862-7487.
7. National Library of Canada Electronic Collection [online]. Ottawa (Kanada) : NLC, revised 2001-02-26 [cit. 20. června 2001]. Dostupné na World Wide Web: http://collection.nlc-bnc.ca/e-coll-e/in-dex-e.htm.
8. OCLC. Internet Cataloging Project [online]. Dublin (Ohio, USA) : OCLC, 1996 [cit. 20. června 2001]. Dostupné na World Wide Web: http://www.oclc.org/oclc/man/catproj/catcall.htm.
9. PANDORA [online]. Canberra (Austrálie) : NLA, last updated 10-Oct-2000 [cit. 20. června 2001]. Dostupné na World Wide Web: http://www.nla.gov.au/pandora/.
10. NEDLIB : Networked European Deposit Library [online]. Hague (Nizozemí) : Koninklijke Bibliotheek, c1998, last updated 11-Mar-2001 [cit. 20. června 2001]. Dostupné na World Wide Web: http:// www.kb.nl/nedlib/.
11. The Nordic Metadata projects [online]. Helsinki (Finsko) : Helsinki University Library, 1996, last updated 21-Feb-2000 [cit. 20. června 2001]. Dostupné na World Wide Web: http://www.lib.helsinki.fi/meta/.
12. International declaration on the deposit of electronic publications : Conference of European National Librarians/Federation of European Publishers (CENL/FEP). Dialog mit Bibliotheken, 2000, vol. 12, no. 3, s. 2-14. ISSN 0936-1138. Dostupné též na World Wide Web: http://www.ddb.de/news/epubstat.htm.
13. Dublin Core Czech [online]. Brno : Masarykova univerzita, posl. aktualizace 26-2-2000 [cit. 20. června 2001]. Dostupné na World Wide Web: http://www.ics.muni.cz/dublin_core/ .
14. Dublin Core Metadata Initiative [online]. Dublin (Ohio, USA) : DCMI, c1995-2001 [cit. 20. června 2001]. Dostupné na World Wide Web: http://purl.org/dc/.
15. Dublin Core Metadata Initiative : Translations of DCMI Documents [online]. Dublin (Ohio, USA) : DCMI, c1995-2001 [cit. 20. června 2001]. Dostupné na World Wide Web: http://dublincore.org/resources/translations.
16. Internet Engineering Task Force. Uniform Resource Names (urn) [online]. Preston (Virgin., USA); Leeds : IETF, last modified 17-May-2001 [cit. 20. června 2001]. Dostupné na World Wide Web: http:// www.ietf.org/html.charters/urn-charter.html.
17. CELBOVÁ, Ludmila. Povinný výtisk elektronických publikací, zejména vzdálených elektronických zdrojů. Ikaros [online]. 2000, č. 10 [cit. 20. června 2001]. Dostupné na World Wide Web: http://ikaros.ff.cuni.cz/2000/c10/onlinePV.htm.
18. ŽABIČKA, Petr. Dublin Core jako standard pro popis elektronických síťových zdrojů. In Česko-slovenská konference RUFIS 2000, Brno 5.–6. 9. 2000 [online]. Brno : Vysoké učení technické : Masarykova univerzita, 2000 [cit. 20. června 2001]. Dostupné na World Wide Web: http://www.mzk.cz/DC/rufis2000.html.
19. ŽABIČKA, Petr. Dublin Core – metadata pro popis elektronických dokumentů [online]. Praha : Národní knihovna ČR, 2000 [cit. 20. června 2001]. Předneseno na konferenci DATASEM 2000, konané 21. až 24. října 2000 v Brně. Dostupné na World Wide Web: http://webarchiv.nkp.cz/datasem2000.pdf.
20. Registrace, ochrana a zpřístupnění domácích elektronických zdrojů v síti Internet : souhrnná zpráva za rok 2000 [online]. Praha : Národní knihovna ČR, 2000 [cit. 20. června 2001]. Dostupné na World Wide Web: http://webarchiv.nkp.cz/zprava2000.pdf.
Ludmila Celbová,
Národní knihovna České republiky
http://www.cvtisr.sk/itlib/itlib013/webarchiv.htm
ITlib. Informačné technológie a
knižnice