Iniciatíva Dublin Core – prvý krok k jednotnému popisu digitálnych dokumentov

Nitriansky seminár v septembri t. r. potvrdil, ako v závere svojho príspevku uviedla Dr. L. Sedláčková (pozri s. 37), že dobrým výberom účastníkov, prednášateľov a vystihnutím potrieb knižníc môže byť úspešná a zaujímavá aj taká málo príťažlivá téma, akou je problematika formátov. Keďže na seminári odznela aj charakteristika metadátových systémov identifikácie dokumentov – osobitne Dublin Core určený najmä na popis elektronických dokumentov, v nasledujúcom príspevku ponúkame niekoľko slov z histórie jeho vzniku a súčasného stavu jeho rozvoja.

Okrem bežných katalogizačných pravidiel a klasifikačných systémov sa koncipujú na základe požiadaviek na zjednodušenie medzinárodnej štandardizácie nové metadátové1 súbory prvkov. Prvým krokom k jednotnému popisu digitálnych objektov pomocou metadát bola orientácia na tzv. Document Like Object (DLO). DLO je digitálna forma toho, čomu sa doteraz hovorilo dokument. Presne definované to nie je. Myšlienka vyvinúť metadátový formát pre DLO sa objavila na seminári, ktorý sa konal roku 1995 v Dubline v štáte Ohio.

Čoraz väčší význam nadobúda ako všeobecný návrh štandardu Dublin Core Element Set (skratka DC). Od decembra 1996 je k dispozícii verzia 1.0, ktorá sa skladá z 15 prvkov DC a je to principiálne jednoduchý štandard. Základné prvky sa môžu lokálnymi poliami, tzv. “schémami”, a inými “kvalifikátormi” rozšíriť, resp. zjemniť alebo spresniť.

História iniciatívy Dublin Core

Dublin Core reprezentuje “jadro” obsahových a formálnych charakteristík spracovania, ktoré sa používajú pri knihovníckom a obsahovom spracovávaní. Pôvodným cieľom knihovníkov, informačných špecialistov, informatikov a systémových špecialistov bolo definovať minimálny súbor prvkov spracovávania, ktorý by umožnil lepšie vyhľadávanie a využívanie digitálnych dokumentov pri rešeršovaní v internete, napríklad pomocou vyhľadávacích nástrojov. Aj keď bol Dublin Core orientovaný spočiatku na knihovnícke objekty, rýchlo sa zistilo, že sa pomocou Dublin Core dajú uspokojivo indexovať aj obrazové, zvukové a iné druhy. Toto skonštatovali National Science Foundation (NSF) a iné grémiá zaoberajúce sa výskumom, šírením a spracovávaním digitálnych dokumentov po 18-mesačnej diskusnej fáze, období na troch medzinárodných konferenciách venovaných Dublin Core. Okrem toho sa zhodli na nasledovných smerniciach, ktoré majú spĺňať všetky prvky Dublin Core:

V nasledujúcej časti je uvedených 15 prvkov v slovenčine a angličtine, ktoré sa dajú zhrnúť do 3 základných kategórií:

  1. Názov (DC.TITLE) – názov zdroja (autorom, pôvodcom alebo vydavateľom určený názov prameňa zdroja). Alternatívne sa môže v ďalších prvkoch uvádzať aj napr. súbežný názov, podnázov.
  2. Autor alebo pôvodca (DC.CREATOR) – osoba, resp. osoby organizácií, resp. korporácie, ktoré zodpovedajú za intelektuálny obsah (napr. autor pri textových dokumentoch, umelec, fotograf, príp. aj skladatelia, výtvarníci pri grafických dokumentoch; odporúča sa uvádzať v poradí priezvisko, krstné meno).
  3. Predmet a kľúčové slová (DC.SUBJECT) – téma, predmetové heslo, kľúčové slovo z obsahu zdroja. Téma zdroja, resp. kľúčové slová alebo frázy, ktoré popisujú tematiku alebo obsah. Predpokladaná špecifikácia tohto prvku slúži vývoju riadeného slovníka. Prvok môže obsahovať buď systematické údaje podľa určitej klasifikácie (SCHEME), akou je napr. číselný znak Library of Congress alebo MDT alebo deskriptory z uznávaných tezaurov, napr. MESH (Medical Subject Headings) a AAT (Art and Architecture Thesaurus).
  4. Popis obsahu (DC.DESCRIPTION) – textový popis obsahu zdroja, ako abstrakt, obsah, textové vyjadrenie popisu grafických zdrojov.
  5. Vydavateľ (DC.PUBLISHER) – inštitúcia, ktorá zodpovedá za to, že zdroj je v tejto forme k dispozícii, napr. vydavateľ, univerzita, korporácia. Cieľom tohto poľa je identifikovať inštitúciu, ktorá zabezpečuje prístup ku zdroju.
  6. Ďalšie zúčastnené osoby alebo korporácie (DC.CONTRIBUTORS) – ďalšie osoby, príp. organizácie, okrem tých, ktoré boli uvedené v poli 2 (DC.CREATOR), ktoré majú významný intelektuálny prínos v rámci tohto zdroja, ale tento prínos je v porovnaní s 2 poľom sekundárny (napr. prekladateľ, ilustrátor, moderátor a pod.).
  7. Dátum (DC.DATE) – dátum, od kedy je zdroj v súčasnej forme prístupný. Odporúča sa zápis dátumu ako osemmiestneho čísla – RRRRMMDD. Prípustná je aj iná forma zápisu dátumu, ale musia byť jednoznačne identifikovateľné, aby nemohlo prísť k chybnej interpretácii. Uvažuje sa o dvoch členeniach: DC.DATE.CREATION (dátum vzniku, resp. prvého vystavenia v sieti) a DC.DATE.LASTMODIFIED (dátum poslednej zmeny).
  8. Typ alebo druh zdroja (DC.TYPE) – typ zdroja, napr. dizertácia, román, báseň homepage, výskumná správa, slovník ap. Používajú sa prípustné označenia z riadeného slovníka.
  9. Formát (DC.FORMAT) – dátový formát média alebo jeho rozmery (veľkosť, čas trvania obrazovej alebo zvukovej nahrávky). Údaj v tomto poli poskytne potrebné informácie, ktoré umožnia určiť softvér alebo hardvér, resp. iného zariadenie potrebné na zobrazenie alebo na manipuláciu so zdrojom. Hodnotu sa odporúča vyberať z riadeného slovníka.
  10. Identifikátor zdroja (DC.IDENTIFIER) – reťazec abecedných alebo číselných znakov, ktorý umožní jednoznačnú identifikáciu zdroja (napr. ISBN, ISSN), pri zdrojoch na sieti URL a URN.
  11. Zdroj (DC.SOURCE) – v tomto prvku sa zaznamená tlačený alebo elektronický dokument, z ktorého tento zdroj pochádza. Napr. pri HTML súbore drámy od Shakespeara môže byť udaná ako zdroj tlačená verzia tejto drámy, ktorá bola predlohou.
  12. Jazyk (DC.LANGUAGE) – jazyk(y) intelektuálneho obsahu zdroja. Odporúča sa trojznakový kód jazyka.
  13. Vzťah (DC.RELATION) – odkaz na príbuzný zdroj. Väzby medzi rôznymi zdrojmi, ktoré majú formálny vzťah k iným zdrojom, ale existujú ako samostatné zdroje. Napr. obrázky v dokumente, jednotlivé kapitoly knihy, samostatné časti zborníka.
  14. Priestorové a časové údaje (DC.COVERAGE) – hľadisko pokrytia (časové, priestorové, plošné, miestne hľadiská), ktoré doplňujú charakteristiku objektu. Napr. meno miesta, zemepisné súradnice, časové obdobie, časový interval, jurisdikcia.
  15. Práva (DC.RIGHTS) – správa autorských práv. Informácia o právach vzťahujúcich sa k popisovanému zdroju. Bude obsahovať ustanovenia o správe autorských, resp. vlastníckych práv, alebo odkaz na službu poskytujúcu takéto informácie.

Každý prvok Dublin Core je definovaný pomocou súboru 10 atribútov na základe normy ISO/IEC 11179 pre popis dátových prvkov: meno (návestie pridelené dátovému prvku), identifikátor, verzia, registračná autorita, jazyk, definícia, povinnosť, typ dát, maximálny výskyt, komentár.

O použití tzv. kvalifikátorov sa názory rôznia. Prívrženci pôvodného cieľa DC odporúčajú používať jednoduchý súbor prvkov, ktorý by zabezpečil pri spracovávaní a rešeršovaní digitálnych informácií v internete vyššiu kvalitu a tvrdia, že jadro 15 prvkov DC by malo vystačiť na exaktné vyhľadávanie. Iní zastávajú názor, že bez kvalifikátorov by sa cieľ DC – presnosť vyhľadávania – sotva dosiahol, a preto považujú kvalifikátory pre jednotlivé prvky za vhodné a potrebné na to, aby sa docielila jednoznačnosť vo výsledkoch rešerše a aby sa vyhovelo požiadavkám vedy. Jednoduchosť schémy prvkov DC umožňuje, že nielen knihovníci (t. j. znalci viac či menej komplexného systému spracovania) budú vedieť využívať tieto metadáta – či už pri popise alebo vyhľadávaní.

V dňoch 4. – 6. októbra 2000 sa uskutočnil v poradí už 8. seminár zaoberajúci sa problematikou DC v Ottawe v Kanade. Pracovné skupiny sú orientované na špecifické okruhy problémov. Tvoria sa a zanikajú podľa potreby riešenej úlohy. Na základe výzvy pracovnej skupiny DC in Multiple Languages pracuje Knihovnícko-informačné centrum Masarykovej univerzity v Brne v spolupráci so špecialistami v oblasti knižníc na vytvorení českej verzie metadatového štandardu Dublin Core na popis a podporu vyhľadávania elektronických informačných zdrojov v českom prostredí.

Na záver

Na porovnanie katalogizačných pravidiel (AACR) s metadátami (DC) vydal Americký výbor pre katalogizáciu nasledujúce stanovisko: Metadáta nemôžu nahradiť katalogizáciu – môžu byť však užitočným informačným zdrojom pre katalogizovanie najmä elektronických dokumentov. Metadáta sa môžu uplatniť v oblastiach, pre ktoré boli určené, nie pre knižničné katalógy:

 

Poznámka:

V internete existujú vyhľadávacie nástroje, ktoré po celý deň prehľadávajú obrovské kvantá údajov a zostavujú registre, avšak žiaľ, niektorým dátam chýba “obálka”. Relevantné slová, resp. slovné spojenia, ktorými človek po týchto údajoch pátra, musia vyhľadávacie nástroje vyhľadávať z celého obsahu. Pri textových údajoch ešte ako-tak existujú určité kritériá výberu (napr. názov dokumentu), ale pri iných zvukových alebo obrazových informáciách má v súčasnosti vyhľadávací nástroj k dispozícii iba názov súboru. Pri takýchto údajoch je obzvlášť dôležité získať presnejšie informácie o obsahu týchto dát pomocou ďalších informácií.

Niektoré údaje v internete obsahujú doplnkové informácie o obsahu dát. Tieto doplnkové informácie sa nazývajú metainformácie alebo metadáta a sú takpovediac “údaje o údajoch”, resp. údaje, ktoré popisujú údaje. Metadáta sú informácie o iných informáciách , ktoré majú určitú formu, aby uľahčili vyhľadávanie a využitie primárnych dokumentov. Metadátami dostávajú formálne a obsahové údaje o diele určitú štruktúru, vyhľadávanie sa zjednoduší a pri rešerši sa získajú relevantnejšie výsledky. Aj pre tvorbu dát majú metadáta veľký význam, umožňujú korektnú interpretáciu dát.

Metadáta slúžia na popis dát, vypovedajú o týchto dátach. Jednotlivé výpovede popisujú vždy jeden aspekt a sú od seba nezávislé. Metadáta sa teda skladajú z rôznych výpovedí, ktoré podávajú informácie o jednotlivých aspektoch dát. Spolu poskytujú tieto jednotlivé atribúty súhrn prvkov (elemente set), ktorý popisuje údaje.

Štandardizované metadáta sú známe z oblasti katalogizácie v knihovníctve. Používanie štandardov tu umožňuje preberanie cudzích údajov a integráciu katalógov. Tieto výhody platia aj pre štandardizovaný popis internetových dokumentov. Prispievajú k zlepšeniu možností vyhľadávania. Veľký význam má používanie štandardizovaných metadát vzhľadom na integráciu rôznych služieb pri manuálne vytvorených vyhľadávacích službách. Tu je možnosť intelektuálneho indexovania a môžu lepšie využívať metaštandardy na spracovávanie dokumentov. Štandardizácia sa týka rôznych aspektov metadát: sémantiky, t. j. definovania prvkov patriacich do metadátového formátu a syntaxe, v ktorej sú znázorňované. Ďalej môže na štandardoch spočívať obsah popisu, ako sú etablované klasifikačné schémy, tezaury alebo riadený slovník na tvorbu predmetových hesiel.

V súčasnosti existujú rôzne metadátové formáty pre rôzne súvislosti, resp. rôzne účely (switching language, integrované služby, vylepšená presnosť vyhľadávania, plná podpora spracovania dokumentov a iné).

Spracovala A. L. podľa http://www.ics.muni.cz/dublin_core
http://www.biblio.tu_bs.de

 


http://www.cvtisr.sk/itlib/bc2000_4/dublin.htm
ITlib. Informačné technológie a knižnice