Mikrodátová infraštruktúra v českých informačných systémoch výskumu a vývoja1

 

Abstrakt: Príspevok obsahuje charakteristiky výsledných dát o výsledkoch, ktoré sú v českom informačnom systéme výskumu a vývoja, a procesy ich zhromažďovania a spracovania. Dáta, použité ako báza pre hodnotenie efektívnosti výskumu a vývoja, sú evidované každoročne od roku 2005. Mikrodáta o výsledkoch v súčasnosti obsahujú 640 000 záznamov výsledkov výskumu a vývoja v štyroch kategóriách. Hodnotenie vedy a výskumu je založené na atribútoch mikrodát výsledkov.

Uvádzame charakteristiky výsledných dát o výsledkoch, ktoré sú v českom informačnom systéme výskumu a vývoja, a procesy ich zhromažďovania a spracovania. Dáta použité ako báza na hodnotenie efektívnosti výskumu a vývoja sú od roku 2005 až doteraz.

1.   Úvod

Informačný systém výskumu a vývoja Českej republiky (v češtine: „Informační systém výzkumu a vývoje“ – IS VaV) je celoštátny IS VaV. Pri financovaní  výskumu má v Českej republike významnú úlohu štát. Český CRIS dokumentuje celý proces výskumu, od strategického plánovania financovania až po výsledky. Riadi ho Rada pre výskum a vývoj [1].

V príspevku v krátkosti predstavíme IS VaV, potom budeme venovať pozornosť mikrodátam výsledkov, ich štruktúre a spracovaniu v informačnom systéme. Príspevok sa venuje   aj o využitiu mikrodát pri hodnotení výskumu a vývoja [4].

2.   Český informačný systém výskumu a vývoja (IS VaV)

Existencia a základné úlohy IS VaV sú zakotvené v zákone č. 130/2002 Sb. O podpore výskumu a vývoja z verejných financií. Ďalej je rozpracovaný v nariadení vlády ČR.

IS VaV má tieto základné ciele:

  1. Podporiť Radu pre výskum a vývoj pri príprave a prerokovaní návrhu štátneho rozpočtu pre VaV.
  2. Šíriť informácie o verejnej súťaži, súčasnom výskume a predchádzajúcom výskume s uvedením výsledkov.
  3. Poskytnúť vstupné údaje na hodnotenie efektívnosti VaV.

Vstup údajov je povinný. Konkrétne je nariadené, že:

  1. každý výskum, ktorý je čo len čiastočne financovaný zo štátneho rozpočtu ČR, je zaznamenaný v IS VaV;
  2. skôr než poskytovateľ štátneho finančného príspevku sprístupní príspevok pre výskumnú inštitúciu, musí byť súbor aktuálnych údajov úspešne predložený do českého IS VaV;
  3. každý výskum označený ako úspešne dokončený musí predložiť výsledky – publikácie, patenty, technológie atď.

Okrem toho hodnotenie efektívnosti výskumu a vývoja, ktoré sa robí každoročne od r. 2005, poskytuje výskumným organizáciám priamu motiváciu na predloženie výsledkov.

IS VaV sleduje tieto ciele:

  1. Návrhy štátneho rozpočtu pre program VaV.
  2. Podporné schémy V a V (programy financovania).
  3. Výzvy na predloženie projektov – verejné súťaže (VES).
  4. Vedeckovýskumné projekty (CEP) – od r. 1994 je 30 000.
  5. Plány inštitúcií v oblasti  vedy a výskumu (forma podpory VaV v inštitúcii) – CEZ, 890 od r. 1998
  6. Výsledky – RIV. Podrobnejšie vysvetlenie poskytneme v ďalšej časti.

Nepriamo zhromažďuje aj informácie o:

  1. organizáciách, ktoré sú aktívne v oblasti VaV,
  2. vedeckovýskumných pracovníkoch.

Podrobnejšie informácie o českom IS VaV sú uvedené v [2]. Údaje sú uvedené na verejnom rozhraní informačného systému [3].

3.   Mikrodáta o výsledkoch

Výsledky boli zbierané v RIV od r. 1998. Údaje obsahujú výsledky štátom financovaného výskumu v Českej republike. Teraz, v apríli 2009, je v nich 640 000 záznamov výsledkov, ktoré obsahujú informácie o približne 490 000 výsledkoch.

Typy výsledkov a ich atribúty

Sú štyri typy výsledkov:

  • publikácie,
  • patenty,
  • produkty,
  • iné.

Publikácie tvoria väčšinu výsledkov.

Údaje o výsledkoch sa zbierajú vo forme záznamu o výsledku. Tieto záznamy zahŕňajú nasledujúce položky:

Základné údaje o každom výsledku (bez ohľadu na typ výsledku):

  • názov viacjazyčný: čeština, angličtina a pôvodný jazyk dokumentu),
  • abstrakt/krátky opis (tiež viacjazyčný),
  • jazyk,
  • rok realizácie (pri publikáciách rok vydania),
  • klasifikácia oblasti,
  • kľúčové slová.

Typovo špecifické dáta o každom výsledku:

  • pre publikácie:
    • pre články v časopisoch:
      • názov časopisu,
      • ISSN časopisu,
      • ročník a číslo časopisu,
      • rozsah strany, počet strán;
    • pre monografie:
      • ISBN,
      • vydavateľ,
      • počet strán;
    • pre kapitoly kníh:
      • názov knihy,
      • ISBN knihy,
      • vydavateľ knihy,
      • rozsah strany, počet strán;
    • pre články v zborníku z konferencie:
      • názov zborníka,
      • ISBN alebo ISSN zborníka,
      • vydavateľ zborníka,
      • rozsah strany, počet strán,
      • dátum začatia a skončenia konferencie,
      • miesto konania konferencie;
         
  • pre patenty:
    • vydavateľ patentu,
    • číslo patentu,
    • deň registrácie,
    • deň prijatia,
    • majiteľ patentu,
    • geografická oblasť, ktorú patent pokrýva;
       
  • pre produkty:
    • typ produktu,
    • vlastnosti produktu,
    • vlastník produktu.

Organizácia, ktorá výsledky dosiahla (predkladajúca organizácia);
Zoznam autorov dosiahnutých výsledkov – autori, ktorí sú členmi predkladajúcej organizácie, sú uvedení podrobnejšie než ostatní;
Zoznam vedeckovýskumných činností (projekty VaV, výskumné plány inštitúcie, projekty Rámcového programu, projekty štrukturálnych fondov, ďalšie aktivity v oblasti VaV), ktoré prispeli k dosiahnutým výsledkom;
Proces zbierania metadát (poskytovateľ štátneho finančného príspevku, ktorý dodal záznam o výsledku, kampaň zbierania dát, balík dát, ktorý obsahoval záznam o výsledku).

Záznamy o výsledkoch sa objavujú na úrovni výskumných inštitúcií (univerzity, výskumné inštitúty, organizácie z oblasti kultúrneho dedičstva, podniky). Na základe zoznamu výskumných aktivít sa záznam postúpi jednému alebo viacerým poskytovateľom štátneho finančného príspevku. Ich úlohou je overiť záznam o výsledkoch a potvrdiť dôležitosť jeho spojenia s vedeckovýskumnými aktivitami, ktoré poskytovateľ financoval. Poskytovatelia štátneho príspevku potom poskytnú overené údaje Rade pre VaV, ktorá ich zaradí do centrálnej databázy.

Vyčistenie dát o výsledkoch

Je možné, že viaceré organizácie poskytujú záznamy o tom istom výsledku. Je tiež možné, že je viac záznamov o tom istom výsledku z jednej predkladajúcej organizácie: záznamy sa môžu zbierať v rôznych kampaniach zbierania výsledkov, alebo ich poslali rôzni poskytovatelia finančného príspevku. Takáto situácia vzniká priam zákonite.

Používatelia však očakávajú, že každý výsledok sa uvádza, počíta alebo sa mu prideľujú body len ako celku. To vedie k požiadavke porovnávať záznamy, ktoré sa vzťahujú k tomu istému výsledku.

Aby sa vyhovelo tejto požiadavke, IS VaV podniká tieto kroky:

  1. Úradné záznamy sa používajú na zvýšenie kvality údajov poskytovaných v jednotlivých záznamoch.
  2. Na báze atribútov zvýšenej kvality sa identifikujú výskyty toho istého výsledku v rôznych záznamoch výsledkov.
  3. Pre niekoľko základných atribútov sú vytvorené spoločné hodnoty.

Úradné záznamy tvoria cenný nástroj zvyšovania kvality kombinovaných údajov. Pomáhajú vyriešiť problém, ako je nejednotná forma vydavateľa alebo odkazov na názov v atribútoch voľného textu.2

Sú užitočné aj pri riešení otázok odkazových údajov, ako je napr. zlý výber dekódovania písmena a pod.

Môžeme identifikovať výskyt toho istého výsledku v rôznych záznamoch výsledkov na báze hodnôt určitých atribútov, ktoré tvoria sémantický kľúč výsledku. Do týchto  atribútov patrí názov výsledku a typ výsledku. Pri type výsledku musíme brať do úvahy vývoj klasifikačnej schémy počas kampane zbierania údajov. Suma identifikujúca hodnotu sémantického kľúča sa používa ako identifikátor výsledku. Zostavíme tiež spoločné hodnoty niekoľkých základných atribútov výsledku. Patrí sem spoločný názov, spoločný typ a spoločný rok vydania/realizácie. Vyberie sa jedna hodnota z dôležitých záznamov výsledkov. Sú aj novostanovené atribúty, ako je séria organizácií, ktoré poskytli výsledky série poskytovateľov štátneho príspevku.

V tomto štádiu sa vo výsledku autorských dát ešte nič nezlaďuje.

Použitie  mikrodát pri hodnotení VaV

Hodnotenie výsledkov VaV výskumnej inštitúcie musí byť založené na jasne stanovených pravidlách. Tieto pravidlá však nesmú byť závislé ani od hodnoteného subjektu či objektu, ani od subjektu, ktorý hodnotí.

Ak sa má splniť táto podmienka, jedinou cestou je založiť hodnotenie na atribútoch mikrodát výsledkov. Mikrodáta musia byť správne a overené; iba takéto mikrodáta môžu tvoriť bázu schémy hodnotenia.

Riadiace princípy

  • Použité poskytnuté údaje:
    • Všetky ukazovatele musia byť na báze zozbieraných dát.
    • Ak sú potrebné vstupy ďalších dát, musí byť známy ich pôvod.
    • Údaje sú spracované jednotne pre všetky organizácie.
  • V prípade udelenia rôznych bodov sa dáva prednosť vyššej hodnote:
    • Napríklad niektoré články sa berú aj ako článok v impaktovanom časopise3, aj ako článok zo zborníka. Prideľujeme vyššiu z bodových hodnôt.
    • Je to špeciálne prípad všeobecne konzervatívneho princípu – je lepšie preceniť ako podceniť. Potenciálne precenenie vytvára len malú ujmu mnohým, zatiaľ čo podcenenie môže niekomu naozaj ublížiť.
  • Nepracujte s jedným výsledkom viac než raz:
    • Je veľmi dôležité zabezpečiť, aby v mikrodátach výsledkov nebol žiaden duplikát – v opačnom prípade budú body niektorým výsledkom pridelené dvakrát a dáta hodnotenia sa budú musieť dohodnúť.

Postup hodnotenia

  • Prideľovanie bodov výsledkom:
    • Hodnotenie výsledkov závisí od typu výsledku.
  • Hodnotenie publikácií závisí od dát, ktoré boli publikované v ISI (Web of Science):
    • Hodnotenie vedeckej prednášky závisí od impakt faktora časopisu, v ktorom bola prednáška uverejnená.
    • Hodnotenie monografie závisí od použitého jazyk
  • Hodnotenie výsledkov iných typov závisí od dostupných atribútov, napr.:
    • Hodnotenie patentov závisí od geografického dosahu patentu3.
  • Distribúcia bodov inštitúciám:
    • Bodová hodnota výsledkov sa dáva do inštitúcie ako pomerná časť pomeru počtu v nej pracujúcich autorov k celkovému počtu autorov (tzv. autorský pomer).
    • Vložené bodové hodnoty pre inštitúciu sa sčítajú a toto číslo je indikátorom výkonu inštitúcie v oblasti vedy a výskumu
  • Distribúcia bodov poskytovateľom finančného príspevku:
    • Body sa prideľujú projektom podľa dosiahnutých výsledkov.
    • Body akumulované projektmi sa sčítajú pre projekty podporované konkrétnym poskytovateľom financií.
    • Toto číslo hodnotí výkon výskumu podporovaný uvedeným poskytovateľom financií.
    • Môže sa porovnať s finančnou čiastkou príspevku vypočítaním indexu (konkrétneho poskytovateľa): Index = (nahromadené body) / (sumou finančnej čiastky)

 

Literatúra

[1] The R&D Council of the Czech Republic: The Czech Research and Development Council Website.
The English version. http://www.vyzkum.cz/?lang=en.

[2] Dvořák, J.; Souček, M.: The Research and Development Information System of the Czech Republic. In Get the Good CRIS Going : Ensuring Quality of Service for the User in the ERA, Aleš Bošnjak, Maxmilian Stempfhuber (eds.), CRIS2008, proceedings from the 9th International Conference on Current Research Information Systems, Maribor, Slovenia, June 5th – 7th, 2008, IZUM, ISBN 978-961-6133-38-8, pp. 125–130.

[3] The data of the R&D Information System of the Czech Republic. 
     The English version. http://aplikace.isvav.cvut.cz/locale/en_US/.

[4] Dvořák, J.; Souček, J.: The Research and Development Efficiency Evaluation in the Czech Republic. In Get the Good CRIS Going: Ensuring Quality of Service for the User in the ERA, Aleš Bošnjak, Maxmilian Stempfhuber (eds.), CRIS2008, proceedings from the 9th International Conference on Current Research Information Systems, Maribor, Slovenia, June 5th – 7th, 2008, IZUM, ISBN 978-961-6133-38-8, pp. 131–139.

 

Jan Dvořák (jan.dvorak@infoscience.cz
Jiří Souček (jiri.soucek@infoscience.cz)

 


 

1 Tento príspevok odznel na medzinárodnej konferencii Informačné systémy o vede v EÚ v CVTI SR a s láskavým dovolením autora a organizátorov konferencie ho prinášame v plnom znení.

2   Na ilustráciu situácie: bolo zistených viac než 160 rôznych spôsobov odkazov na vydavateľstvo ČVUT.

3    Používa sa Journal Citation Report z Web of Science.

 

 


In ITlib. Informačné technológie a knižnice [online], 2009, č. 02 [cit. 2009-06-30].
Dostupné na internete <http://www.cvtisr.sk/itlib/itlib092/dvorak_soucek.htm>. ISSN 1336-0779.

ITlib. Informačné technológie a knižnice