Adománné Zolnai Dóra és Zolnai László MTA Atommagkutató Intézete, Debrecen. Előadva: Networkshop :00

Adománné Zolnai Dóra és Zolnai László MTA Atommagkutató Intézete, Debrecen Előadva: Networkshop 2010. 2010.04.08. 16:00

1. Bevezetés A Physical Review Letters térfogatának változása az évek függvényében Térfogat [ccm] 50000 45000 40000 35000 30000 25000 20000 15000 10000 5000 0 1950 1960 1970 1980 1990 2000 2010 Megjelenés éve 1.1 A tudomány viharos fejlődése szükségessé tette: A tudományos művek legalább címszerinti nyilvántartását abból a célból is, hogy ezekből az adatokból képet kaphassunk a művek szerzőinek munkásságáról (teljesítményéről).

Atomkis független publikációk éves bontásban észlelt publikációk száma

Atomkis független hivatkozások éves bontásban észlelt hivatkozások száma

1.2 Ezeknek az igényeknek a kielégítésére jöttek létre az u. n. publikációs adattárak, Science Citation Index (SCI)(WoS) (WoK), Scopus Medline, stb. Jelentős késéssel a hazai informatikai háttér megerősödésével hazai publikációs adattárak. Mára hazánkban mintegy húszra tehető a többékevésbé működőnek mondható adattárak száma. 1.3 Jelen előadás motivációját az adja, hogy több hazai publikációs adatbázis fejlődése megtorpanni látszik. Időszerű áttekinteni a hazai publikációs adatbázisokat, hogy a továbblépéshez irányokat adhassunk.

1.4 Részletesen foglalkoztunk az MTA Tudományos Publikációs Adattárával (ATPA), az MTA Köztestületi Publikációs Adattárával, a Miskolci Egyetem Publikációs Adattárával, a Pázmány Péter Katolikus Egyetem Bölcsészettudományi Karának Oktatói Publikációs Adatbázisával (PPKE BTK OPA), az MTA Atommagkutató Intézete publikációs-hivatkozási adatbázisa (APHA). 1.5 Vizsgálataink során elsősorban az interneten elérhető információkra támaszkodtunk. Egyes esetekben személyesen is megkerestük az illető adatbázisok kezelőit. Ugyanezen a módon szereztünk igaz, hézagos információt az egyes adattárak jövőbeli terveit illetően

1.6 A tudományos publikációs tevékenység összefüggéseinek tudományos vizsgálatára egy külön tudományág, a tudománymetria (bibliometria) alakult ki. Az evaluativ tudománymetria széles körben elfogadott álláspontja szerint a tudományos teljesítmény értékelésekor minden esetben ki kell egészíteni ú.n. peer-review értékeléssel. A számszerű jellemzők használata elsősorban makroszinten (országok közti összevetés) vezet megbízható eredményre, mezo-(intézményi) és mikroszinten (egyéni teljesítményértékelés) alkalmazása nagy körültekintést igényel. 1.7 Az értékelési folyamat tudatosabb esetekben a tudománypolitikai marketing lépéseinek folyományai.

1.8 A publikációs adattárak kimondva vagy kimondatlanul a láttatás és értékeltetés szándékával jöttek létre. Itt kell megemlíteni, hogy a dolgozatban vizsgált adattárakkal kapcsolatban célszerű elkülöníteni: a szűkebben vett adatnyilvántartást, az adattárak működtetését, és az esetleges tudománymetriai célokat szolgáló tudománymetriai eszköztárat.

2. Összehasonlítás, következtetések Tárgyunk szempontjából a legszembeötlőbb az egyes adatbázisok szerzőköri és időköri feltöltöttségének a valamikori célokhoz viszonyított alacsony volta. Főleg ennek a jelenségnek az okait fogjuk elemezni a következőkben. A tárgyalt kérdések egy része túlmegy az egyszerű adattári problematikán, fontos voltuk akkor válna jelentőssé, ha az adattárak anyaga és/vagy a belőlük származtatott tudománymetriai statisztikai adatok alkalmazásra kerülnének ez egyes szervezetek által végrehajtott értékelésekben.

2.1 Az adatfolyamok összehasonlító elemzése Az adatbázisok használhatósága szempontjából legfontosabbnak tartjuk, hogy az egyes adatbázisok a felvállalt gyűjtési tartomány mekkora részét képesek lefedni. Ennek a tulajdonságnak legfontosabb összetevője az adatbázist tápláló folyamat mibenléte. 2.1.1 A (WoS, Scopus, stb.) esetében az adatok forrásai maguk a feldolgozni kívánt művek, amelyeket megfelelő tőkeerő birtokában valószínűleg bérmunkában dolgoztatnak fel az ilyen adatbázisokat üzemeltető cégek. Ez elsődleges adatfeltöltést jelent. A hazai adatbázisok esetében a különböző eszközökkel rávett oktatók, kutatók, köztestületi tagok végzik az adatbevitelt. ATPA KPA MEPA APHA

Az adatfolyamot illetően az alábbi kérdéseket érintjük: Nyilvánvaló követelmény az adatbázisokat illetően, az azokban tárolt adatok pontossága. Ebből a szempontból legjobb az elsődleges adatforrások használata. Valamennyi (a KPA különösen) vizsgált adattár egyre jobban támaszkodik az ismert nemzetközi adattárakra (WoK, Medline, Scopus), mintegy hazai infrastrukturális adottságként véve ezek hozzáférhetőségét. Fontos kérdés, hogy az adattár tartalmaz-e többszörösen előforduló rekordokat. Lényeges az adatbeviteli felület bonyolultsága. Az adatfeltöltés hatékonysága ott a legjobb, ahol az adatbejelentésre kötelezettek szervezetileg közel állnak az adatbázis kezelőihez. APHA, klónok. A feltöltöttséget alapvetően meghatározza az adatokat szolgáltató személyek motiváltsága. KPA, APHA, termékeny szerzők problémája A nagy nemzetközi adatbázisokból való tömeges adatleszívás jogi aggályokat is felvet.

2.2 Az inaktív szerzők esete Jelentős számmal fordulnak elő kevésbé motivált szerzők, akiktől szinte lehetetlen adatokat behajtani. Ugyanebbe a csoportban sorolhatók az elhunytak, illetve a valami okból nem az illető adatbázis illetékességi körébe tartozó munkahelyre távozottak. Ennek megoldása pótlólagos kapacitások beépítését teszi szükségessé. APHA, 2008: 20:70 %.

2.3 Az azonos nevű szerzők problémája A legmegbízhatóbbnak az APHA kialakított gyakorlata tűnik, nevű társszerzőket, akiket a megfelelő kódszámmal kódolnak. Ennek az információnak a forrásai:amelyben az adatbázis kezelői megpróbálják azonosítani az azonos A szerzők intézetének adata. A publikáció témája. A szerző múltbeli társzerzőinek áttekintése az adatbázis alapján. Az intézeti szerzőkkel konzultáció. Ennek a módszernek a hátrányai: csak viszonylag kis létszámú célcsoport esetén alkalmazható könnyen, viszonylag munkaigényes, csak a szerzői célcsoportot tekintve megbízható, külföldi szerzők esetén nem pontos. Az ATPA (köztestületi azonosító) A KPA a szerzőkre bízza ennek a problémának az eldöntését, munkaigényes folyamaton keresztül.

2.4 Sok társszerzős publikációkkal/ hivatkozásokkal kapcsolatos problémák A probléma sajátosan érzékeny területet érint; ezek a publikációk a tudomány frontvonalában lévő témákat érintenek, hivatkozásgeneráló képességük nagy. Az alábbiakban néhány problémát veszünk sorra: A hazai adattárak általában a független idézetek gyűjtését célozzák meg. A sok társszerző neve rögzítésének néhol még technikai problémái is lehetnek. Speciális kérdés a sok társszerzős publikációkkal kapcsolatban az, hogy a publikációt végül is ki számolja el magának (ld. 2.5 fejezet)

Az Atomki publikációinak átlagos társszerzőszáma az évek függvényében Társszerzők száma 600 500 400 300 200 100 0 1950 1960 1970 1980 1990 2000 2010 Megjelenési év Az Atomki publikációinak átlagos társszerzőszáma az évek függvényében

Atomki publikációk éves bontásban Publikációk társszerzőinek átlagos száma

2.5 A teljesítmények additivitásának kérdése - az egyéni/intézményi teljesítmény elkülönítése Az Atomki publikációinak átlagos társszerzőszáma az évek függvényében Társszerzők száma 50000 45000 40000 35000 30000 25000 20000 15000 10000 5000 0 1950 1960 1970 1980 1990 2000 2010 Megjelenési év Több társszerzős szerzőlista, vagy a publikáció fejzetében levő több intézmény esetén felvetődik a kérdés, hogy valójában a publikáció mekkora hányada tulajdonítható az illető egyes szerzőnek vagy intézménynek és/vagy országnak.

Az Atomki publikációinak száma 1954-2008 400 350 300 250 Az adatbázisban levő teljes szám Az Atomki a fejzetben Db 200 150 Az Atomki-s szerzőkre eső rész 100 50 Az Atomki része 0 1940 1960 1980 2000 2020 Megjelenési év Az Atomki publikációinak száma 1954-2008

2.6 Minőségbiztosítási kérdések A legalaposabbnak a KPA tűnik a honlapján vázolt eljárás alapján. E szerint az adattár kezelői ellenőrzik szintaktikai és egyéb szempontokból a szerzők által bevitt adatokat. A teljes nyilvánosságra a szerzők és kezelők által validált adatok kerülhetnek. Az ATPA hasonló eljárást követ. Az előbbi eljárások időigényesek, azonban mégis csak a nagy nemzetközi adattárak (WoK, PubMed, Scopus) adataival való összevetésre szorítkoznak Feedback, látogatottsági számlálók szélesebb körű alkalmazása.

2.7 Az adattárak működtetésének gazdasági háttere Az egyes adattárak működésének gazdasági hátterére nehéz adatokat találni. A nagy nemzetközi adattárakkal szemben amelyeket magánvállalkozások hoztak létre, és magántőkéből fejlesztenek a hazai adattárak kivétel nélkül állami költségvetési pénzre támaszkodnak. Kérdéses, hogy hazánkban lehetne-e profitalapon létrehozni publikációs adattárat. Ebből a tényből azonban a hazai publikációs adattárak egy sajátos tulajdonsága eredeztethető: Míg a fejlesztési célok kitűzésénél az összefogni kívánt aktorok kívánságainak legkisebb közös többszöröse jut érvényre, a későbbi működtetést illetően az egyes helyen meglevő erőforrások legnagyobb közös osztója szab határt amely erőforrásoknak a szükségleteket kielégítő felmérésére, ill. átcsoportosítására nagyon ritkán kerül sor. A költségvetési pénzek korlátozott voltából ered az is, hogy az adattárak nagy célokat tűznek ki a fejlesztéshez még, meg vannak az eszközök a munkaigényesebb folyamatot, az érintett szerzőkre bízzák rá. Ennek a körülménynek az eredménye az, hogy bizonyos felfutási periódus után több adattár közönybe fulladt.

A hazánkban a felsőoktatási-tudományos szférában megvalósuló szoftverfejlesztések (általában adatbázisok) működésében felmerülő zavarok okai: a forrásokhoz képest túl ambiciózus célok kitűzése, a fejlesztés során szükségessé váló döntések nem megfelelő időben és előkészítettséggel való meghozatala, a nem megfelelő szintű rendszertervezés, a tesztidőszak rövid időre való korlátozása, a tesztek nem elég széles körben való végrehajtása, a felhasználói visszacsatolások figyelmen kívül hagyása, abban való hit, hogy a nemegyszer kötetekre rúgó használati utasítást elegen elolvassák. A vizsgált publikációs adattárak fejlesztésében és működtetésében a következő érdekcsoportok vesznek részt: fenntartó szerv, vagy annak képviselői, fejlesztők, kezelők, felhasználók. A felhasználókat még két csoportra lehet bontani, aszerint, hogy munkásságukat akarják a szélesebb nyilvánosság elé tárni, vagy pedig mások munkássága iránt érdeklődnek.

Az egyes adattárak működésében mutatkozó zavarok magyarázata a tervezőmunka nem alapos voltában keresendő. A működési anomáliák kiküszöbölése jobb esetben a realizált adattár szoftveres kiegészítését, rosszabb esetben plusz emberi erőforrás hozzárendelését teszi szükségessé. Ez utóbbi, az esetleges szervezeti változtatásokkal együtt költségvetési környezetben nehezen valósítható meg. A fentiekben vázolt igények felismerésénél rosszabb az az eset, ha egyfajta struccpolitika részeként az anomális működésről nem vesznek tudomást, ami végül is a projekt fiaskójához vezet. Általában hazai projektekre nézve jellemzőnek mondható egyfajta voluntarista megközelítés. A vizsgált publikációs adattárak működtetési költségeinél általában nem veszik figyelembe az adattárak által egyre intenzívebben használt nemzetközi publikációs adattárak előfizetési (bérleti) költségét.. A vizsgált adattárak működtetéséből egy kivétellel hiányzik a működtetés hatékonyságának mérésére szolgáló eszközök használata. Belátható, hogy a publikációs adattárak létrehozására költött források annál hatékonyabban hasznosulnak, minél inkább átfed a publikációk (és az arra való hivatkozások) szerzőlistája a megcélzott felhasználócsoporttal. A gazdaságossági szempontok további összetevője, hogy mennyire sikerül a már egyszer befektetett fejlesztési költségek értékét megőrizni. Félő, hogy a hazai fejlesztésű adattárak ki vannak szolgáltatva az illető fejlesztőcégeknek.

2.8 Következtetések és javaslatok A publikációs adattárak jövőbeli fejlődésének/fejlesztésének kétségkívül fontos tényezője a hazai tudománypolitikának a tudományos teljesítmény értékelésével kapcsolatos álláspontjának mibenléte. Fontos lenne, hogy a tudománypolitika döntse el, hogy az evaluativ tudománymetriát a hosszú távú tudománypolitikai döntések segítőjeként vagy az egyes tudománybeli érdekcsoportok taktikai bunkósbotjaként használja. Ez, egyrészt a fenntartókra, másrészt a felhasználókra gyakorol nyomást. Néhány javaslatot már most is megfogalmazhatunk.

1. Célszerű lenne a különböző adattárak közti kapcsolatok elmélyítése: Az eltérő helyen gyűjtött adatok összeférhetőségének javítása, az import/export lehetőségének megteremtése. Egységesíteni kellene az egyes adattárak által szolgáltatott tudománymetriai indikátorokat. Célszerű lenne az intézményekre vonatkozó statisztikai idősorok bemutatása. Kívánatos lenne a rendelkezésre álló forrásokat koncentrálni a hatékonyabb fejlesztés érdekében. 2. Időszerű lenne eltörölni bizonyos gyűjtőköri korlátokat (Egyrészt az ATPA-banlehetővé kellene tenni az 1992 előtti anyagok keresését, ezzel megnyitva az utat az akadémiai intézetek publikációs története előtt, másrészt a KPA-banafokozattal még nem rendelkező fiatal tudósok számára is nyitottnak kellene lenni).

3. Meg kellene találni a publikációs adattárak szofisztikált szerkezete/kezelhetősége és a felhasználók motiváltsága (az adatbázisok feltöltöttsége) közti középutat. Jelenleg bonyolult szerkezetű adatbázis (KPA) működik alacsony feltöltöttséggel, és relatíve gyatra platformon (FORTRAN) működő adatbázis (APHA) ér el jó feltöltöttségieredményeket. Megállapítható, hogy a megcélzott szerzőcsoport motiváltsága és feldolgozáshoz rendelkezésre álló kapacitás megszab egy olyan bonyolultsági szintet, amelyen túlmenve az adatbázisban, illetve annak kezelői felületében beprogramozott befogadóképesség öncélúvá válik, és a befektetett eszközök nem hatékonyan hasznosulnak. Ebből következik, hogy növelni kell a megcélzott szerzőcsoport motiváltságát és/vagy bővíteni kell azt a kapacitást, amely az adatok előkészítését/bevitelét végzi. Ez utóbbi különösen a KPA esetében lenne fontos. Ennek egyik eszköze lehet, hogy az adattár és az adatszolgáltatásra végül is kötelezettek közé gyűjtőszinteket telepítenek. Az inaktív szerzők munkájának pótlására kezelői szinten pótlólagos kapacitásokat kell beépíteni.

4. Az előbbi pontban említett hierarchikus szervezeti felépítésnek szükséges eleme lenne, hogy a különböző szinteken lényegileg azonos programok működjenek, lehetővé téve az egymás közti kommunikáció egyszerű módját. 5. Egyértelműen javítani kell az adattárak globális kereshetőségét. Ennek speciális esete az angolul való kereshetőség (APHA). 6. Meg kellene oldani néhány minőségbiztosítási kérdést, lehetőséget kellene biztosítani a felhasználóktól a fejlesztőkig/kezelőkig, sőt a fenntartókig irányuló visszacsatolásra (feedback). Valamilyen módon képet kellene kapni az illető adattár iránti érdeklődés feltérképezésére. Ugyancsak minőségbiztosítási kérdés a feltöltött adatok megbízhatósága, ami különösen az idézetek esetében fontos egy esetleges értékelés szempontjából. Erre a problémára egy lehetséges megoldás lenne az egyéni/intézményi publikációs/hivatkozási listák mintavétellel történő minősítése.

7. Célszerű lenne a 2. fejezet előző részeiben ismertetett problémák konszenzuson alapuló tisztázása, annak eldöntése egyáltalán, hogy a jövőbeli teljesítményértékelési szempontok kiterjednek-e ezekre a tényezőkre. Különösen az egyetemek területén kellene ezzel kapcsolatban határozott döntéseket hozni (kutatóegyetem) Az egyes adattárak jövőbeni tervei a fenntartó szerv megfogalmazott elvárásain túl, általában a fejlesztők és kezelők fejében alakulnak ki az érdeküknek megfelelően. Sajnálatos, hogy a felhasználók igényei csak minimális mértékben kapnak teret.

3. Összefoglalás Előadásunk néhány hazai fejlesztésű tudományos publikációs adattár működésének összehasonlító elemzésével foglalkozik. Az elemzés során megállapítottuk, hogy az adattárak működésének színvonala jelentősen elmarad az ismert nemzetközi adattárakétól. Úgy gondoljuk, hogy az anomális működésnek a szűkös költségvetési forrásokon túlmenőleg két, a jelenlegi viszonyok között is finomítható oka van: Az adattárak esetleges tudománymetriai értékelésre való felhasználásának tisztázatlan volta, Az adattárak működtetésének szervezeti kérdéseinek átgondolatlansága, főleg ami az adatszolgáltatók motiváltságát illeti.

Az előadás anyaga előkészítésével egy időben értesültünk arról, hogy a magyar tudományos élet vezető szervezetei, a Magyar Tudományos Akadémia (MTA), a Magyar Akkreditációs Bizottság (MAB), az Országos Tudományos Kutatási Alapprogramok (OTKA), a Rektori Konferencia, valamint az Országos Doktori Tanács (ODT) 2010. január 1-től létre kívánják hozni a Magyar Tudományos Művek Tárát (MTMT), amely távlatilag egyesíti a publikációk és hivatkozások nyilvántartására vonatkozó hazai igények kiszolgálását. Csak remélni lehet, hogy ezen új adatbázis létrehozásakor hasznosulnak a jelen előadás megállapításai.

Köszönöm Társszerzőmnek a közös munka nagyobbik részét, a konferencia szervezőinek a megtisztelő lehetőséget, a hallgatóságnak a figyelmet és a türelmet!