前言:我們精心挑選了數(shù)篇優(yōu)質(zhì)科學研究與技術(shù)服務文章,供您閱讀參考。期待這些文章能為您帶來啟發(fā),助您在寫作的道路上更上一層樓。
[關(guān)鍵詞]科學數(shù)據(jù) 數(shù)據(jù)生命周期 服務方式
[分類號]G250
進入21世紀,e-Science的產(chǎn)生改變了科研方式,科技創(chuàng)新越來越依賴于對海量數(shù)據(jù)的再利用。因此,如何融入e-Science環(huán)境滿足科研人員的數(shù)據(jù)需求是圖書館界亟需探索的一個問題。國外已經(jīng)有學者探討e-Research中圖書館參與數(shù)據(jù)領(lǐng)域的角色定位問題,本文在總結(jié)前人觀點基礎(chǔ)上,利用數(shù)據(jù)生命周期(digitallife cycle)模型推演了e-Science環(huán)境下圖書館可以開展的科學數(shù)據(jù)服務方式,并考察各項服務的實際開展情況,輔以案例分析。
數(shù)據(jù)生命周期是指從數(shù)據(jù)產(chǎn)生,經(jīng)數(shù)據(jù)加工和,最終實現(xiàn)數(shù)據(jù)再利用的一個循環(huán)過程,其實質(zhì)是依據(jù)科研過程來管理數(shù)據(jù)。本文從來源、類型、基本流程、特色、實質(zhì)等方面分析了各種數(shù)據(jù)生命周期理論,從中歸納出數(shù)據(jù)生命周期的一般基本流程,以此為指導思路探索了e-Science環(huán)境下圖書館可以開展的科學數(shù)據(jù)服務方式。
1 數(shù)據(jù)生命周期理論歸納
生命周期的概念源于生物領(lǐng)域,科學家描述了寄生物扁虱從一個宿主轉(zhuǎn)換到另一宿主的生命周期過程,宿主為扁虱的整個生命周期提供支撐生存的環(huán)境。作為一種比喻,數(shù)字對象也可以看作扁虱,從一個數(shù)字加工環(huán)境到另一環(huán)境,最終生成數(shù)字產(chǎn)品供用戶使用。數(shù)字生命周期的提法在IASSIST(International Associa-tion for Social Science Information Services&Technology)2006中多次出現(xiàn),Ann Green總結(jié)了各類數(shù)字生命周期理論,并討論了數(shù)字化生命周期的內(nèi)涵:首先,“生命周期”不同于“生命期”(life span),即從產(chǎn)生到消亡,一個生命周期意味著一種數(shù)據(jù)加工環(huán)境,經(jīng)過數(shù)據(jù)管理和長期保存,實現(xiàn)資源發(fā)現(xiàn)和再利用。具體來說就是對數(shù)字化資源進行保存及長期保存、提供獲取,最終用于支持研究、政策制定等再利用活動。本文歸納了各派數(shù)據(jù)生命周期理論,從來源、基本流程、類型等方面進行列表對比(見表1)。
從各派理論可以看出,科研生命周期是數(shù)據(jù)生命周期的來源,同時e-Science環(huán)境下一個完整的數(shù)據(jù)生命周期涉及數(shù)據(jù)加工和知識抽取兩個層次,數(shù)據(jù)加工是知識抽取的基礎(chǔ)。其中,數(shù)據(jù)加工的過程基本達成一致,各家基本都涉及數(shù)據(jù)收集、數(shù)據(jù)處理、數(shù)據(jù)、數(shù)據(jù)發(fā)現(xiàn)等;另外,Liz Lyon的e-Research下的數(shù)據(jù)生命周期模型中有增加附加值環(huán)節(jié),實質(zhì)上屬于數(shù)據(jù)加工的高級階段,即再加工;而各家基本都涉及的數(shù)據(jù)分析則是最高級的數(shù)據(jù)加工,即知識抽取階段。
綜上所述,從內(nèi)容層面看,一個完整的數(shù)據(jù)生命周期包括數(shù)據(jù)加工和知識抽取兩個層次,數(shù)據(jù)加工是知識抽取的基礎(chǔ)。數(shù)據(jù)加工又包括數(shù)據(jù)初次加工和數(shù)據(jù)再加工,前者包括數(shù)據(jù)存儲系列環(huán)節(jié);后者則是在一次加工基礎(chǔ)上增加附加值。在知識抽取方面,主要在數(shù)據(jù)獲取基礎(chǔ)上進行的一系列高級活動,包括數(shù)據(jù)挖掘等知識發(fā)現(xiàn)活動。
2 數(shù)據(jù)生命周期流程下的圖書館數(shù)據(jù)服務拓展
由前文分析可以看出,數(shù)據(jù)生命周期由科研周期發(fā)展而來,通過數(shù)據(jù)生命周期圖書館可以宏觀把握科研人員的科學數(shù)據(jù)需求,結(jié)合自身實際開展服務。筆者也試圖通過數(shù)據(jù)生命周期理論推演e-Science環(huán)境下圖書館可以開展的科學數(shù)據(jù)服務方式。在此之前,國外已經(jīng)有很多學者、機構(gòu)對e-Science環(huán)境下圖書館參與數(shù)據(jù)領(lǐng)域的角色定位進行了探索,這與科學數(shù)據(jù)服務方式的探索是異曲同工的,因此本文首先總結(jié)已有研究,在此基礎(chǔ)上提出自己的服務推演類型。
2.1 圖書館在數(shù)據(jù)服務領(lǐng)域的角色探索
Anna Gold提到科學研究生命周期理論和學術(shù)交流系統(tǒng)結(jié)合起來,很容易推導出數(shù)據(jù)和文獻的生命周期流程,具體如圖1所示:
筆者以此為線索探索了圖書館員在科學數(shù)據(jù)服務中可以擔任的角色。在前出版階段,主要角色是:①選擇數(shù)據(jù)集并發(fā)放許可;②制作元數(shù)據(jù)(或標準)描述數(shù)據(jù)集;③數(shù)據(jù)保存服務;④評審、挑選長期保存資源;⑤協(xié)助用戶數(shù)據(jù)發(fā)現(xiàn);⑥發(fā)展數(shù)據(jù)出版標準和系統(tǒng);⑦呼吁出臺知識產(chǎn)權(quán)保護文件;⑧建立學術(shù)成果儲存庫,如數(shù)據(jù)倉儲。在后出版階段,作者主張圖書館員要爭取成為研究者的合作者,如參與創(chuàng)建數(shù)據(jù)管理原型等。
另外,Liz Lyon也提到科學數(shù)據(jù)服務中涉及到的各主體的職責,其中,數(shù)據(jù)館員可涉及的工作包括數(shù)據(jù)評估、數(shù)據(jù)長期保存、協(xié)調(diào)機構(gòu)合作、宣傳數(shù)據(jù)服務、發(fā)展標準等。一家專門從事學術(shù)交流領(lǐng)域咨詢的公司也談到圖書館介入科學數(shù)據(jù)領(lǐng)域的幾種方式:培訓研究者的“數(shù)據(jù)意識”;數(shù)據(jù)存檔和保存;培訓和提供數(shù)據(jù)館員。Rick Luce也提到圖書館在e-Science環(huán)境下參與數(shù)據(jù)領(lǐng)域可嘗試的新角色包括:改變傳統(tǒng)的文獻和學術(shù)交流視野;數(shù)據(jù)存檔、機構(gòu)庫;發(fā)現(xiàn)相關(guān)資源、數(shù)據(jù)保存、教育和培訓等。
由以上研究可以看出,國外圖書館界已經(jīng)意識到在數(shù)據(jù)領(lǐng)域要參與新的分工,并開始將服務邊界拓展到傳統(tǒng)學術(shù)交流的上游即數(shù)據(jù)階段。以上各家討論的e-Science環(huán)境下圖書館在數(shù)據(jù)領(lǐng)域可以嘗試的角色存在一定重疊,例如數(shù)據(jù)保存、數(shù)據(jù)獲取等,這一定程度上是由圖書館存儲信息資源的傳統(tǒng)和優(yōu)勢決定的;其他如發(fā)展標準、知識產(chǎn)權(quán)等則是個別學者提出,主要是因為目前數(shù)據(jù)服務還沒有產(chǎn)生成熟模式,討論這些問題缺乏一定的實踐基礎(chǔ)。
2.2 基于數(shù)據(jù)生命周期的數(shù)據(jù)服務拓展
上述學者在圖書館數(shù)據(jù)服務探索方面積累了一定成果的同時,也存在很多不足。例如,大部分學者僅發(fā)散地列出圖書館員在數(shù)據(jù)服務領(lǐng)域可以嘗試的角色,缺乏理論支持和系統(tǒng)性,只有個別學者按照學術(shù)交流系統(tǒng)的流程展開討論;另外,上述研究沒有歸納為服務方式。因此,本文利用數(shù)據(jù)生命周期模型歸納了圖書館可以開展的科學數(shù)據(jù)服務方式。如圖2所示:
由前文可知,一個完整的數(shù)據(jù)生命周期應該歷經(jīng)數(shù)據(jù)初次加工、數(shù)據(jù)再加工、知識抽取階段。其中數(shù)據(jù)初次加工包含數(shù)據(jù)收集、數(shù)據(jù)描述、數(shù)據(jù)存儲、數(shù)據(jù)獲取等環(huán)節(jié),實際就是數(shù)據(jù)存儲服務,這本質(zhì)上和圖書館的文獻保存性質(zhì)相似。數(shù)據(jù)再加工則是對已經(jīng)存儲的數(shù)據(jù)進行二次加工,以增加附加值;而知識抽取則是在數(shù)據(jù)加工基礎(chǔ)上的服務升華。由此可見,從數(shù)據(jù)初次加工到數(shù)據(jù)加工再到知識抽取是一個由低到高的循環(huán)過程。筆者在各個服務模塊下又劃分了具體的服務方式,下文主要討論每項服務的內(nèi)涵、開展情況,并輔以案例支持。
2.2.1 數(shù)據(jù)初次加工服務 數(shù)據(jù)初次加工的核心服
務方式是數(shù)據(jù)存儲服務,數(shù)據(jù)存儲服務其實是數(shù)據(jù)管理(Curation)的一個重要環(huán)節(jié)。Curation是指從數(shù)據(jù)被生產(chǎn)出來起就開始的管理和促進其被利用的行為,目標是使得數(shù)據(jù)能夠符合現(xiàn)實的需要,或能被用于發(fā)現(xiàn)和重用數(shù)據(jù)。數(shù)據(jù)存儲服務中包括的具體服務形式如數(shù)據(jù)存儲及長期保存、數(shù)據(jù)發(fā)現(xiàn)及獲取和數(shù)據(jù)管理咨詢等。具體來講,圖書館可以探索的服務項目可以包括以下幾類:①數(shù)據(jù)存儲服務:服務面向暫時性的數(shù)據(jù)存儲,例如建立機構(gòu)數(shù)據(jù)倉儲,方便機構(gòu)內(nèi)部的數(shù)據(jù)共享,同時有部分數(shù)據(jù)可以轉(zhuǎn)移到更高一層的機構(gòu)庫中。例如康奈爾大學圖書館建立的DataStaR就是一個臨時的存儲庫,用戶可以上傳數(shù)據(jù)、選定特定同事進行數(shù)據(jù)共享、選擇一個長久保存的機構(gòu)庫、數(shù)據(jù)出版等,支持小型研究團體的數(shù)據(jù)共享。普渡大學圖書館的D2C2是一個分布式數(shù)據(jù)保存中心項目,其中e-Data作為數(shù)據(jù)管理服務的試驗平臺。e-Data實現(xiàn)了對遠程機構(gòu)庫的以及網(wǎng)格上數(shù)據(jù)集的分布式存取。其本地存儲容量大概是30Tb,圖書館員已經(jīng)和各個領(lǐng)域的研究者進行合作收集數(shù)據(jù)。②數(shù)據(jù)長期保存服務:服務面向永久性的數(shù)據(jù)存儲。長期保存是一種基于存檔的活動,數(shù)字保存需要解決的問題是即使隨著時間的流逝、在技術(shù)已經(jīng)變化了的情況下,還能夠?qū)ξ臋n的數(shù)據(jù)進行存取。例如由美國航空航天局(NASA)1990年開始著手建設(shè)的國家級分布式數(shù)據(jù)存檔中心(DAAC’s)包含海量衛(wèi)星觀測數(shù)據(jù),由于這些數(shù)據(jù)具有不可重復性,因此必須保證可以永久獲取,這對數(shù)據(jù)長期保存提出很高的要求。在處理技術(shù)方面,涉及在原有數(shù)據(jù)存儲基礎(chǔ)上增加一些長期保存活動,例如制定長期保存計劃;數(shù)據(jù)評估來決定哪些數(shù)據(jù)需要長期保存;數(shù)據(jù)清洗、分配保存元數(shù)據(jù)、文件格式等。③數(shù)據(jù)發(fā)現(xiàn)及獲取服務:幫助用戶在海量信息中發(fā)現(xiàn)關(guān)聯(lián)信息一直是圖書館的優(yōu)勢所在,類似于檢索文獻,e-Science環(huán)境下圖書館員也可以開展數(shù)據(jù)發(fā)現(xiàn)服務,形式包括數(shù)據(jù)檢索、數(shù)據(jù)導航、集成融匯服務等。例如加拿大科技信息研究所(CISTI)就提供對加拿大科學、技術(shù)和醫(yī)學數(shù)據(jù)(STM)的數(shù)據(jù)導航服務。它整理了加拿大范圍的科學數(shù)據(jù),進行分類整理、元數(shù)據(jù)描述,有些還提供科學數(shù)據(jù)庫的鏈接等。集成融匯方面,2006年以來,中國科學院國家科學圖書館提出并開展科學數(shù)據(jù)與科技文獻跨界集成服務、數(shù)據(jù)融合技術(shù)的研究和開發(fā),利用數(shù)據(jù)SRU技術(shù)實現(xiàn)了科技文獻、科學數(shù)據(jù)、字典等的服務融合。④數(shù)據(jù)管理咨詢服務:除此之外,圖書館還可以提供數(shù)據(jù)管理咨詢服務,數(shù)據(jù)館員可以全程跟隨科研項目,進行數(shù)據(jù)管理,從規(guī)劃、收集到存檔、的系列活動。另外,圖書館員也可以在存儲格式、存儲流程、標準等方面協(xié)助科研用戶進行科學數(shù)據(jù)管理。國外的一些科學數(shù)據(jù)中心會跟隨科研團隊進行數(shù)據(jù)管理協(xié)助服務,例如美國NASA的地球觀測實驗室(EOL)。麻省理工大學圖書館就提供社會科學數(shù)據(jù)、地理GIS數(shù)據(jù)以及生命科學數(shù)據(jù)的咨詢服務。
2.2.2 數(shù)據(jù)再加工服務 為了在更大范圍內(nèi)發(fā)揮數(shù)據(jù)的作用,圖書館可以對數(shù)據(jù)進行再加工,提供數(shù)據(jù)增值服務。例如數(shù)據(jù)可視化、文獻和數(shù)據(jù)的鏈接等。在數(shù)據(jù)再加工服務方面,已經(jīng)有圖書館開始探索數(shù)據(jù)增值的新形式,例如圖書館嘗試給科學數(shù)據(jù)添加注釋以及來源出處,實現(xiàn)了科學文獻和科學數(shù)據(jù)的交叉鏈接。在實踐方面,德國國家科技圖書館(TIB)就利用DOI系統(tǒng),通過分配數(shù)據(jù)集數(shù)字對象唯一標識符,實現(xiàn)文獻和科學數(shù)據(jù)的鏈接。
數(shù)據(jù)加工的最高等級即知識抽取活動,包括例如數(shù)據(jù)挖掘、數(shù)據(jù)分析、數(shù)據(jù)融合等。在知識抽取服務方面,將是科學數(shù)據(jù)服務的未來發(fā)展方向。在初期,圖書館可以協(xié)助科研用戶進行數(shù)據(jù)挖掘、數(shù)據(jù)融合等服務,并可以提供相應的數(shù)據(jù)分析軟件等;在后期,圖書館員應該嘗試和研究者進行合作,參與到科研的前出版過程,提供數(shù)據(jù)分析等服務。
3 結(jié)論
由前文研究可以得出,數(shù)據(jù)管理的生命周期源于科學研究的生命周期。數(shù)據(jù)生命周期實質(zhì)是將傳統(tǒng)學術(shù)交流的鏈條拓展到前出版時期的數(shù)據(jù)階段,從數(shù)據(jù)產(chǎn)生、整理到數(shù)據(jù)和獲取,拓展了圖書館的服務范疇,可以有效地指導圖書館開展科學數(shù)據(jù)服務。圖書館現(xiàn)在的服務主要圍繞已經(jīng)出版的文獻資源,e-Sci-ence環(huán)境下圖書館應該將服務鏈條拓展到上游數(shù)據(jù)處理階段,并將知識服務作為未來服務發(fā)展的方向。
關(guān)鍵詞 科學數(shù)據(jù)共享 國際科學數(shù)據(jù)服務平臺 共享研究
分類號 G250.73
Abstract This paper introduces the scientific data sharing status at home and abroad, analyzes the basic elements of the scientific data sharing, including the resource elements, the protection of intellectual property rights elements, the shared schema elements, sharing and management mechanism elements. Further more, it presents the International Scientific Data Service Platform, analyzes its data resources, protection of the intellectual property rights, sharing mode, service contents, and browsing method.
Keywords Scientific data sharing. International scientific data service platform. Research of the Sharing.
科學數(shù)據(jù)是指在科技活動(實驗、觀測、檢測、調(diào)查、研究等)中或通過其它的方式所獲取的反映客觀世界的本質(zhì)、特征、變化規(guī)律等的原始基本數(shù)據(jù),以及根據(jù)不同科技活動需要,進行系統(tǒng)加工整理的各類數(shù)據(jù)集[1]。科學數(shù)據(jù)集科學價值和使用價值于一體,并對于科技創(chuàng)新的發(fā)展產(chǎn)生了深遠的意義。科學數(shù)據(jù)資源具有準確性、可靠性、非排它性、可無限復制等特點。這些特點和其重要性使科學數(shù)據(jù)的共享成為必然,只有讓科學數(shù)據(jù)得到共享,才能實現(xiàn)其價值的最大化,同時,又通過科學數(shù)據(jù)的共享這一過程,發(fā)展出更高層次的科學數(shù)據(jù),這是一個逐級遞進的過程,最終為社會的發(fā)展貢獻力量。
1 國內(nèi)外科學數(shù)據(jù)共享現(xiàn)狀
1.1 國外科學數(shù)據(jù)共享現(xiàn)狀
20世紀40年代,國外的科學數(shù)據(jù)共享方面的研究開始起步,在20世紀80年代得到發(fā)展,在歐洲、英國、法國、德國、荷蘭和瑞典等國家非常重視數(shù)據(jù)管理與共享,美國是科學數(shù)據(jù)共享的倡導者。1975年,美國開發(fā)了177個大型數(shù)據(jù)庫,主要服務目標是政府決策和政府啟動的重大科研項目[2]。歐盟數(shù)據(jù)庫法律保護指令、英國布加勒斯特宣言和《信息自由法》等,在科學數(shù)據(jù)的產(chǎn)權(quán)歸屬、共享管理和開發(fā)利用等方面均有明確的規(guī)定,以保障科學數(shù)據(jù)共享活動的有序開展。
國際科學數(shù)據(jù)委員會(CODATA)于1966年成立,是全球最大的科技數(shù)據(jù)國際學術(shù)組織,其宗旨是推動科技數(shù)據(jù)應用、發(fā)展數(shù)據(jù)科學、促進科學研究、造福人類社會[3]。美國建立了美國航空航天局(NASA)分布式最活躍數(shù)據(jù)檔案中心群(DAACs);日本產(chǎn)業(yè)技術(shù)綜合研究所(AIST)科學數(shù)據(jù)公開數(shù)據(jù)庫擁有70個主題數(shù)據(jù)庫,全部數(shù)據(jù)庫通過網(wǎng)絡(luò)提供免費服務,服務于科研機構(gòu),也服務于一般工業(yè)企業(yè)[4]。2007 年3 月,英國了研究報告《發(fā)展英國科研與創(chuàng)新信息化基礎(chǔ)設(shè)施》,提出數(shù)據(jù)資源數(shù)字化長期保存與共享建設(shè)規(guī)劃,重點要建立大規(guī)模的國家科學數(shù)據(jù)中心[5]。
1.2 國內(nèi)科學數(shù)據(jù)共享現(xiàn)狀
我國的科學數(shù)據(jù)共享工作起步比較晚,2001年底我國科學數(shù)據(jù)共享工程啟動氣象科學數(shù)據(jù)共享試點,在資源環(huán)境、農(nóng)業(yè)、人口與健康、基礎(chǔ)與前沿等領(lǐng)域共24個部門開展了科學數(shù)據(jù)共享工作,已經(jīng)啟動了9個科學數(shù)據(jù)共享試點,開展了科學數(shù)據(jù)共享政策法規(guī)和技術(shù)標準體系的調(diào)研工作。先后完成了23項具體標準的編制以及一批管理辦法;整合共享了跨部門跨領(lǐng)域超過250億元國家投入產(chǎn)生的數(shù)據(jù)資源,建立了若干數(shù)據(jù)庫;積極開展數(shù)據(jù)共享服務,為科學研究、政府決策提供了堅實的支撐,成效顯著[6]。但是與發(fā)達國家比起來存在很大的差距,主要有:科學數(shù)據(jù)共享意識不強,目前科學數(shù)據(jù)共享工程試點的共享數(shù)據(jù)多為國家經(jīng)費資助下科技活動形成的數(shù)據(jù),各科研單位主動積極共享意識不強;相關(guān)的科學數(shù)據(jù)共享標準及技術(shù)規(guī)范沒有統(tǒng)一的規(guī)定;科學數(shù)據(jù)類型集中于海洋、地理等少數(shù)學科領(lǐng)域。
2 科學數(shù)據(jù)共享基本要素分析
美國國家衛(wèi)生研究院(NIH)要求申請資金超過50萬美元的項目必須提供數(shù)據(jù)共享計劃或者說明不共享的理由。并且,NIH通過分級方式共享數(shù)據(jù),包括可公開獲取的數(shù)據(jù)、通過協(xié)議獲取的數(shù)據(jù)和限制使用的“冷凍數(shù)據(jù)”[7]。據(jù)調(diào)查顯示,科研人員共享電子數(shù)據(jù)和使用他人數(shù)據(jù)的意愿都不高,主要因素有:沒時間、沒資金、沒權(quán)利、缺標準以及資助者無要求等[8]。科學數(shù)據(jù)的共享最基本的是要有相關(guān)的科學數(shù)據(jù),也即資源的來源,而共享工作的開展必然要面對科學數(shù)據(jù)的知識產(chǎn)權(quán)保護問題,其次要根據(jù)不同的情況選擇不同的共享模式來開展共享活動,共享活動的有序、穩(wěn)定的開展需要相對應的共享管理機制的保障,所以資源來源、知識產(chǎn)權(quán)保護、共享模式以及共享管理機制這四大要素構(gòu)成了科學數(shù)據(jù)共享活動的基本要素,它們之間相互聯(lián)系,缺一不可。
2.1 資源來源
科學數(shù)據(jù)指在科技活動過程中產(chǎn)生的原始數(shù)據(jù),所以資源的來源就是科研活動過程,資源的內(nèi)容主要有兩種:一種是本單位或機構(gòu)內(nèi)科研活動過程中產(chǎn)生的數(shù)據(jù),二是收集其他單位或研究機構(gòu)的科研數(shù)據(jù)。本機構(gòu)的科學數(shù)據(jù),主要是來自于本機構(gòu)研究人員的自愿自主提交以及數(shù)據(jù)服務人員提供咨詢幫助,如中國氣象科學數(shù)據(jù)共享服務網(wǎng)的科學數(shù)據(jù)來自于國內(nèi)衛(wèi)星通訊系統(tǒng)、全球通信系統(tǒng)收集的全球和國內(nèi)各類實時和非實時的氣象觀探測資料[9];第二種主要是與政府機構(gòu)、科研機構(gòu)、高校等部門合作,提供途徑鼓勵這些機構(gòu)的研究人員同意將他們的相關(guān)數(shù)據(jù)整合到數(shù)據(jù)中心共享.如基礎(chǔ)科學數(shù)據(jù)共享工程整合中國科學院在物理、化學、天文、空間與生物領(lǐng)域20多個研究所長期以來的基礎(chǔ)數(shù)據(jù),同時,重點整合國防科工委下屬的中國工程物理研究院、中國原子能科學研究院在核物理與原子分子物理方面基礎(chǔ)數(shù)據(jù),整合國家林業(yè)局所屬青海湖國家級自然保護區(qū)多年來在青海湖區(qū)域監(jiān)測與觀測數(shù)據(jù)[10]。
2.2 知識產(chǎn)權(quán)保護
數(shù)據(jù)的共享首先要考慮的就是其所涉及到的知識產(chǎn)權(quán)問題。科學數(shù)據(jù)共享中的知識產(chǎn)權(quán)主要體現(xiàn)為科學數(shù)據(jù)的版權(quán),版權(quán)就是著作權(quán), 是指文學、藝術(shù)、科學作品的作者對其作品享有的權(quán)利, 包括財產(chǎn)權(quán)、人身權(quán)[11]。科學數(shù)據(jù)凝聚了數(shù)據(jù)開發(fā)人的智力勞動,是創(chuàng)造性的勞動成果,同樣受版權(quán)法保護,具有重大的價值。實施科學數(shù)據(jù)共享是我國面對全球信息化和知識經(jīng)濟的發(fā)展,開展自主創(chuàng)新、建設(shè)創(chuàng)新型國家的必然要求[12]。劉闖認為通過數(shù)據(jù)庫共享服務平臺進行有償數(shù)據(jù)服務而獲得的收益,在數(shù)據(jù)庫制作者和相關(guān)數(shù)據(jù)創(chuàng)造者之間按照合同約定進行分配,如無合同約定的自行協(xié)商解決[13]。
《全球變化研究數(shù)據(jù)管理政策聲明》提出“聯(lián)邦政府資助的科學數(shù)據(jù),即公共性、基礎(chǔ)性的國有數(shù)據(jù),必須在沒有歧視的基礎(chǔ)上以不超過復制和發(fā)行成本的費用無限制地使用”[14]。科學數(shù)據(jù)的開發(fā)與獲得需要責任人付出巨大的努力,包括精力、時間、金錢上的,不僅僅是數(shù)據(jù)開發(fā)人,還有相關(guān)的單位等等,他們對于科學數(shù)據(jù)做出了巨大的貢獻,這些科學數(shù)據(jù)自然地成為各個單位的財產(chǎn),受知識產(chǎn)權(quán)保護,另一方面這也在一定程度上限制了科學數(shù)據(jù)的自由共享。所以筆者認為,科學數(shù)據(jù)的共享需要國家相關(guān)法律的許可和一定的限制,對于那些在國家或是地方政府經(jīng)費等非營利性機構(gòu)支持下開發(fā)的科學數(shù)據(jù),采用一定的獎金或是其它獎勵的方式來鼓勵開發(fā)人,如果不危及國家安全和個人隱私,則完全向公眾開放或是使用時加以標注,以尊重勞動者的成果,但不能用于商業(yè)用途;對于那些由單位自籌經(jīng)費或是個人、企業(yè)自行開發(fā)研究的不危及國家安全和個人隱私的科學數(shù)據(jù),則要協(xié)調(diào)好利益的平衡,一般是采用收取一定的費用的方式來保護他們的權(quán)利;對于那些對科學數(shù)據(jù)進行了一定程度的加工的更深一層次的數(shù)據(jù)及提供的相關(guān)服務活動,收取一定的成本。
2.3 共享模式
科學數(shù)據(jù)共享為科學數(shù)據(jù)的使用提供了一條更為暢通的道路。科學數(shù)據(jù)具有無法估量的潛在價值,前人為科學數(shù)據(jù)的探索與創(chuàng)造做出了巨大的努力和貢獻,傳承與共享這些科學數(shù)據(jù)是對于他們的努力的最大尊重與認可。目前國內(nèi)外采用的科學數(shù)據(jù)共享的模式主要有四種,分別是國際組織協(xié)作共建共享模式、政策驅(qū)動型共建共享模式、主題合作共建共享模式和地域協(xié)作共建共享模式。
2.3.1 國際組織協(xié)作共建共享模式
顧名思義,國際組織協(xié)作共建共享模式是指在某種約定或是條約的約束下,國際組織就某一研究方向或是研究主題,共同制定相關(guān)的共享策略的一種共享模式,該共享策略包括共享的范圍、方式及相關(guān)的政策,可以促進同一領(lǐng)域內(nèi)數(shù)據(jù)的交流與共享。國際組織協(xié)作方式包括國際政府間的合作和國際非政府間的合作,不管是哪種方式,都必須遵循共享的宗旨,為共同的約定所約束,以促進數(shù)據(jù)在全球的共享,提高各成員國的科技水平。經(jīng)濟合作與發(fā)展組織(Organation for Economic Cooperation and Development,OECD)是由30個市場經(jīng)濟國際組成的政府間國際經(jīng)濟組織,旨在共同應對全球化帶來的經(jīng)濟、社會和政府治理等方面的挑戰(zhàn),把握全球化帶來的機遇[15]。
2.3.2 政策驅(qū)動共建共享模式
這種模式是指在國家法律法規(guī)政策的強制驅(qū)動下推進科學數(shù)據(jù)的共建共享。美國是這一模式的最早試驗者。美國的《信息自由法》和《版權(quán)法》是這一模式的法律基礎(chǔ)。并在1991年了以“完全與開放”科學數(shù)據(jù)共享政策為核心的“全球變化研究數(shù)據(jù)管理政策”,通過這一政策來促進科學數(shù)據(jù)共享,從而為美國的科學研究提供強有力的保障條件,確保其在21世紀國家發(fā)展和科技發(fā)展戰(zhàn)略目標的實現(xiàn)。
2.3.3 主題合作共建共享模式
該模式是根據(jù)主題的不同來進行共建共享科學數(shù)據(jù),建立專題科學數(shù)據(jù)庫。如印度科學和產(chǎn)業(yè)研究中心(Center for Scientific and Industrial Research,CSIR)及肯尼亞的醫(yī)學信息共享。肯尼亞醫(yī)學研究機構(gòu)(Kenya Medical Research Institute,KEMR I)通過編制肯尼亞醫(yī)學機構(gòu)研究和使用的數(shù)據(jù)和目錄來實現(xiàn)彼此聯(lián)系,共享資源[16]。我國的地球系統(tǒng)科學數(shù)據(jù)共享平臺承擔單位是中國科學院地理科學與資源研究所,中科院資源、環(huán)境領(lǐng)域的研究所,國內(nèi)地學領(lǐng)域的知名高校共40多家單位,世界數(shù)據(jù)中心(WDC)和國際山地中心(ICIMOD),美國馬里蘭大學等國際組織和機構(gòu)參與本平臺建設(shè)與運行服務[17]。
2.3.4 地域協(xié)作共建共享模式
該模式把那些參與到共建共享科學數(shù)據(jù)的單位限定在某一個地理范圍內(nèi),與國際間組織協(xié)調(diào)共建共享模式相似,前者范圍相對小一些,一般限定在某個地區(qū)或是某國內(nèi),將共享資源集中存儲在某一特定的地點,并在相關(guān)單位的共同管理和共同資助下運轉(zhuǎn)共同建設(shè)。2004年,科學技術(shù)部和財政部整合“國家科技基礎(chǔ)條件平臺專項經(jīng)費”“中央級科研院所科技基礎(chǔ)性工作專項經(jīng)費”“科技文獻信息專項經(jīng)費”三個專項經(jīng)費,統(tǒng)一用于國家科技基礎(chǔ)條件平臺建設(shè)[18]。
2.4 共享管理機制
科學數(shù)據(jù)具有科學價值、經(jīng)濟價值和社會價值,并且易于復制傳播和共享等特點,不同的科學數(shù)據(jù)由于其屬性或是歸屬性的不同,需要采取不同的管理機制來開展共享工作。目前,國際上采用的共享管理機制有三種:保密性管理機制、公益性共享機制和商業(yè)化管理機制。
2.4.1 保密性管理機制
顧名思義,該機制對于科學數(shù)據(jù)的共享采取不公開的方式。一般這種機制設(shè)計到的科學數(shù)據(jù)是有關(guān)國家安全、個人隱私的數(shù)據(jù)信息,公開這些信息對于國家的安全、人民的生活都會產(chǎn)生很大的影響。同時,參與這些數(shù)據(jù)信息的開發(fā)和管理人員都必須與單位簽訂保密協(xié)議,以進一步確保信息的不泄露,國家情報部門與各個單位安全主管負責檢查科學數(shù)據(jù)和信息的安全性執(zhí)行情況,同時嚴格和明確地規(guī)定這些數(shù)據(jù)信息的保密管理。
2.4.2 公益性共享機制
此種機制是采用完全開放的方式來共享科學數(shù)據(jù),其中的數(shù)據(jù)是指除了上述屬于保密性管理機制數(shù)據(jù)之外的政府所擁有的信息和科學數(shù)據(jù),包括標準數(shù)據(jù)庫、科技成果數(shù)據(jù)庫等。這些數(shù)據(jù)都應該依法“公之于眾”,采用網(wǎng)站或是其它的方式來向社會完全開放,讓公眾獲取,用戶無需支付相關(guān)費用或是僅僅支付低廉的復制成本費用。像美國的海洋大氣局、國立衛(wèi)生研究院等聯(lián)邦政府擁有和生產(chǎn)的數(shù)據(jù),中國科學院地理科學與資源研究所產(chǎn)生的地球科學數(shù)據(jù),整合、集成科研院所、高等院校和科學家個人通過科研活動所產(chǎn)生的分散科學數(shù)據(jù)。
2.4.3 商業(yè)化管理機制
對于那些完全是為了盈利而投資生產(chǎn)的科學數(shù)據(jù),則采用商業(yè)化管理機制,對于此類科學數(shù)據(jù)的共享收取一定的費用。例如, 美國政府批準了空間影像和數(shù)字地球兩家企業(yè)從事高分辨率遙感數(shù)據(jù)的獲取和業(yè)務, 然后采取鼓勵平等競爭的政策, 通過市場競爭的方式降低數(shù)據(jù)價格, 達到促進數(shù)據(jù)應用的目的, 并同時通過稅收進行調(diào)節(jié)和控制[19]。
3 國際科學數(shù)據(jù)服務平臺分析
“國際科學數(shù)據(jù)服務平臺”(見圖1)(以下簡稱“平臺”)啟建于2008年,由中國科學院計算機網(wǎng)絡(luò)信息中心科學數(shù)據(jù)中心建設(shè)并運行維護,面向中國科學院及國家的科學研究需求,逐漸引進當今國際上不同領(lǐng)域內(nèi)的國際數(shù)據(jù)資源,并對其進行加工、整理、集成,最終實現(xiàn)數(shù)據(jù)的集中式公開服務。在保護國家安全,尊重知識產(chǎn)權(quán)的前提下,秉承完全開放的共享理念,盡可能為用戶提供全方位的數(shù)據(jù)服務,包括在線數(shù)據(jù)瀏覽、數(shù)據(jù)搜索、數(shù)據(jù)訪問與下載、軟件工具及文檔資料共享等通用數(shù)據(jù)服務,以及數(shù)據(jù)預定、委托查詢、數(shù)據(jù)傳遞通道、在線模型計算、數(shù)據(jù)使用咨詢等特色數(shù)據(jù)服務。
3.1 數(shù)據(jù)資源
國際科學數(shù)據(jù)服務平臺收集的數(shù)據(jù)資源主要集中于地學、遙感、大氣海洋等領(lǐng)域,引進了LANDSAT數(shù)據(jù)、MODIS數(shù)據(jù)、MODIS_L1B 數(shù)據(jù)、EO_1數(shù)據(jù)、DEM數(shù)據(jù)、NCAR數(shù)據(jù)等國際原始數(shù)據(jù)資源,采用國內(nèi)外權(quán)威的數(shù)據(jù)處理方法或科學數(shù)據(jù)中心自行研發(fā)的數(shù)據(jù)處理方法對于上述數(shù)據(jù)開展了深度加工和數(shù)據(jù)模型的開發(fā),形成了它們獨具特色的一系列全國甚至全球領(lǐng)域的特色數(shù)據(jù)產(chǎn)品,面向多領(lǐng)域科研需求,基于通用的數(shù)據(jù)模型,充分利用本站超級計算資源,為用戶提供可定制的數(shù)據(jù)產(chǎn)品加工,用戶通過在線定制便可以得到自己需要的數(shù)據(jù)產(chǎn)品。
該平臺期望能滿足多領(lǐng)域的科研需求,但是資源集中在少數(shù)學科領(lǐng)域,深度加工的數(shù)據(jù)模型目前只限于少數(shù)幾個,對于平臺的宗旨來說有待發(fā)展。
3.2 知識產(chǎn)權(quán)保護
知識產(chǎn)權(quán)保護問題在共享工作的開展中被首先考慮到,國際科學數(shù)據(jù)服務平臺的數(shù)據(jù)資源在進行鏡像之前都和數(shù)據(jù)所有者進行了充分的溝通,并通過協(xié)議、合作或其他方式取得了對應數(shù)據(jù)的鏡像權(quán)限,用戶可以放心使用。用戶復制使用平臺中的數(shù)據(jù),平臺都做了詳細的規(guī)定,在“完全與開放”的服務宗旨下,一方面尊重知識產(chǎn)權(quán)、保障數(shù)據(jù)作者和數(shù)據(jù)服務提供者的權(quán)益,要求數(shù)據(jù)使用者在發(fā)表成果時注明數(shù)據(jù)生產(chǎn)者及數(shù)據(jù)來源(國際科學數(shù)據(jù)共享平臺http:///),未經(jīng)網(wǎng)站允許,用戶不能有償或無償轉(zhuǎn)讓在該平臺獲取的數(shù)據(jù);另一方面,為了更好地推動數(shù)據(jù)共享,凡使用“國際科學數(shù)據(jù)服務平臺”數(shù)據(jù)的用戶,需要在一定期限內(nèi)將數(shù)據(jù)所支撐的項目或論文產(chǎn)生的相關(guān)成果材料提交到“中國科學院計算機網(wǎng)絡(luò)信息中心科學數(shù)據(jù)中心”,并允許平臺部分可公開成果。通過這樣的“交換”方式來提供更深層次的科學數(shù)據(jù)給用戶,一方面也減少了不必要的重復勞動,提高了用戶的使用效率。
3.3 服務內(nèi)容
科學數(shù)據(jù)的共享離不開數(shù)據(jù)的再利用,該平臺充分考慮到不同用戶在不同情況下的各種服務需求,除了提供通用的數(shù)據(jù)服務,像在線數(shù)據(jù)瀏覽、數(shù)據(jù)搜索等外,還提供數(shù)據(jù)預定、數(shù)據(jù)傳遞通道、數(shù)據(jù)申請等人性化的特色服務,切實地提高用戶使用滿意度。
3.3.1 數(shù)據(jù)預訂
用戶通過網(wǎng)站對應入口預定可以查詢,但是不能在線下載數(shù)據(jù),數(shù)據(jù)服務人員將會根據(jù)用戶的數(shù)據(jù)預定清單提供服務。目前,該平臺開放“數(shù)據(jù)預定”功能的只有Landsat數(shù)據(jù),用戶可以通過數(shù)據(jù)列表或者數(shù)據(jù)搜索功能,產(chǎn)生數(shù)據(jù)預定清單,并直接通過網(wǎng)站入口提交給系統(tǒng)。用戶數(shù)據(jù)預定的所有歷史記錄以及當前預定的處理狀態(tài)和下載鏈接都可以從“用戶空間”內(nèi)查詢。
3.3.2 數(shù)據(jù)申請
這種服務是針對用戶不能通過網(wǎng)站直接查詢、下載數(shù)據(jù),或因數(shù)據(jù)量巨大,用戶不方便通過網(wǎng)站查詢、下載的情況,該平臺支持用戶提出相應申請,數(shù)據(jù)服務人員進行處理并將結(jié)果反饋給用戶,一般用戶可以根據(jù)自己的情況以及數(shù)據(jù)的需求選擇在線數(shù)據(jù)申請或離線數(shù)據(jù)申請。
3.3.3 數(shù)據(jù)傳遞通道
該服務屬于高級數(shù)據(jù)服務方式,是該平臺為大宗數(shù)據(jù)用戶或特殊數(shù)據(jù)用戶開通的,指對于因為各種原因不方便通過網(wǎng)站直接下載數(shù)據(jù)的用戶(比如網(wǎng)絡(luò)連接受限,數(shù)據(jù)量過大,或者用戶有其他特殊要求等),可以直接通過網(wǎng)站提供的聯(lián)系方式提出“數(shù)據(jù)傳遞通道”的需求,審核通過后將會為用戶開通特殊數(shù)據(jù)傳遞通道(比如用戶特殊授權(quán),光盤郵寄、硬盤直接拷貝等),以便用戶及時獲取所需數(shù)據(jù)。
3.4 共享方式
關(guān)鍵詞:PubMed;資源檢索;學科服務x
中圖分類號:G2586文獻標識碼:A文章編號:1009-5349(2016)07-0093-02
PubMed源于國家生物技術(shù)信息中心(NCBI),隸屬于美國國家醫(yī)學圖書館,是當前國際中使用最普遍的學科科研信息資源檢索系統(tǒng)。PubMed具有免費開放資源,數(shù)據(jù)來源權(quán)威可靠,搜索功能尤其全面,精準并且功能豐富等優(yōu)點。此外PubMed還允許外部開發(fā)人員基于PubMed 的資源設(shè)計再開發(fā),如ClusterMed等系統(tǒng),都是基于PubMed 檢索結(jié)果的再分析,再獲得。這樣使得PubMed系統(tǒng)在操作上更簡單易懂。為了令讀者更深入地使用PubMed的資源免費功能, 本文主要介紹這個系統(tǒng)的幾個功能,包括期刊數(shù)據(jù)庫檢索、引文匹配功能、跟蹤學科服務進展功能、學科服務平臺定制功能等, 旨在對學科服務平臺提供有效技術(shù)支持。[1]
一、基于PubMed下的學科服務平臺現(xiàn)狀
高校圖書館的紙質(zhì)資源和網(wǎng)絡(luò)資源品種繁多,急需一個可靠的搜索引擎來向讀者們展示這些資源,方便讀者利用。因此目前已經(jīng)有多種搜索引擎被開發(fā)利用,我們就要從中找到最合適高校圖書館學科服務平臺的搜索引擎。目前,在國際上經(jīng)常使用的檢索系統(tǒng)有兩種可供用戶們學習使用,一種是Google Scholar,一種是PubMed。他們都是綜合性較強的搜索引擎,而PubMed在學術(shù)文章的檢索上更加專業(yè),Google Scholar的使用比較簡單但是不能準確地對控制詞進行分析,不能給出最新最全面的搜索結(jié)果,所以目前比較常用的還是PubMed搜索引擎。好的搜索引擎是高校學科服務平臺可靠的資源保證。[2]
二、基于PubMed系統(tǒng)下的學科服務平臺特點
? PubMed是十分實用的學科分類服務的平臺,PubMed系統(tǒng)中醫(yī)藥學平臺就收錄了全世界80多個國家5000余種生物醫(yī)學期刊,這就需要通過學科館員對大量的學科資源進行再次收集與整理。該系統(tǒng)具有更新速度快,搜索質(zhì)量高等優(yōu)點,并且能夠提供原文的網(wǎng)絡(luò)鏈接,對模糊的檢索詞可以提供自動匹配功能。[3] PubMed中的資源有一部分也可以免費獲取全文。用戶在搜索引擎上可以免費查找、檢索和下載需要的學術(shù)論文。為保證數(shù)據(jù)庫可靠性和權(quán)威性,數(shù)據(jù)庫只接收通過國際評審后的期刊。
三、PubMed 下高校學科服務平臺的功能
(一)使學科服務平臺具有檢索詞自動匹配功能
高校圖書館需要向PubMed申請賬號,然后進行后臺登錄,填寫圖書館名稱,聯(lián)系人等相關(guān)信心。審核通過后,就可以獲取科研論文全文的電子版或查看相關(guān)文章的館藏信息。該搜索引擎在用戶輸入關(guān)鍵詞或者模糊詞的時候,可以進行智能化的分析,進行模糊搜索和更改,列出用戶可能用到的鏈接和文章。比較常用的四種檢索途徑有:MeSH Translation Table主題詞詮釋列表,Journals Translation Table期刊詮釋列表,Common Phrase List常用詞單列表,Author Index作者名題搜索。
因此在高校圖書館學科服務平臺使用中,用戶可以利用PubMed系統(tǒng)對要搜索的主題內(nèi)容的概括分析來了解該學科領(lǐng)域的主要研究方向和相關(guān)知識。
(二)基于PubMed的學科服務平臺定制功能
PubMed系統(tǒng)可以收集建立學科分類的專題文獻合集。登錄PubMed系統(tǒng)以后,在檢索相關(guān)關(guān)鍵詞時點擊
? “Send to”,可以把已知的檢索結(jié)果保存到系統(tǒng)中的
? Collections中,從而形成個人學科文獻集,極大方便了用戶的查閱行為。用戶根據(jù)自己的需求隨意分類自己的文獻。通過這種個人定制,讀者可以實現(xiàn)相關(guān)期刊、重要文獻、專題內(nèi)容等等內(nèi)容的分門別類。
PubMed系統(tǒng)還提供與微博功能類似的RSS內(nèi)容的格式。通過 RSS格式讀者可以直接刷新網(wǎng)站,保持站內(nèi)文獻信息的時效性。Rss瀏覽十分方便,并且PubMed系統(tǒng)已經(jīng)具備直接打開該類型文件的功能,RSS 訂閱方便可靠,更適合推薦給學科服務平臺的讀者使用。因此在對學科服務頻繁太用戶和管理人員的培訓時,軟件軟件操作也是十分必要的。[4]
(三)PubMed系統(tǒng)可以實現(xiàn)跟蹤學科服務進展
PubMed檢索可以通過分析科研項目的需求及其所涉及的關(guān)鍵詞來制定檢索策略,然后由用戶保存到MyNCBI中,讀者可以對自己所需要的文獻的更新頻率和時間段以及數(shù)量來設(shè)置,用戶也可以設(shè)置過濾詞或者限定條件。限定條件指的是免費全文、綜述等,當然用戶也可以針對學科專題進行限定,設(shè)置成功以后,系統(tǒng)會針對用戶最新設(shè)置來推送文獻。[5]
四、提高學科館員和平臺用戶的操作技巧
高校學科服務平臺已經(jīng)日趨成熟,學科館員是這個平臺穩(wěn)定發(fā)展的重要因素。學科館員的自身素質(zhì)需要他們不斷地掌握新的操作技能和相關(guān)背景知識,在借助PubMed這個系統(tǒng)的服務平臺時,學科館員還應該不斷學習相關(guān)搜索工具和操作技巧,掌握學科服務的特點和方向,減少實際操作中出現(xiàn)的失誤。高校圖書館學科館員為用戶提供見面交流的機會或者對用戶進行小規(guī)模的輔導,為學生讀者更好地使用學科服務平臺奠定基礎(chǔ)。旨在為學科館員和讀者們營造一個共同學習、交流的平臺。
五、基于PubMed的學科服務平臺的價值和作用
基于PubMed下的學科服務平臺有效加強了學科用戶之間的交流與溝通。高校圖書館的學科服務是以用戶的需求為根本出發(fā)點,以滿足讀者需求為最終目的。因此基于PubMed下開展的學科服務中的資源建設(shè),特別是各學科的專題文獻分類合集的定制、學科領(lǐng)域進展的反饋追蹤、學科研究概況分析,都必須以用戶的檢索需求為出發(fā)點來制定相關(guān)策略,才可以使為不同學科的用戶量身定制的學科服務平臺在實際操作中取得更好效果。優(yōu)秀的操作系統(tǒng)也給高校學科服務平臺帶來了可靠的資源和便利條件。
六、結(jié)語
目前高校圖書館為了與網(wǎng)絡(luò)時代接軌,已經(jīng)開發(fā)利用了眾多服務平臺,大學生們對網(wǎng)絡(luò)的需求和使用正為學科服務平臺的開發(fā)奠定了基礎(chǔ)。借助PubMed系統(tǒng)下提供的免費資源,有效開展學科服務是一個大膽有效的嘗試。PubMed 作為國際公認的權(quán)威資源,是高校學科服務平臺使用中必不可少的工具之一。在圖書館學科服務實踐中充分利用PubMed帶給我們的便利的同時,也應注意到 PubMed系統(tǒng)的一些缺點,比如PubMed系統(tǒng)下的引文分析功能還相對貧瘠等,因此高校圖書館還應結(jié)合其他專業(yè)的工具和資源,更有效地開展學科服務工作。
參考文獻:
[1]吳健,李秀芝.PubMed 特征欄的功能[J].中華醫(yī)學圖書情報雜志,2003, 06:51-53.
[2]朱鴿昀,鄭力,朱東屏,等.PubMed 系統(tǒng)的主要服務功能[J].中華醫(yī)學圖書情報雜志,2008,12:121-123.
[3]Steinbrook R. Searching for the right search: reaching the medical
literature. N Eng J Med. 2006,354(01):4-7.