日韩视频专区_久久精品国产成人av_青青免费在线视频_欧美精品一级片_日韩在线观看中文字幕_九九热在线精品

美章網(wǎng) 資料文庫 機(jī)構(gòu)名規(guī)范化研究范文

機(jī)構(gòu)名規(guī)范化研究范文

本站小編為你精心準(zhǔn)備了機(jī)構(gòu)名規(guī)范化研究參考范文,愿這些范文能點(diǎn)燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。

機(jī)構(gòu)名規(guī)范化研究

1引言

采用量化方法對急速增長的海量科研成果進(jìn)行評(píng)價(jià),是政府和科研機(jī)構(gòu)進(jìn)行科研資金分配、成果轉(zhuǎn)化、人才培養(yǎng)和制訂長期科研戰(zhàn)略的必要工作。在具體的科技評(píng)價(jià)研究以及科研管理實(shí)踐中,使用最多的評(píng)價(jià)工具就是ISI開發(fā)的數(shù)據(jù)平臺(tái)——基本科學(xué)指標(biāo)數(shù)據(jù)庫(EssentialScienceIndicators,ESI)。ESI提供前1%的機(jī)構(gòu)、國家、作者和學(xué)科等層面的排名數(shù)據(jù),一直以來被作為重要的參考標(biāo)準(zhǔn)之一[1]。然而通過本研究大規(guī)模的數(shù)據(jù)分析發(fā)現(xiàn),ESI提供的數(shù)據(jù)在準(zhǔn)確性方面存在較大誤差。在作者分析和機(jī)構(gòu)分析方面的問題尤為突出,如作者重名現(xiàn)象比較嚴(yán)重和機(jī)構(gòu)名稱混亂等問題。當(dāng)前大多數(shù)建立在ESI評(píng)價(jià)數(shù)據(jù)之上的文獻(xiàn)計(jì)量學(xué)研究和科技評(píng)價(jià)管理決策,都不同程度受到數(shù)據(jù)可靠性問題的影響。有關(guān)機(jī)構(gòu)合作網(wǎng)絡(luò)的研究證實(shí)了機(jī)構(gòu)名稱的歧義對機(jī)構(gòu)科研評(píng)價(jià)的影響是顯著存在的[2]。由于高被引論文和作者在大學(xué)排名中占有比較高的比例,因此沒有對機(jī)構(gòu)名稱進(jìn)行統(tǒng)一,將直接影響機(jī)構(gòu)排名位置[3]。由于各種復(fù)雜的原因,比如作者書寫習(xí)慣、機(jī)構(gòu)名翻譯方法的差異、機(jī)構(gòu)合并和更名、隸屬關(guān)系不清和數(shù)據(jù)錄入錯(cuò)誤等問題,導(dǎo)致機(jī)構(gòu)統(tǒng)計(jì)數(shù)據(jù)的準(zhǔn)確性受到影響。雖然機(jī)構(gòu)名稱的表現(xiàn)形式多樣,但機(jī)構(gòu)名稱的層次關(guān)系在總體上存在一定規(guī)律。WebofScience(WoS)中提供的已標(biāo)注的結(jié)構(gòu)化機(jī)構(gòu)信息可以作為機(jī)構(gòu)規(guī)范化的重要參考。為了改善基于海量數(shù)據(jù)的科技評(píng)價(jià)中的數(shù)據(jù)可靠性問題,克服相似度匹配或者頻率統(tǒng)計(jì)方法在機(jī)構(gòu)名稱規(guī)范化方面存在的缺陷,本研究提出基于松散的詞面相似度的機(jī)構(gòu)名稱映射算法,該算法采用規(guī)則和統(tǒng)計(jì)相結(jié)合的策略實(shí)現(xiàn)多個(gè)機(jī)構(gòu)名稱到一個(gè)機(jī)構(gòu)實(shí)體的映射,從而達(dá)到機(jī)構(gòu)名規(guī)范化的研究目的。本研究將對基于規(guī)則的機(jī)構(gòu)名規(guī)范化算法和傳統(tǒng)方法進(jìn)行對比,通過多個(gè)量化指標(biāo)評(píng)估算法的有效性。

2相關(guān)研究

引發(fā)機(jī)構(gòu)名不規(guī)范現(xiàn)象的原因有很多種,在形式上也比較多樣化,主要體現(xiàn)在以下5個(gè)方面:翻譯方式不同;書寫習(xí)慣不同;機(jī)構(gòu)變遷;作者拼寫或者數(shù)據(jù)加工錯(cuò)誤;總部和分支關(guān)系。不同的原因?qū)е虏煌腻e(cuò)誤表現(xiàn)形式,因此在機(jī)構(gòu)名規(guī)范化的過程中,需要采用不同的技術(shù)手段識(shí)別和歸并這些數(shù)據(jù)。國內(nèi)從文本檢索的角度對機(jī)構(gòu)名消歧已經(jīng)有很多嘗試,比如利用社交網(wǎng)絡(luò)平臺(tái)Twitter信息的機(jī)構(gòu)名聚類研究[4],利用百度百科詞條的命名實(shí)體識(shí)別等[5]。但用于科技評(píng)價(jià)的機(jī)構(gòu)名規(guī)范化方法還比較少。從科技評(píng)價(jià)的對象和評(píng)價(jià)方法方面分析,被評(píng)價(jià)實(shí)體可能是作者、期刊、機(jī)構(gòu)或者國家等。雖然也存在期刊更名或者國家名稱譯名不統(tǒng)一等情況,但作者名和機(jī)構(gòu)名的情況更為復(fù)雜,數(shù)據(jù)噪音問題更為突出,并且相互關(guān)聯(lián)。與作者名規(guī)范化所不同的是,基于科學(xué)文獻(xiàn)的作者姓名識(shí)別可以參考的信息很多,比如篇名、摘要、關(guān)鍵詞、期刊名、合作作者、地址和電子郵件地址等,而可供機(jī)構(gòu)名識(shí)別的直接信息非常有限。機(jī)構(gòu)名規(guī)范化的關(guān)鍵問題是解決機(jī)構(gòu)名稱和機(jī)構(gòu)實(shí)體之間的對應(yīng)關(guān)系。這種關(guān)系主要分為兩種情況:一個(gè)機(jī)構(gòu)名對應(yīng)多個(gè)機(jī)構(gòu)實(shí)體;多個(gè)機(jī)構(gòu)名對應(yīng)一個(gè)機(jī)構(gòu)實(shí)體。一般情況下,第二種情況更為普遍,對評(píng)價(jià)結(jié)果的影響也更嚴(yán)重,因此也是本文的重點(diǎn)研究內(nèi)容。

采用基于科技文獻(xiàn)的機(jī)構(gòu)名規(guī)范化的策略主要分為兩種,一種是基于機(jī)構(gòu)注冊列表的機(jī)構(gòu)映射,另一種是以機(jī)構(gòu)名稱文本相似度為依據(jù)的機(jī)構(gòu)名稱聚類。(1)在前者的相關(guān)研究方面,Abramo等在針對意大利大學(xué)評(píng)價(jià)的研究中采用一個(gè)人員–機(jī)構(gòu)目錄,該目錄包含意大利大學(xué)系統(tǒng)中每個(gè)研究者所屬學(xué)科領(lǐng)域、大學(xué)、學(xué)院以及職稱信息[7]。(2)機(jī)構(gòu)名稱中的關(guān)鍵詞一定程度上體現(xiàn)了機(jī)構(gòu)的性質(zhì)和類別,因此有些研究者采用以文本為基礎(chǔ)的相似度比較策略進(jìn)行機(jī)構(gòu)名規(guī)范化。Morillo等利用機(jī)構(gòu)名中抽取的關(guān)鍵詞對西班牙的研究機(jī)構(gòu)進(jìn)行類別標(biāo)注。Jiang等采用一種基于規(guī)范化表達(dá)距離(NormalizedCompressionDistance)的機(jī)構(gòu)名稱聚類方法,試驗(yàn)結(jié)果表明該方法比較有效地實(shí)現(xiàn)了針對同一機(jī)構(gòu)不同名稱的聚類[9]。Onodera等在進(jìn)行作者識(shí)別研究中,對所有在機(jī)構(gòu)名稱中出現(xiàn)的詞的頻率進(jìn)行統(tǒng)計(jì),并賦予不同的權(quán)重,根據(jù)兩個(gè)機(jī)構(gòu)地址中共同出現(xiàn)的詞的權(quán)重之和衡量它們的相似程度[10]。French等提出利用字符串的編輯距離進(jìn)行聚類的方法,并且以文獻(xiàn)作者的機(jī)構(gòu)地址為對象進(jìn)行實(shí)驗(yàn),結(jié)果證明基于編輯距離的技術(shù)能有效地實(shí)現(xiàn)對機(jī)構(gòu)地址的聚類[11]。機(jī)構(gòu)名映射是作者識(shí)別的一個(gè)重要環(huán)節(jié),目前大多數(shù)作者識(shí)別的研究中或多或少會(huì)涉及到機(jī)構(gòu)名的規(guī)范化問題。其中最常見的方法是基于機(jī)構(gòu)名稱字符串中共同出現(xiàn)的單詞數(shù)量判斷兩個(gè)字符串所代表的機(jī)構(gòu)是否對應(yīng)于同一機(jī)構(gòu)實(shí)體。經(jīng)過科研管理部門人工加工和維護(hù)機(jī)構(gòu)列表雖然在權(quán)威性和準(zhǔn)確性方面有一定優(yōu)勢,但實(shí)際上很難獲得和維護(hù)一個(gè)包含全世界各個(gè)國家科研機(jī)構(gòu)名稱的完整的、格式統(tǒng)一的信息列表。在面對海量信息的機(jī)構(gòu)評(píng)價(jià)中,基于登記制度的機(jī)構(gòu)列表的應(yīng)用范圍和使用效果將受到很大的限制。基于詞面相似度比較的方法為自動(dòng)化的機(jī)構(gòu)名稱映射提供了新的途徑,其有效性已經(jīng)得到證明,但這種方法也存在一定局限性。通過大量的機(jī)構(gòu)字符串分析可以發(fā)現(xiàn),很多機(jī)構(gòu)名稱的詞相似度很高,或者編輯距離很小,實(shí)際上并不對應(yīng)于同一個(gè)機(jī)構(gòu)實(shí)體,而相似度低或者編輯距離大的機(jī)構(gòu)名稱卻很可能對應(yīng)于同一個(gè)機(jī)構(gòu)實(shí)體。因此通過單一的詞相似度或者編輯距離判斷兩個(gè)機(jī)構(gòu)名字符串是否對應(yīng)于一個(gè)機(jī)構(gòu)實(shí)體的方法是不可靠的。

3研究方法

3.1方法概述在數(shù)據(jù)加工過程中,WoS文獻(xiàn)記錄中的地址字段被分成若干部分,主要以“主機(jī)構(gòu)名,部門名稱,地址,郵編,地區(qū)或者國家”的形式出現(xiàn)。對同一個(gè)機(jī)構(gòu)實(shí)體,之所以存在多個(gè)與之對應(yīng)的機(jī)構(gòu)名稱,主要原因有:翻譯方式的不同、書寫習(xí)慣不同、機(jī)構(gòu)變遷、拼寫或者標(biāo)引錯(cuò)誤,以及總部和分支隸屬關(guān)系問題。對WoS中導(dǎo)出的大量文獻(xiàn)記錄中的地址字段進(jìn)行分析,可以發(fā)現(xiàn)在同一個(gè)作者名的文獻(xiàn)集合中,如果兩個(gè)主機(jī)構(gòu)名稱具備一定相似度,并且其下屬機(jī)構(gòu)名稱或者郵編相同,則這兩個(gè)機(jī)構(gòu)很可能對應(yīng)于同一個(gè)機(jī)構(gòu)實(shí)體。比如對于作者Diao,KF存在以下兩個(gè)不同的機(jī)構(gòu)地址:①LinyiNormalUniv,DeptMath,Linyi276005,Shandong,PeoplesRChina.②LinyiUniv,SchSci,Linyi276005,Shandong,PeoplesRChina.地址1和地址2中的主機(jī)構(gòu)名分別為“LinyiNormalUniv”和“LinyiUniv”,“DeptMath”和“SchSci”為其下屬學(xué)院。除了國家和省份字段外,兩個(gè)地址的郵編都是“Linyi276005”,因此可以初步判斷LinyiNormalUniv和LinyiUniv對應(yīng)于同一個(gè)機(jī)構(gòu)實(shí)體。上述樣例中體現(xiàn)的規(guī)律為機(jī)構(gòu)名規(guī)范化操作提供了線索。因此筆者將以此為研究假設(shè),在借鑒傳統(tǒng)基于簡單或者加權(quán)詞面相似度方法和郵編匹配方法的基礎(chǔ)上,提出基于規(guī)則和編輯距離結(jié)合的機(jī)構(gòu)名規(guī)范化算法。該算法建立在WoS的結(jié)構(gòu)化英文題錄數(shù)據(jù)基礎(chǔ)上,因此可以獨(dú)立于不同的原文語種,有效地實(shí)現(xiàn)機(jī)構(gòu)名的識(shí)別和聚類。

3.2基于主機(jī)構(gòu)名詞面相似度和郵編匹配的方法機(jī)構(gòu)名規(guī)范化的過程本質(zhì)上是對機(jī)構(gòu)名進(jìn)行聚類。對數(shù)據(jù)樣例分析可以發(fā)現(xiàn),無論何種原因產(chǎn)生的機(jī)構(gòu)名稱的多樣化問題,在很大概率上這些機(jī)構(gòu)名稱之間滿足一定的詞面相似度。比如“UnivColorado”和“UnivColoradoDenver”,后者是前者的一個(gè)校區(qū)。利用詞面相似度進(jìn)行機(jī)構(gòu)名稱聚類的缺陷是,很多機(jī)構(gòu)名稱即便比較相似,但也可能不指向同一個(gè)機(jī)構(gòu)實(shí)體,如“UnivSeoul”和“SeoulNatlUniv”。因此,單純依靠主機(jī)構(gòu)名的詞面相似度的聚類方法并不可靠,需要通過其他信息進(jìn)行二次匹配。大多數(shù)機(jī)構(gòu)地址中包含了郵編信息,因此可以作為二次匹配的依據(jù)。由于各個(gè)國家的郵編格式存在很大差異,有的是純粹數(shù)字,有的是數(shù)字和字母結(jié)合,因此本研究將利用模糊匹配算法識(shí)別機(jī)構(gòu)地址中出現(xiàn)的連續(xù)數(shù)字字段作為郵編,而不是只提取其中的數(shù)字部分,比如“Linyi276005”。

3.3基于加權(quán)的地址相似度方法Onodera等在作者識(shí)別研究中,將作者機(jī)構(gòu)地址之間的加權(quán)相似度作為作者相似度判斷的第一步過濾條件。在該研究中沒有涉及到對該方法的有效性測試,因此本研究將參考Onodera等的詞權(quán)重分配方案,利用改進(jìn)的相似度計(jì)算方法實(shí)現(xiàn)機(jī)構(gòu)名的規(guī)范化。算法按照一個(gè)詞在機(jī)構(gòu)地址中出現(xiàn)的頻率分配權(quán)重,具體詞權(quán)重分配方案[10]如表1所示。根據(jù)TF-IDF的原則以及對大量機(jī)構(gòu)名分析結(jié)果顯示,在機(jī)構(gòu)名中一個(gè)詞出現(xiàn)的頻率越高(同一地址中一個(gè)詞出現(xiàn)多次則多次計(jì)數(shù)),它對機(jī)構(gòu)實(shí)體的區(qū)分能力越弱,權(quán)重也就越低。為了提高機(jī)構(gòu)名識(shí)別的準(zhǔn)確性,本研究也采用先匹配國家名稱的做法。如果兩個(gè)地址的國家字段相同,才進(jìn)入相似度計(jì)算過程,否則給兩者之間的相似度直接賦值為0。Onodera等將相似度定義為兩個(gè)地址之間除了國家字段外,出現(xiàn)的相同詞的權(quán)重之和[10],這種計(jì)算方法沒有考慮詞長問題,地址越長越容易獲得高的權(quán)重值。本研究將利用兩個(gè)地址中出現(xiàn)不同詞的數(shù)量,對權(quán)重之和進(jìn)行平均,獲得由所有地址組成的相似度矩陣。

3.4基于規(guī)則和編輯距離的方法基于規(guī)則的機(jī)構(gòu)名規(guī)范化方法建立的前提是機(jī)構(gòu)地址中存在上下級(jí)的結(jié)構(gòu)化關(guān)系。如果一個(gè)機(jī)構(gòu)名和另外一個(gè)機(jī)構(gòu)名滿足松散的相似度(詞面相似度或者編輯距離),并且這兩個(gè)機(jī)構(gòu)名對應(yīng)的下級(jí)機(jī)構(gòu)或者上級(jí)機(jī)構(gòu)名相同,則它們很可能對應(yīng)于同一個(gè)機(jī)構(gòu)實(shí)體。根據(jù)機(jī)構(gòu)規(guī)范化操作的步驟,本研究設(shè)計(jì)了規(guī)則和編輯距離相結(jié)合的機(jī)構(gòu)名規(guī)范化算法,其分為三個(gè)部分(算法的詳細(xì)描述參見文獻(xiàn)[14]):(1)建立作者–機(jī)構(gòu)名稱對應(yīng)表。從原始數(shù)據(jù)中抽取作者名和對應(yīng)的機(jī)構(gòu)名,形成的對應(yīng)表中每個(gè)作者對應(yīng)于一個(gè)或者多個(gè)機(jī)構(gòu)地址。由于WoS原始數(shù)據(jù)中提供的作者全名信息在很多情況下仍然是作者名簡寫,因此這里抽取作者簡寫作為作者名。雖然可能會(huì)加重作者重名問題,但數(shù)據(jù)穩(wěn)定性可以得到保障,并且作者識(shí)別不是本研究的目標(biāo)。如果多個(gè)同名作者對應(yīng)的機(jī)構(gòu)名稱有重疊則合并作者機(jī)構(gòu)(即視為一個(gè)作者)。(2)基于作者塊的機(jī)構(gòu)名聚類。本研究采用作者識(shí)別中的以作者塊為單位進(jìn)行機(jī)構(gòu)名識(shí)別操作的策略[6],即將作者–機(jī)構(gòu)名稱對應(yīng)表中的作者按照名稱進(jìn)行分塊,在塊內(nèi)部再進(jìn)行機(jī)構(gòu)名稱比對。雖然不能認(rèn)為同一個(gè)作者塊中的多個(gè)機(jī)構(gòu)名稱一定對應(yīng)于同一個(gè)機(jī)構(gòu)實(shí)體,但相似機(jī)構(gòu)名很可能存在其中。根據(jù)機(jī)構(gòu)名規(guī)范化的特點(diǎn),針對一個(gè)特定的作者塊,本研究提出以下規(guī)則和算法組合(N1和N2分別表示當(dāng)前集合內(nèi)任意兩個(gè)機(jī)構(gòu)名):規(guī)則1:如果N1和N2包含的詞完全相同,只是順序不同,則加入集合C;如果N1和N2詞長相等,但包含的詞不完全相同,如果Sim(N1,N2)>0.6,則加入集合C,公式如下。規(guī)則2:如果N1和N2詞長不相等,但S(N1,N2)≥2,則將N1和N2組合加入候選集合C。規(guī)則3:如果N1和N2其中一個(gè)是另外一個(gè)的子串或者縮寫形式,則將N1和N2組合加入集合C。規(guī)則4:如果N1和N2之間的編輯距離小于0.2,則將N1和N2組合加入集合C。規(guī)則5:當(dāng)前作者塊的論文地址中,任意分別包含集合C中的機(jī)構(gòu)名稱N1和N2的兩個(gè)地址對應(yīng)的國家名稱相同,則保留集合C中的N1和N2組合,否則刪除。規(guī)則6:參考規(guī)則5的結(jié)果,如果包含N1的地址和N2的地址Address1和Address2的切分長度不同(以逗號(hào)切分)或者切分長度相同但小于等于3,并且N1和N2對應(yīng)的子機(jī)構(gòu)名相同(即地址的第二個(gè)部分),則加入集合D。規(guī)則7:參考規(guī)則5的結(jié)果,如果Address1和Address2的切分長度相同并且大于3,則比較它們中間部分(除主機(jī)構(gòu)名、國家名稱和省份)是否相同,如果有任意一個(gè)部分相同,則將N1和N2組成加入集合D。(3)基于頻率的機(jī)構(gòu)名稱映射。以上的多條規(guī)則的篩選后,產(chǎn)生的集合D中保存的是已經(jīng)識(shí)別出來的可能相似的機(jī)構(gòu)名稱對。為了提高準(zhǔn)確率,本研究采用的方法是將頻率超過指定閾值的機(jī)構(gòu)名稱對進(jìn)行級(jí)聯(lián),從而形成一個(gè)個(gè)集合,每個(gè)集合包含一個(gè)特定機(jī)構(gòu)實(shí)體的不同形式的若干名稱。頻率閾值可以根據(jù)實(shí)際的應(yīng)用要求進(jìn)行指定。如果指定比較高的閾值,獲得的機(jī)構(gòu)名稱映射往往是比較常見的針對某一個(gè)特定機(jī)構(gòu)的多對一現(xiàn)象;反之如果設(shè)定比較低的閾值,則能發(fā)現(xiàn)很多因作者本人或者數(shù)據(jù)加工錯(cuò)誤導(dǎo)致的偶發(fā)性機(jī)構(gòu)名多對一現(xiàn)象,但準(zhǔn)確率會(huì)下降。為了對本研究提出的基于規(guī)則和編輯距離的機(jī)構(gòu)名規(guī)范化方法進(jìn)行詳細(xì)評(píng)測,將對上述三種方法進(jìn)行平行測試,并通過多個(gè)指標(biāo)的測試結(jié)果全面評(píng)估其有效性。

4實(shí)驗(yàn)

4.1數(shù)據(jù)準(zhǔn)備為了使得本研究的數(shù)據(jù)在后續(xù)的評(píng)價(jià)實(shí)踐中和ESI的排名數(shù)據(jù)形成對比,采用的數(shù)據(jù)收集策略是,以ESI的學(xué)科劃分為參考,從WoS中導(dǎo)出文獻(xiàn)題錄信息,對每個(gè)學(xué)科進(jìn)行三種機(jī)構(gòu)名規(guī)范化策略的獨(dú)立測試。為了充分評(píng)估各種策略在不同學(xué)科的適用性,以數(shù)學(xué)、計(jì)算機(jī)、心理學(xué)和經(jīng)濟(jì)與商業(yè)4個(gè)學(xué)科發(fā)表于2008年–2011年的文獻(xiàn)元數(shù)據(jù)為測試數(shù)據(jù)集。

4.2數(shù)據(jù)處理在采用基于主機(jī)構(gòu)名和郵編的機(jī)構(gòu)名規(guī)范化實(shí)驗(yàn)中,計(jì)算兩個(gè)機(jī)構(gòu)名的相似度(余弦函數(shù))。如果相似度為1,則直接視為同一機(jī)構(gòu);如果相似度大于閾值(根據(jù)測試,這里設(shè)定0.7),則進(jìn)入下一步郵編匹配。對主機(jī)構(gòu)名是縮寫(詞長為1)的情況,直接采用郵編進(jìn)行匹配,而不進(jìn)行相似度計(jì)算。所有通過郵編匹配成功的機(jī)構(gòu)名稱對將被視為對應(yīng)同一機(jī)構(gòu)。在基于加權(quán)的地址相似度計(jì)算中,從上述4個(gè)學(xué)科的數(shù)據(jù)集中分別抽取不同的詞并且統(tǒng)計(jì)頻率,根據(jù)頻率形成詞權(quán)重表,形成的權(quán)重分布頻率如表2所示。形成地址相似度矩陣后,將主機(jī)構(gòu)名相同的地址相似度設(shè)為0,將每個(gè)地址對應(yīng)的其他地址按照相似度降序排列,相似度最高的地址對應(yīng)的主機(jī)構(gòu)名則視為和當(dāng)前主機(jī)構(gòu)名表示同一個(gè)機(jī)構(gòu)實(shí)體。基于規(guī)則的機(jī)構(gòu)名聚類中,需要進(jìn)行作者–機(jī)構(gòu)表的建立、機(jī)構(gòu)名聚類和頻率過濾三個(gè)步驟。

4.3算法評(píng)測為了驗(yàn)證基于規(guī)則的機(jī)構(gòu)名規(guī)范方法的有效性,將以信息檢索中最經(jīng)典的兩個(gè)指標(biāo)檢準(zhǔn)率和檢全率對上述提到的三種策略在不同學(xué)科的表現(xiàn)進(jìn)行測試。邀請了兩組評(píng)測人員分別參與到兩個(gè)指標(biāo)的評(píng)測中,并且為了確保評(píng)測結(jié)論的可靠性,每個(gè)小組由兩名評(píng)測人員構(gòu)成。每個(gè)評(píng)測小組的指標(biāo)結(jié)果由兩名評(píng)測人員的數(shù)據(jù)匯總獲得。評(píng)測過程中參考機(jī)構(gòu)名稱出現(xiàn)的論文題名、全文、Wiki和機(jī)構(gòu)網(wǎng)站等信息,判斷機(jī)構(gòu)名識(shí)別結(jié)果的正確性。基于主機(jī)構(gòu)相似度和郵編的方法(簡稱PB),以及加權(quán)相似度算法(簡稱SB)在原始數(shù)據(jù)集上運(yùn)行所產(chǎn)生的結(jié)果數(shù)量非常龐大,給檢準(zhǔn)率的判定帶來困難,并且使得檢全率難以獲得。因此,為了減輕評(píng)測負(fù)擔(dān),除了基于規(guī)則的算法(簡稱RB)的檢準(zhǔn)率評(píng)測外,其他兩種方法的檢準(zhǔn)率評(píng)測和所有檢全率評(píng)測均在隨機(jī)抽樣的數(shù)據(jù)集上進(jìn)行。剔除作者–機(jī)構(gòu)對應(yīng)表中所有超過一篇的作者,從中隨機(jī)抽取30個(gè)作者名,由這些作者署名的文章組成抽樣數(shù)據(jù)集。各個(gè)學(xué)科的數(shù)據(jù)量為:數(shù)學(xué)291篇,計(jì)算機(jī)科學(xué)444篇、心理學(xué)380篇,經(jīng)濟(jì)與商業(yè)194篇。(1)檢準(zhǔn)率指標(biāo)。在檢準(zhǔn)率評(píng)測中,所有以上下級(jí)隸屬關(guān)系出現(xiàn)的機(jī)構(gòu)名稱對都將被視為識(shí)別正確。由于基于加權(quán)相似度算法產(chǎn)生的是相似度矩陣,因此在評(píng)測中選取每個(gè)學(xué)科所有地址兩兩之間相似度最高的20組進(jìn)行正確性判斷,如果截?cái)嗵幱卸鄠€(gè)相同相似度的地址則順延。為每個(gè)地址選取與之最為相似的三個(gè)地址,如果其中一個(gè)為正確,則視為識(shí)別正確的主機(jī)構(gòu)名稱對。基于規(guī)則的算法采用靈活的頻率控制策略,本實(shí)驗(yàn)在檢準(zhǔn)率評(píng)測中采用的頻率閾值為2。三種算法運(yùn)行獲得的4個(gè)學(xué)科的檢準(zhǔn)率數(shù)據(jù)如表3所示:從評(píng)測結(jié)果來看,加權(quán)相似度算法在其中兩個(gè)學(xué)科的檢準(zhǔn)率最高,基于規(guī)則的算法相對比較均衡和穩(wěn)定。從后者的評(píng)測結(jié)果可以發(fā)現(xiàn),由于科研活動(dòng)的特點(diǎn)和學(xué)術(shù)規(guī)范要求不同,在軟科學(xué)領(lǐng)域,基于規(guī)則的算法的準(zhǔn)確率要低于硬科學(xué)。(2)檢全率指標(biāo)。由評(píng)測人員手工識(shí)別測試集中出現(xiàn)的所有機(jī)構(gòu)名稱對應(yīng)情況,并建立對應(yīng)表,再對上述三種方法的運(yùn)行結(jié)果進(jìn)行判定。對基于加權(quán)相似度算法的檢全率判定策略同上,而對基于規(guī)則的算法采用了頻率為1和2的兩個(gè)級(jí)別的評(píng)測(分別用RRB1和RRB2表示)。最終的評(píng)測結(jié)果如表4所示。通過檢全率評(píng)測數(shù)據(jù)可以發(fā)現(xiàn),所有方法的檢全率都遠(yuǎn)低于檢準(zhǔn)率。這說明在機(jī)構(gòu)名規(guī)范化過程中,已經(jīng)識(shí)別出的機(jī)構(gòu)名準(zhǔn)確率比較高,而對出現(xiàn)頻率比較低的機(jī)構(gòu)名規(guī)范化效果還不夠理想。相比之下,本研究提出的基于規(guī)則的規(guī)范化方法在檢全率方面最優(yōu)。和檢準(zhǔn)率類似的情況是,硬科學(xué)領(lǐng)域的檢全率總體上要高于軟科學(xué)的檢全率。(3)綜合指標(biāo)。為了綜合評(píng)價(jià)三種策略的有效性,表5提供了以F值度量的綜合指標(biāo)(其中FPB采用了基于RRB2的評(píng)測數(shù)據(jù))。從事心理學(xué)研究的機(jī)構(gòu)涉及大學(xué)、醫(yī)院、研究所等,因此在機(jī)構(gòu)名的形式上比較復(fù)雜,從而導(dǎo)致了整體的機(jī)構(gòu)識(shí)別效果不夠理想。基于郵編的匹配方法在多個(gè)機(jī)構(gòu)共用相同郵編的情況下,會(huì)出現(xiàn)識(shí)別錯(cuò)誤;而基于詞加權(quán)的方法沒有考慮到機(jī)構(gòu)的層級(jí)關(guān)系,并且在相似性判斷方面不夠靈活。總體上,本研究提出的基于規(guī)則的組合算法在算法設(shè)計(jì)上對上述問題進(jìn)行了改善,并且實(shí)驗(yàn)數(shù)據(jù)表明該算法要優(yōu)于其他兩種。即便基于規(guī)則的組合算法在大數(shù)據(jù)集的測試中表現(xiàn)良好,但仍然存在不能自動(dòng)識(shí)別的機(jī)構(gòu)關(guān)系。上述三種方法的入口是機(jī)構(gòu)名的詞面相似,而在某些情況下,兩個(gè)不相似的機(jī)構(gòu)名稱也可能對應(yīng)到一個(gè)機(jī)構(gòu)實(shí)體。此外,在美國、法國等國家的大學(xué)和大學(xué)系統(tǒng)混合存在,對大學(xué)系統(tǒng)內(nèi)部各個(gè)大學(xué)之間的隸屬關(guān)系判斷失誤,也是導(dǎo)致機(jī)構(gòu)名規(guī)范化結(jié)果不準(zhǔn)確的原因之一。

5結(jié)語

在以往涉及機(jī)構(gòu)名稱規(guī)范化或者相似性判斷的研究中,對機(jī)構(gòu)名規(guī)范化進(jìn)行獨(dú)立測試的研究比較少。Jiang等的研究顯示采用規(guī)范化表達(dá)距離的機(jī)構(gòu)名稱聚類方法的平均準(zhǔn)確率為83%[9],但該方法采用的測試文獻(xiàn)集來自于同一個(gè)機(jī)構(gòu),機(jī)構(gòu)名稱的表現(xiàn)形式相對單一,因此其有效性還有待驗(yàn)證。通過主機(jī)構(gòu)名詞面相似度和郵編匹配結(jié)合的方法,識(shí)別效果有待改善。本研究對Onodera等采用的基于加權(quán)地址相似度計(jì)算的方法進(jìn)行評(píng)測[10],可以發(fā)現(xiàn),雖然該算法在識(shí)別個(gè)別人工難以發(fā)現(xiàn)的機(jī)構(gòu)名對應(yīng)案例時(shí),有比較好的效果,但整體表現(xiàn)不夠穩(wěn)定。本研究采用的基于規(guī)則和松散相似度結(jié)合的方法,既保留了相似度匹配的優(yōu)點(diǎn),又可以充分利用機(jī)構(gòu)之間的隸屬關(guān)系,幫助識(shí)別多個(gè)機(jī)構(gòu)名稱對應(yīng)一個(gè)機(jī)構(gòu)實(shí)體的現(xiàn)象。實(shí)驗(yàn)結(jié)果表明,該方法在各個(gè)學(xué)科頻率閾值為1和2兩個(gè)層次的檢準(zhǔn)率評(píng)測中表現(xiàn)穩(wěn)定,在4個(gè)學(xué)科的平均F值達(dá)到55.50%,綜合表現(xiàn)要好于其他兩種方案。在檢全率方面不夠理想的主要原因是,基于規(guī)則的方法在閾值控制方面有一定的要求。因此小樣本集合上的實(shí)驗(yàn)會(huì)對評(píng)測結(jié)果有一定的影響,在實(shí)踐中可以通過大的統(tǒng)計(jì)樣本改善算法的運(yùn)行效果。雖然基于規(guī)則的機(jī)構(gòu)名規(guī)范方法整體上要優(yōu)于其他兩種方法,發(fā)現(xiàn)了大多數(shù)常見的機(jī)構(gòu)名多對一現(xiàn)象,但另外兩種方法在發(fā)現(xiàn)有些文獻(xiàn)頻率比較低的機(jī)構(gòu)名稱對時(shí),有比較好的效果,這一點(diǎn)從檢準(zhǔn)率評(píng)測數(shù)據(jù)中可以發(fā)現(xiàn)。在后續(xù)的研究中,可以嘗試將這三種方法相互結(jié)合,以改善低文獻(xiàn)頻率的機(jī)構(gòu)名規(guī)范化效果,從而使科技評(píng)價(jià)中的數(shù)據(jù)統(tǒng)計(jì)更加精確,評(píng)價(jià)結(jié)論更加可靠。

作者:楊波 楊軍威 閻素蘭 單位:南京農(nóng)業(yè)大學(xué)信息科學(xué)技術(shù)學(xué)院

主站蜘蛛池模板: 色噜噜狠狠一区二区三区果冻 | 免费成人黄色网址 | 国产福利网 | av男人的天堂网 | 色影音| 99精品在线观看 | 亚洲在线观看视频 | 日韩在线精品强乱中文字幕 | 一级片在线 | 亚欧精品在线 | 欧美中文字幕第一页 | www.黄色大片 | 麻豆成人91精品二区三区 | 欧美天堂在线视频 | 欧美 唯美 清纯 偷拍 | 三级成人在线 | 欧美一级黄色片子 | 成人在线91 | 人人干人人插 | 久草热在线视频 | 色综合欧美 | 91麻豆精品在线观看 | 色婷婷丁香| 91精品一区二区三区蜜桃 | av在线免费观看网站 | jizz中国少妇高潮出水 | 黄色在线观看免费 | 亚洲精品国产精品乱码不卡√香蕉 | 中国1级黄色片 | 五月婷六月丁香 | 国产综合在线视频 | 亚洲手机在线观看 | 午夜999| 五月天综合视频 | 成年男女免费视频网站 | 成人在线手机视频 | 成人91看片 | 日韩欧美亚洲 | 久久视频在线 | 欧美精品黄 | 最色成人网 |