本站小編為你精心準(zhǔn)備了并列結(jié)構(gòu)識(shí)別研究參考范文,愿這些范文能點(diǎn)燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。

《電腦與信息技術(shù)雜志》2014年第三期
并列結(jié)構(gòu)分為有標(biāo)記的并列結(jié)構(gòu)和無標(biāo)記的并列結(jié)構(gòu)。吳云芳[8]指出,對(duì)于有標(biāo)記的并列結(jié)構(gòu),處理的關(guān)鍵是確定并列結(jié)構(gòu)的邊界;對(duì)于無標(biāo)記的并列結(jié)構(gòu),處理的關(guān)鍵是辨別同類詞連用形式的歧義格式。下面介紹并列結(jié)構(gòu)識(shí)別的三種方法:自底向上的圖表算法、中心詞驅(qū)動(dòng)的并列結(jié)構(gòu)識(shí)別、基于條件隨機(jī)場(chǎng)的并列結(jié)構(gòu)識(shí)別。
1自底向上的圖表算法
自底向上的圖表算法是Hara[5]等提出的,解決嵌套的和非嵌套的并列結(jié)構(gòu)的識(shí)別。自底向上的圖表算法即可以處理非嵌套的也可以處理嵌套的并列結(jié)構(gòu)。該方法包含下面兩個(gè)步驟:定義并列結(jié)構(gòu)的語(yǔ)法結(jié)構(gòu);并列結(jié)構(gòu)樹分值的選取。(1)并列結(jié)構(gòu)的語(yǔ)法結(jié)構(gòu)并列結(jié)構(gòu)的語(yǔ)法結(jié)構(gòu)是為了確保兩個(gè)或多個(gè)并列成分的一致性。對(duì)于任何兩個(gè)并列結(jié)構(gòu),它們或者是沒有重疊的兩個(gè)獨(dú)立的并列結(jié)構(gòu)(非嵌套)或者是一個(gè)并列結(jié)構(gòu)是另一個(gè)并列結(jié)構(gòu)的一個(gè)并列成分的內(nèi)部部分(嵌套)。并列結(jié)構(gòu)分為完全并列結(jié)構(gòu)(COORD)和部分并列結(jié)構(gòu)(COORD’),主要是為了處理包含三個(gè)或三個(gè)以上并列成分的并列結(jié)構(gòu)。例如,(a,b,c)在句子中有下面三種形式的并列結(jié)構(gòu)樹,如圖1所示。其中,圖1(a)中的內(nèi)部樹(bandc)是部分并列結(jié)構(gòu),它與前面的并列成分a一起構(gòu)成一個(gè)完整的并列結(jié)構(gòu),部分并列結(jié)構(gòu)用COORD’表示。圖1(b)是嵌套的并列結(jié)構(gòu),bandc是完整的并列結(jié)構(gòu),a與(bandc)有構(gòu)成一個(gè)并列結(jié)構(gòu),且(bandc)是該并列結(jié)構(gòu)的一個(gè)并列成分。圖1(c)中不包含并列結(jié)構(gòu)。(2)并列結(jié)構(gòu)樹分值的選取自底向上的圖表算法能夠有效的獲取由一個(gè)句子產(chǎn)生的分值最高的并列結(jié)構(gòu)樹。并列結(jié)構(gòu)樹的分值取所有節(jié)點(diǎn)的加和,并且每個(gè)節(jié)點(diǎn)的分值的計(jì)算都是獨(dú)立的。這里只將COORD和COORD’兩種類型的節(jié)點(diǎn)設(shè)為非空值。并列結(jié)構(gòu)節(jié)點(diǎn)的得分是通過捕捉連詞下方的序列對(duì)的對(duì)稱性獲得的。
2中心詞驅(qū)動(dòng)的并列結(jié)構(gòu)識(shí)別
中心詞驅(qū)動(dòng)的并列結(jié)構(gòu)識(shí)別算法是由吳云芳[8]提出的,該算法分為下述3個(gè)步驟:(1)利用邊界特征詞劃定并列結(jié)構(gòu)的大致范圍。(2)對(duì)于名詞性的右中心結(jié)構(gòu)(如圖2所示),并列標(biāo)記之前第一個(gè)詞語(yǔ)被認(rèn)定為前并列成分中心詞,根據(jù)一系列相似性原則,在并列標(biāo)記后搜索與前中心詞相似度最大的詞語(yǔ)作為后并列成分中心詞,后并列成分由此確定;對(duì)于動(dòng)詞性的左中心結(jié)構(gòu)(如圖3所示),算法類似只是方向相反。(3)根據(jù)并列成分結(jié)構(gòu)平衡與相似的原則,在并列結(jié)構(gòu)前端搜索與后并列成分平衡性和相似性最大的詞串作為前并列成分。步驟1中提到的邊界特征詞是指大多位于并列結(jié)構(gòu)外部而不位于并列結(jié)構(gòu)的內(nèi)部的詞語(yǔ),如果位于并列結(jié)構(gòu)內(nèi)部,該詞一般情況下只與其自身形成的并列結(jié)構(gòu)。吳云芳將并列結(jié)構(gòu)的邊界特征詞分為3類。前邊界特征詞、前邊界特征詞類、后邊界特征詞。其中,前邊界特征詞主要有:來自、受到、得到、有利于、包括、具有、涉及、是、作為、如、諸如、例如、來等;前邊界特征詞類主要是連詞(C)和介詞(P);后邊界特征詞主要有:等、等等、都、分別、均、共同、也、之間、來、聯(lián)合等。
3基于條件隨機(jī)場(chǎng)的并列結(jié)構(gòu)的識(shí)別
用于自然語(yǔ)言處理的統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型有很多種,如:最大熵、隱馬爾科夫、條件隨機(jī)場(chǎng)等。條件隨機(jī)場(chǎng)作為一個(gè)無向圖模型在序列標(biāo)注問題上比隱馬爾科夫模型、最大熵模型等有向圖模型識(shí)別的效果好[18]。王東波[11,19]運(yùn)用條件隨機(jī)場(chǎng)識(shí)別有標(biāo)記的聯(lián)合結(jié)構(gòu)。條件隨機(jī)場(chǎng)模型是Lafferty[20]在最大熵和隱馬爾科夫模型的基礎(chǔ)上提出的一種用于標(biāo)注和切分的序列化標(biāo)注模型。基于條件隨機(jī)場(chǎng)(Crf)的并列結(jié)構(gòu)識(shí)別的系統(tǒng)流程圖,如圖4所示。
4結(jié)束語(yǔ)
并列結(jié)構(gòu)是一種特殊的語(yǔ)言形式,且并列結(jié)構(gòu)識(shí)別是自然語(yǔ)言處理不可或缺的一部分。并列結(jié)構(gòu)各并列成分的相似性除了結(jié)構(gòu)平行性之外,還有中心語(yǔ)相似的特性。并列結(jié)構(gòu)能得到很好的識(shí)別,許多自然語(yǔ)言處理的其它問題都能迎刃而解。但是,目前并列結(jié)構(gòu)的識(shí)別效果并不理想。本文對(duì)已有的并列結(jié)構(gòu)識(shí)別的研究方法和研究成果作了相應(yīng)介紹,希望能對(duì)并列結(jié)構(gòu)研究的學(xué)者給予幫助。
作者:王楊單位:遼寧行政學(xué)院