日韩视频专区_久久精品国产成人av_青青免费在线视频_欧美精品一级片_日韩在线观看中文字幕_九九热在线精品

美章網(wǎng) 資料文庫 文本情感分類中基因遺傳算法的應(yīng)用范文

文本情感分類中基因遺傳算法的應(yīng)用范文

本站小編為你精心準(zhǔn)備了文本情感分類中基因遺傳算法的應(yīng)用參考范文,愿這些范文能點燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。

文本情感分類中基因遺傳算法的應(yīng)用

摘要:本文以微博文本為主要實驗對象,提出適合卷積神經(jīng)網(wǎng)絡(luò)進行自我優(yōu)化的編碼方式,分別將每一層看做是一個染色體,將每一層中的參數(shù)看做是一個基因片段,采用混合雙重非數(shù)值編碼的方式編碼每個CNN框架,設(shè)計出適合于CNN網(wǎng)絡(luò)的選擇、交叉和變異的算法,并且把基因遺傳算法(GA)和與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合,提出了基于情感分析算法的遺傳算法(GA-CNN).通過對傳統(tǒng)算法與GA-CNN的實驗與對比分析,良好地展示了自我優(yōu)化性.

關(guān)鍵詞:基因算法;情感分析;深度學(xué)習(xí);自我進化

1引言

隨著網(wǎng)絡(luò)技術(shù)的進步和社會應(yīng)用的普及,網(wǎng)頁的交互信息越來越多的被企業(yè)、政府所重視.基于網(wǎng)頁的信息獲取、挖掘、分析也被逐漸提升到了國家安全的高度.網(wǎng)頁信息的交互包含瀏覽歷史記錄、跳轉(zhuǎn)路徑、的信息、微博、視頻、語音以及注冊的個人信息、賬號等等,他們包含每個人的部分或者全部核心信息,如個人的工作、情感、生活、經(jīng)濟、習(xí)慣和信仰等等.對網(wǎng)頁數(shù)據(jù)的挖掘與分析將有助于個人乃至國家的發(fā)展.本文主要以網(wǎng)頁數(shù)據(jù)中的微博為主要例題,對其中所表露出來的情感進行分析研究,并對算法自我優(yōu)化的可行性進行分析探討.情感分析(SentimentAnalysis,SA)又稱為傾向性分析和意見挖掘,它是對帶有情感色彩的主觀性文本進行分析、處理、歸納和推理的過程,其中情感分析還可以細(xì)分為情感極性(傾向)分析,情感程度分析和主客觀分析等[1].情感極性分析的目的是對自然語言中多包涵的正向情緒、負(fù)向情緒和中立情緒進行判別.大多數(shù)應(yīng)用場景中,只分為兩類.例如對于“喜歡”和“討厭”這兩個詞,表達(dá)的就是兩種相反的情感.情感分析在建立完善互聯(lián)網(wǎng)的輿情監(jiān)控系統(tǒng),對異常或突發(fā)事情的檢測以及心理學(xué)、社會學(xué)、金融預(yù)測等領(lǐng)域中都有廣泛應(yīng)用.目前國內(nèi)外對于微博等短文本的情感挖掘分析已經(jīng)做出了很多研究[2].常用的方法如樸素貝葉斯[3],邏輯回歸[4]、K最近鄰分類KNN算法(k-NearestNeighbor)[5]、支持向量機(SupportVectorMachine,SVM)[6,7]和卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetwork,CNN)[8]等,都在不同的目標(biāo)對象的情況有良好的表現(xiàn).但是對于不同的任務(wù)和不同的數(shù)據(jù)源,如中文微博和英文微博,對文字微博和表情微博等的分析仍有較大差異[9,10].針對不同的任務(wù),人們會人工嘗試不同的算法并通過調(diào)整優(yōu)化來實現(xiàn)最佳匹配和提升效率.對于參數(shù)結(jié)構(gòu)眾多,探索空間巨大的情況,這種方式不僅時間效率較低,而且探索空間局限,優(yōu)化效果不明顯.因此能夠讓算法自我進化,并且在全局空間內(nèi)進行自我優(yōu)化,不僅能夠節(jié)省人力,還能夠提升算法對不同任務(wù)的適應(yīng)性,在現(xiàn)實工作中具有較強的現(xiàn)實意義[11].本文主要以中文微博數(shù)據(jù)為例,以情感分析為主要實驗對象,結(jié)合遺傳算法(GeneticAlgorithm,GA),實現(xiàn)對情感分析算法的自我優(yōu)化,提出了以卷積神經(jīng)網(wǎng)絡(luò)為對象的遺傳進化算法(GA-CNN),并通過實驗,來模擬實現(xiàn)對中文情感分析算法的自我進化過程和結(jié)果.

2傳統(tǒng)方法情感分析實驗

微博以不超過140字為一個表達(dá)方式,具備詞語種類豐富、語句簡短、主題發(fā)散及創(chuàng)新詞語多等特點,相對于長文本而言,在情感分析的問題上面臨的問題和困難更多[12].文本情感分析過程一般包括文本預(yù)處理、情感特征提取和情感分類等步驟.文本預(yù)處理指對文本進行分詞,對詞性進行標(biāo)注,以及停用詞的成立等操作;情感特征的提取是指按照一定的規(guī)則,把具有明顯傾向性的單元要素從微博文本進行抽取的過程;情感分類是利用抽取出來的情感特征對文本進行區(qū)分,對主觀性文本極性和強度進行分類.中文微博情感分類大致上包括:基于情感詞典的分類方法和基于機器學(xué)習(xí)的分類方法兩類[9].

2.1實驗環(huán)境本文中的所有實驗均在如表1所示的實驗環(huán)境中完成.

2.2數(shù)據(jù)集的選擇與處理試驗數(shù)據(jù)來源于新浪微博的數(shù)據(jù)集.該數(shù)據(jù)集包含1.6萬余語句,其中1.2萬來自于PC端,0.4萬條來自移動端.將來自PC端的數(shù)據(jù)進行分類,按照心理學(xué)對情感的歸類,將“happiness”、“l(fā)ike”歸為正向情感(“pos”);將“anger”、“disgust”,“fear”歸為負(fù)向情感(“neg”);將“surprise”、“none”歸為中性情感(“none”).并通過約20人進行獨立認(rèn)證,采用最高的歸類,進行劃分.同時將來自移動端的數(shù)據(jù)被標(biāo)記直接標(biāo)注為“正向情感”、“負(fù)向情感”和“無情感”3個類別.?dāng)?shù)據(jù)的標(biāo)記過程仍然采用原先匯總?cè)藛T進行獨立標(biāo)注,標(biāo)注中忽略了表情符號所表達(dá)的情感,僅對中文自然語言所表達(dá)出的情感進行了標(biāo)記,選取其中比例最高的標(biāo)注作為單條語句的情感類型.情感類型分為三類,正向情感、負(fù)向情感和中性情感,其中正向情感語句4699條,負(fù)向情感語句4891條,中性情感語句6548條.采用80%進行訓(xùn)練,20%進行測驗.

2.3實驗結(jié)果對比分析上述傳統(tǒng)方法和基礎(chǔ)CNN方法在實驗環(huán)境中的測試結(jié)果如表2所示.從試驗可知,對于傳統(tǒng)分類算法而言,SVM的性能較高,在該數(shù)據(jù)情況下,樸素貝葉斯算法的精確度較低,其次是邏輯回歸以及線性SVM算法.對于深度學(xué)習(xí)的CNN網(wǎng)絡(luò),在這個樣本集中,表現(xiàn)出了較好的分類效果.該試驗中的CNN分別進行了三類試驗,分別是基于預(yù)訓(xùn)練詞向量的CNN-static、隨機編碼的CNN-rand和經(jīng)過調(diào)參的CNN-non-static.并分別對CNN進行了人為調(diào)整參數(shù).結(jié)果顯示CNN-non-static比最好的CNN-rand高出0.009,達(dá)到了53.5%.但相對于傳統(tǒng)的情感分析分類算法,CNN-none-static比SVM-RBF-Grid-Search,精確度效果卻并沒有提升,甚至還低0.05%.進一步分析說明對于該CNN的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)的設(shè)定并沒有達(dá)到CNN網(wǎng)絡(luò)的最大性能,同樣對于SVM的算法也并沒有達(dá)到其最大的精確度.那么對于CNN這樣網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,層次可以無限加深,探索空間巨大的情況,人為調(diào)參僅能實現(xiàn)局部性搜索優(yōu)化,無法實現(xiàn)最優(yōu)或近似最優(yōu)的效果優(yōu)化.而對于網(wǎng)格搜索而言,它是一種枚舉型收索,它的特點是耗時長,全局性差.對于深度學(xué)習(xí)的自我探索,谷歌在2017年進行了研究,BarretZoph[13]等人于2017年初嘗試了一種基于大型服務(wù)陣列上的自我遍歷探索優(yōu)化的嘗試,實驗結(jié)果完成了基于RNN的圖像識別的自我增強優(yōu)化.但這樣的自我優(yōu)化需要較大的資源,對于普通算法的或者資源有限的前提下,需要尋找一個有效的算法進行高效的全局性的自動調(diào)整優(yōu)化.結(jié)合BarretZoph等人的探索,本文提出了基于卷積神經(jīng)網(wǎng)絡(luò)的遺傳進化算法(GA-CNN).

3基于基因遺傳算法的自我優(yōu)化算法

本文中,采用CNN探索模型進行基于遺傳算法的優(yōu)化,主要討論該模型是否能夠通過模擬進化完成結(jié)構(gòu)性和參數(shù)性的探索,以達(dá)到根據(jù)不同任務(wù)和數(shù)據(jù)源進行自我結(jié)構(gòu)和參數(shù)的變更,使性能達(dá)到最優(yōu).

3.1基因遺傳算法相關(guān)理論遺傳算法GA是1975年由美國Michigan大學(xué)的Holland教授在其專著《自然界和人工系統(tǒng)的適用性》中首先提出的.遺傳算法,也稱進化算法,是受達(dá)爾文的進化論的啟發(fā),借鑒生物進化過程而提出的一種啟發(fā)式搜索算法.借鑒生物進化論,遺傳算法將要解決的問題模擬成一個生物進化的過程,通過復(fù)制、交叉、突變等操作產(chǎn)生下一代的解,并逐步淘汰掉適應(yīng)度函數(shù)值低的解,增加適應(yīng)度函數(shù)值高的解.這樣進化N代后就很有可能會進化出適應(yīng)度函數(shù)值很高的個體[14,15].

3.2GA-CNN算法的設(shè)計CNN網(wǎng)絡(luò)結(jié)構(gòu)中,可以討論的參數(shù)和結(jié)構(gòu)很多.在GA-CNN的算法探索中,將每一層網(wǎng)絡(luò)結(jié)構(gòu)看作是一個染色體.GA-CNN算法的系統(tǒng)架構(gòu)如圖1所示;其整體流程如算法1.算法1GA-CNN算法Begin步驟1對數(shù)據(jù)進行規(guī)范處理并分為訓(xùn)練集、評價集和測試集;步驟2初始化CNN框架結(jié)構(gòu)種群,預(yù)先設(shè)定最大迭代次數(shù)G,當(dāng)前種群代數(shù)g=1;步驟3對CNN種群中的每個框架結(jié)構(gòu)進行學(xué)習(xí)訓(xùn)練;步驟4用評價集對訓(xùn)練的CNN模型,進行評估,獲得CNN框架結(jié)構(gòu)種群所對應(yīng)的適應(yīng)度;步驟5采用輪盤賭法生成交配目標(biāo);步驟6對交配目標(biāo)進行交叉操作,并進行訓(xùn)練評估適應(yīng)度;步驟7利用變異操作,對交叉結(jié)果進行變異,并進行訓(xùn)練評估適應(yīng)度;步驟8判斷新產(chǎn)生的結(jié)果是否優(yōu)于交配目標(biāo),更新CNN結(jié)構(gòu)種群,更新對應(yīng)的適應(yīng)度;步驟9如果g<G且不滿足收斂條件,g=g+1,轉(zhuǎn)到步驟5,否則轉(zhuǎn)到步驟10;步驟10輸出精英個體模型作為最終的分類模型.74算法2GA-CNN算法交叉變異邏輯Begin步驟1采用隨機法在CNN種群中選取基模型S1;步驟2在S1周圍局部選取,距離為1的交配模型S2;步驟3交叉產(chǎn)生新的模型隊列,對產(chǎn)生的新模型進行訓(xùn)練學(xué)習(xí),評估其適應(yīng)度;步驟4比較篩選適應(yīng)度最高的模型S3;步驟5判斷新產(chǎn)生的模型S3是否優(yōu)于基模型S1,如果優(yōu)于S1,替換S1;如果不優(yōu)于S1,舍棄,轉(zhuǎn)到步驟1;步驟6判斷是否優(yōu)于交配模型S2;優(yōu)于交配模型S2,轉(zhuǎn)到步驟7;不優(yōu)于交配模型S2,轉(zhuǎn)到步驟8;步驟7替換S2,接著S2變異,轉(zhuǎn)到步驟9;步驟8在S1周圍選取一個適應(yīng)度最差的進行變異;步驟9更新種群和適應(yīng)度評估.End.GA-CNN算法與傳統(tǒng)CNN測試后的結(jié)果對比如表3所示.綜上所述,可以看出GA-CNN算法,經(jīng)過進化,進行有效的自我調(diào)優(yōu),調(diào)整了自己的結(jié)構(gòu)和模型參數(shù),提升了模型準(zhǔn)確性,從52.68%上升到了77.08%.該進化在85次時達(dá)到了收斂,取得了一個近似最優(yōu)解.

4結(jié)論

實驗分析,GA-CNN算法有效地解決了人為調(diào)參數(shù)的局限性,對分布空間廣,探索空間大的CNN模型架構(gòu)以及參數(shù)能夠有效的探索和自動優(yōu)化,在探索時間和空間上都相對人為調(diào)參有較大提升.相對于枚舉法而言具有較好的收斂性.但該算法也存在一定的問題和思考:由于資源空間有限,對基因和染色體種類的模擬具有局限性,大量參數(shù)和變數(shù)引入可能帶來較大的影響.同時對于染色體的編碼由于種類較少,類似于二進制編碼.初始化的種群結(jié)構(gòu)不同,可能帶來的進化時間成本和結(jié)構(gòu)都有所不同.最后的結(jié)果可能在最大迭代次數(shù)G完成時,仍只能得到一個近似最優(yōu)解,而這個近似最優(yōu)解可能存在差異.

參考文獻:

[1]蔣延華.風(fēng)景油畫創(chuàng)作的情感分析[J].美術(shù)教育研究,2012,2012:25.

[2]王文華,朱艷輝,徐葉強,等.基于SVM的產(chǎn)品評論屬性特征的情感傾向分析[J].湖南工業(yè)大學(xué)學(xué)報,2012,26:76.

[3]陳紅玉.?dāng)?shù)據(jù)挖掘中貝葉斯分類算法的研究[J].光盤技術(shù),2009,2009:57.

[4]周志華.機器學(xué)習(xí)[M].北京:清華大學(xué)出版社,2016.

[5]賈可亮,樊孝忠,許進忠.基于KNN的漢語問句分類[J].微電子學(xué)與計算機,2008,2008:156.

[6]馬波.支持向量機多類分類算法的分析與設(shè)計[D].揚州:揚州大學(xué),2008.

[7]饒剛.支持向量機(SVM)算法的進一步研究[D].重慶:重慶大學(xué),2012.

[8]張建明,詹智財,成科揚,等.深度學(xué)習(xí)的研究與發(fā)展[J].江蘇大學(xué)學(xué)報:自然科學(xué)版,2015,36:191.

[9]任小燕.中文情感分析綜述[J].科技信息,2011,31:202.

[10]周勝臣,瞿文婷,石英子,等.中文微博情感分析研究綜述[J].計算機應(yīng)用與軟件,2013,30:161.

[12]王巖.基于共現(xiàn)鏈的微博情感分析技術(shù)的研究與實現(xiàn)[D].北京:國防科學(xué)技術(shù)大學(xué),2011.

[14]王曉天,邊思宇.基于遺傳算法和神經(jīng)網(wǎng)絡(luò)的PID參數(shù)自整定[J].吉林大學(xué)學(xué)報:理學(xué)版,2018,56:953.

[15]陳龍.基于遺傳算法的約束性多TSP問題及其應(yīng)用[J].重慶郵電學(xué)院學(xué)報:自然科學(xué)版,2000:67.

作者:彭一明 邢承杰 卞晶 陳光 王夢淑 王雪琴 單位:北京大學(xué)計算中心

主站蜘蛛池模板: 国产久草视频 | 黄色片一区 | 99免费在线视频 | 国产无遮挡 | 开心激情五月网 | 福利午夜视频 | 99自拍偷拍 | 伊人超碰在线 | 日本国产在线 | 成人av在线影院 | 免费观看特级毛片 | 国产精品成人一区二区网站软件 | 久久久www成人免费毛片 | 日本天堂在线视频 | 久久久久久久99 | 久久久激情视频 | 成年人免费网站在线观看 | www.午夜 | 日本在线www | 美女啪啪免费视频 | 日韩免费中文字幕 | 黄色在线观看av | 欧美午夜精品久久久久久人妖 | 麻豆国产视频 | 黄色一区二区三区 | 搞黄视频在线观看 | 亚洲福利久久 | 国产精品成人自拍 | 久久久久久久久久国产 | 日韩一区二区在线观看视频 | 日本视频在线免费 | 色99色 | 四虎影视免费在线观看 | 自拍视频一区二区 | 日韩av片在线免费观看 | 日本一二区视频 | 国产午夜久久久 | 黄色裸体视频 | 欧美日韩在线免费 | 青青操网| 亚洲女人毛片 |