本站小編為你精心準(zhǔn)備了基于HBase的時(shí)態(tài)信息索引策略參考范文,愿這些范文能點(diǎn)燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。

《廣東工業(yè)大學(xué)學(xué)報(bào)》2014年第二期
1時(shí)態(tài)信息在HBase的存儲(chǔ)模型
Hadoop是一個(gè)開(kāi)源的云計(jì)算框架,向用戶提供系統(tǒng)底層細(xì)節(jié)透明的分布式基礎(chǔ)架構(gòu).Hadoop生態(tài)系統(tǒng)中的Commom、Avro、Chukwa、Hive、HBase等子項(xiàng)目提供了互補(bǔ)性服務(wù)或是核心層上提供了更高級(jí)的服務(wù).HBase適于存儲(chǔ)松散型的非結(jié)構(gòu)化數(shù)據(jù),即是介于映射(key/value)和關(guān)系型數(shù)據(jù)之間的數(shù)據(jù).其表索引由行關(guān)鍵字、列關(guān)鍵字和時(shí)間戳組成,表中的數(shù)據(jù)可以有多個(gè)版本(通過(guò)時(shí)間戳區(qū)分),并且能動(dòng)態(tài)地實(shí)現(xiàn)數(shù)據(jù)列族的添加.不同于RDBMS具有豐富的數(shù)據(jù)類型和存儲(chǔ)方式,HBase只有簡(jiǎn)單的字符串類型,所有的用戶所需的類型都額外自行處理獲得,同時(shí)由于HBase的非事務(wù)性,是通過(guò)犧牲一些高級(jí)的查詢能力以換取更好的在分布式環(huán)境下的性能,故不支持多表連接進(jìn)行復(fù)雜的查詢操作,也沒(méi)有時(shí)態(tài)語(yǔ)義的約束.HBase向下提供了存儲(chǔ),以分布式文件系統(tǒng)(HDFS)為底層框架,向上提供了運(yùn)算,能使用MapReduce計(jì)算模式來(lái)并行處理大規(guī)模數(shù)據(jù).對(duì)于電子醫(yī)療時(shí)態(tài)信息數(shù)據(jù)集R=∑rk=1Rk(k=1,2,…,r)的存儲(chǔ),在HBase中進(jìn)行數(shù)據(jù)模型的構(gòu)建:將時(shí)態(tài)數(shù)據(jù)所描述的對(duì)象(患者)的根本特征作為主鍵,即KeyRow,可表示為病人的姓名或編號(hào)ID;列族是對(duì)事務(wù)屬性的擴(kuò)展性描述,能更詳盡地描述事物所抽象出來(lái)的各種屬性,HBase的靈活性可以實(shí)現(xiàn)對(duì)列族的自由添加.為了對(duì)臨床醫(yī)療數(shù)據(jù)的時(shí)態(tài)特性進(jìn)行描述,本文引入時(shí)態(tài)列族用于記錄患者在就診過(guò)程不同時(shí)段內(nèi)病況信息的時(shí)態(tài)屬性值,即Column:Temporal,它可以用時(shí)間點(diǎn)、時(shí)態(tài)區(qū)間或者時(shí)態(tài)集合作為時(shí)態(tài)信息的描述對(duì)象,本文基于具體醫(yī)療應(yīng)用背景使用時(shí)態(tài)集合作為時(shí)態(tài)信息存儲(chǔ)的基本單元;對(duì)于病人信息的非時(shí)態(tài)屬性值的描述,可以通過(guò)添加列族Column:Notemporal實(shí)現(xiàn),它可以用來(lái)描述患者的病癥、年齡、既往病史、用藥情況、主治醫(yī)生等其他信息,但這些信息對(duì)于不同的患者來(lái)說(shuō)并不具備高度的一致性,若無(wú)相關(guān)聯(lián)的信息,則該列族中所對(duì)應(yīng)的數(shù)據(jù)項(xiàng)可設(shè)置為空.為保證電子醫(yī)療數(shù)據(jù)的完整性,也可繼續(xù)動(dòng)態(tài)添加類似的列族.構(gòu)建以時(shí)態(tài)集合為醫(yī)療時(shí)態(tài)數(shù)據(jù)存儲(chǔ)單元的時(shí)態(tài)數(shù)據(jù)模型(Thbase)如表1所示.醫(yī)療信息中時(shí)態(tài)屬性值的表示方式由具體醫(yī)療背景決定.由于患者在診療活動(dòng)中的時(shí)態(tài)信息往往由若干在時(shí)序上間斷的信息構(gòu)成,比如病人發(fā)燒時(shí)間,可能僅僅某些天若干時(shí)段高燒,又如某些流行性疾病如傷寒、癲癇病等通常表現(xiàn)出反復(fù)發(fā)作的特性.因此為了兼顧信息的語(yǔ)義分析處理,采用時(shí)態(tài)集合作為醫(yī)療信息的時(shí)態(tài)屬性值的描述手段.時(shí)態(tài)集合是時(shí)間點(diǎn)和時(shí)態(tài)區(qū)間在時(shí)序上的疊加,相對(duì)于時(shí)間點(diǎn)和時(shí)態(tài)區(qū)間的單一表達(dá)性,它可根據(jù)對(duì)象在時(shí)態(tài)論域的多樣性特征變化更為靈活和精確體現(xiàn)出其時(shí)態(tài)性,適于診療信息對(duì)象整個(gè)病理周期的全程記錄,清晰明了,若將時(shí)態(tài)元素拆分通常不能滿足正確性、完備性需要,往往會(huì)失去時(shí)態(tài)語(yǔ)義;另一方面通過(guò)合并時(shí)間點(diǎn)和時(shí)態(tài)區(qū)間這兩種時(shí)態(tài)數(shù)據(jù)類型,在數(shù)據(jù)庫(kù)中進(jìn)行海量信息存儲(chǔ)能夠最大限度地壓縮存儲(chǔ)空間并減少數(shù)據(jù)冗余.
2時(shí)態(tài)集合的聚類策略
由于Hadoop的分布式特征,數(shù)據(jù)是按分塊的形式存儲(chǔ)在集群的各個(gè)節(jié)點(diǎn)上.HBase將邏輯上很大的一張數(shù)據(jù)表在存儲(chǔ)實(shí)現(xiàn)時(shí)以一定的方式進(jìn)行“切割”形成不同的區(qū)域,即時(shí)態(tài)信息存儲(chǔ)表根據(jù)行被分成了多個(gè)HRegions,每個(gè)HRegions又包含一個(gè)較大的數(shù)據(jù)集.若以列族作為查詢條件,只能根據(jù)行鍵從第一行數(shù)據(jù)開(kāi)始查找,掃描全表直到查詢到相關(guān)的數(shù)據(jù)為止,這樣顯然是十分低效的.對(duì)于海量數(shù)據(jù)的快速檢索方法,目前的研究成果包括B樹及其變形樹的檢索,哈希檢索,分布式哈希表(DistributeHashTable,簡(jiǎn)稱DHT)檢索等.因此結(jié)合Hadoop體系特性,本文采用分布式哈希表作為海量時(shí)態(tài)信息的索引方式.由于THBase模型以時(shí)態(tài)集合作為存儲(chǔ)對(duì)象,其數(shù)據(jù)結(jié)構(gòu)較為復(fù)雜,直接在該類型的數(shù)據(jù)上構(gòu)建索引難度較大.考慮到現(xiàn)階段較為成熟的空間索引模式更適于海量非結(jié)構(gòu)化數(shù)據(jù)的組織,因此,本文首先需將時(shí)態(tài)數(shù)據(jù)向空間數(shù)據(jù)轉(zhuǎn)化,對(duì)以時(shí)態(tài)集合為存儲(chǔ)對(duì)象的時(shí)態(tài)信息進(jìn)行空間映射,構(gòu)造二維空間上的時(shí)態(tài)數(shù)據(jù)區(qū)域集,在此基礎(chǔ)上再作數(shù)據(jù)集劃分、數(shù)據(jù)的聚類操作,得到若干層次的時(shí)態(tài)數(shù)據(jù)域,并以這些時(shí)態(tài)數(shù)據(jù)域作為各級(jí)索引表的主鍵.
2.1時(shí)態(tài)集合的空間映射在HBase中,對(duì)于任意一條電子醫(yī)療時(shí)態(tài)記錄記錄時(shí)間的終點(diǎn),且Ps≤Pe.由于作為時(shí)態(tài)信息描述對(duì)象的時(shí)態(tài)集合是由若干時(shí)間點(diǎn)和時(shí)態(tài)區(qū)間構(gòu)成,結(jié)構(gòu)較為復(fù)雜,對(duì)于任意DRt,其維度(包含的時(shí)間點(diǎn)和時(shí)態(tài)區(qū)間的數(shù)目)并不恒定,若對(duì)時(shí)態(tài)屬性進(jìn)行索引構(gòu)建,需簡(jiǎn)化其表示方法.借鑒空間索引的實(shí)現(xiàn)方式,將其映射到二維空間,再以空間數(shù)據(jù)劃分方式實(shí)現(xiàn)聚類.定義1(時(shí)態(tài)數(shù)據(jù)區(qū)域)將時(shí)態(tài)屬性值映射到二維空間所得到的二維空間區(qū)域.任意的時(shí)態(tài)數(shù)據(jù)Rf、IjRf是時(shí)態(tài)集合DRt任意一個(gè)時(shí)間點(diǎn)或時(shí)態(tài)區(qū)間,以(0,0)為原點(diǎn),時(shí)態(tài)集合中各時(shí)態(tài)區(qū)間起始點(diǎn)所代表的時(shí)間軸為X軸、各時(shí)態(tài)區(qū)間終止點(diǎn)所代表的時(shí)間軸為Y軸,建立二維空間上的XY垂直坐標(biāo)系.(Ⅰ)對(duì)于時(shí)態(tài)區(qū)間IjRf=[PRf,s,PRf,e],PRf,s所在為橫坐標(biāo)(X坐標(biāo)),PRf,e所在為縱坐標(biāo)(Y坐標(biāo)).那么,時(shí)態(tài)區(qū)間IjRf在空間坐標(biāo)系中則可以表示為時(shí)態(tài)數(shù)據(jù)區(qū)域S(IjRf),該區(qū)域是由X≥PRf,s、Y≤PRf,e以及Y≥X共同圍成的區(qū)域構(gòu)成.事實(shí)上,由于時(shí)態(tài)信息具有一定的粒度性,該區(qū)域包含若干獨(dú)立的、離散的時(shí)間點(diǎn),如圖1所示.(Ⅱ)由于時(shí)間點(diǎn)可表示為起始時(shí)間與終止時(shí)間一致的時(shí)態(tài)區(qū)間,因此,時(shí)間點(diǎn)在二維空間上可表示為時(shí)態(tài)數(shù)據(jù)點(diǎn).
2.2時(shí)態(tài)數(shù)據(jù)區(qū)域的劃分策略在設(shè)計(jì)HBase海量時(shí)態(tài)數(shù)據(jù)索引結(jié)構(gòu)時(shí),數(shù)據(jù)或數(shù)據(jù)空間的劃分是至關(guān)重要的環(huán)節(jié),好的數(shù)據(jù)劃分策略會(huì)提高數(shù)據(jù)庫(kù)I/O吞吐性能及系統(tǒng)數(shù)據(jù)吞吐能力,從而提高整個(gè)系統(tǒng)的檢索性能.在將THBase中所有的時(shí)態(tài)集合映射為時(shí)態(tài)數(shù)據(jù)區(qū)域集合S(t)后,如何對(duì)已空間化的時(shí)態(tài)數(shù)據(jù)區(qū)域進(jìn)行數(shù)據(jù)組織?針對(duì)時(shí)態(tài)數(shù)據(jù)區(qū)域S(t)結(jié)構(gòu)復(fù)雜、數(shù)據(jù)量大以及數(shù)據(jù)之間存在著空間拓?fù)潢P(guān)系等特點(diǎn),本文在K-均值聚類算法的基礎(chǔ)上,提出在分布式系統(tǒng)下的時(shí)態(tài)數(shù)據(jù)區(qū)域S(t)的數(shù)據(jù)劃分方案如下。
3基于HBase多級(jí)哈希索引表的設(shè)計(jì)
在分布式集群存儲(chǔ)系統(tǒng)中,數(shù)據(jù)的組織優(yōu)化是提高存儲(chǔ)系統(tǒng)性能的有效方法之一.而索引是存儲(chǔ)系統(tǒng)重要的部分,它直接決定數(shù)據(jù)的存取效率,影響數(shù)據(jù)分析與應(yīng)用效率.在HBase分布式存儲(chǔ)結(jié)構(gòu)中,對(duì)時(shí)態(tài)信息構(gòu)建索引可以極大地提高對(duì)HBase中數(shù)據(jù)的訪問(wèn)速度,有效地避免對(duì)非主鍵的全表掃描所產(chǎn)生的巨大系統(tǒng)開(kāi)銷.同時(shí)由于HBase“一次寫入多次讀取”的特點(diǎn),并不需要頻繁進(jìn)行表結(jié)構(gòu)的更新和數(shù)據(jù)的添加、刪除操作,因此為海量時(shí)態(tài)信息存儲(chǔ)表建立索引是十分必要的.本文在分布式哈希表(DHT)的基礎(chǔ)上,提出THBase模型下的多級(jí)索引表DHT算法(tDHT).設(shè)→D為THBase所存儲(chǔ)的時(shí)態(tài)集合值域,D代表時(shí)態(tài)記錄R的時(shí)態(tài)屬性值。對(duì)于多級(jí)哈希索引表構(gòu)建,本文提出的tDHT算法將THBase時(shí)態(tài)列族Column:Temporal的時(shí)態(tài)屬性值進(jìn)行聚類,并以此作為行鍵,即KeyRow,并以THBase的KeyRow作為列族重新構(gòu)造數(shù)據(jù)表.對(duì)于THBase時(shí)態(tài)信息的檢索,索引結(jié)構(gòu)可實(shí)現(xiàn)根據(jù)列值快速地定位相關(guān)數(shù)據(jù)所在的行,由此構(gòu)成THBase的一級(jí)索引,再以一級(jí)索引表為原表,按照上述方式構(gòu)建多級(jí)索引表.這樣,各級(jí)HBase索引表除了以上一級(jí)的時(shí)態(tài)數(shù)據(jù)子區(qū)域作為KeyRow之外,僅需要再構(gòu)建時(shí)態(tài)索引列族Column:TIndex作為新的時(shí)態(tài)索引列族即可.如此,索引表結(jié)構(gòu)以及所包含的信息比原表要精簡(jiǎn)得多,訪問(wèn)索引表所消耗的時(shí)間也較少.
3.1一級(jí)索引表結(jié)構(gòu)的設(shè)計(jì)根據(jù)THBase模型以及HBase存儲(chǔ)結(jié)構(gòu)的特點(diǎn),首先構(gòu)建HBase的一級(jí)時(shí)態(tài)索引結(jié)構(gòu)TIndex-1.以時(shí)態(tài)數(shù)據(jù)區(qū)域聚類生成的一級(jí)時(shí)態(tài)子區(qū)域r(1)i(i=1,2,…,K)為KeyRow,即TIndex1的主鍵,同時(shí)建立時(shí)態(tài)索引列族Column:Tindex,以THBase的主鍵KeyRow(患者編號(hào))作為該列族的(Key,Value)取值.則構(gòu)建的HBase一級(jí)索引表目錄如表2所示定義2(時(shí)態(tài)檢索域)將用戶的時(shí)態(tài)檢索請(qǐng)求(通常是時(shí)態(tài)區(qū)間或時(shí)態(tài)集合)按照上文所述的方式映射為時(shí)態(tài)數(shù)據(jù)域,稱為時(shí)態(tài)檢索域.索引表與原表通過(guò)原表的KeyRow(患者編號(hào))建立映射關(guān)系.用戶進(jìn)行時(shí)態(tài)檢索時(shí),將時(shí)態(tài)檢索域分別與一級(jí)索引表的所有RowKey(一級(jí)時(shí)態(tài)子區(qū)域)進(jìn)行運(yùn)算:(Ⅰ)若兩者存在交集,則讀取列族TIndex1的值,獲取此值后以該值作為HBase時(shí)態(tài)信息存儲(chǔ)表(THBase)的KeyRow,讀取相應(yīng)的時(shí)態(tài)信息;(Ⅱ)若不存在交集,則不再讀取該RowKey對(duì)應(yīng)的列族TIndex1的值,時(shí)態(tài)檢索域與索引表的下一行RowKey值進(jìn)行比較.
3.2多級(jí)索引表結(jié)構(gòu)的設(shè)計(jì)采用多級(jí)哈希表索引可以進(jìn)一步提升檢索性能.根據(jù)本文所提出的(tDHT)算法。當(dāng)用戶提交涉及時(shí)態(tài)信息的查詢請(qǐng)求時(shí),首先進(jìn)入第N級(jí)的哈希索引表中快速檢索,根據(jù)時(shí)態(tài)檢索域與N級(jí)索引表KeyRow主鍵r(n)i的空間重疊性,若存在重疊區(qū)域,則掃描時(shí)態(tài)索引列族Column:TIndex,繼續(xù)判斷兩者是否存在交集,然后根據(jù)(Key,Value)中Key所對(duì)應(yīng)的Value值進(jìn)入N-1級(jí)哈希索引表,由此通過(guò)上一級(jí)索引表的時(shí)態(tài)索引列族與下一級(jí)索引表主鍵建立哈希映射關(guān)系,以時(shí)態(tài)檢索域與各級(jí)時(shí)態(tài)數(shù)據(jù)子區(qū)域r(n)i進(jìn)行各層索引表的關(guān)聯(lián)條件判斷,以此類推直到獲取用戶需數(shù)據(jù)的地址信息并定位到數(shù)據(jù)為止.
4性能測(cè)試
搭建測(cè)試平臺(tái)進(jìn)行多級(jí)分布式哈希表索引結(jié)構(gòu)的性能驗(yàn)證.本文采用HBase0941和Hadoop0210進(jìn)行實(shí)驗(yàn),將其部署在5個(gè)物理計(jì)算機(jī)節(jié)點(diǎn)上,搭建Hadoop集群,其中1個(gè)節(jié)點(diǎn)作為Master節(jié)點(diǎn),其余4個(gè)作為Slave節(jié)點(diǎn).每臺(tái)PC機(jī)的系統(tǒng)參數(shù)配置為:CPU(Inter(R)Core(TM)i3M350@227GHz)、RAM(400GB)和硬盤(500GB).為了獲取更好的穩(wěn)定性,實(shí)驗(yàn)在Linux系統(tǒng)(ubuntu1104desktopi386)下進(jìn)行,使用openssh實(shí)現(xiàn)系統(tǒng)內(nèi)節(jié)點(diǎn)無(wú)密碼互訪.本文采用的是以時(shí)態(tài)集合方式進(jìn)行重構(gòu)的電子醫(yī)療時(shí)態(tài)數(shù)據(jù),將其寫入到HBase中作為測(cè)試數(shù)據(jù),并進(jìn)一步對(duì)設(shè)計(jì)的不同N值的多級(jí)索引表tDHT算法與HBase按主鍵掃描方法進(jìn)行查詢時(shí)間的性能比較.實(shí)驗(yàn)中用來(lái)進(jìn)行查找時(shí)間對(duì)比的基礎(chǔ)時(shí)態(tài)數(shù)據(jù)量分別為10萬(wàn)、1000萬(wàn)、2000萬(wàn)和4000萬(wàn),由于HBase只能根據(jù)RowKey進(jìn)行查詢,不支持對(duì)非主鍵(如列族)條件查詢.在獲取所要查詢的時(shí)態(tài)數(shù)據(jù)主鍵或是按照某些列族的屬性取值一致性的前提下,抽取、過(guò)濾所得時(shí)態(tài)列族的時(shí)態(tài)屬性值,通過(guò)并、交等操作完成Map/Reduce并行編程模式下的時(shí)態(tài)集合關(guān)系代數(shù)演算,實(shí)現(xiàn)對(duì)時(shí)態(tài)數(shù)據(jù)的查找.在不構(gòu)建索引以及構(gòu)建不同級(jí)數(shù)的分布式哈希索引表索引(N=3,5)的時(shí)態(tài)數(shù)據(jù)檢索時(shí)間如表3所示.為了更直觀地展示實(shí)驗(yàn)結(jié)果,繪制時(shí)態(tài)數(shù)據(jù)查找的時(shí)間對(duì)比折線如圖3所示.由表3、圖3的時(shí)態(tài)檢索的時(shí)間對(duì)比分析可知,相對(duì)于全表的條件查找,使用HBase進(jìn)行存儲(chǔ)的分布式哈希表索引能較大程度地改善系統(tǒng)對(duì)于時(shí)態(tài)信息查詢的性能,特別是當(dāng)時(shí)態(tài)數(shù)據(jù)量達(dá)到千萬(wàn)級(jí)以上時(shí),構(gòu)建索引在查找時(shí)具有非常巨大性能優(yōu)勢(shì),能極大地縮短檢索所需時(shí)間;而索引級(jí)數(shù)N的取值不同,也在一定程度上影響時(shí)態(tài)檢索的性能,當(dāng)數(shù)據(jù)量不大時(shí),索引級(jí)數(shù)越高,各級(jí)索引表的數(shù)據(jù)量則較小,多表映射所造成的時(shí)間損耗抵消了部分由于更精細(xì)的數(shù)據(jù)集劃分帶來(lái)的優(yōu)勢(shì),N值的大小對(duì)索引性能的提升不夠明顯,但當(dāng)存儲(chǔ)的時(shí)態(tài)數(shù)據(jù)量加大,各級(jí)索引表長(zhǎng)度急劇增長(zhǎng)時(shí),索引結(jié)構(gòu)tDHT(N=5)相對(duì)于tDHT(N=3)在進(jìn)行時(shí)態(tài)信息搜索時(shí)所需的查詢時(shí)間幾乎呈幾何遞減趨勢(shì),當(dāng)數(shù)據(jù)量達(dá)到千萬(wàn)級(jí)以上時(shí)差異性更為突出.由此可得,構(gòu)建分布式哈希索引能較大程度地改善時(shí)態(tài)檢索性能。
5結(jié)語(yǔ)
時(shí)態(tài)屬性,作為刻畫事物的一個(gè)重要維度,對(duì)時(shí)態(tài)信息檢索、時(shí)態(tài)知識(shí)推理、時(shí)態(tài)數(shù)據(jù)挖掘等研究領(lǐng)域均有深遠(yuǎn)的影響.針對(duì)海量的非結(jié)構(gòu)化電子醫(yī)療時(shí)態(tài)數(shù)據(jù),以時(shí)態(tài)集合作為基本的時(shí)態(tài)數(shù)據(jù)存儲(chǔ)結(jié)構(gòu),本文提出使用Hadoop平臺(tái)下分布式存儲(chǔ)系統(tǒng)HBase進(jìn)行數(shù)據(jù)存取,并在此基礎(chǔ)上構(gòu)建多級(jí)分布式哈希表以提升對(duì)海量時(shí)態(tài)信息檢索的性能.鑒于以時(shí)態(tài)集合為基本存儲(chǔ)元素的時(shí)態(tài)信息結(jié)構(gòu)復(fù)雜,故借鑒對(duì)空間數(shù)據(jù)的處理方法將時(shí)態(tài)信息映射為空間數(shù)據(jù)區(qū)域,進(jìn)行數(shù)據(jù)集的聚類以及劃分等數(shù)據(jù)重構(gòu)和組織操作,構(gòu)建N級(jí)時(shí)態(tài)數(shù)據(jù)子區(qū)域,并設(shè)計(jì)基于HBase的多級(jí)分布式哈希表索引(tDHT)算法,以各級(jí)時(shí)態(tài)子區(qū)域作為對(duì)應(yīng)索引表的主鍵,并通過(guò)時(shí)態(tài)索引列族建立上、下級(jí)索引表主鍵的映射關(guān)系,實(shí)現(xiàn)N級(jí)索引目錄與原時(shí)態(tài)信息存儲(chǔ)表的關(guān)聯(lián),完成多級(jí)分布式哈希表的構(gòu)造.通過(guò)測(cè)試驗(yàn)證了所構(gòu)建的索引結(jié)構(gòu)在Hadoop平臺(tái)下對(duì)于海量時(shí)態(tài)信息進(jìn)行檢索的有效性.需要指出的是,本文是在單一時(shí)間粒度的前提下開(kāi)展的確定性時(shí)態(tài)信息的研究,針對(duì)的是公歷系統(tǒng),顯然這是較為理想的時(shí)態(tài)數(shù)據(jù)處理模型.然而在現(xiàn)實(shí)生活中涉及的多粒度、模糊的、不確定的時(shí)態(tài)信息,不僅需要進(jìn)行不同時(shí)態(tài)粒層的映射轉(zhuǎn)換,還需額外地增加時(shí)態(tài)因子以描述時(shí)態(tài)信息的不確定性程度,這還需要另行研究.另外,針對(duì)不同的時(shí)態(tài)數(shù)據(jù)集,索引級(jí)數(shù)N的取值大小與性能提升程度的對(duì)應(yīng)關(guān)系仍然需要進(jìn)一步研究.
作者:陳磊封朝永單位:廣東工業(yè)大學(xué)計(jì)算機(jī)學(xué)院