數(shù)字圖書館信息資源本體論的構(gòu)建
數(shù)字圖書館信息資源本體論的構(gòu)建 【內(nèi)容提要】在借鑒國外信息處理領(lǐng)域本體論的理論研究和實踐應用最新成果的基礎上,根據(jù)數(shù)字圖書館信息資源管理的不同層次,從宏觀上建立數(shù)字圖書館信息資源本體論的3個層次結(jié)構(gòu),并從微觀上為每一層次提出可操作的方法體系。 【摘 要 題】信息資源建設 . 【關(guān) 鍵 詞】本體論/數(shù)字圖書館/層次結(jié)構(gòu)/信息資源 隨著信息技術(shù)的發(fā)展和數(shù)字化時代的到來,數(shù)字圖書館應運而生。數(shù)字圖書館的核心是數(shù)字化信息資源的組織與管理,而目前已有的信息處理方法在對信息客體進行深層描述時存在一定的缺陷。本體論(ontology)從信息客體或信息對象出發(fā),通過建立信息客體之間的概念聯(lián)系和等級關(guān)系,將對信息客體的揭示深入到知識內(nèi)涵的層次并實現(xiàn)對信息客體內(nèi)在聯(lián)系的推理。由于本體論為信息資源組織引入了新的方法和思想,它無疑會對數(shù)字圖書館建設產(chǎn)生積極的作用。 1 本體論的概念 本體論原本是哲學中的一個概念,是指從人類行為中抽象出來的現(xiàn)實本質(zhì)。但信息處理領(lǐng)域中的本體論與哲學領(lǐng)域中的內(nèi)涵不同,國外一些學者已從多種角度對其進行了描述,如:“本體論是一種概念化的關(guān)系明確的模式”;“本體論是解釋概念潛在的含義的邏輯關(guān)系”;“本體論是可以在人和機器間進行交流的某一領(lǐng)域共同的概念表達”;“本體論是可以共享和再利用的概念化模式”。而Borst則將本體論定義為“共用概念的正規(guī)明確的具體的概念化模式”,其“概念化”指的是通過標識某一現(xiàn)象的相關(guān)概念而建立的這一現(xiàn)象的抽象模型,“明確”指的是所用的概念的類型和用法的限制有明確的定義,“正規(guī)”指的是本體論的實例可以實現(xiàn)機讀,“共用”指的是本體論所捕捉的知識帶有一般性,而不是某些個體所獨有的。 從本體論這些定義可以看出,本體論這一信息處理模式在保持原有核心特征的基礎上,本身在逐步發(fā)展和完善。簡而言之,本體論是一個概念的集合,這些概念包括等級結(jié)構(gòu)、概念間的關(guān)系、每個概念所具有的屬性及進一步限制的定理。當使用本體論表示數(shù)字文獻資源時,是在描述一個事物的兩個方面:一是資源外在形式——題名、作者、出版者、文件格式、知識產(chǎn)權(quán)等,另一方面是資源內(nèi)容——文獻的主題。兩個方面都可以使用本體論來建立等級關(guān)系的知識模型,在等級結(jié)構(gòu)的知識模型中可以定義信息客體、信息客體的內(nèi)容和相關(guān)的屬性與關(guān)系。 2 文本文獻本體論的構(gòu)建 為數(shù)字圖書館信息資源構(gòu)建本體論不是單一的一個層次,而是在傳統(tǒng)圖書館的基礎上,針對數(shù)字圖書館信息資源管理的不同發(fā)展階段,形成一個多層次的體系,其中的第一層就是為文本文獻構(gòu)建本體論。 2.1 可行性分析 文本文獻資源是傳統(tǒng)圖書館館藏的主體,隨著圖書館數(shù)字化進程的深入,對揭示大量文本文獻內(nèi)在關(guān)系的需求更為緊迫,因而為文本文獻構(gòu)建本體論成為數(shù)字圖書館信息資源本體論構(gòu)建的第一步。 構(gòu)建本體論的核心是建立概念的等級結(jié)構(gòu)及定義概念屬性,從而利用邏輯推理來推導概念之間的關(guān)系。對于文本文獻來說,構(gòu)建本體論的實質(zhì)就是建立文獻之間的等級結(jié)構(gòu),并定義文獻之間的關(guān)系。與其它類型的信息資源相比,文本文獻本身就有較為規(guī)范和概念明確的特點,所以為文本文獻信息建立等級結(jié)構(gòu)和定義屬性較為便利。因為文本文獻的等級關(guān)系在MARC上有較好的體現(xiàn),所以在MARC數(shù)據(jù)的基礎上構(gòu)建本體論具有較強的可行性和實用性,由此文本文獻本體論的構(gòu)建包括一個MARC記錄的轉(zhuǎn)化過程。構(gòu)建本體論的最終目的是實現(xiàn)推理,利用文獻的等級結(jié)構(gòu)和定義的屬性可以在轉(zhuǎn)化后的MARC上實現(xiàn)推導文獻間關(guān)系的目標。構(gòu)建文本文獻本體論的最后一步是將推理的結(jié)果生成知識庫。 2.2 文獻等級結(jié)構(gòu)的建立 構(gòu)建文本文獻信息本體論的基礎是文獻等級結(jié)構(gòu)的建立。文獻的創(chuàng)造過程始于一種思想,即“構(gòu)思”。這種“構(gòu)思”一經(jīng)抽象,則被稱之為“表述”。當“表述”出版后,它就成為“版本”!鞍姹尽钡奈锢硇问綖椤拜d體”;如果是數(shù)字化的,這種“載體”則稱為“數(shù)字化形式”。“載體”的某一版本稱為“實例”。 文獻等級各層次之間的關(guān)系比其看上去要復雜,低層次對高層次而言是一種繼承關(guān)系!皩嵗笔恰拜d體”、“版本”等中的一種,因此,“實例”有一個統(tǒng)一題名,這一統(tǒng)一題名可以直接檢索到而無需利用文獻等級結(jié)構(gòu)導航。在著錄邏輯中,文獻等級中的每一個概念被定義為“屬于”關(guān)系,或是一種對上層概念的“延伸”關(guān)系。繼承的值與“延伸”關(guān)系相關(guān)上位類的值“相同”。 2.3 MARC記錄轉(zhuǎn)入本體論 將MARC字段和值轉(zhuǎn)化為標識的文本要借助4個控制文檔,這組文檔著錄了MARC格式和它與本體論的關(guān)系。主控文檔將選定MARC字段和編碼掃描為一個或多個本體論概念。一些掃描過程視MARC值而定,依據(jù)不同情況將單一字段掃描為多個本體論概念。第二個控制文檔對多個MARC字段掃描為同一個本體論概念的情況建立優(yōu)先權(quán)。第三個控制文檔依據(jù)MARC記錄的類型和書目層次標識MARC字段內(nèi)編碼的位置。第四個控制文檔包括每一個編碼的信息,包括編碼—值表的長度和位置。 2.4 知識庫的生成 將MARC數(shù)據(jù)轉(zhuǎn)為用本體論概念標識的文本后,依據(jù)本體論所規(guī)定的文獻等級結(jié)構(gòu)及定義的相關(guān)屬性可以進行如下推理: ·用統(tǒng)一的標準對中間概念的多項進行合并。統(tǒng)一標準算法使用基數(shù)限定,這一基數(shù)限定是本體論定義的一部分。如果某項的類型屬于另一項,且允許多重值,那么該項被合并。 ·標識合并相同的構(gòu)思。有相同統(tǒng)一題名、作者、序列號的構(gòu)思被視為相同的構(gòu)思。當缺少統(tǒng)一題名時,使用版本項的題名代替。 ·如果文風和相關(guān)作者值相匹配,或者版本層的某種衍生關(guān)系可以識別的情況下,標識和合并有相同構(gòu)思的表述。 ·在出版者和出版日期相匹配,并且一項的出版形式值是另一項出版形式值的子集時,標識和合并有相同表述的版本項。同時還可在載體層某種衍生關(guān)系可以確定的情況下合并版本項。 ·依據(jù)MARC記錄描述的衍生關(guān)系建立與先前文獻的關(guān)系。如果在文獻族中未發(fā)現(xiàn)原作,則生成原作相關(guān)知識的本體論(包括在文獻等級結(jié)構(gòu)中衍生文獻所在等級以上的全部層次和來自MARC記錄的信息)。 最后將推理的結(jié)構(gòu)進行歸納,將具有相同關(guān)系的文獻合并,從而生成知識庫。 3 XML中本體論的構(gòu)建 數(shù)字圖書館管理的不僅是文本文獻,還有多媒體信息,因此,為此類信息資源構(gòu)建本體論就成為數(shù)字圖書館信息資源本體論構(gòu)建的第二個層次。 3.1 可行性分析 由于MARC等處理手段著錄多媒體信息的缺陷,數(shù)字圖書館必須采用能標識各類型信息資源的標準和技術(shù)。XML具有靈活性和可擴展性優(yōu)勢,突破了MARC的局限,可以描述各種類型的文獻資源。使用者可利用XML中的DTD自行定義所需的標記語言及XML文件的結(jié)構(gòu)。如果使用者就DTD達成一致,則文獻可以用一致的方式創(chuàng)造、傳遞和翻譯,同時保留傳遞者指明的語義。在XML的DTD中構(gòu)建本體論可以實現(xiàn)在概念層整合各種類型信息資源,它將來自句法和表述層的信息提高到更為抽象的概念和關(guān)系層進行描述,滿足了揭示多媒體信息內(nèi)在關(guān)系的需求。 3.2 等級關(guān)系的建立 實現(xiàn)基于本體論的XML描述首先要定義描述客體之間的等級關(guān)系,這就需要建立等級關(guān)系模型。以一個由人和出版物概念等級結(jié)構(gòu)組成的本體論關(guān)系模型為例,本體論在框架邏輯中描述概念,規(guī)定“人”是“客體”的一個子概念;“職員”和“學生”是“人”的子概念等等。概念“博士生”同時繼承了“學生”和“研究者”的屬性,相繼承的屬性被定義在本體論的第二部分,指的是概念之間的關(guān)系,在此通過相應類型的屬性建立起概念之間的關(guān)系。本體論的第三部分是定理,使用這一定理可以在已有事實的基礎上推斷新知識。例如,假設研究者A和B合作,則可推斷出B也是研究者,同時B也與A合作。因此,本體論可以推斷不完整的知識。 3.3 本體論DTD的生成 因為繼承關(guān)系是本體論的核心,而XML本身并不支持這種關(guān)系,所以這一關(guān)系模式需要借助其它方法才能在DTD中生成。使用XML的參數(shù)實體可以實現(xiàn)這一目標,參數(shù)實體定義了可以用于DTD的替換字符串,每當參數(shù)實體被參照時,這一參照則使用替換字符串來代替。DTDMAKER是一個在XML文獻的DTD中構(gòu)建本體論的有效工具,它將本體論的概念掃入DTD的元素類型中,即對每一個概念元素類型都做定義,這些元素類型的內(nèi)容模型由表達概念屬性的元素構(gòu)成。本體論中的屬性和XML的屬性一樣可以表述出來,也就是說本體論的屬性可以被掃入相應的XML屬性中。最后一步是將本體論屬性元素內(nèi)容模型的規(guī)范掃入DTD中。 4 知識管理中本體論的構(gòu)建 數(shù)字圖書館的目標是在對各種文獻信息進行組織和管理的基礎上,最終實現(xiàn)對知識的管理。在知識管理的全過程中構(gòu)建本體論,可以實現(xiàn)對知識本身的揭示,實現(xiàn)數(shù)字圖書館對信息資源最高層次的管理。 4.1 可行性分析 在知識管理的過程中構(gòu)建本體論主要由4項工作構(gòu)成:①建立等級結(jié)構(gòu);②知識描述;③本體論信息瀏覽;④在推理基礎上提供知識的智能檢索。這些內(nèi)容容易與關(guān)系型數(shù)據(jù)庫技術(shù)相混淆:本體論模型對應于數(shù)據(jù)模型,對知識的描述對應于知識庫中的數(shù)據(jù)項,查找則對應于SQL。然而,這種本體論方法與集中的數(shù)據(jù)庫技術(shù)有顯著的不同,它捕捉的是分布的而不是集中的知識,知識可以直接在它的初始位置被查找(如HTML網(wǎng)頁),而不是被分割到相應的數(shù)據(jù)庫中才能查找。這種方法允許對知識進行推斷,知識雖然沒有明確表達出來,但卻可以根據(jù)一般性的知識(包含在本體論內(nèi))進行推導。 知識管理過程中本體論的構(gòu)建具有上述優(yōu)勢。在網(wǎng)絡環(huán)境下借助相應的基于代理的本體論服務工具,使這一構(gòu)建過程具有很強的可行性。 4.2 等級結(jié)構(gòu)的建立 構(gòu)建本體論的關(guān)鍵步驟是等級結(jié)構(gòu)的建立,這一過程與2.2、3.2部分所述內(nèi)容相似,因此這里省略。 4.3 知識描述 在分布式的網(wǎng)絡環(huán)境下,需要管理的知識資源分布在網(wǎng)頁中,可以在網(wǎng)頁中添加本體論的標識語句,如在HTML中對被描述的信息客體添加本體論的onto語句。在標準的Web瀏覽器如Netscape或Explorer中,onto語句的添加并不影響HTML文件的視覺效果,這樣做只是使得主題事物知識的智能Web查找可視化。同時,這可以直接使用(再利用)語句體中的文本知識,避免了知識標注者重復表示相同的信息。 4.4 本體論信息瀏覽 由于使用者在標注和查詢的過程中使用了本體論標識語句,因此,在此階段可提供便捷的信息瀏覽。本體論元數(shù)據(jù)表示的是概念的等級關(guān)系,這種等級關(guān)系至少容易滿足用戶的兩種需求:①瀏覽某一類的周圍類目,以便尋找最合適的形成某一提問的類,②瀏覽全部等級,以便快捷地完成由一個等級向另一個等級的導航。 4.5 智能知識檢索 在網(wǎng)絡環(huán)境下可以使用基于本體論的代理服務Ontobroker,它由3個部分組成:網(wǎng)絡爬蟲(Ontobroker)、推理引擎及查詢界面。 首先,Ontocrawler通過標識的網(wǎng)頁進行查找并收集標注的知識片斷。其次,將知識片斷轉(zhuǎn)化為以Ontocrawler所使用的表述語言規(guī)范成的事實。不論是推理引擎還是查詢用戶都不需要了解因特網(wǎng)上事實表述的句法,只有標注者必須使用標注語言。 推理引擎收到用戶的提問后,利用兩個信息源來推導答案,即主題事物的本體論和Ontocrawler中的事實。推理引擎的基本推理機制類似于知識庫中的智能推導系統(tǒng)。 5 結(jié)語 由于信息資源組織在數(shù)字圖書館中的重要作用,開發(fā)科學有效的信息處理工具已成為數(shù)字圖書館研究的一個重點。本體論的構(gòu)建彌補了現(xiàn)有手段描述信息客體功能上的不足,它既從宏觀上為信息資源的有效組織提供了指導思想,也從微觀上構(gòu)成了描述信息客體的標準和技術(shù)。本文對國外本體論的理論研究和實踐應用進行了深入分析和系統(tǒng)整理,建立了構(gòu)建數(shù)字圖書館信息資源本體論的3個層次體系,并在每個層次的具體操作中形成了從可行性分析到等級結(jié)構(gòu)建立再到本體論生成的方法體系。 【參考文獻】 1 Gruber,T.R.A translation approach to portable ontology specifications. Knowledge Acquisitions, 1993(5): 199-210 2 Uscbold, M. Ontology: principles, methods, and applications. Knowledge Engineering Review, 1996(11) :93-155 3 Farquhar A., Fikes, R. et al. The ontolingua server: a tool for collaborative ontology construction. International Journal of Hunmn-Computer Studies, 1997(46) :707-728 4 Michael, Erdmann. How to structure and access XML with ontologies. Data & Knowledge Engineering, 2001 (36):317-335 5 http://www. aifb. uni-karlsruhe, de/WBE/broker/ 6 Birmingham,W. Building ontologies for the Internet: a midterm report. International Journal of Human-Computer Studies, 1999(5) :687-712 7 Guarino,N. Semantic matching: formal ontological distinctions for information organization, extraction, and integration. Computer Science, 1997(5): 139-170 8 Louise, C. Extracting focused knowledge from the semantic Web. International Journal of Human-Computer Studies, 2001 (54):155-184 9 O' Leary, D.E. Impediments in the use of explicit ontology for KBS development. International Journal of Human-Gomputer Studies, 1997(46) :327-337 10 Weinstein, P., Birmingham, W. Creating ontological metadata for digital library content and services. International Journal on Digital Libraries,   數(shù)字圖書館信息資源本體論的構(gòu)建;1998(2) :20-37 11 Fensel, D. OIL in a nutshell. http://www. ontoknowledge. org/oil/papers. html.
|