日前,內(nèi)蒙古大學(xué)2015屆博士烏日力嘎完成了一款傳統(tǒng)蒙古文印刷體文字識別系統(tǒng)軟件的研發(fā)。
據(jù)其研發(fā)者烏日力嘎博士披露,目前她研發(fā)的這款軟件對蒙古文白體的識別率已達(dá)到99%以上,對鉛印版的識別率也達(dá)到95%以上!皞鹘y(tǒng)蒙古文有大量的圖書、報刊,但其中很多都沒有實(shí)現(xiàn)數(shù)字化,”烏日力嘎博士介紹說,高效數(shù)字化需要OCR(Optical Character Recognition)軟件自動識別掃描或拍照的圖片,將圖片中的文字轉(zhuǎn)換成文本。
烏日力嘎在內(nèi)蒙古大學(xué)讀博士期間研究機(jī)器翻譯,機(jī)器翻譯需要大量的語言資源,但是蒙古文的資源特別少,我們在建立語言數(shù)據(jù)庫時需要大量的人力、時間和經(jīng)費(fèi)。于是,她萌發(fā)一個念頭——“自己是否也試著研發(fā)一款高精度的蒙古文自動識別系統(tǒng)!2015年夏天博士畢業(yè)后,烏日力嘎開始全身心地投入到傳統(tǒng)蒙古文OCR軟件的開發(fā)之中,她參考了國內(nèi)外大量學(xué)術(shù)文獻(xiàn),并使用深度學(xué)習(xí)和語言模型等高新技術(shù),在短時間內(nèi)成功研發(fā)出了蒙古文高精度自動識別軟件。據(jù)介紹,這一軟件的優(yōu)勢是既能識別掃描圖片,又能識別拍照的圖片,并且將打字和校對的功能融為一體。
“上世紀(jì)90年代以前的書本都是鉛印版本,但目前還沒有其他可以把鉛印版轉(zhuǎn)換成文本的軟件,而烏日力嘎博士研究的軟件優(yōu)勢是能識別鉛印版,并且有承前啟后的作用,”內(nèi)蒙古大學(xué)教授那順烏日圖認(rèn)為,烏日力嘎研究的軟件理論上有創(chuàng)新,這一軟件結(jié)合語言規(guī)則和統(tǒng)計方法,再利用深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等新技術(shù)來完成的。因?yàn)橐郧暗腛CR軟件是基于規(guī)則或者是基于統(tǒng)計的方法來實(shí)現(xiàn)的,他們最終效果都不理想。
烏日力嘎表示,希望她所開發(fā)的這款軟件能為廣大的蒙古語言文字工作者帶來更多的工作上的便利。
更多>>熱門排行
更多>>長沙常用電話
長沙社區(qū)排行
·請注意語言文明,尊重網(wǎng)絡(luò)道德,并承擔(dān)一切因您的行為而直接或間接引起的法律責(zé)任。
·長沙社區(qū)通管理員有權(quán)保留或刪除其管轄留言中的任意非法內(nèi)容。