亚洲中文永久在线不卡,欧洲+亚洲+日韩

首頁 | 注冊 | 登陸 | 網(wǎng)站繁體 | 手機(jī)版 | 設(shè)為首頁 長沙社區(qū)通做長沙地區(qū)最好的社區(qū)門戶網(wǎng)站正在努力策劃制作...

您的位置：長沙社區(qū)通 > 新聞 > 國內(nèi) > 科技 > 堪稱“玄學(xué)”！百度機(jī)器翻譯技術(shù)獲重大突破“能預(yù)測發(fā)言者未來幾秒的內(nèi)容！”

堪稱“玄學(xué)”！百度機(jī)器翻譯技術(shù)獲重大突破“能預(yù)測發(fā)言者未來幾秒的內(nèi)容！”

網(wǎng)址：www.blackcollegiateintl.com 編輯：長沙社區(qū)通時(shí)間：2018-10-26

上面的中文是人類說的話，下面的英文是百度 AI 給出的實(shí)時(shí)翻譯�？梢钥吹�，沒等說到“莫斯科”的時(shí)候，AI 自動翻譯的英語就已經(jīng)出現(xiàn)了“meet”，也就是漢語句末的“會晤”。

難道現(xiàn)在 AI 已經(jīng)掌握了讀心術(shù)？

其實(shí)這是百度在機(jī)器同傳中研發(fā)的最新技術(shù)，有預(yù)測和可控延遲能力，能實(shí)現(xiàn)兩種語言之間的高質(zhì)量、低延遲翻譯。它的出現(xiàn)讓機(jī)器同傳又有了新進(jìn)展！

在我們了解機(jī)器同傳之前，首先要知道人類同傳是什么。

同聲傳譯是一項(xiàng)很重要的工作，在國際會議、外交談判、演講等場合，只要交流之間出現(xiàn)了兩種語言，就需要同聲翻譯的幫助，他們會在現(xiàn)場聽取演講，并實(shí)時(shí)翻譯成另一種語言。

▲ 在會場的同聲傳譯（圖片來自網(wǎng)絡(luò)）

同聲傳譯工作通常在一句話的話音剛落，2-3秒之內(nèi)就要立即傳譯出來，是一份高壓力、高強(qiáng)度的職業(yè)。而 AI 機(jī)器同傳就是把人類翻譯工作的過程用 AI 技術(shù)來代替。

機(jī)器同傳運(yùn)用語音識別技術(shù)自動識別演講者的講話內(nèi)容，把語音轉(zhuǎn)化為文字，然后調(diào)用機(jī)器翻譯引擎，將文字翻譯為目標(biāo)語言，顯示在大屏幕或者通過語音合成再播放出來。

并不是！在人工智能領(lǐng)域，兩種語言的“即時(shí)互譯”是一項(xiàng)難以攻克的技術(shù)問題，主要原因在于源語言和目標(biāo)語言之間存在較大的詞序和語序差異。

▲ 中文語序下，“香山”在前，“最美的時(shí)候”在后；而英文翻譯中，“香山”被后置，“最美的時(shí)候”被提前

這種語序的差異，讓同傳陷入一種“準(zhǔn)確度與速度不可兼得”的尷尬境地：

百度工程師們針對同傳中遇到的難題，提出了“一攬子”解決方案，一起看看它有哪些亮點(diǎn)？

人類同傳譯員常用的一個(gè)技巧就是“合理預(yù)測”：在發(fā)言人話說到一半時(shí)，預(yù)測到后半句可能要講的內(nèi)容，超前翻譯，這樣能使同傳又快又準(zhǔn)。

百度的工程師們模仿這一點(diǎn)，研發(fā)出了“wait-k words”模型，讓機(jī)器同傳也擁有了“合理預(yù)測”的能力，一定程度上解決了上面所說的“準(zhǔn)確度與速度不可兼得”的問題。

普通的 AI 同傳是一整句話說完之后才進(jìn)行翻譯，而百度同傳沒等說完前半句，它的“大腦”就會瞬間做出反應(yīng)，可以“邊聽邊腦補(bǔ)”！

▲ 這是百度同傳的腦補(bǔ)現(xiàn)場，當(dāng)說到“百度在18年前”時(shí)，AI 就預(yù)測出了“started a business”

另外一點(diǎn)是！百度同傳可以個(gè)性化控制翻譯時(shí)的延遲速度，像法語和西班牙語這種比較接近的語言，延遲就設(shè)置在比較低的水平。

但是，英語和漢語這種差異較大的語言，以及英語和德語這種詞序不同的語言，延遲可以設(shè)置為較高水平，從而更好地應(yīng)對差異。

人類同傳譯員在接到翻譯任務(wù)后，通常會提前很多天學(xué)習(xí)相關(guān)知識，進(jìn)行“備課”，為的就是更好地應(yīng)對陌生詞匯而臨危不懼。

于是，百度工程師們模仿了這一準(zhǔn)備過程，讓機(jī)器同傳也能通過快速融合領(lǐng)域知識策略，快速學(xué)習(xí)專業(yè)知識，提前“備課”。

當(dāng) AI 同傳接到某一個(gè)領(lǐng)域的翻譯任務(wù)時(shí)，系統(tǒng)會收集該領(lǐng)域數(shù)據(jù)并在通用模型的基礎(chǔ)上進(jìn)行增強(qiáng)訓(xùn)練，最后對該領(lǐng)域術(shù)語庫進(jìn)行強(qiáng)制解碼，使專業(yè)術(shù)語翻譯得準(zhǔn)確可靠，且提升翻譯效率。

區(qū)別于傳統(tǒng)的上下文相關(guān)建模技術(shù)，百度推出了上下文無關(guān)音素組合的中英文混合建模單元，包含1749個(gè)上下文無關(guān)中文音節(jié)和1868個(gè)上下文無關(guān)英文音節(jié)。這個(gè)方法具有泛化性能好、對噪聲魯棒、中英文混合識別等特點(diǎn)。

根據(jù)語音識別模型常犯的錯(cuò)誤，在訓(xùn)練數(shù)據(jù)的時(shí)候加入噪聲數(shù)據(jù)，讓模型在接收到錯(cuò)誤的語音識別結(jié)果時(shí)，也能在譯文中糾正過來。

比如，語音識別系統(tǒng)將“大堂”錯(cuò)誤地識別為“大唐”，這一對噪聲詞被收錄到訓(xùn)練數(shù)據(jù)里，再把源語言句子“我們在酒店大堂見面吧”替換為“我們在酒店大唐見面吧”，而保持目標(biāo)語言翻譯不變“Let's meet at the lobby of the hotel”，同時(shí)將這兩個(gè)中文句子存儲在它的“大腦”里面，以后再出現(xiàn)類似的情況會更輕松地解決！

和咱們?nèi)祟愖g員相比，機(jī)器最大的優(yōu)勢是不會因?yàn)槠＞?/span>而導(dǎo)致譯出率下降，能把所有“聽到”的句子全部翻譯出來，這讓機(jī)器的“譯出率”可以達(dá)到100%，遠(yuǎn)高于人類譯員的60%-70%。

同聲傳譯被廣泛應(yīng)用于政府間的峰會、多邊談判和其他商業(yè)場合，但是同傳人員稀缺也成為了當(dāng)前的棘手問題。

研發(fā)百度同傳的目的，并不是取代人類譯員，而是為了降低同傳成本，讓同傳的應(yīng)用范圍更加廣泛。我們希望世界各地的人在 AI 的幫助下早日實(shí)現(xiàn)“無障礙”的交流，用科技讓復(fù)雜的世界更簡單！

TAGS：科技 | 新聞轉(zhuǎn)載：長沙社區(qū)通

頂一下

(0)

踩一下

(0)

最新評論 查看全部評論發(fā)表評論

發(fā)表評論

·網(wǎng)友評論僅供網(wǎng)友表達(dá)個(gè)人看法，并不表明網(wǎng)站同意其觀點(diǎn)或證實(shí)其描述。
·請注意語言文明，尊重網(wǎng)絡(luò)道德，并承擔(dān)一切因您的行為而直接或間接引起的法律責(zé)任。
·長沙社區(qū)通管理員有權(quán)保留或刪除其管轄留言中的任意非法內(nèi)容。

相關(guān)文章