當前位置:智能 > 正文

体球网即时比分手机版:AI同傳新突破:搜狗同傳3.0首創「語境引擎」

2019-12-27 14:39:19  來源:機器之心

188球赛即时比分 www.110447.live 最近,搜狗 AI 交互技術部總經理陳偉、搜狗同傳產品總監張晶晶和項目負責人趙超向我們揭秘了搜狗同傳背后的技術。

首創「語境引擎」,搜狗 AI 同傳新突破

搜狗同傳技術自 2016 年發布以來,已經經歷了數千場會議同傳的實際應用??⒄咼竊謔導蟹⑾?,業內主流的語音同傳系統無法穩定、高質量地滿足多種演講場合的需求,經?;岢魷盅萁材諶葜兇ㄒ蕩駛愕氖侗鷙頭胄Ч患訓那榭?。

為了解決上述問題,搜狗在同傳 3.0 版中加入「語境引擎」,希望能夠通過對語言的深入理解來解決問題?!贛錁騁婺芄皇凳崩蒙閬褳肥侗鶼殖∑聊簧系?PPT 內容,」陳偉介紹道,「之前機器同傳只能獲取語音信息,通過 OCR 技術,現在搜狗同傳可獲取語音信息+ PPT 信息,隨后語境引擎可以構建個性化知識,從而使得同傳譯文效果有大幅提升?!?/p>

下圖展示了一些 3.0 版同傳的應用效果,第二列是嘉賓演講的原始內容,第三列是舊版語音識別出來的內容。按照以往的情況,演講者說出的一些罕見詞,比如「投子」,通?;岜?AI 識別為投資,但是 PPT 內容上有 AlphaGo 與李世石人機大戰,會讓同傳 3.0 系統拓展出「投子」(指某一方認輸)這樣的圍棋術語,在知識圖譜的幫助下,AI 可以對譯文進行大量更正。

除了專有名詞,新技術的性能具體提升了多少?搜狗表示,他們特別選擇了一個難度較高的專業性會議演講,對同傳 2.0 版、3.0 版和人類專業同傳進行了對比測試。人類達到了 4.08 分、搜狗同傳 2.0 可以達到 3.41 分,而 3.0 版則獲得了 3.82 分。這一成績實現了同傳領域的新突破,讓 AI 距離專業的人類同傳水平又近了一步。

能看又能聽的多模態技術并非搜狗同傳 3.0 的唯一亮點。搜狗表示,同傳 3.0 主要帶來了三個方向上的提升:

更加接近自然,從單純的語音識別到語音+圖像,新的方法模擬了人工同傳的工作方式,增加視覺和大腦擴散知識點的功能,擁有更為復雜的感知系統。

更加專業,此前的 AI 同傳模型使用通用數據,新的模型通過實時定制知識增強能力,能夠捕捉現場 PPT 內容補充演講相關的專業領域的知識,并針對每一個演講進行模型定制,提升同傳效果。

更加智能,以往模型訓練需要一個被動學習的過程,現在自動學習 PPT 的內容,自動捕捉海量詞匯,確保同傳品質非常優秀。

陳偉進一步總結道:「搜狗同傳 3.0 版進行了從前到后的大規模更新,首先是引入多模態,加入了視覺處理能力。其次在處理過程中從感知層面升級到了認知層面,在『語境引擎』的幫助下,系統可以通過知識圖譜的幫助對同傳內容進行進一步擴展。形成和演講內容相關的語境信息。在新版同傳工具中,系統還可以實時對同傳和翻譯效果進行增強,時延更低?!?/p>

與演講者一起「邊看邊思考」

相比以往,多模態的 AI 同傳更加接近于人類,「會看」意味著同傳首次具備了視覺能力。據介紹,搜狗同傳 3.0 在使用中可以借助屏幕截取,或者普通攝像頭實時獲取圖像信息,不需要使用特定的設備。

「能理解會推理」,則歸功于搜狗語境引擎的應用。在這其中則包含了搜狗知識圖譜和百科的推理能力,系統可以將 OCR 技術獲取的文字內容與演講相關的核心知識產生關聯,并通過「搜狗知立方」知識圖譜實時推理拓展,獲取背景知識。另外,同傳系統可以基于搜狗百科的中英術語庫獲得中英雙語對照,實時優化同傳識別和翻譯的效果。

搜狗表示,通過多模態方式獲取信息,同時引入知識圖譜的情況下,搜狗同傳 3.0 針對 PPT 內容的識別準確率提升了 21.7%,翻譯正確率提升了 40.3%。

除了大會演講以外,搜狗同傳的技術體系還會在更多場景中落地,遠程會議、記者采訪、視頻直播、旅游出行,甚至法院庭審記錄都是未來努力的方向。

搜狗同傳技術自 2016 年發布 1.0 版以來,經歷了不斷升級的過程?!岡諭低撤肽?櫚謀澈?,1.0 版使用 RNN 模型,在 2.0 版本中,我們引入了 Transformer 模型,解決了梯度爆炸問題,并可以記住更長的歷史內容。在 3.0 版的系統中,除了 Transformer,還采用了基于上下文的流式解碼,并引入了基于搜狗百科的知識圖譜?!拐猿檣艿?。

但同時我們也應看到行業的共性問題,AI 同傳的準確性距離人類專家水平還有一定距離,這其中既有算法能力的挑戰,也有人們對于 AI「更高要求」的原因?!肝頤嗆禿芏嗤右嫡囈渙骱蠓⑾?,按照常規流程,人工同傳需要合作方提前提供背景材料,并有一到兩天的準備時間,」陳偉解釋道,「但機器同傳是沒有準備時間的,并且在開始同傳時,人類也可以看到現場 PPT 上的內容。因此對于機器同傳而言,除了把語音做好外,視覺信息也非常重要?!?/p>

搜狗同傳 3.0 背后,更是公司「自然交互+知識計算」戰略的深入。搜狗 CEO 王小川最近表示,搜狗 AI 技術的核心,是經由深度學習為機器加入感知能力,從而實現與人類的自然交互,同時進一步提取出語言內的關聯關系,讓機器產生人類的「認知」能力。

從最初的語音交互到唇語識別,到機器翻譯、搜狗分身(合成主播),再到如今的多模態交互,搜狗正在依托語音、圖像、手勢等各種方式讓 AI 與人類展開更為「自然」的交流。

推薦閱讀

新材料十二五規劃 30個重點新材料品種受到推廣

2月22日收盤后,《新材料產業十二五發展規劃》正式發布,根據規劃,十二五時期,我國新材料產業預計總產值達2萬億元,年均增長率超過25%, 【詳細】

來了!iOS 13 Safari支持黑暗模式瀏覽微信公眾號文章

此前微信安卓版7 0 10內測版為我們帶來了對黑暗模式的支持,不過目前微信iOS版還未更新,但我們對于黑暗模式的渴望已經從系統延伸到App。蘋 【詳細】

蘋果將憑借AirPods主導可穿戴市場

據外媒SlashGear報道,借助AirPods,長期來看蘋果有望在可穿戴設備市場上占有最大的份額。根據2019年Q3可穿戴設備市場的單位出貨數據顯示, 【詳細】

"太陽帆"完成多項在軌關鍵技術驗證

中國科學院沈陽自動化研究所26日發布消息稱,由該所研制的天帆一號太陽帆,搭載長沙天儀研究院瀟湘一號07衛星,在軌成功驗證了多項太陽帆關 【詳細】

"斗圖"大賽沒了,但是朋友圈活躍度確實增加了

12月23日,微信更新新版本,掀起了一場轟轟烈烈的朋友圈斗圖大賽。12月25日,大賽悄無聲息終止。昨天下午4點左右,經濟觀察網記者朋友圈有 【詳細】



科技新聞網版權
{ganrao}