2021-06-11 11:25:30 來源:中國周刊 作者:高揚
31位中外院士,260多位海內外人工智能專家學者,22場人工智能專題論壇……
2021年6月5日-6日,包括微軟、亞馬遜、百度、京東等在內的,全球人工智能專家學者與商界名流齊聚杭州,在“2021全球人工智能技術大會暨全球人工智能技術博覽會”上,對當下的人工智能把脈問診,進行思想碰撞和技術交流,以及展望未來。
在這一全球性的行業(yè)盛會上,傳神語聯(lián)參與發(fā)起中國人工智能學會“多語種智能信息處理專業(yè)委員會”,并成為常委單位。
傳神在十年前提出多語智能信息處理,并通過旗下的語聯(lián)網平臺,將多方面的自然語言處理技術、大數據技術、大量在線譯員、以及大規(guī)模的術語語料資產有機結合,通過創(chuàng)新的人機協(xié)作體系向各語言服務機構賦能,幫助各類組織和個人,以前所未有的綜合效率和成本獲得所需的語言服務,從而實現(xiàn)更快、更豐富的全球文化、貿易和信息交流。
那么,何為自然語言處理技術,何為人機協(xié)作體系,它們與AI時代有著怎樣密不可分的關系?對此,筆者進行了深入了解與探索。
人工智能領域皇冠上的明珠
目前人工智能可大致分為四個階段:運算智能、感知智能、認知智能,以及發(fā)展到未來會觸達到創(chuàng)造智能。自然語言處理技術屬于認知智能,包括語言理解、知識和推理,相當于人類的大腦思維。
“自然語言理解是人工智能領域皇冠上的明珠,自然語言處理技術(NLP)是人工智能賦能社會和賦能行業(yè)的硬核科技?!蔽④泚喼扪芯吭涸痹洪L、創(chuàng)新工場首席科學家、ACL前主席周明博士,作為世界頂級的AI科學家、自然語言處理領域代表性人物,在該會議分論壇表示,“自然語言處理技術的重要性比肩芯片、操作系統(tǒng)”。
“它是感知智能基礎上的認知智能最重要的技術。它的進步會推動推理、決策、問題求解等技術,推動人工智能的理論和技術發(fā)展。”周明博士如是表示。
“如果我們能夠推進自然語言處理,就可以再造一個微軟?!睙o獨有偶,美國微軟公司聯(lián)合創(chuàng)始人比爾·蓋茨也對自然語言處理在人工智能時代,及未來社會發(fā)展中的重要性,給予中肯的定義。
看似一小步,實則跋山涉水,行程千萬里。
自然語言處理技術,就是使機器人或計算機設備從標準格式化的問答,變得會學習、有知識、會思考、善交流。包括人們日常用到的搜索引擎、各種智能交互場景,都需要自然語言處理技術的支撐。
隨著互聯(lián)網的發(fā)展,用戶接觸的信息量是20年前的1000倍,從當初的電視、報紙,廣播,到現(xiàn)在的PC端、移動端,對語言翻譯效率提升的要求亦越來越多。

“當我們?yōu)g覽國外網站、新聞資訊等內容時,如果沒有語言翻譯就等于看不懂的‘天書’,只是一頁頁字符,讓人很迷茫?!眰魃裾Z聯(lián)董事長何恩培接受采訪表示, 當前的人工翻譯每年處理的字符量是1500億,而機器翻譯調用的字符量每天就在8000億至10000億之間,這表明信息處理空間達到2400倍。
隨著信息量的增加,未來十年還會從目前經常用到的60對語言進化到150對。按照中國國標,翻譯的準確率要求高達99.7%,而今天的機器翻譯準確率難以超過70%。
人工翻譯準確率高但效率低、成本高;而機器翻譯效率高、成本低但準確率不高。如何將二者優(yōu)勢結合,創(chuàng)造出兼具高準確、高效率、低成本的翻譯服務模式,正是自然語言處理領域最具價值的命題之一。
傳神語聯(lián)正在打造或肩負這樣的角色與使命,不斷探索。既不執(zhí)著于傳統(tǒng)的人工翻譯,也沒有執(zhí)著于機器翻譯。
探索多語智能,求解千年難題
事實上,翻譯作為溝通世界的紐帶與基礎要素,早在東漢就有記載。而在形成規(guī)模和組織后的1600年,行業(yè)都未曾出現(xiàn)重大突破;法國科學家早在1933年開始暢想機器翻譯,在近代50年才有突破性發(fā)展。
2015年是第一次真正意義上的突破,由暢想變?yōu)槌醪綉谩6瑯颖徽J為人類難題的登月計劃,1961年提出,僅11年就得以實現(xiàn),可見自然語言處理的難度遠高于人類很多難題。
隨著全球化深入和數字化時代到來,翻譯不再只是滿足高端人士的工作需求,而是深入人們生活的各個場景與基礎生活需求,如購物、知識獲取、社交等多語需求場景,無時不在,無處不有;未來,新的應用場景像電網上電器一樣,不斷增長。
物流行業(yè)的智能分揀機器人、各種工業(yè)機器人等,都是人工智能相對成熟的“場景邊界”效果。但在“開放世界”中的多語種網頁瀏覽與知識獲取、生活交互場景等,還有很長的路要走。自然語言的處理則是解決這些問題的關鍵。
以上場景的應用,就需要強大的自然語言處理。而當前,一般的機器翻譯引擎都只能在簡單的新聞稿等領域有比較好的表現(xiàn),在復雜的專業(yè)領域則無法勝任。普適性的機器翻譯在廣泛使用上,也已遇到瓶頸。
在此大背景下,創(chuàng)建語聯(lián)網的大膽想法涌入何恩培的腦海,并在心底生根發(fā)芽。
從2011年設想至2017年醞釀問世,傳神語聯(lián)用了6年時間。從調研、論證到技術探索與創(chuàng)新,一次次的自我革命,終于等來傳神語聯(lián)“人+機器,孿生譯員”誕生的這一刻。
“孿生譯員”模式,通過設置“場景邊界”的方式,跟蹤一個翻譯組織乃至一名譯員的翻譯過程,在翻譯結果、上下文等場景化數據中進行學習,建立多維度異構模型并持續(xù)迭代,讓每個翻譯組織或譯員,都可以將自己的翻譯經驗、風格數字化克隆,形成具有專屬特征的孿生翻譯引擎。同時,將自己的翻譯資產,變成24小時躺著賺錢的服務能力。
例如文本解析、智能聚類、智能分拆、智能匹配、智能糾錯、智能合并等一系列技術,都將在這一過程中發(fā)揮作用,組織起幾十、幾百乃至幾千名翻譯人員同時處理一個翻譯任務,并使得每個人都能夠很好地完成自己的工作,從而遠超人工翻譯效率,并保證翻譯結果。
“孿生譯員”在提高翻譯效率和綜合質量基礎上,也可作為機器翻譯引擎對外輸出產能。
人機共譯,是翻譯最終出路
在語聯(lián)網誕生之前,中國甚至全球語言服務行業(yè)的各領域翻譯公司,各自為陣,小而散,成為一個個語言信息的孤島,互不往來,更沒統(tǒng)一標準。語聯(lián)網及“孿生譯員”通過大數據的科技創(chuàng)新與不斷變革,將中國、甚至世界各地的翻譯公司和翻譯人員連接一起,形成一個規(guī)模龐大的智能翻譯矩陣。
基于以上方式,傳神語聯(lián)建立了一個“數據-訓練-應用-數據”的閉環(huán),讓機器在每一次工作中變得越來越聰明,給人類提供越來越多的幫助。每一次任務完成過程中,積累的所有數據和信息都將成為機器翻譯引擎學習的新材料,這就是傳神的“Twinslator”孿生譯員。
“人機共譯才是出路。”傳神創(chuàng)始人何恩培說,語言特殊的人文屬性,決定了未來翻譯絕不是單純機器的事情。
新技術時代,翻譯的突破,更需要人的參與大協(xié)同。
“機器圍棋比賽有固定棋譜規(guī)則可循,語言背后是文化,是生命進化的呈現(xiàn),無法簡單推論與佐證?!眰魃裾Z聯(lián)董事長何恩培曾公開表示,當下的語言服務是機器依賴于人類大腦的思考與加工,人類判斷翻譯標準,使機器翻譯與場景結合,而不是機械性的轉換?! ?/span>
“這是一個不斷探索的過程?!焙味髋啾硎?,到現(xiàn)在為止,自然語言處理技術,連看起來最簡單的文章斷句都無法精準實現(xiàn)。
何恩培說,人類與人工智能的最佳相處方式,或許就是“譯員與孿生譯員”的關系。譯員與孿生譯員的關系,就像工匠和徒弟之間的關系,工匠指導徒弟,徒弟經過某種場景的訓練,創(chuàng)造出孿生譯員的產能,更好的賦能AI,與時代共進步。
傳神語聯(lián)做多語智能的探索者。人賦慧于機器,而機器賦能于人。就像機器賦予人類超越自身極限的“力量”一樣,人也能通過賦慧于機器,讓機器越來越智慧與“通靈”。
編輯:海洋