美國南加州大學的科學家們最近提出一種全新的機器翻譯方法——解碼外語。科學家認為這種翻譯方法今后甚至可以破譯“海豚音”或“外星人語言”。
機器翻譯,簡稱“機譯”,是利用計算機實現從一種自然語言(源語言)文本到另一種或多種自然語言(目標語言)文本的翻譯;而用以翻譯的軟件叫做機譯系統。機譯涉及語言學、計算機科學、認知科學、數學等多個學科,是一門前沿交叉學科。這一充滿挑戰的研究領域,被列為21世紀世界十大科技難題的第一位。
最新成果
新思路:解碼外語
美國南加州大學的科學家們最近提出一種全新的機譯方法——解碼外語。之所以叫“解碼”,是因為他們把英語視為一種初始語言,把需要翻譯的外語看成類似一種加密后的高級文字,通過解碼破譯,把外語“破解”成英語。這種翻譯方法可以運用到任何一種語言中。雖然目前還只能翻譯一些短句或電影字幕,尚未運用到長句或片段翻譯中,但它卻給機譯研究打開了一條新的思路。科學家聲稱:因為不需要任何既有的文本為基礎,這種翻譯方法今后甚至可以對“海豚音”或“外星人語言”進行破譯。
新應用:即時翻譯
日前,谷歌推出了一款手機翻譯軟件,能讓手機即時翻譯用戶通話。對著谷歌Android智能手機講話的用戶,將會聽到他們的話被翻譯成另外一種語言;而通話對方的話也會被翻譯成該用戶的母語。這是因為它擁有較強的語音識別技術,可以通過聲音實現自動檢索,再將語音識別和機譯結合在一起。這款軟件的翻譯語言目前僅限于英語和西班牙語。但谷歌表示,不久的將來將會推出包括其他語言的升級版本。
這是日本發明的愛犬翻譯機。狗狗的頸部套上一只無線麥克風,主人握有一只手持接收器。愛犬的吠聲、狂叫和哀嗚將分別與數據庫存貯的聲音對比后翻譯成為“好無聊呀”、“我喜歡你”等。CFP
從盲目樂觀到“不可行”——機譯發展浮沉
早在古希臘時代就有人提出利用機械裝置來進行語言翻譯的想法;然而,只有在計算機問世后,機譯的夢想才逐漸變成現實。被譽為機譯鼻祖的美國數學家、工程師沃倫·韋弗(Warren Weaver)于1947年的各類交談和信件中多次提到機譯的設想,并于1949年7月發表了其有著廣泛而深遠影響的備忘錄——《翻譯》,正式提出了機譯問題。此后的60多年中,機譯研究經歷了艱難而曲折的發展歷程,有成功和興奮,但更多的是挫折和困惑。
1954年,美國喬治敦大學在IBM公司協助下,用IBM-701型計算機首次完成了英俄機譯試驗,向公眾和科學界展示了機譯的可行性,從而拉開了機譯研究的序幕。隨后蘇聯、英國、中國、法國、日本、加拿大等也相繼進行了機譯試驗。機譯研究一時出現熱潮;在這個時期,機譯雖然剛剛處于開創階段,但很快就進入了盲目樂觀的泡沫期。
當時由于人們忽略了自然語言和翻譯本身的復雜性以及機器自身的局限性,機譯系統的翻譯質量很差,還鬧出了不少笑話。最著名的例子是,當英語諺語“心有余而力不足”翻譯成俄語時,其意思卻變成“酒是好的,肉變質了”。1964年,為了對機譯的研究進展作出評價,美國科學院成立了語言自動處理咨詢委員會(ALPAC),開始了為期兩年的綜合調查分析和測試。ALPAC于1966年11月公布了一個題為《語言與機器》的報告;該報告全面否定了機譯的可行性,并建議停止對機譯項目的資金支持。這份報告的公開發表給了正在蓬勃發展的機譯當頭一棒,各國的機譯研究陷入了近乎停滯的僵局。
打開電腦上網翻譯——互聯網讓機譯再次風靡
全球化進程的加速以及國際交流的日趨頻繁,讓人們對于翻譯的需求空前增長,而互聯網的發展讓機譯迎來了一個全新的機遇。從上世紀80年代中期開始,基于語料庫或多引擎的機譯方法在研發中得以廣泛運用,機譯系統的性能、效率和譯文質量都有了明顯的提高;各式各樣的翻譯軟件如雨后春筍般層出不窮。
如今功能較強、方便易用的在線翻譯工具有谷歌翻譯、雅虎翻譯、臉譜翻譯、巴比倫翻譯等,其中谷歌翻譯最具特色。谷歌翻譯目前可提供63種主要語言之間的即時翻譯;它可以提供所支持的任意兩種語言之間的互譯,包括字詞、句子、文本和網頁翻譯。谷歌翻譯主要是采用統計翻譯模型,往計算機內輸入大量的文字文本,包括源語言的文本,以及對應目標語言人工翻譯的文本,通過海量統計數據來提高翻譯精確度。谷歌翻譯之所以采用統計翻譯模型一個重要原因就是谷歌的云計算架構;該架構擁有谷歌研發的分布式計算系統(MapReduce)和分布式存儲系統(BigTable)。
近年來,各種翻譯機不斷問世。人們在關注軟件質量的同時,對外形的要求也越來越高。圖為卡通造型的翻譯機器人。資料圖片
2029年機譯質量能否達到人工翻譯水準——我們拭目以待
美國發明家、未來學家雷·科茲威爾(Ray Kurzweil)最近在接受《赫芬頓郵報》采訪時預言,到2029年機譯的質量將達到人工翻譯的水準。
對于這一論斷,還存在很多爭議。但不可否認的是,目前是人們對機譯最為看好的時期,這種關注是建立在一個客觀認識和理性思考的基礎上的。我們也有理由相信:隨著科學技術的發展,尤其是人工智能的突破,機譯的瓶頸問題將會得以解決。
不過就已有的成就來看,機譯系統的譯文質量離終極目標仍相差甚遠;而機譯質量是機譯系統成敗的關鍵。中國數學家、語言學家周海中曾在論文《機器翻譯五十年》中指出:要提高機譯的質量,首先要解決的是語言本身問題而不是程序設計問題;單靠若干程序來做機譯系統,肯定是無法提高機譯質量的。另外,在人類尚未明了“人腦是如何進行語言的模糊識別和邏輯判斷”的情況下,機譯要想達到“信、達、雅”的程度是不可能的。這些都是制約機譯質量提高的瓶頸。
不管怎么說,現在匆忙下結論為時過早,還是讓我們拭目以待吧!
(作者:李浩 金文) |