機器翻譯之簡介
Introduction of Machine Translation

機器翻譯(MT)係計算語言學(computational linguistics) 的一項分支領域,可定義為藉由“電腦運算法則,將輸入的原始語言(source language) 翻譯成所需的目標語言(target language)” (張、陳, 2008, p. 1 ) 或是藉由電腦軟體,將一種自然語言文本或論述譯為另一種語言。

早期MT系統採用規則法 (rule-based approach),此方法乃是於電腦系統中輸入詞彙相關的詞型、詞義、詞構、語法、語音等訊息(可依不同字典分類)及文法規則,再根據這些字彙及規則,將譯出語 (source language/SL)文本剖析(parse)成中立、象徵形式之表徵 (intermediary & symbolic representation),然後再轉換成譯入語 (target language/ TL)的表述。此方法之MT必須經由分析 (analysis)、轉換 (transfer)、合成或生成 (generation)三步驟以產生譯文。其結果往往是逐字翻譯 (word-for-word translation),譯句讀起來生硬饒舌;規則法MT較適用於技術文件之翻譯,因其專業詞彙多,字詞變化小且句型簡單固定,故MT譯文品質之正確率較高。值得注意的是,若是MT字典的某一種專業詞彙數量夠多、原文文本之句構變化也小,採用此方法,則其MT譯文之正確率可達80%以上,諸如氣象報告;目前,加拿大國家氣象局每日發布的氣象預告,即是採用字典/規則法的Taum Météo系統處理,因為自1976年使用至今,已累積龐大的字彙量,故其英法語對之譯文正確性高達95%以上 (Shih 2006, p. 419)。

另一種MT方法是例句/統計法 (example/ statistics-based),此方法乃是先於MT 系統內建置雙語資料庫 (bilingual text corpora),而後再使用統計方法,找出機率最高的句子作為翻譯例句。更詳細地說,此乃是「通過一系列異常繁雜的演算法,計算後得出一個翻譯模型,然後通過對翻譯模型的解碼實現翻譯過程。通俗點說,就是對一種語言進行數學統計,哪兩個詞在一起使用的次數多,哪兩個句子的搭配可能性大,按照概率計算,最終統計出一個語言模型」(雷赫2008)。簡言之,統計法之基本原理是通過搜索大量的雙語網頁內容,將其作為資料庫,然後由電腦自動選取最常見的詞與詞的對應。目前線上Google MT 即是採用此方法,並於2005年在美國國家標準與科技局(National Institute of Standards and Technology)所舉辦的機器翻譯比賽中,擊敗了學界包括英國愛丁堡大學(University of Edinburgh)及中國哈爾賓工業大學等與IBM的軟體,獲得最高分 (Kanellos 2005, the website of CNET Networks, Inc.)。「Google的機器翻譯雖不完美,但卻足以領先對手甚多。以滿分1分來計算,Google的阿拉伯文翻譯得分0.5137,中文則得分0.3531。排名第二的是南加大資訊科學學院,得分前者為0.4657,中文則為0.3073。IBM排名第三,前者0.4646,中文則為0.2571」(同上) 。根據 Kanellos (2005) 的看法,Google勝出的優勢可能是來自於該公司網羅了龐大的資料來源。透過本身的搜尋業務,Google蒐集了上億的翻譯網頁(同上)。

本研究將採取上述兩種MT系統,以測試控制語言規範之適用性。譯經(TransWhiz)代表規則法MT系統,乃是台灣歐泰科技公司所研發的翻譯科技軟體,而例句/統計法MT系統則以Google MT為代表,乃是Google公司研發的翻譯科技軟體。