網站繁簡體中文轉碼系統需求分析 (1) (2)

繁簡文字的差異

大陸採用的是gb2312內碼的中文字,台灣、香港及部分海外華人地區採用的是繁體中文big5碼的漢字。

繁體和簡體字的寫法有很大的差異。跟據信使網路繁簡通®開發前的市場調查,大陸對繁體字的辨認能力會比台灣人或香港人對簡體字的辨認能力強一點。這得益於中國大陸20年的對外開放,部分沿海地區的大陸人對繁體字已經沒有障礙。但是,對於大多數大陸人來說,閱讀繁體字依然存在障礙,特別是一些常用的香港字,根本讀不出來,更不用說了解其意思。

台灣人讀簡體字的障礙會更大一點。長期在港臺聊天系統中浸泡的人就會知道,大部分台灣人或香港人對異型簡體字幾乎不認識,除了部分是完全同型的之外,其他字結合上下文連蒙帶猜也只能讀對50%左右。這種情況是大陸網站所料不及的。因此,絕大多數的大陸網站實際上完全放棄了海外繁體用戶,卻連自己都不知道。 中文繁簡體轉換有多難?

繁簡轉換如果要做到100%精確,實際上是一個非常複雜的工作。根據轉換的精確性,大概可以分成4個等級:

  1. 字符碼表一對一映射。
  2. 對於一對多單字,根據詞語識別進行轉換。
  3. 對詞語表達方式差異的轉換。
  4. 根據上下文的詞彙翻譯。

等級1: 內碼映射

其轉換機制是按照內碼字符映射表,在簡繁轉換時,用GB2312內碼把Big5內碼替換掉,在繁簡轉換的時候就反過來。例如,GB 2312-80 0xB9FA 代表簡體字國, 簡繁轉換的時候就把它替換成0xB0EA 對應繁體BIG5碼的國字。根據實驗證明,如果按照字符的轉錯幾率來統計,對一般性質的文本,該處理方式可以達到98%的準確率。但其弱點是由於簡繁字體並非一對一的關係,因此忽略掉一些其他較不常用的字。

以下是一個一對一字符內碼映射表的例子:

簡體源 內碼GB(EUC) 繁體目標 BIG5 其他可能
B3F6 A558
B7A2 B56F
B8C9 A47A
B0B5 B774
C0EF B8CC
D5F7 BC78
C3C5 AAF9
CCC0 B4F6

轉換2: 一對多關係的字根據詞語識別轉換

對於一個單字應該翻譯成在當前有可能的異種內碼中的哪一個,我們可以根據該字所在的詞彙來決定。比如,下表:
簡體詞語 繁體詞語 拼音 英文意義
tou2fa0 hair
te4zheng1 characteristic
chu1fa1 start off
gan1zao4 dry
an4li3 secretly
qian1li3 long distance
qiu1qian1 a swing

在上表中,頭髮與出發的“發”字在簡體中是同一字型的,但繁體中卻不一樣。這樣就可以根據“發”字所在的詞彙來對該字進行準確的轉換。如果是頭髮就翻譯成“頭髮”,如果是出發就翻譯成“出發”。

轉換等級三 繁簡詞彙表達方式不同之轉換

有一些詞,在繁體與簡體用戶有不同的表達方式,下表顯示了一些詞彙表達方式差異的例子:

英文 簡體表達方式 中文拼音 繁體表達方式 中文拼音
bit wei4 wei4yuan2
byte zi4jie2 wei4yuan2zu3
CD-ROM guang1pan2 guang1die2
computer ji4suan4ji1 dian4nao3
database shu4ju4ku4 zi1liao4ku4
file wen2jian4 dang4'an4
information xin1xi4 zi1xun4
Internet yin1te4wang3 wang3ji4-wang3lu4
software ruan3jian4 ruan3ti3
week xing1qi1 li3bai4

轉換4: 根據上下文對詞彙翻譯

有一些詞需要根據上下文才能夠準確地決定如何翻譯的,比如在中國大陸的語言習慣中,「文件」可以是通常意義上的「文件」,也可以表達計算機磁片中存取的「文件」(file)。但是在繁體用戶的語言習慣中,這兩個東西就是分別用兩個詞來表達,通常意義上的「文件」和在電腦磁片中保存的「檔案」。

該層次的翻譯需要根據上下文的意思對文章進行斷句或分析。因此,是屬於繁簡互譯中最難做的,而且消耗的系統資源也最大。

網站繁簡體中文轉碼系統需求分析(2)

 
繁簡通Blog 需求分析 相關報導 常見問題 合作夥伴
版權所有 © 網路通科技有限公司