|
網站繁簡體中文轉碼系統需求分析 (1)
(2)
繁簡文字的差異
大陸採用的是gb2312內碼的中文字,台灣、香港及部分海外華人地區採用的是繁體中文big5碼的漢字。
繁體和簡體字的寫法有很大的差異。跟據信使網路繁簡通®開發前的市場調查,大陸對繁體字的辨認能力會比台灣人或香港人對簡體字的辨認能力強一點。這得益於中國大陸20年的對外開放,部分沿海地區的大陸人對繁體字已經沒有障礙。但是,對於大多數大陸人來說,閱讀繁體字依然存在障礙,特別是一些常用的香港字,根本讀不出來,更不用說了解其意思。
台灣人讀簡體字的障礙會更大一點。長期在港臺聊天系統中浸泡的人就會知道,大部分台灣人或香港人對異型簡體字幾乎不認識,除了部分是完全同型的之外,其他字結合上下文連蒙帶猜也只能讀對50%左右。這種情況是大陸網站所料不及的。因此,絕大多數的大陸網站實際上完全放棄了海外繁體用戶,卻連自己都不知道。
中文繁簡體轉換有多難?
繁簡轉換如果要做到100%精確,實際上是一個非常複雜的工作。根據轉換的精確性,大概可以分成4個等級:
- 字符碼表一對一映射。
- 對於一對多單字,根據詞語識別進行轉換。
- 對詞語表達方式差異的轉換。
- 根據上下文的詞彙翻譯。
等級1: 內碼映射
其轉換機制是按照內碼字符映射表,在簡繁轉換時,用GB2312內碼把Big5內碼替換掉,在繁簡轉換的時候就反過來。例如,GB 2312-80 0xB9FA 代表簡體字國, 簡繁轉換的時候就把它替換成0xB0EA 對應繁體BIG5碼的國字。根據實驗證明,如果按照字符的轉錯幾率來統計,對一般性質的文本,該處理方式可以達到98%的準確率。但其弱點是由於簡繁字體並非一對一的關係,因此忽略掉一些其他較不常用的字。
以下是一個一對一字符內碼映射表的例子:
| 簡體源 |
內碼GB(EUC) |
繁體目標 |
BIG5 |
其他可能 |
 |
B3F6 |
 |
A558 |
 |
 |
B7A2 |
 |
B56F |
 |
 |
B8C9 |
 |
A47A |
 |
 |
B0B5 |
 |
B774 |
 |
 |
C0EF |
 |
B8CC |
 |
 |
D5F7 |
 |
BC78 |
 |
 |
C3C5 |
 |
AAF9 |
|
 |
CCC0 |
 |
B4F6 |
|
轉換2: 一對多關係的字根據詞語識別轉換
對於一個單字應該翻譯成在當前有可能的異種內碼中的哪一個,我們可以根據該字所在的詞彙來決定。比如,下表:
| 簡體詞語 |
繁體詞語 |
拼音 |
英文意義 |
 |
 |
tou2fa0 |
hair |
 |
 |
te4zheng1 |
characteristic |
 |
 |
chu1fa1 |
start off |
 |
 |
gan1zao4 |
dry |
 |
 |
an4li3 |
secretly |
 |
 |
qian1li3 |
long distance |
 |
 |
qiu1qian1 |
a swing |
在上表中,頭髮與出發的“發”字在簡體中是同一字型的,但繁體中卻不一樣。這樣就可以根據“發”字所在的詞彙來對該字進行準確的轉換。如果是頭髮就翻譯成“頭髮”,如果是出發就翻譯成“出發”。
轉換等級三 繁簡詞彙表達方式不同之轉換
有一些詞,在繁體與簡體用戶有不同的表達方式,下表顯示了一些詞彙表達方式差異的例子:
| 英文 |
簡體表達方式 |
中文拼音 |
繁體表達方式 |
中文拼音 |
| bit |
 |
wei4 |
 |
wei4yuan2 |
| byte |
 |
zi4jie2 |
 |
wei4yuan2zu3
|
| CD-ROM |
 |
guang1pan2 |
 |
guang1die2 |
| computer |
 |
ji4suan4ji1 |
 |
dian4nao3 |
| database |
 |
shu4ju4ku4 |
 |
zi1liao4ku4 |
| file |
 |
wen2jian4 |
 |
dang4'an4 |
| information |
 |
xin1xi4 |
 |
zi1xun4 |
| Internet |
 |
yin1te4wang3 |
 |
wang3ji4-wang3lu4 |
| software |
 |
ruan3jian4 |
 |
ruan3ti3 |
| week |
 |
xing1qi1 |
 |
li3bai4 |
轉換4: 根據上下文對詞彙翻譯
有一些詞需要根據上下文才能夠準確地決定如何翻譯的,比如在中國大陸的語言習慣中,「文件」可以是通常意義上的「文件」,也可以表達計算機磁片中存取的「文件」(file)。但是在繁體用戶的語言習慣中,這兩個東西就是分別用兩個詞來表達,通常意義上的「文件」和在電腦磁片中保存的「檔案」。
該層次的翻譯需要根據上下文的意思對文章進行斷句或分析。因此,是屬於繁簡互譯中最難做的,而且消耗的系統資源也最大。
網站繁簡體中文轉碼系統需求分析(2)
|