停止代理通知:本公司已經停止銷售本產品,感謝各位多年支持,造成不方便,敬請原諒。

繁簡體中文網站轉碼系統需求分析 (1) (2)

繁簡文字的差異

中國大陸採用的是gb2312內碼的中文字,台灣、香港及部分海外華人地區採用的是繁體中文big5碼的漢字。

繁體和簡體字的寫法有很大的差異。跟據信使網路繁簡通®開發前的市場調查,雖然大陸對繁體字的辨認能力會比台灣人或香港人對簡體字的辨認能力強一點。這得益於中國大陸20年的對外開放,部分沿海地區的大陸人對繁體字已經沒有障礙。但是對於大多數大陸人來說,閱讀繁體字依然存在障礙,特別是一些常用的香港字,根本讀不出來,更不用說了解其意思。

台灣人讀簡體字的障礙會更大一點。長期在港臺聊天系統中浸泡的人就會知道,大部分台灣人或香港人對異型簡體字幾乎不認識,除了部分是完全同型的之外,其他字結合上下文連蒙帶猜也只能讀對50%左右。這種情況是大陸網站所料不及的。因此,絕大多數的大陸網站實際上完全放棄了海外繁體用戶,卻連自己都不知道。

中文繁簡體轉換有多難?

繁簡轉換如果要做到100%精確,實際上是一個非常複雜的工作。根據轉換的精確性,大概可以分成4個等級:

  1. 字符碼表一對一映射。
  2. 對於一對多單字,根據詞語識別進行轉換。
  3. 對詞語表達方式差異的轉換。
  4. 根據上下文的詞彙翻譯。

等級1: 內碼映射

其轉換機制是按照內碼字符映射表,在繁簡轉換時,用GB2312內碼把Big5內碼替換掉,在繁簡轉換的時候就反過來。例如,GB 2312-80 0xB9FA 代表簡體字國, 繁簡轉換的時候就把它替換成0xB0EA 對應繁體BIG5碼的國字。根據實驗證明,如果按照字符的轉錯幾率來統計,對一般性質的文本,該處理方式可以達到98%的準確率。但其弱點是由於繁簡字體並非一對一的關係,因此忽略掉一些其他較不常用的字。

以下是一個一對一字符內碼映射表的例子:

簡體源 內碼GB(EUC) 繁體目標 BIG5 其他可能
B3F6 A558
B7A2 B56F
B8C9 A47A
B0B5 B774
C0EF B8CC
D5F7 BC78
C3C5 AAF9
CCC0 B4F6

轉換2: 一對多關係的字根據詞語識別轉換

對於一個單字應該翻譯成在當前有可能的異種內碼中的哪一個,我們可以根據該字所在的詞彙來決定。比如,下表:

簡體詞語 繁體詞語 拼音 英文意義
tou2fa0 hair
te4zheng1 characteristic
chu1fa1 start off
gan1zao4 dry
an4li3 secretly
qian1li3 long distance
qiu1qian1 a swing

在上表中,頭髮與出發的“發”字在簡體中是同一字型的,但繁體中卻不一樣。這樣就可以根據“發”字所在的詞彙來對該字進行準確的轉換。如果是頭髮就翻譯成“頭髮”,如果是出發就翻譯成“出發”。

轉換等級三 繁簡詞彙表達方式不同之轉換

有一些詞,在繁體與簡體用戶有不同的表達方式,下表顯示了一些詞彙表達方式差異的例子:

英文 簡體表達方式 中文拼音 繁體表達方式 中文拼音
bit wei4 wei4yuan2
byte zi4jie2 wei4yuan2zu3
CD-ROM guang1pan2 guang1die2
computer ji4suan4ji1 dian4nao3
database shu4ju4ku4 zi1liao4ku4
file wen2jian4 dang4'an4
information xin1xi4 zi1xun4
Internet yin1te4wang3 wang3ji4-wang3lu4
software ruan3jian4 ruan3ti3
week xing1qi1 li3bai4

轉換4: 根據上下文對詞彙翻譯

有一些詞需要根據上下文才能夠準確地決定如何翻譯的,比如在中國大陸的語言習慣中,「文件」可以是通常意義上的「文件」,也可以表達計算機磁片中存取的「文件」(file)。但是在繁體用戶的語言習慣中,這兩個東西就是分別用兩個詞來表達,通常意義上的「文件」和在電腦磁片中保存的「檔案」。

該層次的翻譯需要根據上下文的意思對文章進行斷句或分析。因此,是屬於繁簡互譯中最難做的,而且消耗的系統資源也最大。

這些網站都正在使用 信使網路繁簡通®

英特聶有限公司 www.houseol.com.tw

二合一網路行銷股份有限公司 www.2to1agri.com

友宏科技股份有限公司 www.aptcm.com

惠康旅行社有限公司 www.we-taiwan.com

惠康旅行社有限公司 hotel-tw.yootaiwan.com

慶堂工業股份有限公司 app.fortunevalve.com

創富顧問有限公司 www.venture-aid.com

東森得易購股份有限公司 www.etmall.com.tw

捕夢網數位科技有限公司 www.merica.com.tw

拓墣科技股份有限公司 scrm.topology.com.tw

城邦文化事業股份有限公司 www.cmh.com.tw

臺鹽實業股份有限公司 www.tybio.com.tw

傑立資訊事業有限公司 cht.sgilibrary.org

第一商業銀行股份有限公司 www.firstbank.com.tw

聯網國際資訊股份有限公司 www.cathay-hcm.com.tw

財團法人世界宗教博物館發展基金會附設台北館 www.mwr.org.tw

智擎數位科技股份有限公司 www.funday.asia

遠東航空股份有限公司 www.feairlines.com

汎亞人力資源管理顧問有限公司 www.hitraining.com.tw

汎亞人力資源管理顧問有限公司 www.uhunter.com.cn

財團法人靈鷲山佛教基金會 www.093edu.org.tw

財團法人靈鷲山佛教基金會 www.093books.com.tw

雄獅旅行社股份有限公司 www.liontravel.com

四方通行旅行社股份有限公司 www.easytravel.com.tw

南台科技大學 www.stut.edu.tw

美國在台協會 iipdigital.usembassy.gov

聯合線上股份有限公司 www.udn.com

聯合線上股份有限公司 www.udndata.com

萬維科技股份有限公司 www.tsa.gov.tw

汎亞人力資源管理顧問有限公司 www.9999.com.tw

信使網路繁簡通® 版權所有 © 2017 網路通科技有限公司 [線上人數 28]