簡化字和繁體字的差異,是兩岸文字中的主要歧異,也是兩岸深化交流的障礙。因此,2009年在長沙召開的第五屆兩岸經(jīng)貿(mào)文化論壇共同提出兩岸開發(fā)簡繁字智慧轉(zhuǎn)換系統(tǒng)的建議。大陸不少單位開展了此項轉(zhuǎn)換系統(tǒng)的研製,取得了積極的成果。但轉(zhuǎn)換正確率高的一般在97%左右,達不到完全應用的要求。由國家語委有關部門牽頭,由廈門大學、教育部語用所和北師大三家聯(lián)合研製的“漢字簡繁文本智慧轉(zhuǎn)換系統(tǒng)”的成功,達到了在實際轉(zhuǎn)換中放心使用的水準,其準確率經(jīng)中國資訊學會專家測試達到了99.9%,這是很難得的成績。
以前轉(zhuǎn)換準確率不能突破的瓶頸,在於簡繁字間一對多和同音代替簡化形成的少數(shù)字的對應上。前者如“團—團、糰”、“臺—臺、檯、颱”;後者如:“裏—裏、裏”、“後—後、後”等。要準確對應,必須分清它們在不同語境中的不同含義。如“團”指事物聚合,而“糰”則是一種特別食品,在不同語境中要分別不同對應。同音代替的簡繁字對應更增加了複雜性。除簡繁對應關係外,它本身在傳承字的繁體中也是一個獨立的並未簡化的字,這些字在兩岸是一樣的,如“裏、後”。它們對應的除繁體字“裏、後”外,還與傳承字“裏、後”對應。這種情況一般就容易轉(zhuǎn)換錯誤。
要解決上述問題,必須研究一個覆蓋所有簡繁對應出現(xiàn)語境的語料庫,預設出不同語境轉(zhuǎn)機換的對應關係。以前未能完全突破轉(zhuǎn)換的瓶頸,主要就是這個語料庫沒有研製好,缺乏簡繁字對應關係出現(xiàn)不同語境的全部語料。這是一件要下大力氣才能完成的任務。這次研製的智慧轉(zhuǎn)換系統(tǒng)就因為有這個語料庫作支撐,所以轉(zhuǎn)換正確率就大大提高了。
這次研製成的轉(zhuǎn)換系統(tǒng),與過去不少轉(zhuǎn)換系統(tǒng)相比還有一個鮮明的特點,即它明確是為海峽兩岸交流轉(zhuǎn)換服務的,也就是大陸用的是“規(guī)範字”,轉(zhuǎn)換後與之對應的是臺灣的“標準字”(也就是臺灣當局法定的規(guī)範字,繁體字在臺灣和香港之間就有差異)。這種簡繁字的對應問題,過去主要靠手工操作,不僅費時費力,還常易出錯?,F(xiàn)在有了這個“漢字簡繁文本智慧轉(zhuǎn)換系統(tǒng)”,基本上可以一鍵搞定,不僅方便,還極大地提高了正確率。
這次研製的智慧轉(zhuǎn)換系統(tǒng),還有一個優(yōu)於過去轉(zhuǎn)換系統(tǒng)的地方,即它不僅可以正確轉(zhuǎn)換簡繁字,還可以轉(zhuǎn)換兩岸不同的標點符號和常用的科技術語。這可以使轉(zhuǎn)換的文本達到相互直接認同的要求,無疑提高了轉(zhuǎn)換工作的品質(zhì),拓展了轉(zhuǎn)換的空間。
該系統(tǒng)已免費供各需要轉(zhuǎn)換簡繁字的領域使用,真正為兩岸簡繁字文本正確、快速轉(zhuǎn)換搭建了一座金橋。(李行健 作者係語文出版社原社長、《兩岸常用詞典》主編)
《中國教育報》2015年2月26日第2版
[ 責任編輯:王怡然 ]
原稿件標題URL:
原稿件作者:
轉(zhuǎn)載編輯:王怡然
原稿件來源:中國教育新聞網(wǎng)—中國教育報