認識中文字元碼 - 中央研究院

文章推薦指數: 80 %
投票人數:10人

中文字兼具形、音和義三者,不同於表音字母(alphabets)的只具形和音(例如:英文字母、日語假名、阿拉伯文字等),因而被稱為表意文字(ideographs)。

世界上仍在使用當中 ... Bear'sHouse 資訊科技 認識中文字元碼     首  頁 資訊科技 教育學習 有感而發 相關鏈結 批評指教    五、中文字的屬性與特性 (一)中文字的屬性   中文字兼具形、音和義三者,不同於表音字母(alphabets)的只具形和音(例如:英文字母、日語假名、阿拉伯文字等),因而被稱為表意文字(ideographs)。

世界上仍在使用當中的表意文字,僅有漢字,可區分為中文字及衍生漢字兩大類。

中文字指的是華人所使用的漢字,主要的使用地區包括:台灣、大陸、港澳和新加坡等【註:新加坡直接使用大陸的中文字】。

衍生漢字指的是源自中文字,但非華人所使用的漢字,主要的使用地區包括:日本、韓國、越南等【註:韓國、越南目前已不在日常生活中使用漢字】。

中文字的「形」指的是字的形狀、結構和寫法,「音」指的是字的發音,「義」則是字的意義。

衍生漢字的字形與中文字可能相同或近似,但其音、義卻往往有極大的差異。

就目前的中文資訊處理能力而言,處理中文字的形和音的方法與技術已經達實用的程度,但是對於表達和處理字義的研究,則有待突破。

在本文裡,因此特別把中文字元(簡稱為中文字)的定義限制在形和音兩項。

若是牽涉到字義,則稱為中文詞。

  中文字的屬性(attributes)意指用以描述中文字的形和音的一些訊息,這些訊息主要運用於中文字的輸入、輸出和排序等場合。

中文字的字形屬性,包括: 與中文字輸入相關者:依據某些種輸入法(例如:倉頡輸入法)所逐字賦予的形碼、某些中文碼(例如:Big5碼),甚或不常用的四角碼、三角碼等。

與中文字輸出相關者:某幾種字型(font,例如:楷書、宋體、黑體、隸書等)的點陣,以及依某些種向量組字規範(例如:Truetype、Postscript等)所逐字賦予的字型表示式。

與中文字分類、排序相關者:部首、筆劃數(不含部首)、總筆劃數(含部首)、組字部件、筆順等。

  中文字的字音屬性,主要包括:依某類音標符號系統(例如:國語注音符號、漢語拼音字母等)所逐字賦予的注音等。

國語發音由21個聲母(例如:ㄅ、ㄆ、ㄇ、ㄈ等)和39個韻母(例如:ㄧ、ㄨ、ㄩ、ㄧㄡ、ㄨㄟ、ㄩㄝ等)所組成,若不考慮聲調變化,共有411個基本發音。

加上五聲(第一至第四聲和輕聲)變化,則可演化成2,055個不同的發音。

中國文化大學前教授劉達人先生曾將這些發音加以整理、排序,分別賦予由1到2,055的序號,稱為劉氏音碼。

劉教授並且以六種音標符號(包括:國語注音、韋氏音標、劉氏音標、耶魯音標、羅馬拼音和標準拼音)與劉氏音碼對照排列成表。

劉氏音碼經過詳細的整理,足以涵蓋所有的國語發音,若再配合音標對照表,可提供極具彈性的音碼輸入法。

【註:CNS14754《中文資訊排序屬性標準》即是採用劉氏音碼來表示中文字的發音。

】   (二)中文字的特性   中文字數量龐大,但常用字僅佔少數。

我們無法確知歷來曾經使用過或出現過的中文字總數究竟有多少,但參考圖5-1所示的歷代中文字字數及遞增情形統計表,可發現中文字的總數至少在十萬個以上。

雖然中文字的數量極為龐大,但常用的中文字卻還不到總字數的5%。

國立交通大學林樹教授曾於民國60年間,配合該校的中文電腦計畫,針對11種近代中文用字研究的成果加以彙總統計,分析個別中文字的使用頻率。

在總計2,022,604字次的語料當中,共使用了8,532個不同的中文字。

林樹教授將這些中文字,依其出現頻率區分為四個等級:最常用字、次常用字、間用字和罕用字,如圖5-2所示。

時代 西元年份 書  名 作  者 所收字數 遞增字數 秦   倉頡篇 李斯 3,300   漢 1~5 訓纂篇 揚雄 5,340 2,040 漢 60~70 續訓纂篇 班固 6,120 780 漢 100 說文解字 許慎 9,353 3,233 魏 227~239 聲類 李登 11,520 2,167 晉   字林 呂忱 12,824 1,304 後魏   字統 楊承慶 13,734 910 後魏 480 廣雅 張揖 18,150 4,416 梁 543 玉篇 顧野王 22,726 4,576 唐 751 唐韻 孫愐 26,194 3,468 唐 753 韻海鑑源 顏真卿 26,911 717 宋 1037~1067 集韻 丁度 29,992 3,081 宋 1066 類篇 王洙等 31,319 3,319 明 1615 字彙 梅膺祚 33,179 1,860 明 1675 正字通 張自烈 33,440 261 清 1716 康熙字典 張玉書等 42,174 8,734 現代 1915 中華大字典 中華書局 44,908 2,734 現代 1969 中文大辭典 張其昀等 49,888 4,980 現代 1990 漢語大字典 徐中舒等 54,678 4,790 現代 2004 異體字字典第五版 教育部國語推行委員會 106,230 51,552 圖5-1 歷代中文字字數及遞增情形 級別 字數 字數% 出現次數 出現% 累計字數 累計% 最常用字 1,857 21.77 1,968,791 97.34 1,857 97.34 次常用字 2,068 24.24 45,973 2.27 3,925 99.61 間用字 2,182 25.57 5,415 0.27 6,107 99.88 罕用字 2,425 28.42 2,425 0.12 8,532 100.00 合  計 8,532 100.00 2,022,604 100.00     圖5-2 林樹中文用字分級表   教育部國語推行委員會《八十四年常用語詞調查報告書》就總計1,982,882字次的語料加以分析,共找出5,731個相異的中文字。

根據該報告所附的「字頻總表」,出現頻率最高的中文字「的」其出現頻率為1.65%;出現頻率最高的前100個字的累計出現頻率為34.59%;累計出現頻率50%的字數為212個字;累計出現頻率80%的字數為753個字;累計出現頻率90%的字數為1,244個字;累計出現頻率95%的字數為1,788個字;累計出現頻率99%的字數為3,047個字。

林樹教授和教育部國語會雙方對現代中文用字分析研究的結果相當接近:學會3,000個最常用的中文字就能認得近代中文報章、書籍用字的99%。

【註:認得每個字不代表能讀得懂文章。

】    此外,中央研究院資訊科學研究所前研究員謝清俊教授也針對二十五史的用字做了一番研究,部份結果摘列如下: 二十五史的中文字出現總和為31,409,450字次【註:不含各史當中的表,因為二十五史全文資料庫當時還沒將這些表建檔】,共使用了13,966個中文字,包含於Big5字元集者9,951個字,不在其中的則有4,015個字。

針對個別史,依個別中文字的出現次數由高而低加以排序,並累計其出現頻率畫成頻譜曲線,發現從《史記》到《清史稿》的25條曲線成為近似帶狀的分布。

該頻譜曲線圖中的橫座標為累計字數,縱座標為累計出現頻率,最上方的曲線為《史記》,最下方的曲線為《清史稿》。

將林樹教授所發表的8,532個中文字的個別出現次數,同樣的由高而低加以排序並且累計出現頻率,畫成頻譜曲線,其結果落在二十五史曲線圖的帶狀曲線當中。

分別統計各史所使用的個別中文字,出現頻率最高的前100個字,其累計出現頻率將近每一史總字次的40%;至200字的累計出現頻率,以《史記》的61.78%為最高,而以《清史稿》的48.39%為最低,平均約為50%;至2,000字的累計出現頻率,超過95%;而至4,000字的累計出現頻率,則超過99%。

  二十五史當中,最早的《史記》成書於漢武帝天漢四年(西元前97年),而最晚的《清史稿》則成書於民國16年(西元1927年),前後跨越了兩千餘年。

二十五史雖然都只註錄主編者的姓名,但是以編史的工程浩大,想必是集合眾人之力方可為之。

二十五史雖有其固定的體裁,但是跨時兩千多年,參與編撰者和原始史料撰寫者累計應有成千上萬人之眾,而且語料多達三千餘萬字,對文言文的用字而言,其統計分析的結果應當頗具代表性。

根據林樹教授和教育部國語會針對白話文用字、謝清俊教授針對文言文用字的分析結果,可以合理的推論: 中文字的使用頻率主要是受到個人識字、用字能力的限制,而與時空環境變遷的關係不大。

因此,在跨越兩千多年、文言與白話合計總字次將近三千五百萬字的語料當中,才會出現相當一致的用字累計頻譜曲線。

較常用的中文字,總數不超過4,000。

除此之外的大多數中文字出現在個別文件當中,其頻率平均還不到兩次(事實上,大多數僅出現一次)。

因此,這些非常用中文字之所以出現在文件裡,只是一種隨機現象。

  中文單字的使用頻率會因時、因地,以及因應用領域而異。

例一,「璿」、「堃」兩字原本不是常用的中文字,但是在孫運璿、游錫堃兩位 先生分別擔任行政院長期間,由於他們的姓名幾乎是天天見報,因而使得「璿」、「堃」字的使用頻率明顯激增,幾乎變成新聞業者的常用字。

例二,「冇」(發音近似ㄇㄡˇ,意為「沒有」)為粵語方言字,在香港地區可算是常用字,但在非粵語地區則極少使用。

例三,在一般白話文件裡,使用頻率最高的中文字為「的」,但是在電信、電力、自來水等用戶資料庫裡,「的」字卻甚為罕見,取而代之的最常用字為每個用戶地址裡都有的「號」字。

  中文字集為開放集合。

若一個字元集定案之後,其字元即不再增減或變更,則稱此字元集為封閉集合(closedset)。

相對的,若一個字元集定案之後,其字元仍需增減或變更,則稱此字元集為開放集合(openset)。

英文字元集,由於英文字母和阿拉伯數字依常理不可能增減,加上英文文件中所使用的標點和符號可設限,因此很容易設計成封閉集合。

但中文字集先天上就是開放集合,因為: 中文會因時、因地、因事而造新字,例如:中文字隨著時間而增加字數(請參閱圖5-1)、台灣早期移民常以發音近似的中文字加上「口」邊以音譯原住民地名、武則天為命己名而造新字「曌」、有些化學元素名稱 、魚類名稱、生物化學用字為近代所創等。

到目前為止,還沒有任何中文碼的字元集能夠完整蒐集所有的中文字,因此中文系統的使用者經常因業務所需而加字或造字,例如:姓名、地址裡的特殊字。

  中文字多異體字。

若兩個中文字同音、同義,卻不同字形,則稱這兩個中文字互為異體字。

一般說來,常用的中文字較易於產生異體字。

例如,常用的「台」和「臺」兩字即互為異體字;又依北魏時期的字書《龍龕手 鑑》所載,「國」字即有十幾種不同的寫法。

若異體字只是單純的同音、同義而不同形,兩異體字可隨意互換使用,事情 倒也簡單。

但不幸的,並非如此。

由於中文一字多義,使得一些中文字在某些中文詞裡可以互換(可視為異體字),但在別的中文詞裡卻又不能互換使用。

例如,「五元」可以寫成「伍圓」,但「行伍」卻不同於「行五」,「元首」不能寫成「圓首」。

這種現象對中文資訊檢索造成相當大的困擾。

上一章  返回目錄  下一章  



請為這篇文章評分?