認識中文字元碼 - 中央研究院
文章推薦指數: 80 %
中文字兼具形、音和義三者,不同於表音字母(alphabets)的只具形和音(例如:英文字母、日語假名、阿拉伯文字等),因而被稱為表意文字(ideographs)。
世界上仍在使用當中 ...
Bear'sHouse
資訊科技
認識中文字元碼
首 頁
資訊科技
教育學習
有感而發
相關鏈結
批評指教
五、中文字的屬性與特性
(一)中文字的屬性
中文字兼具形、音和義三者,不同於表音字母(alphabets)的只具形和音(例如:英文字母、日語假名、阿拉伯文字等),因而被稱為表意文字(ideographs)。
世界上仍在使用當中的表意文字,僅有漢字,可區分為中文字及衍生漢字兩大類。
中文字指的是華人所使用的漢字,主要的使用地區包括:台灣、大陸、港澳和新加坡等【註:新加坡直接使用大陸的中文字】。
衍生漢字指的是源自中文字,但非華人所使用的漢字,主要的使用地區包括:日本、韓國、越南等【註:韓國、越南目前已不在日常生活中使用漢字】。
中文字的「形」指的是字的形狀、結構和寫法,「音」指的是字的發音,「義」則是字的意義。
衍生漢字的字形與中文字可能相同或近似,但其音、義卻往往有極大的差異。
就目前的中文資訊處理能力而言,處理中文字的形和音的方法與技術已經達實用的程度,但是對於表達和處理字義的研究,則有待突破。
在本文裡,因此特別把中文字元(簡稱為中文字)的定義限制在形和音兩項。
若是牽涉到字義,則稱為中文詞。
中文字的屬性(attributes)意指用以描述中文字的形和音的一些訊息,這些訊息主要運用於中文字的輸入、輸出和排序等場合。
中文字的字形屬性,包括:
與中文字輸入相關者:依據某些種輸入法(例如:倉頡輸入法)所逐字賦予的形碼、某些中文碼(例如:Big5碼),甚或不常用的四角碼、三角碼等。
與中文字輸出相關者:某幾種字型(font,例如:楷書、宋體、黑體、隸書等)的點陣,以及依某些種向量組字規範(例如:Truetype、Postscript等)所逐字賦予的字型表示式。
與中文字分類、排序相關者:部首、筆劃數(不含部首)、總筆劃數(含部首)、組字部件、筆順等。
中文字的字音屬性,主要包括:依某類音標符號系統(例如:國語注音符號、漢語拼音字母等)所逐字賦予的注音等。
國語發音由21個聲母(例如:ㄅ、ㄆ、ㄇ、ㄈ等)和39個韻母(例如:ㄧ、ㄨ、ㄩ、ㄧㄡ、ㄨㄟ、ㄩㄝ等)所組成,若不考慮聲調變化,共有411個基本發音。
加上五聲(第一至第四聲和輕聲)變化,則可演化成2,055個不同的發音。
中國文化大學前教授劉達人先生曾將這些發音加以整理、排序,分別賦予由1到2,055的序號,稱為劉氏音碼。
劉教授並且以六種音標符號(包括:國語注音、韋氏音標、劉氏音標、耶魯音標、羅馬拼音和標準拼音)與劉氏音碼對照排列成表。
劉氏音碼經過詳細的整理,足以涵蓋所有的國語發音,若再配合音標對照表,可提供極具彈性的音碼輸入法。
【註:CNS14754《中文資訊排序屬性標準》即是採用劉氏音碼來表示中文字的發音。
】
(二)中文字的特性
中文字數量龐大,但常用字僅佔少數。
我們無法確知歷來曾經使用過或出現過的中文字總數究竟有多少,但參考圖5-1所示的歷代中文字字數及遞增情形統計表,可發現中文字的總數至少在十萬個以上。
雖然中文字的數量極為龐大,但常用的中文字卻還不到總字數的5%。
國立交通大學林樹教授曾於民國60年間,配合該校的中文電腦計畫,針對11種近代中文用字研究的成果加以彙總統計,分析個別中文字的使用頻率。
在總計2,022,604字次的語料當中,共使用了8,532個不同的中文字。
林樹教授將這些中文字,依其出現頻率區分為四個等級:最常用字、次常用字、間用字和罕用字,如圖5-2所示。
時代
西元年份
書 名
作 者
所收字數
遞增字數
秦
倉頡篇
李斯
3,300
漢
1~5
訓纂篇
揚雄
5,340
2,040
漢
60~70
續訓纂篇
班固
6,120
780
漢
100
說文解字
許慎
9,353
3,233
魏
227~239
聲類
李登
11,520
2,167
晉
字林
呂忱
12,824
1,304
後魏
字統
楊承慶
13,734
910
後魏
480
廣雅
張揖
18,150
4,416
梁
543
玉篇
顧野王
22,726
4,576
唐
751
唐韻
孫愐
26,194
3,468
唐
753
韻海鑑源
顏真卿
26,911
717
宋
1037~1067
集韻
丁度
29,992
3,081
宋
1066
類篇
王洙等
31,319
3,319
明
1615
字彙
梅膺祚
33,179
1,860
明
1675
正字通
張自烈
33,440
261
清
1716
康熙字典
張玉書等
42,174
8,734
現代
1915
中華大字典
中華書局
44,908
2,734
現代
1969
中文大辭典
張其昀等
49,888
4,980
現代
1990
漢語大字典
徐中舒等
54,678
4,790
現代
2004
異體字字典第五版
教育部國語推行委員會
106,230
51,552
圖5-1 歷代中文字字數及遞增情形
級別
字數
字數%
出現次數
出現%
累計字數
累計%
最常用字
1,857
21.77
1,968,791
97.34
1,857
97.34
次常用字
2,068
24.24
45,973
2.27
3,925
99.61
間用字
2,182
25.57
5,415
0.27
6,107
99.88
罕用字
2,425
28.42
2,425
0.12
8,532
100.00
合 計
8,532
100.00
2,022,604
100.00
圖5-2 林樹中文用字分級表
教育部國語推行委員會《八十四年常用語詞調查報告書》就總計1,982,882字次的語料加以分析,共找出5,731個相異的中文字。
根據該報告所附的「字頻總表」,出現頻率最高的中文字「的」其出現頻率為1.65%;出現頻率最高的前100個字的累計出現頻率為34.59%;累計出現頻率50%的字數為212個字;累計出現頻率80%的字數為753個字;累計出現頻率90%的字數為1,244個字;累計出現頻率95%的字數為1,788個字;累計出現頻率99%的字數為3,047個字。
林樹教授和教育部國語會雙方對現代中文用字分析研究的結果相當接近:學會3,000個最常用的中文字就能認得近代中文報章、書籍用字的99%。
【註:認得每個字不代表能讀得懂文章。
】
此外,中央研究院資訊科學研究所前研究員謝清俊教授也針對二十五史的用字做了一番研究,部份結果摘列如下:
二十五史的中文字出現總和為31,409,450字次【註:不含各史當中的表,因為二十五史全文資料庫當時還沒將這些表建檔】,共使用了13,966個中文字,包含於Big5字元集者9,951個字,不在其中的則有4,015個字。
針對個別史,依個別中文字的出現次數由高而低加以排序,並累計其出現頻率畫成頻譜曲線,發現從《史記》到《清史稿》的25條曲線成為近似帶狀的分布。
該頻譜曲線圖中的橫座標為累計字數,縱座標為累計出現頻率,最上方的曲線為《史記》,最下方的曲線為《清史稿》。
將林樹教授所發表的8,532個中文字的個別出現次數,同樣的由高而低加以排序並且累計出現頻率,畫成頻譜曲線,其結果落在二十五史曲線圖的帶狀曲線當中。
分別統計各史所使用的個別中文字,出現頻率最高的前100個字,其累計出現頻率將近每一史總字次的40%;至200字的累計出現頻率,以《史記》的61.78%為最高,而以《清史稿》的48.39%為最低,平均約為50%;至2,000字的累計出現頻率,超過95%;而至4,000字的累計出現頻率,則超過99%。
二十五史當中,最早的《史記》成書於漢武帝天漢四年(西元前97年),而最晚的《清史稿》則成書於民國16年(西元1927年),前後跨越了兩千餘年。
二十五史雖然都只註錄主編者的姓名,但是以編史的工程浩大,想必是集合眾人之力方可為之。
二十五史雖有其固定的體裁,但是跨時兩千多年,參與編撰者和原始史料撰寫者累計應有成千上萬人之眾,而且語料多達三千餘萬字,對文言文的用字而言,其統計分析的結果應當頗具代表性。
根據林樹教授和教育部國語會針對白話文用字、謝清俊教授針對文言文用字的分析結果,可以合理的推論:
中文字的使用頻率主要是受到個人識字、用字能力的限制,而與時空環境變遷的關係不大。
因此,在跨越兩千多年、文言與白話合計總字次將近三千五百萬字的語料當中,才會出現相當一致的用字累計頻譜曲線。
較常用的中文字,總數不超過4,000。
除此之外的大多數中文字出現在個別文件當中,其頻率平均還不到兩次(事實上,大多數僅出現一次)。
因此,這些非常用中文字之所以出現在文件裡,只是一種隨機現象。
中文單字的使用頻率會因時、因地,以及因應用領域而異。
例一,「璿」、「堃」兩字原本不是常用的中文字,但是在孫運璿、游錫堃兩位
先生分別擔任行政院長期間,由於他們的姓名幾乎是天天見報,因而使得「璿」、「堃」字的使用頻率明顯激增,幾乎變成新聞業者的常用字。
例二,「冇」(發音近似ㄇㄡˇ,意為「沒有」)為粵語方言字,在香港地區可算是常用字,但在非粵語地區則極少使用。
例三,在一般白話文件裡,使用頻率最高的中文字為「的」,但是在電信、電力、自來水等用戶資料庫裡,「的」字卻甚為罕見,取而代之的最常用字為每個用戶地址裡都有的「號」字。
中文字集為開放集合。
若一個字元集定案之後,其字元即不再增減或變更,則稱此字元集為封閉集合(closedset)。
相對的,若一個字元集定案之後,其字元仍需增減或變更,則稱此字元集為開放集合(openset)。
英文字元集,由於英文字母和阿拉伯數字依常理不可能增減,加上英文文件中所使用的標點和符號可設限,因此很容易設計成封閉集合。
但中文字集先天上就是開放集合,因為:
中文會因時、因地、因事而造新字,例如:中文字隨著時間而增加字數(請參閱圖5-1)、台灣早期移民常以發音近似的中文字加上「口」邊以音譯原住民地名、武則天為命己名而造新字「曌」、有些化學元素名稱
、魚類名稱、生物化學用字為近代所創等。
到目前為止,還沒有任何中文碼的字元集能夠完整蒐集所有的中文字,因此中文系統的使用者經常因業務所需而加字或造字,例如:姓名、地址裡的特殊字。
中文字多異體字。
若兩個中文字同音、同義,卻不同字形,則稱這兩個中文字互為異體字。
一般說來,常用的中文字較易於產生異體字。
例如,常用的「台」和「臺」兩字即互為異體字;又依北魏時期的字書《龍龕手
鑑》所載,「國」字即有十幾種不同的寫法。
若異體字只是單純的同音、同義而不同形,兩異體字可隨意互換使用,事情
倒也簡單。
但不幸的,並非如此。
由於中文一字多義,使得一些中文字在某些中文詞裡可以互換(可視為異體字),但在別的中文詞裡卻又不能互換使用。
例如,「五元」可以寫成「伍圓」,但「行伍」卻不同於「行五」,「元首」不能寫成「圓首」。
這種現象對中文資訊檢索造成相當大的困擾。
上一章 返回目錄 下一章
延伸文章資訊
- 1漢字源流 - 中華語文知識庫
- 2漢字解析 - 謝佳玲老師- 國立臺灣師範大學
中文字譜網站提供漢字字典及字譜查詢,並附有許多中文學習網站連結。 ... 是創立在Facebook上的網頁,其建立的目的是希望能夠讓大家明白中文的字源或是辭源。
- 3中文字譜漢英字源字典| 誠品線上
- 4認識中文字元碼 - 中央研究院
中文字兼具形、音和義三者,不同於表音字母(alphabets)的只具形和音(例如:英文字母、日語假名、阿拉伯文字等),因而被稱為表意文字(ideographs)。世界上仍在使用當中 ...
- 5日文五十音背不住?從「字源」速記,輕鬆記憶平假名、片假名!
畢業後,日文自學接觸到「吳氏日文」,才發現原來日文字母有「字源表」! ... 片假名依據漢字的切「片」(部分),筆順同中文漢字的寫法,不用死記, ...