中文信息处理中文信息处理是指用电子计算机对中文的音、形、义等信息进行处理和加工。中文信息处理是自然语言信息处理的一个分支,是一门与计算机科学、语言学、数学、信息学、声学等多种学科相关联的综合性学科。信息处理技术在现代有广泛的应用,从1980年代开始,中文信息处理进入了快速发展阶段,并极大地提高了中文社会的信息处理效率。 中文信息处理分为汉字信息处理与汉语信息处理两部分,具体内容包括对字、词、句、篇章的输入、存储、传输、输出、识别、转换、压缩、检索、分析、理解和生成等方面的处理技术。 基於歷史、國家疆域、政治等各種問題,中文信息处理系統所需要處理的文字,有時不仅包括漢文(繁简体汉字),也包括藏文、蒙文、壮文、维吾尔文等大量中國少數民族的文字,周邊國家的日語假名、諺文,还包括古汉语文字、西夏文、契丹文等各種不同的文字。 中文信息處理可以從硬體及軟體兩方面去看,以下詳述中文信息處理的發展歷史、現況及未來發展等多方面的面貌。 範疇
相关学科语言文字学、计算机科学、模式识别、人工智能、心理学、数学、数理统计、控制论、神经计算、模型论、信息学、形式化理论、声学等 發展歷史電腦在1946年發明,當時的電腦主要用於計算。及至1960年代,商用電腦開始普及,電腦被用於處理大規模的數據,當中其一個重要項目是圖書館的目錄整理。在當時,美國國會圖書館及多家大學都有不少來自東亞的藏書。為了有效管理這批藏書,必須要有一套有效處理東亞文字的系統。這套系統包括了兩方面:其一是如何把東亞文字儲存在電腦內;其二是如何在電腦表示出東亞文字。 1959年,麻省理工學院電機工程系教授Samuel Hawks Caldwell在軍方財政支持下,發明第一部處理中文電腦,稱為SinoType(常州华文印刷新技术)。Caldwell在哈佛大學漢學教授楊聯陞幫助下,研究漢字結構,發明按筆劃分拆,以二十二鍵鍵盤,用筆劃輸入中文。SinoType操作接近中文打字機,操作員在鍵盤輸入筆劃,電腦按輸入編成內碼,以光學矩陣顯示。操作員確認輸入後按"影"鍵,即行打印。按當時的實驗,操作員受八小時訓練後,中文字輸入速度為每四秒一字。SinoType的發明及設計,記載於1959年6月計算機學報Journal of Franklin Institute。一年後Samuel Caldwell過世,SinoType未被重用,然而其技術卻成為日後中文處理基礎。[1][2] 在過去,每一台電腦都有各自的數據表達方式,使電腦之間不能溝通。到1960年代美國信息交換標準碼(ASCII)的出現,電腦之間才可以互相溝通。不過,ASCII並不能有效處理英文以外的文字。而當時美國的圖書館開始電腦化,一批中文書有待編入目錄。 最早商用可以處理中文的電腦,可以追溯到1970年。在當年舉辦的日本大阪萬國博覽會上,IBM公司公開了部分漢字處理系統的技術資料,到了1971年正式發表。當時公布的機種包括有「IBM 2345 漢字印刷機」、「IBM 029 漢字穿孔機」、「IBM System/360-System/370 OS/VS」及「DOS/VSE」等。其後,日本本土公司也爭相開發,包括有富士通的JEF(Japanese processing Extended Facility)、NEC的JIPS(Japanese Information Processing System)及日立的KEIS(Kanji processing Extended Information System)等,全是大型電腦。到了1979年5月,NEC發表了可使用漢字ROM的私人電腦PC-8000系列;到了1982年10月,更開發出有名的16位元的PC-9801私人電腦,能處理漢字的電腦在日本漸漸普及。在1970年代末期,更出現一種專門用作編輯文件的文書處理器,可看成為一種擁有特定功能的小型電腦,1980年代中後期再演化成手提方式,並可打印出漢字。至於輸入方式,由1978年9月26日東芝發售「JW-10」起,「假名漢字變換」成為主流的漢字輸入法;即以日文拼音的方式,配合人工智能,輸入漢字詞匯。在還沒有真正的中文電腦前,中國大陸部分學者依靠入口日本的電腦來處理中文。 1973年,中國新華社派出考察團到日本,參觀了日本共同社、日立、日本電氣、松下及东芝等公司。他們看到共同社採用磁芯技術解决了2000左右漢字和片假名的存儲問題,並發現工作人员使用大鍵盤方式輸入稿件。他們回國後,提出了採用電腦技術改善新華社收發編印四方面,並由中國四機部(民用機械、核工業和核武器、航空及電子工業)與北京市科技局邀請了富士通等公司到中國進行技術座談會。後來,四機部提出研制漢字信息處理系统。在1974年8月,中國開始了748工程,包括了用計算機來處理中文字,展開了各種研究工作,後來到1980年公佈了GB 2312-80漢字編碼的國家標準,1983年中國科學院研究Unix中文化,1985年推出了Unix中文版。 台灣方面,早期美國空軍研究部門曾經與IBM公司合作研發中文電腦,而多家公司也開發了終端機式的中文系統,包括有王安、工技院(中華一號到中華三號)及神通等。這些機器多數採用大鍵盤的輸入方式,有數十至數百個鍵。到了1976年,中文電腦之父朱邦復發明了一套形意檢字法,並在1978年改進為倉頡輸入法,以英文鍵盤輸入中文。在1979年,朱邦復提出以圖形功能及從顯示器的英文字符產生器入手,研發中文電腦,並由宏碁公司出產。之後,在原有英文操作系統上外掛中文系統的方法大行其道,多套中文軟件相繼推出,包括有國喬、倚天及仲鼎等。 中文信息处理在20世纪经历了两次高潮:1990年前后,核心内容是汉字的计算机处理问题;经过几年的发展低潮之后,2000年之前,中文信息处理的重点转向语音识别、语音合成和语义处理方面。 被打字机忽视的时代在20世纪上半叶,英文打字机的普及极大的提高了文字资料的录入速度。但由于打字机设计之初,并没有考虑到非字母输入(比如中文等其他文字)的需要,再加上当时中国的积弱,打印机在中国并没有普及。但仍然在当时出现了中文打字机,不过这些打印机大都需要配备数千个铅字组成的大字盘,机器成本昂贵和操作相比活字印刷并没有优势。汉字的输入难题,还体现在活字印刷术的应用历史中。虽然早在北宋就已经发明泥活字,随后在元朝、明朝又发明了木活字、铜活字,但一直到晚清西方技术传入,中国的印刷仍然以雕版为主。这最主要的难题就是在大量使用生僻字、异体字的时代,汉字的印刷活字起码需要应付上万个不同字符。而西方字母文字仅需要几十个不同字符就足够用了。 稳健的基础:计算机时代20世纪中叶,计算机开始出现,并进入中文地区,由于和打字机同样的理由,设计当初并没有考虑到中文等非英语文字的处理问题,使得计算机在最初的使用裡,中文处理成了一个很大的问题,甚至于有人重拾汉字拉丁化问题。中文处理的大量基础也都是在这一阶段完成的,甚至出现了足以媲美英语的中文处理系统。 汉字信息处理阶段
学术理论1990年代中期,最为普及的计算机操作系统由DOS升级到Windows平台。微软公司从繁體中文版的Windows 3.0及簡體中文版的Windows 3.2开始,在操作系统裡集成了汉字处理技术,使传统中文信息处理产品迅速失去了市场。中文信息处理进入一个低谷,原先做中文信息处理的公司纷纷转行。Windows 2000及以上版本,无论采用何种文字,均已支持中文处理。 快速追赶:PC时代随着PC(個人電腦)在20世纪末21世纪初在中文地区的普及,中文信息处理出现了巨大的发展。
超越:触控时代
自2006年开始,随着微软的Surface平板电脑的问世,人机交互方式发生了巨大的变革。一种接近人类日常沟通模式的人机交互模式已经大量应用于最新的科技产品之中。新的汉字构造分解技术,中文智能输入的已有积累,中文字体的表现力,中文手写的安全性等方面都远远超越了英文,中文输入的方便开始出现明显超越的趋势。第二代象形输入法也开始在新产品中应用,其输入效率通过基本的适应期之后,已经可以超越了原有的所有输入法。 汉语信息处理阶段與此同時,為方便使中國各民族電腦化的步伐加快,政府作出一連串行動去使這些民族的語言更便於“計算機化”。這一連串行動包括以下各項:
電腦對漢字的親和性增加,而Unicode在統漢碼之後,亦不斷推出擴展A至G計劃,以涵蓋歷史上所有曾經出現過及使用過的漢字,並為它們編碼記錄。現時已整理好接近十萬個漢字。 中文電腦系統运行在DOS上的中文系統下列都是1980年代出產的軟件,隨著Windows通行都逐一沒落了。
對中文電腦有貢獻的人
參考書籍
專業期刊参考文献
外部链接
|