Page 43 - 江西普通高校专升本信息技术
P. 43
第 1 章 计算机基础
中,方阵有94个“区”,每区包含94个“位”,其中“区”的序号由01至94,“位”的序号也是
从01至94。94个区中位置总数=94×94=8836个,共收集了汉字和图形符号共7445个,其中汉字有
6763个,符号682个。在6763个汉字中按其使用的频率和用途大小分成一级常用汉字3755个和二
级常用汉字3008个。一级汉字置于16区至55区,按汉语拼音字母顺序排列;二级汉字置于56区至
87区,按部首排列,采用的部首与一般字典用的部首基本相同,每个区存放的汉字类型见表1-4。
每个汉字都被收录在不同区的不同位上,我们称为汉字的区位码。例如,汉字“中”的区码为
23,位码为67,故区位码为十进制2367。每个汉字的区位码占用两个字节,而且一定不相等,因
此区位码也可以作为汉字输入方法,属于无重码,在熟练掌握汉字的区位码后,录入汉字的速度
是很快的,但若想记忆住全部区位码是相当困难的,常使用于录入特殊符号,如制表符、希腊字
母等。
表 1-4 区位码分区字符表
区码 汉字类型
01~09 特殊符号
10~15 用户自定义符号区(未编码)
16~55 一级汉字,按拼音排序
56~87 二级汉字,按部首 / 笔画排序
88~94 用户自定义汉字区(未编码)
3.国标码(交换码)
1980年,为了使每个汉字有一个全国统一的代码,我国颁布了汉字编码的国家标准代码,简
称国标码,是由国家标准总局1980年发布的一套国家标准,标准号是GB 2312—80,名称为《信
息交换用汉字编码字符集》。这个字符集是我国中文信息处理技术的发展基础,也是目前国内所
有汉字系统的统一标准,和区位码一样也是采用两个字节进行编码。
GB2312虽说是对中文编码,因为汉字也需要继续沿用ASCII中前32个控制字符(见表
1-3ASCII表第3列)。所以,GB2312保留前32字符,就需要将汉字编码向后偏移32,但由于在计
算机机器的内部实际上所有数据、代码,都使用的是二进制,但由于二进制太长难以表示,用
十六进制表示更方便,更直观,所以一般会将32转换成十六进制20H,因此区位码加上20H得到
国标码,这就是GB2312的编码规范。
例18.汉字“中”的区位码十进制为2367,转换成十六进制结果为1743H(注意是每个字节转
换,而不是将整个十进制数转换):
因此汉字“中”的国标码为:3763H。
4.机内码
机内码也叫内码,是汉字在计算机内部的编码,属于无重码。根据国标码的规定,每一个汉
·21·