unicode字符集是unicode联盟开发的一种多少位字符编码标准?
最初的unicode编码是固定长度的,16位,即表示一个字符的两个字节,因此总共可以表示65536个字符。显然,这还不足以用各种语言来表示所有字符。unicode4.0规范考虑了这种情况,并定义了一组附加字符代码。附加字符代码由两个16位表示,因此最多可以定义1048576个附加字符。目前,unicode4.0中只定义了45960个附加字符。
unicode只是一种编码规范。目前,unicode编码只有三种:utf-8、ucs-2和utf-16。这三种unicode字符集可以根据规范进行转换。
unicode字符集是unicode联盟开发的一种多少位字符编码标准?
unicode代码扩展自ascii字符集。在严格的ascii中,每个字符由7位或8位宽表示,这在计算机上是常用的,而unicode使用完整的16位字符集。这使得unicode能够表示字符、象形文字和其他符号,这些符号可以用世界上所有的书写语言进行计算机通信。unicode最初是作为ascii的补充,如果可能的话,最终将取代它。考虑到ascii是计算机中最主要的标准,这确实是一个很高的目标。
unicode影响到计算机行业的每一个部分,但对操作系统和编程语言的影响可能最大。这样,我们就在路上了。windowsnt从底层支持unicode。
目前,计算机中使用最广泛的字符集及其编码是美国国家标准局(ansi)开发的美国信息交换标准码(ascii)。它已被国际标准化组织(iso)定为国际标准,称为iso646标准。适合所有拉丁字母,ascii码有7位码和8位码。
unicode中只有一个字符集。在unicode中,中文、日文和韩文字符占据0x3000到0x9fff的部分。目前,ucs-2在unicode中得到了广泛的应用,它将一个字符编码为两个字节。例如,汉字“京”的编码是0x7ecf。注意,字符编码通常用十六进制表示。为了区别于十进制,十六进制从0x开始,0x7ecf转换成十个十六进制,是32463,ucs-2用两个字节编码字符,两个字节是16位二进制,2的16次方等于65536,所以ucs-2最多只能编码65536个字符。从0到127编码的字符与ascii字符相同。例如,字母“a”的unicode代码是0x0061,十进制是97,而“a”的ascii代码是0x61,十进制是97。对于汉字编码,实际上unicode并不能很好地支持汉字。简体中文和繁体中文都有6万或7万个汉字,而ucs-2最多只能代表65536个汉字,超过6万个汉字,因此unicode只能排除一些不常用的汉字。幸运的是,常用的简体字只有7000多个。为了表示所有的汉字,unicode还有ucs-4规范,它将字符编码为四个字节
原文标题:unicode字符大全 unicode字符集是unicode联盟开发的一种多少位字符编码标准?,如若转载,请注明出处:https://www.saibowen.com/wenda/24637.html
免责声明:此资讯系转载自合作媒体或互联网其它网站,「赛伯温」登载此文出于传递更多信息之目的,并不意味着赞同其观点或证实其描述,文章内容仅供参考。