为什么说一个中文占三个字节

2个月前发布

03210

缘由

在学习java基础时
对于s2，一个中文占用3个字节**，21845个正好占用65535个字节，而且字符串长度是21845，长度和存储也都没超过限制，所以可以编译通过
后来发现这句话是错的, java中char的存储是 LATIN-1(1字节) OR UTF-16(2字节)
但是引出了我对 UTF-8 的思考
为啥是三个字节, 不是两个字节吗

java的默认编码格式

那我们看看 UTF-8的wiki

Unicode

故名思意, 为每个字符(任何语言)提供一个独特编码
以满足跨语言、跨平台的文本信息转换

码点的位数	表示的unicode范围	字节序列	Byte 1	Byte 2	Byte 3	Byte4
7	0~127	1	`0xxxxxxx`
11	128~2047	2	`110xxxxx`	`10xxxxxx`
16	2048~65535	3	`1110xxxx`	`10xxxxxx`	`10xxxxxx`
21	>65535	4	`11110xxx`	`10xxxxxx`	`10xxxxxx`	`10xxxxxx`

比如’中’的unicode为4E2D 4^(16∗16∗16) = 16384 >2047

显然是用3位UTF-8存储

来源链接：https://www.cnblogs.com/many-bucket/p/18927113

© 版权声明

本站所有资源来自于网络，仅供学习与参考，请勿用于商业用途，否则产生的一切后果将由您(转载者)自己承担！
如有侵犯您的版权，请及时联系3500663466#qq.com(#换@)，我们将第一时间删除本站数据。

THE END

Java 后端开发编程开发

支持一下吧

相关推荐

评论抢沙发

请文明发言！

提交

暂无评论内容