我处理的是人工生成的文本,这些文本是从GitHub Torrent,Twitter API,网络抓取的HTML页面,适用于GitHub的Google BigQuery等不同的在线数据集中下载的,这意味着我在数据库中拥有成千上万的文本。
在哪种情况下,我应该为MySQL数据库中的UTF8字段和UTF8表设置排序规则?是否完全有必要,我不能简单地使用“ CHARACTER SET UTF8”吗?
utf8-默认排序规则,utf8_unicode_ci,utf8_general_ci和utf8_general_mysql500_ci之间有什么区别?
每个文本列都有一个排序规则。它可以在表定义中显式设置,也可以简单地从表的默认值,数据库的默认值或服务器范围的默认值设置。但它有一个排序规则。
您提到的归类均不区分大小写。也就是说,他们忽略了大小写字母之间的差异。如果要区分大小写的排序规则,请使用utf8_binary
。
您可能想utf8_unicode_ci
在现代服务器中使用。阅读此内容作为背景。utf8_general_ci和utf8_unicode_ci有什么区别
utf8_general_mysql500_ci
是一种归类,专门用于向后兼容MySQL的较早版本。http://dev.mysql.com/doc/relnotes/mysql/5.5/en/news-5-5-21.html
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句