我浏览了许多类似的问题,但没有找到解决方案。我有一个很大的数据库,它是由HTML页面创建的(开头包含坏字符)。
因此,我在数据库中看到了很多类似的东西:
â?¦
á¹£
Ä?
sÄ?mainÅ should be sēmainō
â??“ should be —
yaá¹£ar should be yaṣar
Ä?n should be ēn
psÄ?laphaÅ should be psēlaphaō
anaggellÅ should be Anaggellō
还有很多很多。我已经将表设置为utf8_general_ci,但是现在看来这些字符已经“硬编码”了,与字符集的任何混乱都不会有任何区别。也许我错了?
解决此问题的最可行方法是什么?我认为运行一堆查找替换是可行的。确实如此,但是我意识到那里有许多不同的残破字符。
它主要是英语,但带有一些希腊语和希伯来语单词。
编码似乎过于混乱,以至于即使不是不可能以单向方式将其从一种编码转换为另一种编码,也将非常困难。一个简单的嵌套查找和替换可能会更快地完成工作:
UPDATE `table`
SET `table`.`string` = SELECT REPLACE(REPLACE(REPLACE(REPLACE(`table`.`string`, 'á¹£', 'ṣ'), 'â??“', '—'), 'Ä?', 'ē'), 'Å', 'ō')
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句