我有一个 pyspark 脚本,它读取包含数据框中列值的 mysql 数据,并将数据以镶木地板格式存储在 aws s3 中,但是在使用 aws athena 查询时,它显示了一些随机文本而不是阿拉伯语。我做错了什么。请帮助解决这个问题。我得到的文本是 Ãâ|ñÃÆò...,如何将其转换为阿拉伯语。
在使用 pyspark 从 mysql 读取数据时,我以以下格式获取数据:'الشرقية'。
提前致谢。
从 mysql 读取时,我们需要传递带有 url 字符串的“?useUnicode=true&characterEncoding=UTF-8”,例如
user_df = sqlContext.read.format("jdbc").options(
url="jdbc:mysql://HOST/DB_NAME?useUnicode=true&characterEncoding=UTF-8",
driver="com.mysql.jdbc.Driver",
dbtable="users",
user="root",
password="root"
).load()
这解决了我的问题。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句