从pdf中提取阿拉伯语到字符串c#

切迪·本穆萨

好的,我知道这个问题重复了太多次。但直到现在我还没有找到解决方案。我正在使用 iTextSharp 从 pdf 中提取。对于英语它很好用,但对于阿拉伯语它总是显示“?????????” 在控制台和 .txt 中的“Ó å æ É”这是我的代码

private static string ReadPdfFile(string fileName)
    {
        StringBuilder text = new StringBuilder();


        if (File.Exists(fileName))
        {
            PdfReader pdfReader = new PdfReader(fileName);
            ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
            string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, 1, strategy);
            //currentText = Encoding.UTF8.GetString(UTF8Encoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText)));
            text.Append(currentText);
        }

        return text.ToString();
    }

更新

通过对输出文件使用 UTF8 解决了问题,现在我还有 2 个问题

它显示“已提交已完成”而不是“已提交”,因此:

  1. 我需要删除字母之间的空格。

  2. 单词的顺序是颠倒的。

瓦希德

尝试使用以下代码将您的“Ó å æ á É”转换为“س ه و ل ة”

public static string Arabic1256ToUtf8(string data)
{
    var latin = Encoding.GetEncoding("ISO-8859-1");
    var bytes = latin.GetBytes(data); // get the bytes for your ANSI string

    var arabic = Encoding.GetEncoding("Windows-1256"); // decode it using the correct encoding
    return arabic.GetString(bytes);
}

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

字符串从右到左的语言替换(阿拉伯语)

来自分类Dev

字符串从右到左的语言替换(阿拉伯语)

来自分类Dev

在数据库中保存字符串的阿拉伯语列表

来自分类Dev

php从字符串中删除阿拉伯语/波斯语字符串

来自分类Dev

从Java中的给定文本中提取阿拉伯语短语

来自分类Dev

使用Javascript替换文本字符串中的某些阿拉伯语单词

来自分类Dev

如何删除或过滤列表中的非英语(中文,韩语,日语,阿拉伯语)字符串?

来自分类Dev

如何从文本文件中删除俄语和阿拉伯语字符串

来自分类Dev

使用itext用pdf书写阿拉伯语

来自分类Dev

分割草书字符(阿拉伯语OCR)

来自分类Dev

检测阿拉伯语标记中的重复字符

来自分类Dev

PHP删除Unicode阿拉伯语字符

来自分类Dev

将字符转换为大写阿拉伯语

来自分类Dev

iOS阿拉伯语Pushnotification

来自分类Dev

iOS阿拉伯语Pushnotification

来自分类Dev

笔尖镜像阿拉伯语

来自分类Dev

Redis阿拉伯语解码

来自分类Dev

javascript正则表达式以匹配包含阿拉伯语特殊字符符号'ـ'的字符串u0640

来自分类Dev

当阿拉伯语和英语单词在同一字符串中时,单词会随机播放

来自分类Dev

将字符串yyyy-MM-dd转换为日期格式,电话语言从右到左(阿拉伯语)

来自分类Dev

在C ++中反转阿拉伯字符串

来自分类Dev

过滤阿拉伯字符串

来自分类Dev

过滤阿拉伯字符串

来自分类Dev

Stimulsoft报告richText错误中的Unicode字符(阿拉伯语或波斯语)

来自分类Dev

阿拉伯或乌尔都语字符串的换行符

来自分类Dev

如何解决提取有阿拉伯语的Excel表格的问题

来自分类Dev

如何在Android PDF文档中支持阿拉伯语?

来自分类Dev

发票中的阿拉伯语单词pdf打印Magento

来自分类Dev

如何在使用iText创建的PDF中显示阿拉伯语

Related 相关文章

  1. 1

    字符串从右到左的语言替换(阿拉伯语)

  2. 2

    字符串从右到左的语言替换(阿拉伯语)

  3. 3

    在数据库中保存字符串的阿拉伯语列表

  4. 4

    php从字符串中删除阿拉伯语/波斯语字符串

  5. 5

    从Java中的给定文本中提取阿拉伯语短语

  6. 6

    使用Javascript替换文本字符串中的某些阿拉伯语单词

  7. 7

    如何删除或过滤列表中的非英语(中文,韩语,日语,阿拉伯语)字符串?

  8. 8

    如何从文本文件中删除俄语和阿拉伯语字符串

  9. 9

    使用itext用pdf书写阿拉伯语

  10. 10

    分割草书字符(阿拉伯语OCR)

  11. 11

    检测阿拉伯语标记中的重复字符

  12. 12

    PHP删除Unicode阿拉伯语字符

  13. 13

    将字符转换为大写阿拉伯语

  14. 14

    iOS阿拉伯语Pushnotification

  15. 15

    iOS阿拉伯语Pushnotification

  16. 16

    笔尖镜像阿拉伯语

  17. 17

    Redis阿拉伯语解码

  18. 18

    javascript正则表达式以匹配包含阿拉伯语特殊字符符号'ـ'的字符串u0640

  19. 19

    当阿拉伯语和英语单词在同一字符串中时,单词会随机播放

  20. 20

    将字符串yyyy-MM-dd转换为日期格式,电话语言从右到左(阿拉伯语)

  21. 21

    在C ++中反转阿拉伯字符串

  22. 22

    过滤阿拉伯字符串

  23. 23

    过滤阿拉伯字符串

  24. 24

    Stimulsoft报告richText错误中的Unicode字符(阿拉伯语或波斯语)

  25. 25

    阿拉伯或乌尔都语字符串的换行符

  26. 26

    如何解决提取有阿拉伯语的Excel表格的问题

  27. 27

    如何在Android PDF文档中支持阿拉伯语?

  28. 28

    发票中的阿拉伯语单词pdf打印Magento

  29. 29

    如何在使用iText创建的PDF中显示阿拉伯语

热门标签

归档