从pdf中提取阿拉伯语到字符串c#

切迪·本穆萨

好的,我知道这个问题重复了太多次。但直到现在我还没有找到解决方案。我正在使用 iTextSharp 从 pdf 中提取。对于英语它很好用,但对于阿拉伯语它总是显示“?????????” 在控制台和 .txt 中的“Ó å æ É”这是我的代码

private static string ReadPdfFile(string fileName)
    {
        StringBuilder text = new StringBuilder();


        if (File.Exists(fileName))
        {
            PdfReader pdfReader = new PdfReader(fileName);
            ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
            string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, 1, strategy);
            //currentText = Encoding.UTF8.GetString(UTF8Encoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText)));
            text.Append(currentText);
        }

        return text.ToString();
    }

更新

通过对输出文件使用 UTF8 解决了问题,现在我还有 2 个问题

它显示“已提交已完成”而不是“已提交”,因此:

  1. 我需要删除字母之间的空格。

  2. 单词的顺序是颠倒的。

瓦希德

尝试使用以下代码将您的“Ó å æ á É”转换为“س ه و ل ة”

public static string Arabic1256ToUtf8(string data)
{
    var latin = Encoding.GetEncoding("ISO-8859-1");
    var bytes = latin.GetBytes(data); // get the bytes for your ANSI string

    var arabic = Encoding.GetEncoding("Windows-1256"); // decode it using the correct encoding
    return arabic.GetString(bytes);
}

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何在Android PDF文档中支持阿拉伯语?

来自分类Dev

从Java中的给定文本中提取阿拉伯语短语

来自分类Dev

当阿拉伯语和英语单词在同一字符串中时,单词会随机播放

来自分类Dev

字符串从右到左的语言替换(阿拉伯语)

来自分类Dev

在C ++中反转阿拉伯字符串

来自分类Dev

Stimulsoft报告richText错误中的Unicode字符(阿拉伯语或波斯语)

来自分类Dev

过滤阿拉伯字符串

来自分类Dev

使用itext用pdf书写阿拉伯语

来自分类Dev

iOS阿拉伯语Pushnotification

来自分类Dev

iOS阿拉伯语Pushnotification

来自分类Dev

分割草书字符(阿拉伯语OCR)

来自分类Dev

javascript正则表达式以匹配包含阿拉伯语特殊字符符号'ـ'的字符串u0640

来自分类Dev

php从字符串中删除阿拉伯语/波斯语字符串

来自分类Dev

使用Javascript替换文本字符串中的某些阿拉伯语单词

来自分类Dev

如何删除或过滤列表中的非英语(中文,韩语,日语,阿拉伯语)字符串?

来自分类Dev

如何从文本文件中删除俄语和阿拉伯语字符串

来自分类Dev

笔尖镜像阿拉伯语

来自分类Dev

阿拉伯或乌尔都语字符串的换行符

来自分类Dev

检测阿拉伯语标记中的重复字符

来自分类Dev

字符串从右到左的语言替换(阿拉伯语)

来自分类Dev

过滤阿拉伯字符串

来自分类Dev

发票中的阿拉伯语单词pdf打印Magento

来自分类Dev

如何在使用iText创建的PDF中显示阿拉伯语

来自分类Dev

将字符串yyyy-MM-dd转换为日期格式,电话语言从右到左(阿拉伯语)

来自分类Dev

PHP删除Unicode阿拉伯语字符

来自分类Dev

将字符转换为大写阿拉伯语

来自分类Dev

Redis阿拉伯语解码

来自分类Dev

如何解决提取有阿拉伯语的Excel表格的问题

来自分类Dev

在数据库中保存字符串的阿拉伯语列表

Related 相关文章

  1. 1

    如何在Android PDF文档中支持阿拉伯语?

  2. 2

    从Java中的给定文本中提取阿拉伯语短语

  3. 3

    当阿拉伯语和英语单词在同一字符串中时,单词会随机播放

  4. 4

    字符串从右到左的语言替换(阿拉伯语)

  5. 5

    在C ++中反转阿拉伯字符串

  6. 6

    Stimulsoft报告richText错误中的Unicode字符(阿拉伯语或波斯语)

  7. 7

    过滤阿拉伯字符串

  8. 8

    使用itext用pdf书写阿拉伯语

  9. 9

    iOS阿拉伯语Pushnotification

  10. 10

    iOS阿拉伯语Pushnotification

  11. 11

    分割草书字符(阿拉伯语OCR)

  12. 12

    javascript正则表达式以匹配包含阿拉伯语特殊字符符号'ـ'的字符串u0640

  13. 13

    php从字符串中删除阿拉伯语/波斯语字符串

  14. 14

    使用Javascript替换文本字符串中的某些阿拉伯语单词

  15. 15

    如何删除或过滤列表中的非英语(中文,韩语,日语,阿拉伯语)字符串?

  16. 16

    如何从文本文件中删除俄语和阿拉伯语字符串

  17. 17

    笔尖镜像阿拉伯语

  18. 18

    阿拉伯或乌尔都语字符串的换行符

  19. 19

    检测阿拉伯语标记中的重复字符

  20. 20

    字符串从右到左的语言替换(阿拉伯语)

  21. 21

    过滤阿拉伯字符串

  22. 22

    发票中的阿拉伯语单词pdf打印Magento

  23. 23

    如何在使用iText创建的PDF中显示阿拉伯语

  24. 24

    将字符串yyyy-MM-dd转换为日期格式,电话语言从右到左(阿拉伯语)

  25. 25

    PHP删除Unicode阿拉伯语字符

  26. 26

    将字符转换为大写阿拉伯语

  27. 27

    Redis阿拉伯语解码

  28. 28

    如何解决提取有阿拉伯语的Excel表格的问题

  29. 29

    在数据库中保存字符串的阿拉伯语列表

热门标签

归档