itext7を使用してblobストレージに保存されているPDFからテキストを抽出するにはどうすればよいですか?

vaibhav

itext7を使用してPDFからテキストを抽出しています。ローカルPDFファイルのテキストを抽出するための私のコードは次のとおりです。

 var pageText = new StringBuilder();  
    using(PdfDocument pdfDocument = new PdfDocument(new PdfReader("E:\\es.pdf"))) {  
        var pageNumbers = pdfDocument.GetNumberOfPages();  
        for (int i = 1; i <= pageNumbers; i++) {  
            LocationTextExtractionStrategy strategy = new LocationTextExtractionStrategy();  
            PdfCanvasProcessor parser = new PdfCanvasProcessor(strategy);  
            parser.ProcessPageContent(pdfDocument.GetFirstPage());  
            pageText.Append(strategy.GetResultantText());  
        }  
    } 

しかし、AzureBLOBストレージに保存されているPDFを解析する方法がわかりません。

ジム・シュー

PDF形式の紺碧のブロブを読みたい場合は、次のコードを参照してください

 string storageAccountName = "andyprivate";
            string accountKey = "";
            var blobServiceClient = new BlobServiceClient(
                new Uri($"https://{storageAccountName}.blob.core.windows.net"),
                new StorageSharedKeyCredential(storageAccountName, accountKey),
                new BlobClientOptions());

            var containerClient = blobServiceClient.GetBlobContainerClient("test");
            var blob = containerClient.GetBlobClient("sample.pdf");
            BlobProperties properties = await blob.GetPropertiesAsync();
            var pageText = new StringBuilder();
            using (var stream = await blob.OpenReadAsync(position: 0, bufferSize: (int)properties.ContentLength))
            using (PdfDocument pdfDocument = new PdfDocument(new PdfReader(stream))) {
                var pageNumbers = pdfDocument.GetNumberOfPages();
                for (int i = 1; i <= pageNumbers; i++)
                {
                    LocationTextExtractionStrategy strategy = new LocationTextExtractionStrategy();
                    PdfCanvasProcessor parser = new PdfCanvasProcessor(strategy);
                    parser.ProcessPageContent(pdfDocument.GetPage(i));
                    pageText.Append(strategy.GetResultantText());
                    pageText.Append(Environment.NewLine);


                }

                Console.WriteLine(pageText);
            }

ここに画像の説明を入力してください

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

pdfminerを使用して、ローカルにダウンロードせずにS3バケットに保存されているPDFファイルからテキストを抽出するにはどうすればよいですか?

分類Dev

Pythonで座標を使用してPDFからテキストフラグメントを抽出するにはどうすればよいですか?

分類Dev

Sparkを使用してテキストファイルから複数行のレコードを抽出するにはどうすればよいですか?

分類Dev

IText5またはIText7を使用して、AcroFormフィールドを1つのドキュメントから新しい空白のドキュメントにコピー/移動するにはどうすればよいですか?

分類Dev

PythonでNLTKを使用して生のテキストからアドレスを抽出するにはどうすればよいですか?

分類Dev

PDFからのテキスト抽出を機能させるにはどうすればよいですか?

分類Dev

Azure BLOBストレージに保存されているときに画像のサイズを取得するにはどうすればよいですか?

分類Dev

span要素からテキストを確認して保存するにはどうすればよいですか

分類Dev

Railsアクティブストレージを使用してURLから画像を保存するにはどうすればよいですか?

分類Dev

BeautifulSoupを使用して<ul>にネストされている<li>にネストされている<span>からテキストを抽出するにはどうすればよいですか?

分類Dev

PDFファイルをOCRして、PDF内に保存されたテキストを取得するにはどうすればよいですか?

分類Dev

JSONからテキストを抽出してテキストフィールドに入力するにはどうすればよいですか?

分類Dev

OCRツールを使用して画面領域からテキストを瞬時に抽出するにはどうすればよいですか?

分類Dev

テキストファイルから数値を抽出してモジュラー演算を実行するにはどうすればよいですか?

分類Dev

スキャンしたページで選択可能なテキストを使用してPDFを作成するにはどうすればよいですか?

分類Dev

BeautifulSoupを使用して<td>からテキストを取得するにはどうすればよいですか?

分類Dev

Linuxターミナルを使用してログファイルから特定のテキストを抽出するにはどうすればよいですか?

分類Dev

ヘッダーとフッターを失うことなく、IText7を使用してソースPDFコンテンツを宛先PDFに追加するにはどうすればよいですか?

分類Dev

テキストを介してアクティブ化されたフレーズトピックを使用して、Cortanaコマンドから引数を抽出するにはどうすればよいですか?

分類Dev

PowerShellスクリプトを使用してテキストファイルから文字列を抽出するにはどうすればよいですか?

分類Dev

リストビューからコンテンツを抽出して文字列として保存するにはどうすればよいですか?

分類Dev

jqを使用してネストされたJSONオブジェクトから動的キーを派生させるにはどうすればよいですか?

分類Dev

PIL(枕)を使用して画像リストをPDFで保存するにはどうすればよいですか?

分類Dev

値にアイテムが含まれている対応するキーをリストから抽出するにはどうすればよいですか?

分類Dev

mysqlデータベースにblobとして保存されているdjangoでPDFを表示するにはどうすればよいですか?

分類Dev

NSISを使用してレジストリツリーのキーからサブキーを取得するにはどうすればよいですか?

分類Dev

Androidアプリからテキストを共有するときに「有効なWebアドレスを使用してください」というエラーメッセージを修正するにはどうすればよいですか?

分類Dev

PHPまたはJavaScriptを使用してPDFファイルのテキストと画像を抽出するにはどうすればよいですか?

分類Dev

Pythonを使用してバイトファイルからテキストを抽出するにはどうすればよいですか?

Related 関連記事

  1. 1

    pdfminerを使用して、ローカルにダウンロードせずにS3バケットに保存されているPDFファイルからテキストを抽出するにはどうすればよいですか?

  2. 2

    Pythonで座標を使用してPDFからテキストフラグメントを抽出するにはどうすればよいですか?

  3. 3

    Sparkを使用してテキストファイルから複数行のレコードを抽出するにはどうすればよいですか?

  4. 4

    IText5またはIText7を使用して、AcroFormフィールドを1つのドキュメントから新しい空白のドキュメントにコピー/移動するにはどうすればよいですか?

  5. 5

    PythonでNLTKを使用して生のテキストからアドレスを抽出するにはどうすればよいですか?

  6. 6

    PDFからのテキスト抽出を機能させるにはどうすればよいですか?

  7. 7

    Azure BLOBストレージに保存されているときに画像のサイズを取得するにはどうすればよいですか?

  8. 8

    span要素からテキストを確認して保存するにはどうすればよいですか

  9. 9

    Railsアクティブストレージを使用してURLから画像を保存するにはどうすればよいですか?

  10. 10

    BeautifulSoupを使用して<ul>にネストされている<li>にネストされている<span>からテキストを抽出するにはどうすればよいですか?

  11. 11

    PDFファイルをOCRして、PDF内に保存されたテキストを取得するにはどうすればよいですか?

  12. 12

    JSONからテキストを抽出してテキストフィールドに入力するにはどうすればよいですか?

  13. 13

    OCRツールを使用して画面領域からテキストを瞬時に抽出するにはどうすればよいですか?

  14. 14

    テキストファイルから数値を抽出してモジュラー演算を実行するにはどうすればよいですか?

  15. 15

    スキャンしたページで選択可能なテキストを使用してPDFを作成するにはどうすればよいですか?

  16. 16

    BeautifulSoupを使用して<td>からテキストを取得するにはどうすればよいですか?

  17. 17

    Linuxターミナルを使用してログファイルから特定のテキストを抽出するにはどうすればよいですか?

  18. 18

    ヘッダーとフッターを失うことなく、IText7を使用してソースPDFコンテンツを宛先PDFに追加するにはどうすればよいですか?

  19. 19

    テキストを介してアクティブ化されたフレーズトピックを使用して、Cortanaコマンドから引数を抽出するにはどうすればよいですか?

  20. 20

    PowerShellスクリプトを使用してテキストファイルから文字列を抽出するにはどうすればよいですか?

  21. 21

    リストビューからコンテンツを抽出して文字列として保存するにはどうすればよいですか?

  22. 22

    jqを使用してネストされたJSONオブジェクトから動的キーを派生させるにはどうすればよいですか?

  23. 23

    PIL(枕)を使用して画像リストをPDFで保存するにはどうすればよいですか?

  24. 24

    値にアイテムが含まれている対応するキーをリストから抽出するにはどうすればよいですか?

  25. 25

    mysqlデータベースにblobとして保存されているdjangoでPDFを表示するにはどうすればよいですか?

  26. 26

    NSISを使用してレジストリツリーのキーからサブキーを取得するにはどうすればよいですか?

  27. 27

    Androidアプリからテキストを共有するときに「有効なWebアドレスを使用してください」というエラーメッセージを修正するにはどうすればよいですか?

  28. 28

    PHPまたはJavaScriptを使用してPDFファイルのテキストと画像を抽出するにはどうすればよいですか?

  29. 29

    Pythonを使用してバイトファイルからテキストを抽出するにはどうすればよいですか?

ホットタグ

アーカイブ