検索

検索

itext7を使用してblobストレージに保存されているPDFからテキストを抽出するにはどうすればよいですか？

debugcn 投稿 Dev

1

vaibhav

itext7を使用してPDFからテキストを抽出しています。ローカルPDFファイルのテキストを抽出するための私のコードは次のとおりです。

 var pageText = new StringBuilder();  
    using(PdfDocument pdfDocument = new PdfDocument(new PdfReader("E:\\es.pdf"))) {  
        var pageNumbers = pdfDocument.GetNumberOfPages();  
        for (int i = 1; i <= pageNumbers; i++) {  
            LocationTextExtractionStrategy strategy = new LocationTextExtractionStrategy();  
            PdfCanvasProcessor parser = new PdfCanvasProcessor(strategy);  
            parser.ProcessPageContent(pdfDocument.GetFirstPage());  
            pageText.Append(strategy.GetResultantText());  
        }  
    }

しかし、AzureBLOBストレージに保存されているPDFを解析する方法がわかりません。

ジム・シュー

PDF形式の紺碧のブロブを読みたい場合は、次のコードを参照してください

 string storageAccountName = "andyprivate";
            string accountKey = "";
            var blobServiceClient = new BlobServiceClient(
                new Uri($"https://{storageAccountName}.blob.core.windows.net"),
                new StorageSharedKeyCredential(storageAccountName, accountKey),
                new BlobClientOptions());

            var containerClient = blobServiceClient.GetBlobContainerClient("test");
            var blob = containerClient.GetBlobClient("sample.pdf");
            BlobProperties properties = await blob.GetPropertiesAsync();
            var pageText = new StringBuilder();
            using (var stream = await blob.OpenReadAsync(position: 0, bufferSize: (int)properties.ContentLength))
            using (PdfDocument pdfDocument = new PdfDocument(new PdfReader(stream))) {
                var pageNumbers = pdfDocument.GetNumberOfPages();
                for (int i = 1; i <= pageNumbers; i++)
                {
                    LocationTextExtractionStrategy strategy = new LocationTextExtractionStrategy();
                    PdfCanvasProcessor parser = new PdfCanvasProcessor(strategy);
                    parser.ProcessPageContent(pdfDocument.GetPage(i));
                    pageText.Append(strategy.GetResultantText());
                    pageText.Append(Environment.NewLine);


                }

                Console.WriteLine(pageText);
            }

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-13

0

コメントを追加

0

サインイン

関連記事

分類Dev

pdfminerを使用して、ローカルにダウンロードせずにS3バケットに保存されているPDFファイルからテキストを抽出するにはどうすればよいですか？

分類Dev

Pythonで座標を使用してPDFからテキストフラグメントを抽出するにはどうすればよいですか？

分類Dev

Sparkを使用してテキストファイルから複数行のレコードを抽出するにはどうすればよいですか？

分類Dev

IText5またはIText7を使用して、AcroFormフィールドを1つのドキュメントから新しい空白のドキュメントにコピー/移動するにはどうすればよいですか？

分類Dev

PythonでNLTKを使用して生のテキストからアドレスを抽出するにはどうすればよいですか？

分類Dev

PDFからのテキスト抽出を機能させるにはどうすればよいですか？

分類Dev

Azure BLOBストレージに保存されているときに画像のサイズを取得するにはどうすればよいですか？

分類Dev

span要素からテキストを確認して保存するにはどうすればよいですか

分類Dev

Railsアクティブストレージを使用してURLから画像を保存するにはどうすればよいですか？

分類Dev

BeautifulSoupを使用して<ul>にネストされている<li>にネストされている<span>からテキストを抽出するにはどうすればよいですか？

分類Dev

PDFファイルをOCRして、PDF内に保存されたテキストを取得するにはどうすればよいですか？

分類Dev

JSONからテキストを抽出してテキストフィールドに入力するにはどうすればよいですか？

分類Dev

OCRツールを使用して画面領域からテキストを瞬時に抽出するにはどうすればよいですか？

分類Dev

テキストファイルから数値を抽出してモジュラー演算を実行するにはどうすればよいですか？

分類Dev

スキャンしたページで選択可能なテキストを使用してPDFを作成するにはどうすればよいですか？

分類Dev

BeautifulSoupを使用して<td>からテキストを取得するにはどうすればよいですか？

分類Dev

Linuxターミナルを使用してログファイルから特定のテキストを抽出するにはどうすればよいですか？

分類Dev

ヘッダーとフッターを失うことなく、IText7を使用してソースPDFコンテンツを宛先PDFに追加するにはどうすればよいですか？

分類Dev

テキストを介してアクティブ化されたフレーズトピックを使用して、Cortanaコマンドから引数を抽出するにはどうすればよいですか？

分類Dev

PowerShellスクリプトを使用してテキストファイルから文字列を抽出するにはどうすればよいですか？

分類Dev

リストビューからコンテンツを抽出して文字列として保存するにはどうすればよいですか？

分類Dev

jqを使用してネストされたJSONオブジェクトから動的キーを派生させるにはどうすればよいですか？

分類Dev

PIL（枕）を使用して画像リストをPDFで保存するにはどうすればよいですか？

分類Dev

値にアイテムが含まれている対応するキーをリストから抽出するにはどうすればよいですか？

分類Dev

mysqlデータベースにblobとして保存されているdjangoでPDFを表示するにはどうすればよいですか？

分類Dev

NSISを使用してレジストリツリーのキーからサブキーを取得するにはどうすればよいですか？

分類Dev

Androidアプリからテキストを共有するときに「有効なWebアドレスを使用してください」というエラーメッセージを修正するにはどうすればよいですか？

分類Dev

PHPまたはJavaScriptを使用してPDFファイルのテキストと画像を抽出するにはどうすればよいですか？

分類Dev

Pythonを使用してバイトファイルからテキストを抽出するにはどうすればよいですか？

Related 関連記事

記事

ホットタグ

アーカイブ