itext7を使用してPDFからテキストを抽出しています。ローカルPDFファイルのテキストを抽出するための私のコードは次のとおりです。
var pageText = new StringBuilder();
using(PdfDocument pdfDocument = new PdfDocument(new PdfReader("E:\\es.pdf"))) {
var pageNumbers = pdfDocument.GetNumberOfPages();
for (int i = 1; i <= pageNumbers; i++) {
LocationTextExtractionStrategy strategy = new LocationTextExtractionStrategy();
PdfCanvasProcessor parser = new PdfCanvasProcessor(strategy);
parser.ProcessPageContent(pdfDocument.GetFirstPage());
pageText.Append(strategy.GetResultantText());
}
}
しかし、AzureBLOBストレージに保存されているPDFを解析する方法がわかりません。
PDF形式の紺碧のブロブを読みたい場合は、次のコードを参照してください
string storageAccountName = "andyprivate";
string accountKey = "";
var blobServiceClient = new BlobServiceClient(
new Uri($"https://{storageAccountName}.blob.core.windows.net"),
new StorageSharedKeyCredential(storageAccountName, accountKey),
new BlobClientOptions());
var containerClient = blobServiceClient.GetBlobContainerClient("test");
var blob = containerClient.GetBlobClient("sample.pdf");
BlobProperties properties = await blob.GetPropertiesAsync();
var pageText = new StringBuilder();
using (var stream = await blob.OpenReadAsync(position: 0, bufferSize: (int)properties.ContentLength))
using (PdfDocument pdfDocument = new PdfDocument(new PdfReader(stream))) {
var pageNumbers = pdfDocument.GetNumberOfPages();
for (int i = 1; i <= pageNumbers; i++)
{
LocationTextExtractionStrategy strategy = new LocationTextExtractionStrategy();
PdfCanvasProcessor parser = new PdfCanvasProcessor(strategy);
parser.ProcessPageContent(pdfDocument.GetPage(i));
pageText.Append(strategy.GetResultantText());
pageText.Append(Environment.NewLine);
}
Console.WriteLine(pageText);
}
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加