使用PDFbox从区域中提取文本

程序

是否可以仅使用二进制文件PDFbox中提取文本,而不必创建自己的代码?

乔纳森·巴贝罗(Jonathan Barbero)

将此简单程序编译并打包到jar中

import java.awt.geom.Rectangle2D;
import java.io.File;
import java.io.IOException;

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;
import org.apache.pdfbox.text.PDFTextStripperByArea;

public class ExtractText {

    // Usage: xxx.jar filepath page x y width height
    public static void main(String[] args) throws IOException {

        if (args.length != 6) {
            System.out.println("Help info");
            return;
        }



        // Parameters
        String filepath = args[0];

        int page = Integer.parseInt(args[1]);
        int x = Integer.parseInt(args[2]);
        int y = Integer.parseInt(args[3]);
        int width = Integer.parseInt(args[4]);
        int height = Integer.parseInt(args[5]);

        PDDocument document = PDDocument.load(new File(filepath));

        PDFTextStripperByArea textStripper = new PDFTextStripperByArea();
        Rectangle2D rect = new java.awt.geom.Rectangle2D.Float(x, y, width, height);
        textStripper.addRegion("region", rect);


        PDPage docPage = document.getPage(page);

        textStripper.extractRegions(docPage);

        String textForRegion = textStripper.getTextForRegion("region");

        System.out.println(textForRegion);
    }
}

从命令行运行它,例如:

xxx.jar  filepathToPdf pageToExtract  x   y   width height

添加参数和一些用法信息的验证代码。

编辑

同时添加PDFbox库

java -cp "..." -jar xxx.jar  filepathToPdf  pageToExtract  x  y  width   height 

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

从summernote文本区域中提取编辑的文本

来自分类Dev

从CKeditor文本区域中提取重复的单词

来自分类Dev

根据插入符号的位置,从文本区域中提取整个单词

来自分类Dev

如何使用 Apache PDFBox 从按钮中提取标签文本?

来自分类Dev

从多边形区域中提取的邻居列表

来自分类Dev

使用CTRL + A选择文本区域中的所有文本

来自分类Dev

使用CSS和JS固定文本区域中的文本

来自分类Dev

使用CSS和JS固定文本区域中的文本

来自分类Dev

如何使用pdfbox从pdf提取粗体文本?

来自分类Dev

使用PDFBox 2.0从PDF提取文本

来自分类Dev

从区域标记的单元格中提取文本

来自分类Dev

使用iText删除指定区域中包含的文本出现

来自分类Dev

使用iTextSharp获取指定区域中包含的文本出现

来自分类Dev

使用Javascript在文本区域中仅允许退格

来自分类Dev

使用React在文本区域中更改光标位置

来自分类Dev

使用Javascript在文本区域中添加换行符

来自分类Dev

使用 PDFBox 从单个 PDF 页面中提取多个嵌入图像

来自分类Dev

在文本区域中左对齐文本

来自分类Dev

实时渲染文本区域中的文本

来自分类Dev

使用NLP从文本中提取关联值

来自分类Dev

使用CID字体从PDF中提取文本

来自分类Dev

如何使用Javascript从元素中提取文本

来自分类Dev

如何使用Jsoup从Wikipedia中提取文本?

来自分类Dev

如何使用Nokogiri从标签中提取文本

来自分类Dev

Python使用键从文本中提取值

来自分类Dev

使用awk从xml元素中提取文本

来自分类Dev

使用BeautifulSoup从表中提取彩色文本

来自分类Dev

如何使用BeautifulSoup从'a'元素中提取文本?

来自分类Dev

使用Python从文本中提取IBAN

Related 相关文章

热门标签

归档