如何使用PDFBox在PDF中查找空白页?

庄洋

这是我目前面临的挑战。
我有很多PDF,我必须删除其中的空白页面,而仅显示包含内容(文本或图像)的页面。
问题在于这些pdf是扫描的文档。
因此,空白页会被扫描仪留下一些脏污。

庄洋

我进行了一些研究,最后得到了这段代码,该代码检查了白色或浅灰色的页面,占页面的99%。我需要灰度系数,因为扫描的文档有时不是纯白色的。

private static Boolean isBlank(PDPage pdfPage) throws IOException {
    BufferedImage bufferedImage = pdfPage.convertToImage();
    long count = 0;
    int height = bufferedImage.getHeight();
    int width = bufferedImage.getWidth();
    Double areaFactor = (width * height) * 0.99;

    for (int x = 0; x < width ; x++) {
        for (int y = 0; y < height ; y++) {
            Color c = new Color(bufferedImage.getRGB(x, y));
            // verify light gray and white
            if (c.getRed() == c.getGreen() && c.getRed() == c.getBlue()
                    && c.getRed() >= 248) {
                 count++;
            }
        }
    }

    if (count >= areaFactor) {
        return true;
    }

    return false;
}

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何使用PDFBox在PDF中查找空白页?

来自分类Dev

从API检索的PDF中的空白页

来自分类Dev

使用Ruby on Rails提供PDF文件-下载文件中的空白页/白页

来自分类Dev

如何解决html2pdf.js中的“空白页”问题?

来自分类Dev

如何有效地检测PDF中的所有空白页?

来自分类Dev

如何使新标签页在Firefox中打开空白页?

来自分类Dev

如何使新标签页在Firefox中打开空白页?

来自分类Dev

使用PdfSmartCopy在iText中串联多个PDF时添加空白页

来自分类Dev

使用python从新生成的pdf文件中删除空白页

来自分类Dev

ImageMagick 生成的 PDF 在 Chrome 中呈现为空白页

来自分类Dev

使用TuesPechkin转换为PDF时为空白页

来自分类Dev

使用CGPDFContextCreateWithURL时,PDF为空白页

来自分类Dev

Webmatrix中的空白页

来自分类Dev

如何在分页的HTML文档中强制使用空白页?

来自分类Dev

如何使用空白页模板在Windows 8.1中存储状态?

来自分类Dev

如何在Rmarkdown(pagedown)中删除空白页

来自分类Dev

如何在Safari中显示空白页?

来自分类Dev

使用VBA删除Word Doc中的空白页

来自分类Dev

如何使用PDFBox在pdf中查找表格边框线?

来自分类Dev

如何修复Spotify上的空白页?

来自分类Dev

如何修复显示空白页的 AMPPS

来自分类Dev

如何更改空白页的图标?

来自分类Dev

如何修复Spotify上的空白页?

来自分类Dev

MS ACCESS报告中的空白页

来自分类Dev

AppBrowser Cordova ios中的空白页

来自分类Dev

从word文件中删除空白页

来自分类Dev

使用Ghostscript渲染空白页

来自分类Dev

尝试使用imagemagick,空白页

来自分类Dev

使用Ghostscript渲染空白页