在Django的Heroku上使用Tesseract

埃里克

我想向在Heroku上运行的Django应用程序添加OCR功能。我怀疑最简单的方法是使用Tesseract我注意到Tesseract的API有很多python包装器,但是在Heroku上安装并运行Tesseract的最佳方法是什么?通过诸如heroku-buildpack-tesseract之类的自定义buildpack

埃里克

我将尝试捕获有关到达此处的解决方案的一些注释。

我的.buildpacks档案:

https://github.com/heroku/heroku-buildpack-python
https://github.com/clearideas/heroku-buildpack-ghostscript
https://github.com/marcolinux/heroku-buildpack-libraries

我的.buildpacks_bin_download档案:

tesseract-ocr https://s3.amazonaws.com/tesseract-ocr/heroku/tesseract-ocr-3.02.02.tar.gz 3.02 eng,spa

这是对pdf文件进行OCR处理的python的关键部分:

        # Additional processing
        document_path = Path(str(document.attachment_file))

        if document_path.ext == '.pdf':
            working_path = Path('temp', document.directory)
            working_path.mkdir(parents=True)

            input_path = Path(working_path, name)
            input_path.write_file(document.attachment_file.read(), 'w')

            rb = ReadBot()

            args = [
                'VBEZ',
                # '-sDEVICE=tiffg4',
                '-sDEVICE=pnggray',
                '-dNOPAUSE',
                '-r600x600',
                '-sOutputFile=' + str(working_path) + '/page-%00d.png',
                str(input_path)
            ]

            ghostscript.Ghostscript(*args)
            image_paths = working_path.listdir(pattern='*.png')
            txt = ''

            for image_path in image_paths:
                ocrtext = rb.interpret(str(image_path))
                txt = txt + ocrtext

            document.notes = txt
            document.save()
            working_path.rmtree()

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

WordPress在Heroku上的Django上

来自分类Dev

在Heroku上使用Django入门时遇到的问题

来自分类Dev

无法在Heroku上使用Django / Postgres应用设置

来自分类Dev

在Heroku上的Django应用中使用外部数据库

来自分类Dev

在Heroku上使用Django入门时遇到的问题

来自分类Dev

在heroku上使用白噪声的Django静态文件

来自分类Dev

在heroku上使用swftools

来自分类Dev

Heroku上的Django静态文件

来自分类Dev

Django 在 heroku 上迁移的问题

来自分类Dev

在Heroku上使用FFTW的ImageMagick

来自分类Dev

在heroku上使用烧瓶闪烁

来自分类Dev

使用tesseract分析屏幕上矩形区域的步骤

来自分类Dev

使用Tesseract检测黑色背景上的白色字符

来自分类Dev

使用适用于Django的AWS S3在Heroku上提供静态文件吗?

来自分类Dev

使用South在Heroku上设置Django的问题-继续获取ProgrammingError:关系不存在

来自分类Dev

无法在heroku上启动gunicorn(Django Node app)错误:正在使用连接:('0.0.0.0',46831)

来自分类Dev

使用gunicorn在Django-Heroku App上获取error = H14

来自分类Dev

在Django + Gunicorn + Heroku上记录请求超时

来自分类Dev

在Heroku上安装和部署Django应用

来自分类Dev

Heroku,Boto或Cloudinary上的Django媒体

来自分类Dev

如何在Heroku Django上安装PyMuPDF

来自分类Dev

无法在Mac上安装Django Heroku

来自分类Dev

Heroku上的Django部署无法正常工作

来自分类Dev

Heroku没有在Django上运行collectstatic

来自分类Dev

heroku 上的 django-background-tasks 迁移

来自分类Dev

在Heroku上正确引用django-rq的django设置?

来自分类Dev

Rails-使用Heroku SSL在Heroku上发布

来自分类Dev

ImportError在Heroku上使用python运行tensorflow?

来自分类Dev

如何在Heroku上使用Datomic Pro?

Related 相关文章

热门标签

归档