我需要从 PDF 文件中提取文本并制作一个新的 .txt 文件以放入

debugcn 发表于 Dev

阿卜杜勒·拉曼·法兹

我需要 PYTHON 脚本的帮助来读取 PDF 文件并复制其中的每个单词并将它们放入一个新的 .txt 文件中（每个单词必须占 1 行）；然后删除重复的单词并在此之后计算它们并在最后一行打印计数

MIH

安装这些库。

PyPDF2（将简单的基于文本的 PDF 文件转换为 Python 可读的文本）

textract（将非平凡的扫描 PDF 文件转换为 Python 可读的文本）

nltk（清理短语并将其转换为关键字）

这些库中的每一个都可以在侧终端（在 macOS 上）使用以下命令安装：

pip install Libraryname

请参阅本教程https://medium.com/@rqaiserr/how-to-convert-pdfs-into-searchable-key-words-with-python-85aab86c544f

使用 texttrack 它支持多种类型的文件，也支持 PDF。所以文本跟踪更好。

按照这些链接

https://github.com/deanmalmgren/textract

https://textract.readthedocs.io/en/latest/

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-07-25

我来说两句

0条评论

登录后参与评论

来自分类Dev

我需要从C中的.txt文件读取x和y值

来自分类Dev

MySQL我需要从txt文件导入数据，但是在文件中我有不同的数据类型

来自分类Dev

创建一个将文本放入 .txt 文件的插件

来自分类Dev

我想将包括 > 的内容放入 .txt 文件（批处理）

来自分类Dev

我有一个文本文件，需要从中提取重复数据。问题是我需要它的特定格式。这是如何在 PowerShell 中完成的？

来自分类Dev

从一个txt文件中提取所有行，并将其复制到新的文本文件中，并附带一些附加功能

来自分类Dev

文件制作者问题。我需要从三个表的数据集中创建一个表

来自分类Dev

我在原始lyx输出中找到了一个文件，如何从此混乱中创建可读的pdf或txt文件？

来自分类Dev

我真的需要从以前的主目录访问文件:(

来自分类Dev

我真的需要从以前的主目录访问文件:(

来自分类Dev

我需要从BAT文件在IDLE中运行python脚本

来自分类Dev

我需要从文件中感染选定的数据

来自分类Dev

我需要从 Scala 中的嵌套 json 文件创建一个 spark 数据框

来自分类Dev

照片使用哪种文件格式？我将对其进行编辑。然后，我将添加文本并制作一个PDF

来自分类Dev

从每个文本文件中提取特定的行并存储在一个txt文件中

来自分类Dev

读取txt文件并放入html div标签

来自分类Dev

需要从Android Studio中Assets文件夹中的txt文件读取

来自分类Dev

我需要从文件中解析一些文本和整数

来自分类Dev

需要从文件名array_map中删除.pdf扩展名

来自分类Dev

从pdf转换为txt后保存文件

来自分类Dev

搜索并从txt文件中提取文本

来自分类Dev

从 txt 文件中读取文件并将内容放入 List<T>

来自分类Dev

我如何制作一个脚本，该文件会带有空格的awk .txt文件读取.csv？

来自分类Dev

尝试制作文件 output.txt 时，我得到了一个文件夹

来自分类Dev

我需要从我的Android应用程序访问Dropbox文件夹，选择一个文件并在我的应用程序中打开它

来自分类Dev

如何在PostgreSQL中制作txt / doc / pdf / html文件

来自分类Dev

如何将两个.txt文件中的数据提取到一个新的.txt文件中？

来自分类Dev

只需将 .txt 文件中的每一行放入一个 javascript 数组中

来自分类Dev

需要从Java中的URL中提取Jpg或Png文件

Related 相关文章

文章