我需要从 PDF 文件中提取文本并制作一个新的 .txt 文件以放入

阿卜杜勒·拉曼·法兹

我需要 PYTHON 脚本的帮助来读取 PDF 文件并复制其中的每个单词并将它们放入一个新的 .txt 文件中(每个单词必须占 1 行);然后删除重复的单词并在此之后计算它们并在最后一行打印计数

MIH

安装这些库。

PyPDF2(将简单的基于文本的 PDF 文件转换为 Python 可读的文本)

textract(将非平凡的扫描 PDF 文件转换为 Python 可读的文本)

nltk(清理短语并将其转换为关键字)

这些库中的每一个都可以在侧终端(在 macOS 上)使用以下命令安装:

pip install Libraryname

请参阅本教程https://medium.com/@rqaiserr/how-to-convert-pdfs-into-searchable-key-words-with-python-85aab86c544f

使用 texttrack 它支持多种类型的文件,也支持 PDF。所以文本跟踪更好。

按照这些链接

https://github.com/deanmalmgren/textract

https://textract.readthedocs.io/en/latest/

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

我需要从C中的.txt文件读取x和y值

来自分类Dev

MySQL我需要从txt文件导入数据,但是在文件中我有不同的数据类型

来自分类Dev

创建一个将文本放入 .txt 文件的插件

来自分类Dev

我想将包括 > 的内容放入 .txt 文件(批处理)

来自分类Dev

我有一个文本文件,需要从中提取重复数据。问题是我需要它的特定格式。这是如何在 PowerShell 中完成的?

来自分类Dev

从一个txt文件中提取所有行,并将其复制到新的文本文件中,并附带一些附加功能

来自分类Dev

文件制作者问题。我需要从三个表的数据集中创建一个表

来自分类Dev

我在原始lyx输出中找到了一个文件,如何从此混乱中创建可读的pdf或txt文件?

来自分类Dev

我真的需要从以前的主目录访问文件:(

来自分类Dev

我真的需要从以前的主目录访问文件:(

来自分类Dev

我需要从BAT文件在IDLE中运行python脚本

来自分类Dev

我需要从文件中感染选定的数据

来自分类Dev

我需要从 Scala 中的嵌套 json 文件创建一个 spark 数据框

来自分类Dev

照片使用哪种文件格式?我将对其进行编辑。然后,我将添加文本并制作一个PDF

来自分类Dev

从每个文本文件中提取特定的行并存储在一个txt文件中

来自分类Dev

读取txt文件并放入html div标签

来自分类Dev

需要从Android Studio中Assets文件夹中的txt文件读取

来自分类Dev

我需要从文件中解析一些文本和整数

来自分类Dev

需要从文件名array_map中删除.pdf扩展名

来自分类Dev

从pdf转换为txt后保存文件

来自分类Dev

搜索并从txt文件中提取文本

来自分类Dev

从 txt 文件中读取文件并将内容放入 List<T>

来自分类Dev

我如何制作一个脚本,该文件会带有空格的awk .txt文件读取.csv?

来自分类Dev

尝试制作文件 output.txt 时,我得到了一个文件夹

来自分类Dev

我需要从我的Android应用程序访问Dropbox文件夹,选择一个文件并在我的应用程序中打开它

来自分类Dev

如何在PostgreSQL中制作txt / doc / pdf / html文件

来自分类Dev

如何将两个.txt文件中的数据提取到一个新的.txt文件中?

来自分类Dev

只需将 .txt 文件中的每一行放入一个 javascript 数组中

来自分类Dev

需要从Java中的URL中提取Jpg或Png文件

Related 相关文章

  1. 1

    我需要从C中的.txt文件读取x和y值

  2. 2

    MySQL我需要从txt文件导入数据,但是在文件中我有不同的数据类型

  3. 3

    创建一个将文本放入 .txt 文件的插件

  4. 4

    我想将包括 > 的内容放入 .txt 文件(批处理)

  5. 5

    我有一个文本文件,需要从中提取重复数据。问题是我需要它的特定格式。这是如何在 PowerShell 中完成的?

  6. 6

    从一个txt文件中提取所有行,并将其复制到新的文本文件中,并附带一些附加功能

  7. 7

    文件制作者问题。我需要从三个表的数据集中创建一个表

  8. 8

    我在原始lyx输出中找到了一个文件,如何从此混乱中创建可读的pdf或txt文件?

  9. 9

    我真的需要从以前的主目录访问文件:(

  10. 10

    我真的需要从以前的主目录访问文件:(

  11. 11

    我需要从BAT文件在IDLE中运行python脚本

  12. 12

    我需要从文件中感染选定的数据

  13. 13

    我需要从 Scala 中的嵌套 json 文件创建一个 spark 数据框

  14. 14

    照片使用哪种文件格式?我将对其进行编辑。然后,我将添加文本并制作一个PDF

  15. 15

    从每个文本文件中提取特定的行并存储在一个txt文件中

  16. 16

    读取txt文件并放入html div标签

  17. 17

    需要从Android Studio中Assets文件夹中的txt文件读取

  18. 18

    我需要从文件中解析一些文本和整数

  19. 19

    需要从文件名array_map中删除.pdf扩展名

  20. 20

    从pdf转换为txt后保存文件

  21. 21

    搜索并从txt文件中提取文本

  22. 22

    从 txt 文件中读取文件并将内容放入 List<T>

  23. 23

    我如何制作一个脚本,该文件会带有空格的awk .txt文件读取.csv?

  24. 24

    尝试制作文件 output.txt 时,我得到了一个文件夹

  25. 25

    我需要从我的Android应用程序访问Dropbox文件夹,选择一个文件并在我的应用程序中打开它

  26. 26

    如何在PostgreSQL中制作txt / doc / pdf / html文件

  27. 27

    如何将两个.txt文件中的数据提取到一个新的.txt文件中?

  28. 28

    只需将 .txt 文件中的每一行放入一个 javascript 数组中

  29. 29

    需要从Java中的URL中提取Jpg或Png文件

热门标签

归档