我需要 PYTHON 脚本的帮助来读取 PDF 文件并复制其中的每个单词并将它们放入一个新的 .txt 文件中(每个单词必须占 1 行);然后删除重复的单词并在此之后计算它们并在最后一行打印计数
安装这些库。
PyPDF2(将简单的基于文本的 PDF 文件转换为 Python 可读的文本)
textract(将非平凡的扫描 PDF 文件转换为 Python 可读的文本)
nltk(清理短语并将其转换为关键字)
这些库中的每一个都可以在侧终端(在 macOS 上)使用以下命令安装:
pip install Libraryname
请参阅本教程https://medium.com/@rqaiserr/how-to-convert-pdfs-into-searchable-key-words-with-python-85aab86c544f
使用 texttrack 它支持多种类型的文件,也支持 PDF。所以文本跟踪更好。
按照这些链接
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句