使用Algolia搜索（提取文本）PDF文件

Ric 发表于 Dev

里克

对于拥有大量PDF文件的客户来说，这只是一个推测性的想法。

Algolia在其常见问题解答中说，要搜索PDF文件，您首先需要从文件中提取文本。您将如何处理？

我设想的系统工作方式是：

客户端通过CMS上传PDF
CMS调用某些服务/程序来提取文本
Algolia对提取的内容进行索引，并以某种方式将其链接到原始PDF

它应该是一个自动化的系统，因为客户端不必告诉它要建立索引。它将用PHP构建，可能是Laravel在Ubuntu上运行。

哪些软件/服务可以从PDF提取文本，将其“链接”到PDF文件需要魔术吗？

我也很高兴就可能解决此问题的其他搜索服务提出建议。

耶斯卡

幸运的是，从pdf提取文本是一个已被多次讨论的主题。在命令行上，您可以使用pdftotext（在Linux或Mac上可用）或在代码中将库用作Apache Tika（可以找到PHP包装器）。

为避免记录中有太多杂音，建议您拆分文本并为每个段落创建一个记录。然后，您可以使用Algolia的distinct功能对结果进行重复数据删除。

您应该已经在某处拥有了指向文件的链接，只需将它们存储在记录中，然后在前端，您就可以轻松地使用autocomplete.js或Instantsearch.js来创建指向它们的链接。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-03-3

我来说两句

0条评论

登录后参与评论

来自分类常见问题

使用Python中的PDFMiner从PDF文件提取文本？

来自分类Dev

如何使用Apache PDFBox从PDF文件提取文本

来自分类Dev

iText：使用LocationTextExtractionStrategy从pdf文件中提取的文本顺序错误

来自分类Dev

使用Python与PyPDF2从PDF文件提取文本

来自分类Dev

如何使用Azure Functions提取PDF文件的文本？

来自分类Dev

如何使用docfetcher在PDF文件中搜索文本？

来自分类Dev

使用Ghostscript从PDF提取文本

来自分类Dev

搜索并从txt文件中提取文本

来自分类Dev

Python从PDF文件中提取多个文本

来自分类Dev

如何禁用pdf文件上的文本搜索？

来自分类Dev

在Algolia搜索中使用advancedSyntax

来自分类Dev

使用 Algolia 进行地理搜索

来自分类Dev

使用CID字体从PDF中提取文本

来自分类Dev

如何使用pdfbox从pdf提取粗体文本？

来自分类Dev

如何使用iTextSharp从PDF提取高亮文本？

来自分类Dev

使用PDFBox 2.0从PDF提取文本

来自分类Dev

使用Javascript从pdf提取文本的特定部分？

来自分类Dev

使用itext从pdf提取数学文本

来自分类Dev

如何使用php从pdf提取特定文本

来自分类Dev

使用 Java 从多个 PDF 中提取文本

来自分类Dev

使用德语的简单Elasticsearch PDF文本搜索

来自分类Dev

Java：如何使用iText从PDF文件中的选定区域提取文本？

来自分类Dev

如何将从PDF提取的文本（使用textract）写入python中的docx文件

来自分类Dev

我如何使用php或javascript提取PDF文件中的文本和图像

来自分类Dev

在 Windows 7 上使用 Python 2.7 从 PDF 文件中提取文本

来自分类Dev

使用R从pdf文件中提取数据

来自分类Dev

从PDF文件中提取表结构化文本

来自分类Dev

使用终端从文件中提取文本？

来自分类Dev

使用sed从文件中提取文本

Related 相关文章

文章