对于拥有大量PDF文件的客户来说,这只是一个推测性的想法。
Algolia在其常见问题解答中说,要搜索PDF文件,您首先需要从文件中提取文本。您将如何处理?
我设想的系统工作方式是:
它应该是一个自动化的系统,因为客户端不必告诉它要建立索引。它将用PHP构建,可能是Laravel在Ubuntu上运行。
哪些软件/服务可以从PDF提取文本,将其“链接”到PDF文件需要魔术吗?
我也很高兴就可能解决此问题的其他搜索服务提出建议。
幸运的是,从pdf提取文本是一个已被多次讨论的主题。在命令行上,您可以使用pdftotext
(在Linux或Mac上可用)或在代码中将库用作Apache Tika
(可以找到PHP包装器)。
为避免记录中有太多杂音,建议您拆分文本并为每个段落创建一个记录。然后,您可以使用Algolia的distinct
功能对结果进行重复数据删除。
您应该已经在某处拥有了指向文件的链接,只需将它们存储在记录中,然后在前端,您就可以轻松地使用autocomplete.js或Instantsearch.js来创建指向它们的链接。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句