Apache Solr是否允许这样做:
除了翻译成法文的文件外,还可以将原始文本以及使用上下文返回给用户吗?
要编制索引的文件是pdf文件。
ُ编辑:添加示例
我有原始文件doc_eng.pdf
和翻译过的文件doc_fr.pdf
当doc_fr.pdf
查询响应中返回时,doc_eng.pdf
如果可能的话,我也希望能够获得上下文(突出显示)
我的建议
1 -地图doc_fr.pdf
和doc_eng.pdf
相同的ID(如果可以做到这一点),并添加一个布尔字段isOriginal = TRUE | FALSE。
2-使用嵌套的文档(但我不知道如何使用pdf文件)
是的,solr可以做到这一点。我建议您使用apache tika mechanism
Solr可以在使用langid UpdateRequestProcessor的索引期间识别语言并将文本映射到特定于语言的字段。
Solr支持此功能的两种实现:
[LangDetect语言检测](https://github.com/shuyo/language-detection https://lucene.apache.org/solr/guide/7_2/language-analysis.html)
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句