apache solr,用于翻译文档索引

elouanesbg

Apache Solr是否允许这样做:

除了翻译成法文的文件外,还可以将原始文本以及使用上下文返回给用户吗?

要编制索引的文件是pdf文件。

ُ编辑:添加示例

我有原始文件doc_eng.pdf和翻译过的文件doc_fr.pdf

doc_fr.pdf查询响应中返回时,doc_eng.pdf如果可能的话,我也希望能够获得上下文(突出显示)

我的建议

1 -地图doc_fr.pdfdoc_eng.pdf相同的ID(如果可以做到这一点),并添加一个布尔字段isOriginal = TRUE | FALSE。

2-使用嵌套的文档(但我不知道如何使用pdf文件)

吉布斯

是的,solr可以做到这一点。我建议您使用apache tika mechanism

Solr可以在使用langid UpdateRequestProcessor的索引期间识别语言并将文本映射到特定于语言的字段。

Solr支持此功能的两种实现:

蒂卡的语言检测功能

[LangDetect语言检测](https://github.com/shuyo/language-detection https://lucene.apache.org/solr/guide/7_2/language-analysis.html

参考

译者

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

DIH的Apache Solr索引

来自分类Dev

Apache Nutz没有将所有文档索引到Apache Solr

来自分类Dev

Apache Solr与Solr提交和索引的混淆

来自分类Dev

Apache Solr中的深层嵌套JSON文档

来自分类Dev

Apache Solr中的深层嵌套JSON文档

来自分类Dev

Apache Solr中的深层嵌套JSON文档

来自分类Dev

翻译模块不会翻译文档

来自分类Dev

使用Apache Solr索引Nutch数据

来自分类Dev

Drupal无法使用Apache Solr索引站点

来自分类Dev

使用Apache Solr的Drupal日期范围索引

来自分类Dev

使用 Apache Solr 索引 Zip 文件

来自分类Dev

Azure上的Apache Solr

来自分类Dev

Apache Solr搜索

来自分类Dev

Apache Solr通过“ AND”搜索

来自分类Dev

Apache Solr搜索问题

来自分类Dev

Apache Solr 查询构建

来自分类Dev

使用 Python 的 Apache Solr

来自分类Dev

通过PHP cURL将文档添加到Apache Solr

来自分类Dev

通过PHP cURL将文档添加到Apache Solr

来自分类Dev

在PHP中如何在Apache Solr中更新文档

来自分类Dev

使用http post apache solr插入新文档json

来自分类Dev

是否可以在Apache Solr中使用多个索引数据目录?

来自分类Dev

在一个核心Apache SOLR中索引多个实体

来自分类Dev

如何从LDAP将数据导入Apache Solr索引

来自分类Dev

在 Apache Solr 中索引来自 CSV 文件的数据

来自分类Dev

Apache Ignite索引性能

来自分类Dev

索引PDF-使用Apache Solr和Apache Tika进行分面搜索

来自分类Dev

XmlInputFormat用于Apache Flink

来自分类Dev

MS Word翻译文档中的多余空格字符