如何在通过 URL 索引时删除 SOLR 索引 [内容字段] 内容中的脚本和样式?

S杰耶什

每当 Solr 被索引到集合(使用 configSet sample_techproducts_configs)并使用 URL 时,通过以下命令:

bin/post -p 8983 -c collection https://www.mywebsite.com -recursive 3 

创建的索引确实有一个字段content复制到text字段。此字段确实具有使用嵌入式 tika 解析解析的网页内容的值。

但是,当这些网页包含任何<script><style>标记时,它们会<body>被删除,但这些相应标记内的脚本或样式仍保留为网页的内容,并在响应 Solr 查询时显示。

如何删除这些不需要的内容?

S杰耶什

务必阅读inputstreamDATA_MODE_WEBSimplePostTool(只对他们来说,内容类型为“text / html的”,并删除所有<script><style>标签,其内容和再次转换是content_String使用流stringToStream(String)readPageFromUrl(URL u)功能。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何使用Solr在索引中索引插件字段?

来自分类Dev

如何在Solr字段中索引多维数组

来自分类Dev

从坚果索引时如何在solr中添加一些其他字段?

来自分类Dev

如何重新索引数据而不在Solr中删除

来自分类Dev

在solr中通过动态字段和值进行索引和搜索

来自分类Dev

如何避免将原始内容存储在Solr中,仅存储索引版本?

来自分类Dev

Elasticsearch如何在重新索引时删除字段

来自分类Dev

Sitecore Solr从索引中删除版本

来自分类Dev

如何更改UISegmentedControl索引时显示的内容?

来自分类Dev

索引Solr时如何指定文件类型

来自分类Dev

如何仅删除索引名称而不删除熊猫多索引数据框中的内容

来自分类Dev

我如何在Solr 4.6中搜索P_NAME(按字段名称并获取所有被索引的字段)

来自分类Dev

如何在Solr中索引HBase表的版本列

来自分类Dev

如何在solr 6.2.1中从数据库导入和索引数据(solr的新增功能)

来自分类Dev

自动索引数据库时solr的增量导入URL中的错误

来自分类Dev

我如何查询(通过URL)solr.admin.LukeRequestHandler以获取集合索引数据

来自分类Dev

MySQL数据库在Apache Solr上被索引,如何通过URL访问它

来自分类Dev

Apache Solr与Solr提交和索引的混淆

来自分类Dev

在Solr的多值字段中查询特定的索引值

来自分类Dev

更新多值字段,在SOLR索引中不获取多个值

来自分类Dev

在Solr的多值字段中查询特定的索引值

来自分类Dev

螺母未在Solr中索引指定的索引

来自分类Dev

是否有用于查询索引内容的 lucene 搜索引擎(非 Solr)REST API?

来自分类Dev

Solr索引方法和性能

来自分类Dev

如何使用Mongodb返回带有一些顶级字段的嵌套索引字段的内容?

来自分类Dev

Lucene-如何为两个不同字段中的文件内容建立索引

来自分类Dev

Solr:我应该索引大字段吗?

来自分类Dev

Octopress如何生成索引内容

来自分类Dev

Octopress如何生成索引内容

Related 相关文章

  1. 1

    如何使用Solr在索引中索引插件字段?

  2. 2

    如何在Solr字段中索引多维数组

  3. 3

    从坚果索引时如何在solr中添加一些其他字段?

  4. 4

    如何重新索引数据而不在Solr中删除

  5. 5

    在solr中通过动态字段和值进行索引和搜索

  6. 6

    如何避免将原始内容存储在Solr中,仅存储索引版本?

  7. 7

    Elasticsearch如何在重新索引时删除字段

  8. 8

    Sitecore Solr从索引中删除版本

  9. 9

    如何更改UISegmentedControl索引时显示的内容?

  10. 10

    索引Solr时如何指定文件类型

  11. 11

    如何仅删除索引名称而不删除熊猫多索引数据框中的内容

  12. 12

    我如何在Solr 4.6中搜索P_NAME(按字段名称并获取所有被索引的字段)

  13. 13

    如何在Solr中索引HBase表的版本列

  14. 14

    如何在solr 6.2.1中从数据库导入和索引数据(solr的新增功能)

  15. 15

    自动索引数据库时solr的增量导入URL中的错误

  16. 16

    我如何查询(通过URL)solr.admin.LukeRequestHandler以获取集合索引数据

  17. 17

    MySQL数据库在Apache Solr上被索引,如何通过URL访问它

  18. 18

    Apache Solr与Solr提交和索引的混淆

  19. 19

    在Solr的多值字段中查询特定的索引值

  20. 20

    更新多值字段,在SOLR索引中不获取多个值

  21. 21

    在Solr的多值字段中查询特定的索引值

  22. 22

    螺母未在Solr中索引指定的索引

  23. 23

    是否有用于查询索引内容的 lucene 搜索引擎(非 Solr)REST API?

  24. 24

    Solr索引方法和性能

  25. 25

    如何使用Mongodb返回带有一些顶级字段的嵌套索引字段的内容?

  26. 26

    Lucene-如何为两个不同字段中的文件内容建立索引

  27. 27

    Solr:我应该索引大字段吗?

  28. 28

    Octopress如何生成索引内容

  29. 29

    Octopress如何生成索引内容

热门标签

归档