如何在通过 URL 索引时删除 SOLR 索引 [内容字段] 内容中的脚本和样式？

debugcn 发表于 Dev

S杰耶什

每当 Solr 被索引到集合（使用 configSet sample_techproducts_configs）并使用 URL 时，通过以下命令：

bin/post -p 8983 -c collection https://www.mywebsite.com -recursive 3

创建的索引确实有一个字段content复制到text字段。此字段确实具有使用嵌入式 tika 解析解析的网页内容的值。

但是，当这些网页包含任何<script>或<style>标记时，它们会<body>被删除，但这些相应标记内的脚本或样式仍保留为网页的内容，并在响应 Solr 查询时显示。

如何删除这些不需要的内容？

S杰耶什

务必阅读inputstream的DATA_MODE_WEB中SimplePostTool（只对他们来说，内容类型为“text / html的”，并删除所有<script>与<style>标签，其内容和再次转换是content_String使用流stringToStream(String)的readPageFromUrl(URL u)功能。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-07-10

我来说两句

0条评论

登录后参与评论

来自分类Dev

Related 相关文章

文章

如何在通过 URL 索引时删除 SOLR 索引 [内容字段] 内容中的脚本和样式？

如何在通过 URL 索引时删除 SOLR 索引 [内容字段] 内容中的脚本和样式？

如何使用Solr在索引中索引插件字段？

如何在Solr字段中索引多维数组

从坚果索引时如何在solr中添加一些其他字段？

如何重新索引数据而不在Solr中删除

在solr中通过动态字段和值进行索引和搜索

如何避免将原始内容存储在Solr中，仅存储索引版本？

Elasticsearch如何在重新索引时删除字段

Sitecore Solr从索引中删除版本

如何更改UISegmentedControl索引时显示的内容？

索引Solr时如何指定文件类型

如何仅删除索引名称而不删除熊猫多索引数据框中的内容

我如何在Solr 4.6中搜索P_NAME（按字段名称并获取所有被索引的字段）

如何在Solr中索引HBase表的版本列

如何在solr 6.2.1中从数据库导入和索引数据（solr的新增功能）

自动索引数据库时solr的增量导入URL中的错误

我如何查询（通过URL）solr.admin.LukeRequestHandler以获取集合索引数据

MySQL数据库在Apache Solr上被索引，如何通过URL访问它

Apache Solr与Solr提交和索引的混淆

在Solr的多值字段中查询特定的索引值

更新多值字段，在SOLR索引中不获取多个值

在Solr的多值字段中查询特定的索引值

螺母未在Solr中索引指定的索引

是否有用于查询索引内容的 lucene 搜索引擎（非 Solr）REST API？

Solr索引方法和性能

如何使用Mongodb返回带有一些顶级字段的嵌套索引字段的内容？

Lucene-如何为两个不同字段中的文件内容建立索引

Solr：我应该索引大字段吗？

Octopress如何生成索引内容

Octopress如何生成索引内容