每当 Solr 被索引到集合(使用 configSet sample_techproducts_configs
)并使用 URL 时,通过以下命令:
bin/post -p 8983 -c collection https://www.mywebsite.com -recursive 3
创建的索引确实有一个字段content
复制到text
字段。此字段确实具有使用嵌入式 tika 解析解析的网页内容的值。
但是,当这些网页包含任何<script>
或<style>
标记时,它们会<body>
被删除,但这些相应标记内的脚本或样式仍保留为网页的内容,并在响应 Solr 查询时显示。
如何删除这些不需要的内容?
务必阅读inputstream
的DATA_MODE_WEB
中SimplePostTool
(只对他们来说,内容类型为“text / html的”,并删除所有<script>
与<style>
标签,其内容和再次转换是content_String使用流stringToStream(String)
的readPageFromUrl(URL u)
功能。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句