如何使用Solr在索引中索引插件字段?

jinhong_lu

我集成了nutch / solr / hbase来构建搜索引擎,它工作得很好,除了schma.xml中的某些文件未索引到solr。schema.xml如下所示:

<schema name="nutch" version="1.5">
    <types>
    <fieldType name="string" class="solr.StrField" sortMissingLast="true"
        omitNorms="true"/>
    <fieldType name="long" class="solr.TrieLongField" precisionStep="0"
        omitNorms="true" positionIncrementGap="0"/>
    <fieldType name="float" class="solr.TrieFloatField" precisionStep="0"
        omitNorms="true" positionIncrementGap="0"/>
    <fieldType name="date" class="solr.TrieDateField" precisionStep="0"
        omitNorms="true" positionIncrementGap="0"/>
    <fieldType name="text" class="solr.TextField"
        positionIncrementGap="100">
        <analyzer>
            <tokenizer class="solr.WhitespaceTokenizerFactory"/>
            <filter class="solr.StopFilterFactory"
                ignoreCase="true" words="stopwords.txt"/>
            <filter class="solr.WordDelimiterFilterFactory"
                generateWordParts="1" generateNumberParts="1"
                catenateWords="1" catenateNumbers="1" catenateAll="0"
                splitOnCaseChange="1"/>
            <filter class="solr.LowerCaseFilterFactory"/>
            <filter class="solr.RemoveDuplicatesTokenFilterFactory"/>
        </analyzer>
      </fieldType>
      <fieldType name="url" class="solr.TextField"
        positionIncrementGap="100">
        <analyzer>
            <tokenizer class="solr.StandardTokenizerFactory"/>
            <filter class="solr.LowerCaseFilterFactory"/>
            <filter class="solr.WordDelimiterFilterFactory"/>
        <analyzer>
            <tokenizer class="solr.StandardTokenizerFactory"/>
            <filter class="solr.LowerCaseFilterFactory"/>
            <filter class="solr.WordDelimiterFilterFactory"
                generateWordParts="1" generateNumberParts="1"/>
        </analyzer>
    </fieldType>
</types>
<fields>
    <field name="id" type="string" stored="true" indexed="true"/>

    <!-- core fields -->
    <field name="batchId" type="string" stored="true" indexed="false"/>
    <field name="digest" type="string" stored="true" indexed="false"/>
    <field name="boost" type="float" stored="true" indexed="false"/>

    <!-- fields for index-basic plugin -->
    <field name="host" type="url" stored="false" indexed="true"/>
    <field name="url" type="url" stored="true" indexed="true"
        required="true"/>
    <field name="content" type="text" stored="true" indexed="true"/>
    <field name="title" type="text" stored="true" indexed="true"/>
    <field name="cache" type="string" stored="true" indexed="false"/>
    <field name="tstamp" type="date" stored="true" indexed="true"/>

    <field name="_version_" type="long" indexed="true" stored="true"/>
    <!-- fields for index-anchor plugin -->
    <field name="anchor" type="string" stored="true" indexed="true"
        multiValued="true"/>

    <!-- fields for index-more plugin -->
    <field name="type" type="string" stored="true" indexed="true"
        multiValued="true"/>
    <field name="contentLength" type="long" stored="true"
        indexed="true"/>
    <field name="lastModified" type="date" stored="true"
        indexed="true"/>
    <field name="date" type="date" stored="true" indexed="true"/>

    <!-- fields for languageidentifier plugin -->
    <field name="lang" type="string" stored="true" indexed="true"/>

    <!-- fields for subcollection plugin -->
    <field name="subcollection" type="string" stored="true"
        indexed="true" multiValued="true"/>

    <!-- fields for feed plugin (tag is also used by microformats-reltag)-->
    <field name="author" type="string" stored="true" indexed="true"/>
    <field name="tag" type="string" stored="true" indexed="true" multiValued="true"/>
    <field name="feed" type="string" stored="true" indexed="true"/>
    <field name="publishedDate" type="date" stored="true"
        indexed="true"/>
    <field name="updatedDate" type="date" stored="true"
        indexed="true"/>

    <!-- fields for creativecommons plugin -->
    <field name="cc" type="string" stored="true" indexed="true"
        multiValued="true"/>

    <!-- fields for tld plugin -->
    <field name="tld" type="string" stored="false" indexed="false"/>
</fields>
<uniqueKey>id</uniqueKey>
<defaultSearchField>content</defaultSearchField>
<solrQueryParser defaultOperator="OR"/>
</schema>

“-核心字段-”和“-基本索引插件-的字段”中的字段已索引到solr,但其他字段,例如“-索引锚插件-的字段-”中的字段-索引更多插件的字段-,不是。

这是什么问题?

betolink

也许您忘记了在nutch-default或nutch-site文件中激活这些插件。

<property>
 <name>plugin.includes</name>
 <value>protocol-http|urlfilter-regex|parse-(html|tika)|index-(basic|anchor|more)|scoring- opic|urlnormalizer-(pass|regex|basic)</value>
</property>

然后,您可能还要将它们添加到solrindex-mapping.xml文件中。

<fields>
 <field dest="content" source="content"/>
 <field dest="title" source="title"/>
 <field dest="host" source="host"/>
 <field dest="segment" source="segment"/>
 <field dest="boost" source="boost"/>
 <field dest="digest" source="digest"/>
 <field dest="tstamp" source="tstamp"/>
 <field dest="anchor" source="anchor"/>
 <field dest="type" source="type"/>
 <field dest="id" source="url"/>
 <copyField source="url" dest="url"/>
</fields>
<uniqueKey>id</uniqueKey>

编译Nutch并进行新的爬网,您应该能够在solr中看到index-more和index-anchor字段。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何使用单个Solr实例或Solr模板字段无法正常工作来索引和搜索同一数据源中的两个不同表

来自分类Dev

使用Solr索引日志文件

来自分类Dev

更新多值字段,在SOLR索引中不获取多个值

来自分类Dev

如何使用Solr索引整个C驱动器

来自分类Dev

如何使用二进制数据作为SOLR字段索引HBase列?

来自分类Dev

在Solr的多值字段中查询特定的索引值

来自分类Dev

如何使用Solr索引哈希数组

来自分类Dev

螺母未在Solr中索引指定的索引

来自分类Dev

如何在Postgresql上使用Solr并为表建立索引

来自分类Dev

如何获取solr中的最后一个索引记录

来自分类Dev

如何索引Firebase中的引用字段?

来自分类Dev

如何在Solr字段中索引多维数组

来自分类Dev

我如何在Solr 4.6中搜索P_NAME(按字段名称并获取所有被索引的字段)

来自分类Dev

如何使用单个Solr实例或Solr模板字段无法正常工作来索引和搜索同一数据源中的两个不同表

来自分类Dev

Solr:我应该索引大字段吗?

来自分类Dev

如何使用二进制数据作为SOLR字段索引HBase列?

来自分类Dev

在Solr的多值字段中查询特定的索引值

来自分类Dev

从坚果索引时如何在solr中添加一些其他字段?

来自分类Dev

如何从弹性搜索中获取索引的字段?

来自分类Dev

如何使用JSON一次在Solr更新中插入多个索引

来自分类Dev

如何更新被索引的字段?

来自分类Dev

如何获取多个输入字段中的字段索引?

来自分类Dev

如何在Solr中索引HBase表的版本列

来自分类Dev

如何使用Elasticsearch索引多字段元素

来自分类Dev

在我的 Wordpress 插件中,如何使用设置 API 保存和检索多个索引数据集?

来自分类Dev

如何在通过 URL 索引时删除 SOLR 索引 [内容字段] 内容中的脚本和样式?

来自分类Dev

如何使用 generate_rewrite_rules 在我的 WordPress 插件中添加到索引的路由?

来自分类Dev

如何重新索引数据而不在Solr中删除

来自分类Dev

如何使用 curl/solrctl 命令从 Solr 中删除索引文件

Related 相关文章

  1. 1

    如何使用单个Solr实例或Solr模板字段无法正常工作来索引和搜索同一数据源中的两个不同表

  2. 2

    使用Solr索引日志文件

  3. 3

    更新多值字段,在SOLR索引中不获取多个值

  4. 4

    如何使用Solr索引整个C驱动器

  5. 5

    如何使用二进制数据作为SOLR字段索引HBase列?

  6. 6

    在Solr的多值字段中查询特定的索引值

  7. 7

    如何使用Solr索引哈希数组

  8. 8

    螺母未在Solr中索引指定的索引

  9. 9

    如何在Postgresql上使用Solr并为表建立索引

  10. 10

    如何获取solr中的最后一个索引记录

  11. 11

    如何索引Firebase中的引用字段?

  12. 12

    如何在Solr字段中索引多维数组

  13. 13

    我如何在Solr 4.6中搜索P_NAME(按字段名称并获取所有被索引的字段)

  14. 14

    如何使用单个Solr实例或Solr模板字段无法正常工作来索引和搜索同一数据源中的两个不同表

  15. 15

    Solr:我应该索引大字段吗?

  16. 16

    如何使用二进制数据作为SOLR字段索引HBase列?

  17. 17

    在Solr的多值字段中查询特定的索引值

  18. 18

    从坚果索引时如何在solr中添加一些其他字段?

  19. 19

    如何从弹性搜索中获取索引的字段?

  20. 20

    如何使用JSON一次在Solr更新中插入多个索引

  21. 21

    如何更新被索引的字段?

  22. 22

    如何获取多个输入字段中的字段索引?

  23. 23

    如何在Solr中索引HBase表的版本列

  24. 24

    如何使用Elasticsearch索引多字段元素

  25. 25

    在我的 Wordpress 插件中,如何使用设置 API 保存和检索多个索引数据集?

  26. 26

    如何在通过 URL 索引时删除 SOLR 索引 [内容字段] 内容中的脚本和样式?

  27. 27

    如何使用 generate_rewrite_rules 在我的 WordPress 插件中添加到索引的路由?

  28. 28

    如何重新索引数据而不在Solr中删除

  29. 29

    如何使用 curl/solrctl 命令从 Solr 中删除索引文件

热门标签

归档