Lucene BooleanQuery の間違った結果

debugcn 投稿 Dev

アジディエン

さまざまなソースからデータを収集してすばやく検索できるようにするために、Lucene RAMDirectory を作成しました。さまざまなアナライザーとインデックス戦略を理解するために何時間も費やしましたが、場合によっては、クエリの結果が期待どおりにならないことがあります。

デモクラスは次のとおりです。

class LuceneDemo {

    static final String ANIMAL = "animal";
    static final String PERSON = "person";

    private StandardAnalyzer analyzer = new StandardAnalyzer();

    private IndexSearcher searcher;
    private IndexWriter writer;

    LuceneDemo() {
        Directory ramDirectory = new RAMDirectory();
        IndexWriterConfig config = new IndexWriterConfig(analyzer);
        try {
            writer = new IndexWriter(ramDirectory, config);

            addDocument(createDocument(PERSON, "DR-(frankenstein)"));
            addDocument(createDocument(ANIMAL, "gray fox"));
            addDocument(createDocument(ANIMAL, "island fox"));

            writer.close();
            IndexReader reader = DirectoryReader.open(ramDirectory);
            searcher = new IndexSearcher(reader);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

    private Document createDocument(String type, String value) {
        Document document = new Document();
        document.add(new TextField("type", type, Field.Store.YES));
        document.add(new TextField("name", value, Field.Store.YES));
        document.add(new StringField("name", value, Field.Store.YES));
        return document;
    }

    private void addDocument(Document document) {
        try {
            writer.addDocument(document);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }

    List<String> getDocuments(String type, String value) {
        value = "*" + QueryParser.escape(value) + "*";
        try {
            QueryParser queryParser = new QueryParser("name", analyzer);
            queryParser.setAllowLeadingWildcard(true);
            queryParser.setDefaultOperator(QueryParser.Operator.AND);

            BooleanQuery.Builder query = new BooleanQuery.Builder();
            query.add(new TermQuery(new Term("type", type)), BooleanClause.Occur.MUST);
            query.add(queryParser.parse(value), BooleanClause.Occur.MUST);

            TopDocs docs = searcher.search(query.build(), 10);

            return Arrays.stream(docs.scoreDocs).map(scoreDoc -> {
                try {
                    return searcher.doc(scoreDoc.doc).get("name");
                } catch (IOException e) {
                    return "";
                }
            }).collect(Collectors.toList());
        } catch (ParseException | IOException e) {
            e.printStackTrace();
        }
        return Collections.emptyList();
    }
}

「ox」、「gray fox」、または「-(frankenstein)」を検索すると、コードはかなりうまく機能します。しかし、「DR-(フランケンシュタイン)」の検索結果はありません。私が何を間違えたのかわかりません。したがって、提案は大歓迎です。

// OK
luceneDemo.getDocuments(LuceneDemo.ANIMAL, "ox").forEach(System.out::println);
luceneDemo.getDocuments(LuceneDemo.ANIMAL, "gray fox").forEach(System.out::println);
luceneDemo.getDocuments(LuceneDemo.PERSON, "-(frankenstein)").forEach(System.out::println);

// NOT OK
luceneDemo.getDocuments(LuceneDemo.PERSON, "DR-(frankenstein)").forEach(System.out::println);

ダルキュラ

これがドキュメントのインデックス作成方法です -

doc#1 type :person name :dr name :frankenstein name :DR-(frankenstein) (注: StringField はトークン化されず、小文字に変換されません)
doc#2 type :動物の名前:灰色の名前:キツネの名前:灰色のキツネ
doc#3 type :動物の名前:島の名前:キツネの名前:島のキツネ

基本的StringFieldに、analyzerトークン化せず、大文字と小文字を区別せずに- に関係なくフィールドにインデックスを付けます。一方、読者はStandardAnalyzerすべての検索で大文字と小文字を区別して使用しています。したがって、「DR-(フランケンシュタイン)」を検索すると、一致しない「dr-(フランケンシュタイン)」が検索されます。

StandardAnalyzer を使用してコードを機能させるには、StringField に小文字のインデックスを付ける必要があります。

document.add(new StringField("name", value.toLowerCase(), Field.Store.YES));

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-08-3

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

Lucene BooleanQuery の間違った結果

Lucene BooleanQuery の間違った結果

Lucene 6.0！BooleanQueryをインスタンス化し、その中に他の検索クエリを追加する方法は？

Lucene 5.3.xでBooleanQueryビルダーを使用する方法

SolrとLuceneの違い

LuceneのRuby代替

Lucene空間、精度

Joda Time toDate（）の間違った結果

SciPymedfiltの間違った結果

sizeofの間違った結果

LuceneでBooleanQuery.Builderを使用してBooleanQuery.combine

クエリ文字列間違ったLucene構文を使用したクエリ

Python。間違った結果

BooleanQueryのTermの配列をLucene.Netと効率的に組み合わせる方法は？

Org.apache.lucene.search.BooleanQuery $ TooManyClausesとしての例外：maxClauseCountがXXXXに設定されている

LuceneのPorterStemmer

LuceneのWordnetSynonymParser

strtotimeのPHPの間違った結果

booleanqueryを使用したluceneランキング-ヒットの品質の決定

間違った結果でMySQL結合

Pythonの間違った乗算結果

sympy統合の間違った結果

間違ったクイズの結果

間違った式の結果linq

Magento Lucene SearchException-間違ったsegments.genファイル形式

Lucene、MoreLikeThisの代替？

Luceneの検索結果

qSinとqCosの間違った結果

0.9972のNumberFormatterの間違った結果

Luceneクエリ構文を使用したAzureSearchが誤った結果を返す

array_sumPHPの間違った結果