Solrのインデックス作成方法とパフォーマンス

spanishgum

Solrインデックスへの追加がどのように機能するかを理解し、正しい方向に向かっていることを確認しようとしています。

データセットには約40000個のNetCDFファイルが含まれており、それぞれ平均で250KB程度です。ファイルごとに、メタデータとデータのサブセットにインデックスを付ける必要があります。

{
'metadata' :
    {
    'file' : [id, date, ...],
    'identifiers' : [[a, b, c, ...]]
    },
'data' : 
    [[idx, time, lat, lon, a, b, c, ...]]
}

いくつかのクエリ文字列を使用してデータサブセットWebサービスを呼び出し、すべてのデータをフィルタリングしてjsonオブジェクト(上記のスキーマを使用)を生成するPythonスクリプトを作成しました。これは単一のファイル用です。すべてがここでチェックアウトされます(ただし、より高速になる可能性があります)。

私の計画は、このjsonオブジェクトをスクリプトから直接Solrに送信することでしたが、ここでいくつか懸念事項があります。

--〜160KBのjsonファイルを作成しました。私はメモリを意識する必要があるので、疑問に思っていました... solrが機能するために、このjsonオブジェクトをファイル内に置いておく必要がありますか?jsonファイルを生成し、インデックスを付けてからファイルを削除するとどうなりますか?

--Pythonスクリプト内からドキュメントを追加できますか?有望に見えるライブラリをいくつか見ました。また、ドキュメントから、それをsolrurlに送信する方法を思い出します。jsonファイルを保存する必要がある場合、solrのpostコマンドをシステムコールして、後でファイルを削除できますか?

インデックスに必要なのは、元のNetCDFファイルへのURLを提供することだけです。エンドユーザーは、インデックスを使用して関連情報を収集できます。

これは合理的に聞こえますか?パフォーマンスの提案はありますか?

YoungHobbit

インデックス作成方法に関係なく、JSONファイルを保持する必要はありません。データのインデックスを再作成する場合を除いて、スペースを解放することはできます。Solrは、スキーマに定義されているように、すべてのデータを内部に格納します。スキーマを固定している場合は、solrに格納するすべてのフィールドと、インデックスを作成するすべてのフィールドをスキーマに定義します。すべてのフィールドを保存済みフィールドとして定義すると、ソースデータがなくてもいつでもインデックスを再作成できます。これがサンプルフィールド宣言です。詳しくはお問い合わせください。リンク

<field name="firstname" type="string" indexed="true" stored="true" multivalued="false"/>

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

ApacheIgniteインデックス作成のパフォーマンス

分類Dev

インデックス作成のJavascriptパフォーマンス

分類Dev

SQLServerでのインデックス作成のパフォーマンス

分類Dev

oracledbのluceneインデックスの作成-パフォーマンス

分類Dev

変数でインデックスを作成するときのSD []のパフォーマンスの問題

分類Dev

SQLAzure。インデックスの推奨事項とパフォーマンスを作成する

分類Dev

スフィンクスのインデックス作成パフォーマンスを考える

分類Dev

SQLiteインデックスのパフォーマンス

分類Dev

SurfaceBookのWindowsパフォーマンスインデックス

分類Dev

Elasticsearchのインデックス作成パフォーマンス:スロットルマージ

分類Dev

インデックス作成とパーティション分割: SqlServer 2008 R2 クエリ パフォーマンスの向上

分類Dev

JSON.NETインデックスの作成方法

分類Dev

Oracle11G-挿入時のインデックス作成のパフォーマンスへの影響

分類Dev

パンダデータフレームのマスキングとインデックス作成

分類Dev

SQLテーブルのパフォーマンスを最適化する-インデックス作成

分類Dev

infinispanでのLuceneインデックス作成パフォーマンスの調整

分類Dev

Elasticsearchのインデックスタイプ、パフォーマンスの理由

分類Dev

numpyインデックスアクセスとnumpy.array.itemのパフォーマンス

分類Dev

検索パフォーマンスを最適化するためのPostgreSQLjsonbインデックス作成

分類Dev

4.5でのパフォーマンスはgsiインデックスを作成します

分類Dev

ベクトルサブセットのパフォーマンス:名前とインデックス

分類Dev

solrのodtファイルのインデックス作成とアクセス

分類Dev

CouchDBビューインデックスのパフォーマンス

分類Dev

MySQLテーブル-パフォーマンス、インデックスの数

分類Dev

Vecとボックススライスのパフォーマンス比較

分類Dev

プライマリインデックスとインデックスのクエリパフォーマンス

分類Dev

std :: mapインデックス演算子と挿入メソッドのパフォーマンス

分類Dev

マルチステップフォームの作成方法

分類Dev

ArangoDB:配列要素のパフォーマンスインデックス

Related 関連記事

  1. 1

    ApacheIgniteインデックス作成のパフォーマンス

  2. 2

    インデックス作成のJavascriptパフォーマンス

  3. 3

    SQLServerでのインデックス作成のパフォーマンス

  4. 4

    oracledbのluceneインデックスの作成-パフォーマンス

  5. 5

    変数でインデックスを作成するときのSD []のパフォーマンスの問題

  6. 6

    SQLAzure。インデックスの推奨事項とパフォーマンスを作成する

  7. 7

    スフィンクスのインデックス作成パフォーマンスを考える

  8. 8

    SQLiteインデックスのパフォーマンス

  9. 9

    SurfaceBookのWindowsパフォーマンスインデックス

  10. 10

    Elasticsearchのインデックス作成パフォーマンス:スロットルマージ

  11. 11

    インデックス作成とパーティション分割: SqlServer 2008 R2 クエリ パフォーマンスの向上

  12. 12

    JSON.NETインデックスの作成方法

  13. 13

    Oracle11G-挿入時のインデックス作成のパフォーマンスへの影響

  14. 14

    パンダデータフレームのマスキングとインデックス作成

  15. 15

    SQLテーブルのパフォーマンスを最適化する-インデックス作成

  16. 16

    infinispanでのLuceneインデックス作成パフォーマンスの調整

  17. 17

    Elasticsearchのインデックスタイプ、パフォーマンスの理由

  18. 18

    numpyインデックスアクセスとnumpy.array.itemのパフォーマンス

  19. 19

    検索パフォーマンスを最適化するためのPostgreSQLjsonbインデックス作成

  20. 20

    4.5でのパフォーマンスはgsiインデックスを作成します

  21. 21

    ベクトルサブセットのパフォーマンス:名前とインデックス

  22. 22

    solrのodtファイルのインデックス作成とアクセス

  23. 23

    CouchDBビューインデックスのパフォーマンス

  24. 24

    MySQLテーブル-パフォーマンス、インデックスの数

  25. 25

    Vecとボックススライスのパフォーマンス比較

  26. 26

    プライマリインデックスとインデックスのクエリパフォーマンス

  27. 27

    std :: mapインデックス演算子と挿入メソッドのパフォーマンス

  28. 28

    マルチステップフォームの作成方法

  29. 29

    ArangoDB:配列要素のパフォーマンスインデックス

ホットタグ

アーカイブ