2つの異なるテーブル間でデータをはるかに高速に比較するにはどうすればよいですか

debugcn 投稿 Dev

アリャ

2つの異なるデータベースから2つの異なるテーブルがあります。両方のテーブルに大量のデータがありますが、両方のテーブルに同じ列があります。

以下のコードを試してみると、パフォーマンスの問題が発生しています（従業員テーブルには2つのレコードしかありませんが、部門テーブルには10万レコードあります）。比較に10分以上かかります。

パフォーマンスを低下させて高速化する方法はありますか？

EmplTbl = cur.execute("select A , B , C from EmployeeTable where EmplName in ('A','B')") 
for line in EmplTbl:
    EmplData.append(line)

DeptTbl = cur.execute("select A , B , C from DeptTable") 

for line in DeptTbl:
    DeptData.append(line)

for Empl in EmplData:
    DeptResult = all(Empl in DeptData for elm in DeptData)
    if DeptResult:
        print("Yes")
    else:
        print("No")

サムメイソン

あなたのコードはあなたが期待するよりも指数関数的に多くの仕事をしているようです。あなたのライン：

DeptResult = all(Empl in DeptData for elm in DeptData)

暗黙的に実行しています：

DeptResult = True
for elem in DeptData:
  for tmp in DeptData:
     DeptResult = DeptResult and Empl == tmp

つまりDeptData、必要なのが1つだけの場合に、ネストされたパスを2つ作成するため、len(DeptData) ** 2操作が必要になります。これは、1e10の比較を行おうとしていることを意味し、完了するまでに非常に長い時間がかかります。

私はこれを次のように書き直します：

cur.execute("select A , B , C from DeptTable")
dept_entries = set(cur)

cur.execute("select A , B , C from EmployeeTable where EmplName in ('A','B')") 
for empl in cur:
  if empl in dept_entries:
    print(empl, 'Yes')
  else:
    print(empl, 'No')

Pythonデータベースコネクタは通常、executeメソッドから結果を返さないため、fetch*メソッドの1つを呼び出すか、カーソルを反復処理する必要があることに注意してください。私はOracleを使用していませんが、他の投稿では、標準に従う必要があり、コードが壊れていることが示唆されています

を入れるDeptTableというsetことは、ルックアップが今O(1)であり、したがってempl in dept_entries非常に安いことを意味します

注：tuplePythonで平等がどのように機能するかについてのチュートリアルsetや、基本的な反復のようなデータ構造を確認する価値があるかもしれません。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-11

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

2つの異なるテーブル間でデータをはるかに高速に比較するにはどうすればよいですか

2つの異なるテーブル間でデータをはるかに高速に比較するにはどうすればよいですか

SQL Serverの2つの異なるテーブルのセルのデータを比較するにはどうすればよいですか？

2つの異なるSQLテーブルを比較して異なる値を取得するにはどうすればよいですか？

異なるデータベース（SQL Server）にある2つのテーブルを関連付けるにはどうすればよいですか？

2つの異なるテーブルを結合するにはどうすればよいですか？

MatLab：異なるデータ型の2つの配列をテーブルに追加するにはどうすればよいですか？

orientDBの同じテーブルから2つの異なるエッジのデータを取得するにはどうすればよいですか？

PostgreSQLを使用して異なるデータベースの2つのテーブルを接続するにはどうすればよいですか？

Djangoビューで2つの異なるテーブルの列を比較するにはどうすればよいですか？

Djangoビューで2つの異なるテーブルの列を比較するにはどうすればよいですか？

mysql（LEFT JOIN）の2つの異なるテーブルのデータを接続するにはどうすればよいですか？

2つの2つの要素データセット間で異なるオブジェクトを取得するにはどうすればよいですか？

2つの異なるテーブルのMySQLデータをリンクして表示するにはどうすればよいですか？

2つのGoogleFusionテーブルのデータを使用するにはどうすればよいですか？

2つの異なるテーブルから2つの異なる列の同期を維持するにはどうすればよいですか？

YII2の2つのデータベーステーブルフィールドを比較するにはどうすればよいですか？

列に基づいてサイズの異なる2つのデータフレームを比較するにはどうすればよいですか？

2つの異なるパンダデータフレームで値を相互に比較するにはどうすればよいですか

Pythonでサイズの異なる2つのデータフレームの値のペアを比較するにはどうすればよいですか？

内容の異なる2つの同じテーブルで構成されるテーブルを作成するにはどうすればよいですか？

2つのテーブルを比較するにはどうすればよいですか？

Angular 2テーブルコンポーネント間でデータを共有して、それぞれが異なるデータを持つことができるが、同じテーブルコンポーネントのみを使用するようにするにはどうすればよいですか？

2つの異なるデータベース間でmysqlに外部キーを設定するにはどうすればよいですか？

PostgreSQLで異なるテーブルの特定の2列のデータをカウントするにはどうすればよいですか？

Bootstrapのテーブル間でデータを取得するにはどうすればよいですか？

Rutaルール内の2つの異なるアノテーションの機能を比較するにはどうすればよいですか？

mysqlの条件が異なるテーブルから2つの異なる値を選択するにはどうすればよいですか？

共通の列が2つしかない2つの異なるテーブルの重複値を削除するにはどうすればよいですか？

2つのテーブル間で最大の収益を得るにはどうすればよいですか？

3つのテーブルを結合し、2つの異なる条件でフィールドを取得するにはどうすればよいですか？