インデックスに重複データが含まれている場合に、パンダDataFrameの欠落している行を追加する

debugcn 投稿 Dev

Pierre Hoshyar

私は次のようなDataFrameを持っdtype=objectています：

          YY    MM  DD  hh  var1    var2
.
.
.

10512   2013    01  01  06  1.64    4.64
10513   2013    01  01  07  1.57    4.63
10514   2013    01  01  08  1.56    4.71
10515   2013    01  01  09  1.45    4.69
10516   2013    01  01  10  1.53    4.67
10517   2013    01  01  11  1.31    4.63
10518   2013    01  01  12  1.41    4.70
10519   2013    01  01  13  1.49    4.80
10520   2013    01  01  20  1.15    4.91
10521   2013    01  01  21  1.14    4.74
10522   2013    01  01  22  1.10    4.95

hhご覧のとおり、時間（）に対応する行が欠落しています（たとえば、10519から10520行の間hh、13から20にジャンプします）。hhここで説明したように、インデックスとして設定してギャップを追加しようとしました：データがない、パンダに行を挿入し、NANで埋める

df=df.set_index('hh')
new_index = pd.Index(np.arange(0,24), name="hh")
df=df.reindex(new_index).reset_index()

そして次のようなものに到達します：

          YY    MM  DD  hh  var1    var2

10519   2013    01  01  13  1.49    4.80
10520   2013    01  01  14  Nan     Nan
10521   2013    01  01  15  Nan     Nan
10522   2013    01  01  16  Nan     Nan
...
10523   2013    01  01  20  1.15    4.91
10524   2013    01  01  21  1.14    4.74
10525   2013    01  01  22  1.10    4.95

しかし"cannot reindex from a duplicate axis"、パーツのエラーが発生しましたdf=df.reindex(new_index)。hh=0,1,...,23同じ値がhh異なる月（MM）と年（YY）で繰り返されるため、それぞれに重複する値があります。おそらくそれが理由です。どうすれば問題を解決できますか？

一般に、インデックスに重複データが含まれている場合、どのようにしてパンダDataFrameの欠落している行を埋めることができますか。コメントありがとうございます。

シャイド

まず、datetime型の時刻（日付と時刻を含む）を使用して新しい列を作成します。これを行う1つの方法は、次のとおりです。

df = df.rename(columns={'YY': 'year', 'MM': 'month', 'DD': 'day', 'hh': 'hour'})
df['time'] = pd.to_datetime(df[['year', 'month', 'day', 'hour']])

使用するにはto_datetime、このように、列名をする必要がありyear、month、day及びhourその理由でrename使用されています。

期待される結果を得るには、この新しい列をインデックスとして設定し、次を使用しますresample。

df.set_index('time').resample('H').mean()

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-06-1

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

インデックスに重複データが含まれている場合に、パンダDataFrameの欠落している行を追加する

インデックスに重複データが含まれている場合に、パンダDataFrameの欠落している行を追加する

列が欠落している場合にインデックスの重みを変更する

複数の列に同じデータが含まれているが交換されている場合は、パンダDataFrameから行を削除します

インデックスに重複する値が含まれている場合、インデックスを使用するとパンダのマージが遅くなるのはなぜですか？

パンダで日付が欠落しているデータの日付に関してスマートインデックスを作成する方法

パンダ-列/インデックス値を維持しながら、欠落している日付をDataFrameに追加しますか？

パンダ：データが欠落している場合でも、列の一意の値ごとに行を作成します

Elasticsearch の全文検索: インデックスに欠落している/不明な単語がユーザー クエリに含まれている場合に 0 ヒットを返す方法

列に重複する値が含まれている場合にインデックスを使用してmySQLクエリを最適化する方法

マルチインデックスパンダシリーズで重複した行を合計し、欠落しているカテゴリにゼロを挿入します

パンダデータフレームで欠落している行の数をユーザーインデックスでカウントします

欠落している日付インデックスをデータフレームに追加する

欠落しているインデックスをデータフレームに追加する

「欠落している」マルチインデックス行をパンダデータフレームに挿入する

すべての列に特定のパターンが含まれている場合は、パンダデータフレームの行を選択します

パンダ-データが欠落している行を挿入します

特定の番号/テキストがマルチインデックスパンダデータフレームのインデックスから欠落しているかどうかを確認するにはどうすればよいですか？

データが欠落している場合、Rはスクレイピングを停止します

グループ内の欠落している日付と値を重複するインデックス値で埋めるパンダ

グループ内の欠落している日付と値を重複するインデックス値で埋めるパンダ

sed-パターンが欠落している場合にのみ行を印刷します

観測値が欠落している場合は、データフレームに行を追加します

パンダ：データが欠落している行の数

年と月でグループ化されたデータに欠落している月の行を作成します（マルチインデックス）

パンダの実行中のインデックスで欠落している行を生成する

列に特定の値が含まれている場合は、パンダデータフレームの行をドロップします。

オブジェクトインデックスが欠落している場合があるためのデータのパディング

SSIS-ソースデータセットのいずれかの行に欠落している値がある場合は失敗しますか？

インデックスで2つのパンダデータフレームをマージするが、欠落している値を埋める方法

営業日インデックスに基づいて、データフレーム内の複数の列に欠落している日付を代入する

Elasticsearch の全文検索: インデックスに欠落している/不明な単語がユーザークエリに含まれている場合に 0 ヒットを返す方法