平均を使用してデータフレームに欠落している日付を入力します

debugcn 投稿 Dev

12programmerwannabe

定期的にデータフレームに取り込む日付があります。データは一般的に整形式ですが、それ以外の日付の列に不良データがある場合があります。

私は常に、解析された9桁の形式の日付を期待します。

(tm_year=2000, tm_mon=11, tm_mday=30, tm_hour=0, tm_min=0, tm_sec=0, tm_wday=3, tm_yday=335, tm_isdst=-1)
(2015, 12, 29, 0, 30, 50, 1, 363, 0)

これをどのように確認して修正する必要がありますか？

私がやりたいのは、日付ではないものを、last_update +更新間隔の1/2を表す変数に基づく日付に置き換えることです。これにより、アイテムは後の関数によって除外されません。

示されているデータは、feedparserからpublished_parsedされています。

import pandas as pd
import datetime

# date with ugly data
df_date_ugly = pd.DataFrame({'date': [
                             (2015, 12, 29, 0, 30, 50, 1, 363, 0), 
                             (2015, 12, 28, 23, 59, 12, 0, 362, 0),
                            'None', '',
                             (2015, 12, 28, 23, 59, 12, 0, 362, 0)
                            ]})

# date is fine
df_date =  pd.DataFrame({'date': [
                             (2015, 12, 29, 0, 30, 50, 1, 363, 0), 
                             (2015, 12, 28, 23, 59, 12, 0, 362, 0),
                             (2015, 12, 28, 23, 59, 12, 0, 362, 0)
                            ]})

Pseudocode
  if the original_date is valid
     return original_date
  else
     return substitute_date

ilyaspatanam

パンダの日付と時刻を操作する場合は、それらを変換するタイムスタンプパンダ使用pandas.to_datetime。この関数を使用するには、リストを日付と時刻の要素のみを含む文字列に変換します。あなたの場合、長さ9のリストではない値は不良と見なされ、空の文字列に置き換えられます''。

#convert list into string with date & time
#only elements with lists of length 9 will be parsed
dates_df = df_date_ugly.applymap(lambda x: "{0}/{1}/{2} {3}:{4}:{5}".format(x[0],x[1],x[2], x[3], x[4], x[5]) if len(x)==9 else '')

#convert to a pandas timestamp
dates_df = pd.to_datetime(dates_df['date'], errors = 'coerce'))

    date
0   2015-12-29 00:30:50
1   2015-12-28 23:59:12
2   NaT
3   NaT
4   2015-12-28 23:59:12

日付が欠落しているインデックスを見つけますpd.isnull()。

>>>missing = pd.isnull(dates_df['date']).index
>>>missing
Int64Index([2, 3], dtype='int64')

欠落している日付を2つの日付の中間点として設定するには：

start_date = dates_df.iloc[0,:]
end_date = dates_df.iloc[4,:]
missing_date = start_date + (end_date - start_date)/2

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-05-29

コメントを追加

サインイン

分類Dev

Sparkデータフレーム列に欠落している日付を入力する

分類Dev

データフレームで欠落している日付をどのように管理しますか？

分類Dev

日付が欠落しているデータフレームを時系列に変換します

分類Dev

日付列の値が欠落しているデータフレームIDを更新しています

分類Dev

データフレームに欠落している日を追加する

分類Dev

パンダデータフレームに欠落している値を間違って入力する

分類Dev

欠落している日付をマルチレベルデータフレームに代入する

分類Dev

欠落している日付インデックスをデータフレームに追加する

分類Dev

Pythonパンダ：欠落している日付、時系列の行をgroupbyデータフレームに挿入します

分類Dev

欠落している日付をパンダデータフレームに追加する

分類Dev

Pandasデータフレームに欠落している日付を代入する

分類Dev

Python Pandas：連続して欠落している平日の日付を返し、データフレーム内の欠落している日付の横にレートを割り当てます

分類Dev

欠落しているすべての日付データフレームの前日の行を複製する

分類Dev

欠落している時間行をデータフレームに挿入します

分類Dev

最初の有効なnull以外の列に基づいて、データフレームに欠落している値を入力します

分類Dev

データフレームに不足している日付を入力します

分類Dev

動物園パッケージを使用して、Rの時系列データに欠落している日付と時刻を入力する

分類Dev

pandasデータフレームの関連する列に欠落している値を同時に入力します

分類Dev

データフレームの変数に欠落している自然数を認識し、入力します

分類Dev

2つのテーブルを日付で結合し、1つのテーブルに欠落している日付がある場合は欠落しているデータを入力します

分類Dev

欠落している日時値に基づいて空のデータフレーム行を追加する

分類Dev

データが欠落している日付を含む月平均を計算します

分類Dev

営業日インデックスに基づいて、データフレーム内の複数の列に欠落している日付を代入する

分類Dev

pd.to_datetimeを使用して、データフレームのさまざまな列に存在する年、月、日を入力して日付を作成します

分類Dev

日付インデックスと欠落している日付を含むPandasデータフレームで次の日付を選択する方法

分類Dev

グループごとに日付の欠落している行を入力します

分類Dev

日が欠落しているテーブルデータを入力します

分類Dev

PandasDataFrame列で欠落している日付データを特定します

分類Dev

欠落している日付のフォワードフィルを使用して、すべてのIDの日次データを追加します

Related 関連記事

記事