平均を使用してデータフレームに欠落している日付を入力します

12programmerwannabe

定期的にデータフレームに取り込む日付があります。データは一般的に整形式ですが、それ以外の日付の列に不良データがある場合があります。

私は常に、解析された9桁の形式の日付を期待します。

(tm_year=2000, tm_mon=11, tm_mday=30, tm_hour=0, tm_min=0, tm_sec=0, tm_wday=3, tm_yday=335, tm_isdst=-1)
(2015, 12, 29, 0, 30, 50, 1, 363, 0)

これをどのように確認して修正する必要がありますか?

私がやりたいのは、日付ではないものを、last_update +更新間隔の1/2を表す変数に基づく日付に置き換えることです。これにより、アイテムは後の関数によって除外されません。

示されているデータは、feedparserからpublished_pa​​rsedされています。

import pandas as pd
import datetime

# date with ugly data
df_date_ugly = pd.DataFrame({'date': [
                             (2015, 12, 29, 0, 30, 50, 1, 363, 0), 
                             (2015, 12, 28, 23, 59, 12, 0, 362, 0),
                            'None', '',
                             (2015, 12, 28, 23, 59, 12, 0, 362, 0)
                            ]})

# date is fine
df_date =  pd.DataFrame({'date': [
                             (2015, 12, 29, 0, 30, 50, 1, 363, 0), 
                             (2015, 12, 28, 23, 59, 12, 0, 362, 0),
                             (2015, 12, 28, 23, 59, 12, 0, 362, 0)
                            ]})

Pseudocode
  if the original_date is valid
     return original_date
  else
     return substitute_date
ilyaspatanam
  1. パンダの日付と時刻を操作する場合は、それらを変換するタイムスタンプパンダ使用pandas.to_datetimeこの関数を使用するには、リストを日付と時刻の要素のみを含む文字列に変換します。あなたの場合、長さ9のリストではない値は不良と見なされ、空の文字列に置き換えられます''

    #convert list into string with date & time
    #only elements with lists of length 9 will be parsed
    dates_df = df_date_ugly.applymap(lambda x: "{0}/{1}/{2} {3}:{4}:{5}".format(x[0],x[1],x[2], x[3], x[4], x[5]) if len(x)==9 else '')
    
    #convert to a pandas timestamp
    dates_df = pd.to_datetime(dates_df['date'], errors = 'coerce'))
    
        date
    0   2015-12-29 00:30:50
    1   2015-12-28 23:59:12
    2   NaT
    3   NaT
    4   2015-12-28 23:59:12
    
  2. 日付が欠落しているインデックスを見つけますpd.isnull()

    >>>missing = pd.isnull(dates_df['date']).index
    >>>missing
    Int64Index([2, 3], dtype='int64')
    
  3. 欠落している日付を2つの日付の中間点として設定するには:

    start_date = dates_df.iloc[0,:]
    end_date = dates_df.iloc[4,:]
    missing_date = start_date + (end_date - start_date)/2
    

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

Sparkデータフレーム列に欠落している日付を入力する

分類Dev

データフレームで欠落している日付をどのように管理しますか?

分類Dev

日付が欠落しているデータフレームを時系列に変換します

分類Dev

日付列の値が欠落しているデータフレームIDを更新しています

分類Dev

データフレームに欠落している日を追加する

分類Dev

パンダデータフレームに欠落している値を間違って入力する

分類Dev

欠落している日付をマルチレベルデータフレームに代入する

分類Dev

欠落している日付インデックスをデータフレームに追加する

分類Dev

Pythonパンダ:欠落している日付、時系列の行をgroupbyデータフレームに挿入します

分類Dev

欠落している日付をパンダデータフレームに追加する

分類Dev

Pandasデータフレームに欠落している日付を代入する

分類Dev

Python Pandas:連続して欠落している平日の日付を返し、データフレーム内の欠落している日付の横にレートを割り当てます

分類Dev

欠落しているすべての日付データフレームの前日の行を複製する

分類Dev

欠落している時間行をデータフレームに挿入します

分類Dev

最初の有効なnull以外の列に基づいて、データフレームに欠落している値を入力します

分類Dev

データフレームに不足している日付を入力します

分類Dev

動物園パッケージを使用して、Rの時系列データに欠落している日付と時刻を入力する

分類Dev

pandasデータフレームの関連する列に欠落している値を同時に入力します

分類Dev

データフレームの変数に欠落している自然数を認識し、入力します

分類Dev

2つのテーブルを日付で結合し、1つのテーブルに欠落している日付がある場合は欠落しているデータを入力します

分類Dev

欠落している日時値に基づいて空のデータフレーム行を追加する

分類Dev

データが欠落している日付を含む月平均を計算します

分類Dev

営業日インデックスに基づいて、データフレーム内の複数の列に欠落している日付を代入する

分類Dev

pd.to_datetimeを使用して、データフレームのさまざまな列に存在する年、月、日を入力して日付を作成します

分類Dev

日付インデックスと欠落している日付を含むPandasデータフレームで次の日付を選択する方法

分類Dev

グループごとに日付の欠落している行を入力します

分類Dev

日が欠落しているテーブルデータを入力します

分類Dev

PandasDataFrame列で欠落している日付データを特定します

分類Dev

欠落している日付のフォワードフィルを使用して、すべてのIDの日次データを追加します

Related 関連記事

  1. 1

    Sparkデータフレーム列に欠落している日付を入力する

  2. 2

    データフレームで欠落している日付をどのように管理しますか?

  3. 3

    日付が欠落しているデータフレームを時系列に変換します

  4. 4

    日付列の値が欠落しているデータフレームIDを更新しています

  5. 5

    データフレームに欠落している日を追加する

  6. 6

    パンダデータフレームに欠落している値を間違って入力する

  7. 7

    欠落している日付をマルチレベルデータフレームに代入する

  8. 8

    欠落している日付インデックスをデータフレームに追加する

  9. 9

    Pythonパンダ:欠落している日付、時系列の行をgroupbyデータフレームに挿入します

  10. 10

    欠落している日付をパンダデータフレームに追加する

  11. 11

    Pandasデータフレームに欠落している日付を代入する

  12. 12

    Python Pandas:連続して欠落している平日の日付を返し、データフレーム内の欠落している日付の横にレートを割り当てます

  13. 13

    欠落しているすべての日付データフレームの前日の行を複製する

  14. 14

    欠落している時間行をデータフレームに挿入します

  15. 15

    最初の有効なnull以外の列に基づいて、データフレームに欠落している値を入力します

  16. 16

    データフレームに不足している日付を入力します

  17. 17

    動物園パッケージを使用して、Rの時系列データに欠落している日付と時刻を入力する

  18. 18

    pandasデータフレームの関連する列に欠落している値を同時に入力します

  19. 19

    データフレームの変数に欠落している自然数を認識し、入力します

  20. 20

    2つのテーブルを日付で結合し、1つのテーブルに欠落している日付がある場合は欠落しているデータを入力します

  21. 21

    欠落している日時値に基づいて空のデータフレーム行を追加する

  22. 22

    データが欠落している日付を含む月平均を計算します

  23. 23

    営業日インデックスに基づいて、データフレーム内の複数の列に欠落している日付を代入する

  24. 24

    pd.to_datetimeを使用して、データフレームのさまざまな列に存在する年、月、日を入力して日付を作成します

  25. 25

    日付インデックスと欠落している日付を含むPandasデータフレームで次の日付を選択する方法

  26. 26

    グループごとに日付の欠落している行を入力します

  27. 27

    日が欠落しているテーブルデータを入力します

  28. 28

    PandasDataFrame列で欠落している日付データを特定します

  29. 29

    欠落している日付のフォワードフィルを使用して、すべてのIDの日次データを追加します

ホットタグ

アーカイブ