누락 된 데이터를 다른 방법으로 채우기

debugcn 에 게시 Dev

스와시 버클

타임 스탬프, 값 및 품질 플래그가있는 데이터 세트가 몇 개 있습니다. 일부 타임 스탬프에 대한 값 및 품질 플래그가 누락되었으며 주변 데이터에 대한 종속성으로 채워야합니다. 즉,

NaN 데이터를 브라케팅하는 유효한 데이터의 품질 플래그가 다른 경우 값과 품질 플래그를 최고 품질 플래그가있는 브라케팅 행과 동일하게 설정합니다. 아래 예에서 첫 번째 NaN 세트는 qf = 3 및 value = 3으로 대체됩니다.
품질 플래그가 동일하면 양쪽에서 유효한 두 값 사이의 값을 보간합니다. 이 예에서 두 번째 NaN 세트는 qf = 1 및 v = 6 및 9로 대체됩니다.

암호:

import datetime
import pandas as pd

start = datetime.strptime("2004-01-01 00:00","%Y-%m-%d %H:%M")
end = datetime.strptime("2004-01-01 03:00","%Y-%m-%d %H:%M")
df = pd.DataFrame(\
    data = {'v' : [1,2,'NaN','NaN','NaN',3,2,1,5,3,'NaN','NaN',12,43,23,12,32,12,12],\
            'qf': [1,1,'NaN','NaN','NaN',3,1,5,1,1,'NaN','NaN',1,3,4,2,1,1,1]},\
    index = pd.date_range(start, end,freq="10min"))

NA 행을 찾아서 반복하여 첫 번째 기준을 수정 한 다음 보간을 사용하여 두 번째를 해결하여이 문제를 해결하려고했습니다. 그러나 이것은 큰 세트로 작업하기 때문에 정말 느립니다.

DSM

한 가지 방법은 가능한 모든 채우기를 수행 한 다음 적절하게 선택하는 것입니다. 수행 한 후 df = df.astype(float)필요는 (귀하의 예제는 문자열을 사용하는 경우 "NaN"),이 같은 작업을해야합니다 :

is_null = df.qf.isnull()
fill_down = df.ffill()
fill_up = df.bfill()

df.loc[is_null & (fill_down.qf > fill_up.qf)] = fill_down
df.loc[is_null & (fill_down.qf < fill_up.qf)] = fill_up
df = df.interpolate()

필요한 것보다 더 많은 작업을 수행하지만 수행중인 작업을 쉽게 확인할 수 있으며 수행하는 작업이 벡터화되어 매우 빠르게 발생합니다. ~ 10M 행으로 확장 된 데이터 세트 버전 (동일한 null 밀도 포함)에서는 이전 노트북에서 ~ 6 초가 걸립니다. 귀하의 요구 사항에 따라 충분할 수 있습니다.

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-06-2

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사

누락 된 데이터를 다른 방법으로 채우기

누락 된 데이터를 다른 방법으로 채우기

다른 열을 기반으로 누락 된 데이터 채우기

다른 데이터 프레임으로 열의 누락 된 값 채우기

누락 된 값을 다른 데이터 프레임의 값으로 채우는 방법

다른 열의 값을 기준으로 누락 된 값을 채우는 방법

Pandas : 누락 된 날짜를 다른 행의 정보로 채우기

한 데이터 프레임의 누락 된 데이터를 다른 데이터 프레임의 정보로 채우기

다른 열과 다른 데이터 프레임을 일치시키는 값을 기반으로 데이터 프레임의 누락 된 값 채우기

누락 된 데이터를 전날의 동일한 값으로 채우기

선택한 열의 누락 된 값을 다른 열의 필터링 된 값으로 채우기

누락 된 데이터로 배열 채우기

R에서 누락 된 데이터를 조건부로 채우기

이전 및 다음 사용 가능한 데이터를 기반으로 누락 된 값을 자동으로 계산하고 채우기

Python의 다른 데이터 프레임에서 여러 열을 기반으로 누락 된 값 병합 및 채우기

CSS 방사형 카운터-누락 된 부분을 채우기 위해 다른 원 추가

다른 데이터 세트에서 누락 된 데이터의 여러 열 채우기

누락 된 필드를 아래 줄의 값으로 채우기

csv를 "누락 된"행으로 채우기

테이블에서 누락 된 데이터 행을 동적으로 채우는 뷰를 만드는 방법

ES6로 누락 된 데이터 포인트로 어레이 채우기

SQL을 사용하여 한 테이블에서 다른 테이블로 누락 된 재무 시계열 데이터 채우기

Pandas에서 누락 된 데이터를 과거 평균으로 빠르고 효율적으로 채우기

누락 된 날짜를 채우기위한 바로 가기

다른 열의 간격을 기반으로 Pandas의 다른 열을 기반으로 누락 된 값을 채우는 방법은 무엇입니까?

Oracle 쿼리에서 누락 된 월 데이터를 채우는 방법

누락 된 날짜를 데이터 프레임에 추가하고 Python에서 다른 해당 열을 채우는 방법은 무엇입니까?

다른 방법으로 각 열의 누락 된 값을 효율적으로 채우시겠습니까?

Python의 공간 클러스터링 방법을 기반으로 누락 된 값 채우기

Pandas는 다른 행의 열에서 누락 된 데이터를 채 웁니다.

요일 및 시간 데이터로 누락 된 값을 채우는 방법