먼저 해결하려는 문제를 스케치하겠습니다. '-1'을 포함하는 행의 다른 두 값을 기준으로 '-1'값을 같은 열의 다른 값으로 바꾸려고합니다. 더 명확하게하기 위해 여기에 예가 있습니다. 아래의 데이터 프레임에는 '소유자'열에 두 개의 누락 된 값이 있습니다. 내가 원하는 것은 각 '-1'값을 동일한 '가격'값을 갖고 '-1'값보다 '시간'에 더 일찍 발생하는 '소유자'열의 값으로 바꾸는 것입니다. 따라서이 예에서 첫 번째 -1
값은 3 행에 있습니다. 해당하는 '가격'과 '시간'은 cheap
및 2011-01-01 13:30:00
입니다. 이제를 차를 -1
소유 한 소유자의 이름 으로 바꾸고 싶습니다 cheap
.2011-01-01 13:30:00
. 이 경우 소유자 이름이 1 행에있는 것입니다 Jane
. 다음 -1
값 (예 : Bmw)에 대해서도 자동으로 수행되어야합니다 .
brand price time owner
0 Honda cheap 2008-01-01 13:30:00 Marc
1 Toyota cheap 2009-01-01 13:30:00 Jane
2 Ford alot 2010-01-01 13:30:00 Phil
3 Audi cheap 2011-01-01 13:30:00 -1
4 Volvo cheap 2012-01-01 13:30:00 Jane
5 Bmw alot 2013-01-01 13:30:00 -1
이 문제를 해결하고 싶었던 방법은 먼저 -1을 찾은 다음 해당 가격과 시간을 절약 한 다음 시간에 해당하는 첫 번째 가격을 찾아 소유자 값을 바꾸는 것입니다. 다음과 같은 방식으로 Pandas Loc 메서드를 사용하고 싶었습니다 (데이터 프레임을 만드는 코드도 포함했습니다).
import pandas as pd
from datetime import datetime
cars = {'brand': ['Honda','Toyota','Ford','Audi','Volvo','Bmw'],
'price': ['cheap','cheap','alot','cheap','cheap','alot'],
'time': [datetime.strptime('1/1/2008 1:30 PM', '%m/%d/%Y %I:%M %p'),datetime.strptime('1/1/2009 1:30 PM', '%m/%d/%Y %I:%M %p'),datetime.strptime('1/1/2010 1:30 PM', '%m/%d/%Y %I:%M %p'),datetime.strptime('1/1/2011 1:30 PM', '%m/%d/%Y %I:%M %p'),
datetime.strptime('1/1/2012 1:30 PM', '%m/%d/%Y %I:%M %p'),datetime.strptime('1/1/2013 1:30 PM', '%m/%d/%Y %I:%M %p')],
'owner': ['Marc', 'Jane','Phil','-1','Jane','-1']}
df = pd.DataFrame(cars, columns = ['brand', 'price','time','owner'])
P_T = df.loc[df.owner == '-1',['price','time']
df.loc[df.owner == '-1', 'owner'] = df.loc[(df.price == P_T.price)&(df.time < P_T.time), 'owner']
마지막 줄에서 볼 수 있듯이 이것은 본질적으로 loc 내의 loc이지만 방정식의 오른쪽에있는 조건은 둘 다 P_T loc을 기반으로합니다. 그러나, 여기에 문제가 있습니다. 계속해서이 오류가 발생합니다. ValueError: Can only compare identically-labeled Series objects
제가 뭔가 잘못하고 있고 가능한 한 효율적이지 않은 일을하고 있다고 생각합니다 ... 그래서이 문제에 대해 도움을 주시면 감사하겠습니다.
나는 당신이 이것을 너무 복잡하다고 생각합니다-본질적으로해야 할 일은 -1
가격 열로 그룹화 된 마지막 해당 값으로 값을 채우는 것 입니까? 그렇다면 앞으로 채우기가 할 것입니다ffill
import numpy as np
s = df.replace('-1',np.nan).sort_values('time').groupby(['price'])['owner'].ffill()
df['owner'] = df.index.map(s)
print(df)
brand price time owner
0 Honda cheap 2008-01-01 13:30:00 Marc
1 Toyota cheap 2009-01-01 13:30:00 Jane
2 Ford alot 2010-01-01 13:30:00 Phil
3 Audi cheap 2011-01-01 13:30:00 Jane
4 Volvo cheap 2012-01-01 13:30:00 Jane
5 Bmw alot 2013-01-01 13:30:00 Phil
이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.
침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제
몇 마디 만하겠습니다