여러 DataFrame에서 Pandas DataFrame의 개수 열을 업데이트하는 방법은 무엇입니까?

debugcn 에 게시 Dev

카민

각각 크기가 7GB이고 구조가 동일한 5 개의 CSV 파일 목록이 있으며 고유 ID가있는 하나의 DataFrame 만 가져와야합니다.

각 CSV 파일이 단 2 열로 구성되어 있기 때문에 구조는 실제로 정말 간단 userID하고 count유형의 열 int.

문제는 userID각 사용자에 대해 고유 한 열의 값을 사용하여 첫 번째 DataFrame을로드 하면 다음 DataFrame이 userID첫 번째 DataFrame에서 동일한 것을 찾을 수 있다는 것입니다.

이 경우 두 count값을 합산 하고 두 레코드 중 하나만 유지합니다.

예를 들면 :

df1:

"user"  "count"
  X        3
  Y        4
  Z        8
  W        2

그리고 다음에서 :

df2:

"user"  "count"
  X        2
  W        10
  Z        5
  T        6

이 예에서는 2 개의 DataFrame만으로 상황을 설명하지만 제 경우에는 5입니다. 내가 얻을 수있는 결과는 다음 DataFrame에 설명되어 있습니다.

df_res:

"user"  "count"
  X        5
  Y        4
  Z        13
  W        12
  T        6

내가 지금 시도한 것은 :

import pandas as pd


users = {}

for path in ["A.csv", "B.csv", "C.csv", "D.csv", "E.csv"]:
    current = pd.read_csv(path)  # here the columns are "user", "counts" and others
    _users = pd.DataFrame(columns=["user", "counts"])
    if users:
        _users = _users.append(users)

    _users = _users.append(current.loc[:, ["user", "counts"]], ignore_index=True)

    users = _users.to_dict(orient='records')

Stef

하나의 데이터 프레임에서 모든 개별 csv 파일을 읽은 다음 다음을 수행 할 수 있습니다 groupby.

import pandas as pd

all=[]
for path in ["A.csv", "B.csv"]:
    current = pd.read_csv(path, sep='\s+')
    all.append(current[["user", "counts"]])
df = pd.concat(all, axis=0, ignore_index=True)

df_res = df.groupby('user', as_index=False).counts.sum()

결과:

  user  counts
0    T       6
1    W      12
2    X       5
3    Y       4
4    Z      13

다음을 사용하여 대용량 csv 파일 업데이트 dask :

import dask.dataframe as dd
df = dd.read_csv('*.csv', sep='\s+', usecols=["user", "counts"])
df_res = df.groupby('user').counts.sum().reset_index().compute()

결과:

  user  counts
0    W      12
1    X       5
2    Y       4
3    Z      13
4    T       6

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-04-2

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사

여러 DataFrame에서 Pandas DataFrame의 개수 열을 업데이트하는 방법은 무엇입니까?

여러 DataFrame에서 Pandas DataFrame의 개수 열을 업데이트하는 방법은 무엇입니까?

Pandas에서 DataFrame 열을 업데이트하는 방법은 무엇입니까?

Pandas DataFrame에서 여러 셀을 선택하는 방법은 무엇입니까?

Pandas에서 그룹화 된 DataFrame의 여러 열에 여러 사용자 지정 함수를 적용하는 방법은 무엇입니까?

Pandas DataFrame에서 단일 행의 DatetimeIndex 값을 업데이트하는 방법은 무엇입니까?

인덱스와 두 개의 변수 함수에서 Pandas DataFrame을 만드는 방법은 무엇입니까?

두 개의 DataFrame을 결합하고 여러 기본 키가 포함 된 누락 된 값을 업데이트하는 방법은 무엇입니까?

Postgres에서 두 배열의 값으로 여러 행을 업데이트하는 방법은 무엇입니까?

Pyspark : 동일한 작업에서 DataFrame의 여러 열을 대치하는 방법은 무엇입니까?

함수에서 여러 반환 값을 Pandas 데이터 프레임의 여러 열로 찾는 방법은 무엇입니까?

Pandas Dataframe에서 여러 달에 다른 조건을 적용하는 방법은 무엇입니까?

Firebase에서 여러 수준의 데이터를 업데이트하는 방법은 무엇입니까?

Python Pandas에서 데이터 프레임 열의 여러 값을 바꾸는 방법은 무엇입니까?

목록의 모든 내용을 개별 문자열로 변환하여 dataframe.select ()에서 매개 변수로 전달하는 방법은 무엇입니까?

처음 3 개의 열에 여러 열을 추가하고 Pandas를 사용하여 색인 값을 반복하는 방법은 무엇입니까?

Firestore에서 한 번에 여러 컬렉션의 값을 업데이트하는 방법은 무엇입니까?

ctypes 콜백을 사용하여 파이썬에서 C 출력 매개 변수의 값을 업데이트하는 방법은 무엇입니까?

Python Pandas의 DataFrame에서 작동하도록 변수 목록을 구현하는 방법은 무엇입니까?

Pandas 데이터 프레임의 여러 열에서 문자를 제거하는 방법은 무엇입니까?

Plotly : 동일한 Pandas 데이터 프레임의 다른 열에서 하나의 플롯 차트에 여러 줄을 그리는 방법은 무엇입니까?

Pandas DataFrame에서 하위 열을 추출하는 방법은 무엇입니까?

Pandas 데이터 프레임에서 여러 행의 셀 값을 분할하는 방법은 무엇입니까?

Javascrript에서 여러 개의 빈 창을 여는 방법은 무엇입니까?

Pandas DataFrame에서 열 중첩을 해제하는 방법은 무엇입니까?

Pandas에서 여러 열로 세미 조인을 수행하는 방법은 무엇입니까?

SQL에서 두 변수의 차이로 열 값을 업데이트하는 방법은 무엇입니까?

Pandas에서 여러 값 열을 병합하는 방법은 무엇입니까?

하나의 SQL 쿼리를 사용하여 하나의 열에서 여러 값을 업데이트하는 방법은 무엇입니까?

Pandas Groupby, 여러 열에서 여러 집계를 수행하는 방법은 무엇입니까?

Pydatatable의 조건에서 열 값을 수정 / 업데이트하는 방법은 무엇입니까?