로그 이벤트 범주 및 그룹별로 일별 피벗

debugcn 에 게시 Dev

존 티르 센

일부 로그를 처리하기 위해 pandas를 사용하고 있습니다. 기본적으로 다음 시계열로 처리했습니다.

time
2014-03-18 17:00:25.266462           rt/top_rt
2014-03-18 17:00:25.722639    follow/retweeted
2014-03-18 17:00:26.773057           rt/top_rt
2014-03-18 17:00:28.077047           rt/top_rt
2014-03-18 17:00:28.904139           rt/top_rt
2014-03-18 17:00:29.512671           rt/top_rt
2014-03-18 17:00:29.640878    follow/retweeted
2014-03-18 21:00:30.087161           rt/top_rt
2014-03-18 21:00:30.272342    follow/retweeted
2014-03-18 21:00:31.284734           rt/top_rt
2014-03-18 21:00:31.467828    follow/retweeted
2014-03-18 21:00:33.955612           rt/top_rt
2014-03-18 21:00:35.810813           rt/top_rt
2014-03-18 21:00:37.710910           rt/top_rt
2014-03-18 21:00:38.200717           rt/top_rt
...

로그 카테고리와 그룹을 일별로 피벗하고 싶습니다. 그래서 나는 다음과 같은 것을 얻고 싶습니다.

day           rt/top_rt   follow/retweeted  ...
2014-03-18    35          45
2014-03-19    67          90
2014-03-19    67          90
...

Joris

이 몇 가지 옵션 (당신이 그것을 할 수는 df.pivot, df.pivot_table, df.groupby, df.unstack)하지만, 사용이 crosstab간단 하나 (이 계산을 보인다 기본적으로 주파수, http://pandas.pydata.org/pandas-docs/stable/generated/pandas.crosstab .html ) :

pd.crosstab(rows=dates, cols=log)

dfDatetimeIndex 가있는 DataFrame 및 column 이 있다고 가정하면 다음을 log수행 할 수 있습니다.

pd.crosstab(rows=df.index.date, cols=df['log'])

구체적인 예 :

In [230]: s = """2014-03-18 17:00:25.266462,           rt/top_rt
     ...: 2014-03-18 17:00:25.722639,    follow/retweeted
     ...: 2014-03-18 17:00:26.773057,           rt/top_rt
     ...: 2014-03-18 17:00:28.077047,           rt/top_rt
     ...: 2014-03-18 17:00:28.904139,           rt/top_rt
     ...: 2014-03-18 17:00:29.512671,           rt/top_rt
     ...: 2014-03-18 17:00:29.640878,    follow/retweeted
     ...: 2014-03-18 21:00:30.087161,           rt/top_rt
     ...: 2014-03-18 21:00:30.272342,    follow/retweeted
     ...: 2014-03-18 21:00:31.284734,           rt/top_rt
     ...: 2014-03-18 21:00:31.467828,    follow/retweeted
     ...: 2014-03-19 21:00:33.955612,           rt/top_rt
     ...: 2014-03-19 21:00:35.810813,           rt/top_rt
     ...: 2014-03-19 21:00:37.710910,           rt/top_rt
     ...: 2014-03-19 21:00:38.200717,           rt/top_rt"""

In [231]: df = pd.read_csv(StringIO(s), sep=",", header=None, index_col=0, names=['time', 'log'], 
     ...:                  skipinitialspace=True, parse_dates=True)

In [232]: df
Out[232]: 
                                         log
time                                        
2014-03-18 17:00:25.266462         rt/top_rt
2014-03-18 17:00:25.722639  follow/retweeted
2014-03-18 17:00:26.773057         rt/top_rt
2014-03-18 17:00:28.077047         rt/top_rt
2014-03-18 17:00:28.904139         rt/top_rt
2014-03-18 17:00:29.512671         rt/top_rt
2014-03-18 17:00:29.640878  follow/retweeted
2014-03-18 21:00:30.087161         rt/top_rt
2014-03-18 21:00:30.272342  follow/retweeted
2014-03-18 21:00:31.284734         rt/top_rt
2014-03-18 21:00:31.467828  follow/retweeted
2014-03-19 21:00:33.955612         rt/top_rt
2014-03-19 21:00:35.810813         rt/top_rt
2014-03-19 21:00:37.710910         rt/top_rt
2014-03-19 21:00:38.200717         rt/top_rt

In [233]: pd.crosstab(df.index.date, df['log'])
Out[233]: 
log         follow/retweeted  rt/top_rt
row_0                                  
2014-03-18                 4          7
2014-03-19                 0          4

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-05-30

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사

로그 이벤트 범주 및 그룹별로 일별 피벗

로그 이벤트 범주 및 그룹별로 일별 피벗

데이터 프레임 재구성, 그룹별로 열 피벗 및 확장

Excel 피벗 테이블 그룹화 및 시간순으로 월별 정렬

Pyspark 데이터 프레임 피벗 및 그룹 별 수

케이스 및 그룹으로 피벗

월별 LibreOffice 피벗 테이블 그룹

Ruby : 월, 연도, 범주 및 합계 값별로 그룹화

고유 한 개수가있는 Excel 피벗 테이블에서 주별로 날짜 그룹화

연도 및 월별로 이벤트 그룹화

주별 그룹화,주의 첫날 가져 오기, 요일별 피벗

날짜 및 범주별로 데이터를 그룹화하는 그래프 만들기

주문 식별 및 계산 (각 그룹 내 고유 이벤트)

피벗 테이블에서 일 및 월별로 시간 단위의 열을 그룹화하는 방법은 무엇입니까?

피벗 테이블 : 날짜별로 수십 년으로 그룹화

팬더는 범주 형 데이터 및 많은 nan 값으로 행 / 그룹 별 조인

데이터 크기가 같지 않은 경우 그룹별로 피벗

연도별로 피벗 테이블의 여러 개수 그룹화

Pandas 데이터 프레임, 날짜 / 월별 그룹화 및 범주 별 계산

범주별로 그룹화하여 SQL에서 월별 차이 표시

범주별로 그룹화하여 SQL에서 월별 차이 표시

범주별로 상위 N 개 행 그룹화 및 순위 지정

그룹별로 데이터 필터링 및 빈 그룹 유지

SQL 선택 데이터 및 날짜 범위별로 데이터 그룹화

SQL 선택 데이터 및 날짜 범위별로 데이터 그룹화

피벗에서 월별로 최적으로 날짜 그룹화

팬더 그룹 별, 누적 합계 및 범주 별 플롯

LINQ 및 주별 그룹화

연도별로 주별로 그룹화

SQL ID별로 그룹화 된 반복 날짜 범위에서 피벗하는 방법

플로팅 및 표 작성을 위해 상위 5 개 값 (크기별)을 벗어난 Pandas 데이터 프레임의 다른 모든 고유 값을 '기타'범주로 그룹화하는 방법은 무엇입니까?