로그 이벤트 범주 및 그룹별로 일별 피벗

존 티르 센

일부 로그를 처리하기 위해 pandas를 사용하고 있습니다. 기본적으로 다음 시계열로 처리했습니다.

time
2014-03-18 17:00:25.266462           rt/top_rt
2014-03-18 17:00:25.722639    follow/retweeted
2014-03-18 17:00:26.773057           rt/top_rt
2014-03-18 17:00:28.077047           rt/top_rt
2014-03-18 17:00:28.904139           rt/top_rt
2014-03-18 17:00:29.512671           rt/top_rt
2014-03-18 17:00:29.640878    follow/retweeted
2014-03-18 21:00:30.087161           rt/top_rt
2014-03-18 21:00:30.272342    follow/retweeted
2014-03-18 21:00:31.284734           rt/top_rt
2014-03-18 21:00:31.467828    follow/retweeted
2014-03-18 21:00:33.955612           rt/top_rt
2014-03-18 21:00:35.810813           rt/top_rt
2014-03-18 21:00:37.710910           rt/top_rt
2014-03-18 21:00:38.200717           rt/top_rt
...

로그 카테고리와 그룹을 일별로 피벗하고 싶습니다. 그래서 나는 다음과 같은 것을 얻고 싶습니다.

day           rt/top_rt   follow/retweeted  ...
2014-03-18    35          45
2014-03-19    67          90
2014-03-19    67          90
...
Joris

이 몇 가지 옵션 (당신이 그것을 할 수는 df.pivot, df.pivot_table, df.groupby, df.unstack)하지만, 사용이 crosstab간단 하나 (이 계산을 보인다 기본적으로 주파수, http://pandas.pydata.org/pandas-docs/stable/generated/pandas.crosstab .html ) :

pd.crosstab(rows=dates, cols=log)

dfDatetimeIndex 가있는 DataFrame 및 column 이 있다고 가정하면 다음을 log수행 할 수 있습니다.

pd.crosstab(rows=df.index.date, cols=df['log'])

구체적인 예 :

In [230]: s = """2014-03-18 17:00:25.266462,           rt/top_rt
     ...: 2014-03-18 17:00:25.722639,    follow/retweeted
     ...: 2014-03-18 17:00:26.773057,           rt/top_rt
     ...: 2014-03-18 17:00:28.077047,           rt/top_rt
     ...: 2014-03-18 17:00:28.904139,           rt/top_rt
     ...: 2014-03-18 17:00:29.512671,           rt/top_rt
     ...: 2014-03-18 17:00:29.640878,    follow/retweeted
     ...: 2014-03-18 21:00:30.087161,           rt/top_rt
     ...: 2014-03-18 21:00:30.272342,    follow/retweeted
     ...: 2014-03-18 21:00:31.284734,           rt/top_rt
     ...: 2014-03-18 21:00:31.467828,    follow/retweeted
     ...: 2014-03-19 21:00:33.955612,           rt/top_rt
     ...: 2014-03-19 21:00:35.810813,           rt/top_rt
     ...: 2014-03-19 21:00:37.710910,           rt/top_rt
     ...: 2014-03-19 21:00:38.200717,           rt/top_rt"""

In [231]: df = pd.read_csv(StringIO(s), sep=",", header=None, index_col=0, names=['time', 'log'], 
     ...:                  skipinitialspace=True, parse_dates=True)

In [232]: df
Out[232]: 
                                         log
time                                        
2014-03-18 17:00:25.266462         rt/top_rt
2014-03-18 17:00:25.722639  follow/retweeted
2014-03-18 17:00:26.773057         rt/top_rt
2014-03-18 17:00:28.077047         rt/top_rt
2014-03-18 17:00:28.904139         rt/top_rt
2014-03-18 17:00:29.512671         rt/top_rt
2014-03-18 17:00:29.640878  follow/retweeted
2014-03-18 21:00:30.087161         rt/top_rt
2014-03-18 21:00:30.272342  follow/retweeted
2014-03-18 21:00:31.284734         rt/top_rt
2014-03-18 21:00:31.467828  follow/retweeted
2014-03-19 21:00:33.955612         rt/top_rt
2014-03-19 21:00:35.810813         rt/top_rt
2014-03-19 21:00:37.710910         rt/top_rt
2014-03-19 21:00:38.200717         rt/top_rt

In [233]: pd.crosstab(df.index.date, df['log'])
Out[233]: 
log         follow/retweeted  rt/top_rt
row_0                                  
2014-03-18                 4          7
2014-03-19                 0          4

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정
0

몇 마디 만하겠습니다

0리뷰
로그인참여 후 검토

관련 기사

분류에서Dev

데이터 프레임 재구성, 그룹별로 열 피벗 및 확장

분류에서Dev

Excel 피벗 테이블 그룹화 및 시간순으로 월별 정렬

분류에서Dev

Pyspark 데이터 프레임 피벗 및 그룹 별 수

분류에서Dev

케이스 및 그룹으로 피벗

분류에서Dev

월별 LibreOffice 피벗 테이블 그룹

분류에서Dev

Ruby : 월, 연도, 범주 및 합계 값별로 그룹화

분류에서Dev

고유 한 개수가있는 Excel 피벗 테이블에서 주별로 날짜 그룹화

분류에서Dev

연도 및 월별로 이벤트 그룹화

분류에서Dev

주별 그룹화,주의 첫날 가져 오기, 요일별 피벗

분류에서Dev

날짜 및 범주별로 데이터를 그룹화하는 그래프 만들기

분류에서Dev

주문 식별 및 계산 (각 그룹 내 고유 이벤트)

분류에서Dev

피벗 테이블에서 일 및 월별로 시간 단위의 열을 그룹화하는 방법은 무엇입니까?

분류에서Dev

피벗 테이블 : 날짜별로 수십 년으로 그룹화

분류에서Dev

팬더는 범주 형 데이터 및 많은 nan 값으로 행 / 그룹 별 조인

분류에서Dev

데이터 크기가 같지 않은 경우 그룹별로 피벗

분류에서Dev

연도별로 피벗 테이블의 여러 개수 그룹화

분류에서Dev

Pandas 데이터 프레임, 날짜 / 월별 그룹화 및 범주 별 계산

분류에서Dev

범주별로 그룹화하여 SQL에서 월별 차이 표시

분류에서Dev

범주별로 그룹화하여 SQL에서 월별 차이 표시

분류에서Dev

범주별로 상위 N 개 행 그룹화 및 순위 지정

분류에서Dev

그룹별로 데이터 필터링 및 빈 그룹 유지

분류에서Dev

SQL 선택 데이터 및 날짜 범위별로 데이터 그룹화

분류에서Dev

SQL 선택 데이터 및 날짜 범위별로 데이터 그룹화

분류에서Dev

피벗에서 월별로 최적으로 날짜 그룹화

분류에서Dev

팬더 그룹 별, 누적 합계 및 범주 별 플롯

분류에서Dev

LINQ 및 주별 그룹화

분류에서Dev

연도별로 주별로 그룹화

분류에서Dev

SQL ID별로 그룹화 된 반복 날짜 범위에서 피벗하는 방법

분류에서Dev

플로팅 및 표 작성을 위해 상위 5 개 값 (크기별)을 벗어난 Pandas 데이터 프레임의 다른 모든 고유 값을 '기타'범주로 그룹화하는 방법은 무엇입니까?

Related 관련 기사

  1. 1

    데이터 프레임 재구성, 그룹별로 열 피벗 및 확장

  2. 2

    Excel 피벗 테이블 그룹화 및 시간순으로 월별 정렬

  3. 3

    Pyspark 데이터 프레임 피벗 및 그룹 별 수

  4. 4

    케이스 및 그룹으로 피벗

  5. 5

    월별 LibreOffice 피벗 테이블 그룹

  6. 6

    Ruby : 월, 연도, 범주 및 합계 값별로 그룹화

  7. 7

    고유 한 개수가있는 Excel 피벗 테이블에서 주별로 날짜 그룹화

  8. 8

    연도 및 월별로 이벤트 그룹화

  9. 9

    주별 그룹화,주의 첫날 가져 오기, 요일별 피벗

  10. 10

    날짜 및 범주별로 데이터를 그룹화하는 그래프 만들기

  11. 11

    주문 식별 및 계산 (각 그룹 내 고유 이벤트)

  12. 12

    피벗 테이블에서 일 및 월별로 시간 단위의 열을 그룹화하는 방법은 무엇입니까?

  13. 13

    피벗 테이블 : 날짜별로 수십 년으로 그룹화

  14. 14

    팬더는 범주 형 데이터 및 많은 nan 값으로 행 / 그룹 별 조인

  15. 15

    데이터 크기가 같지 않은 경우 그룹별로 피벗

  16. 16

    연도별로 피벗 테이블의 여러 개수 그룹화

  17. 17

    Pandas 데이터 프레임, 날짜 / 월별 그룹화 및 범주 별 계산

  18. 18

    범주별로 그룹화하여 SQL에서 월별 차이 표시

  19. 19

    범주별로 그룹화하여 SQL에서 월별 차이 표시

  20. 20

    범주별로 상위 N 개 행 그룹화 및 순위 지정

  21. 21

    그룹별로 데이터 필터링 및 빈 그룹 유지

  22. 22

    SQL 선택 데이터 및 날짜 범위별로 데이터 그룹화

  23. 23

    SQL 선택 데이터 및 날짜 범위별로 데이터 그룹화

  24. 24

    피벗에서 월별로 최적으로 날짜 그룹화

  25. 25

    팬더 그룹 별, 누적 합계 및 범주 별 플롯

  26. 26

    LINQ 및 주별 그룹화

  27. 27

    연도별로 주별로 그룹화

  28. 28

    SQL ID별로 그룹화 된 반복 날짜 범위에서 피벗하는 방법

  29. 29

    플로팅 및 표 작성을 위해 상위 5 개 값 (크기별)을 벗어난 Pandas 데이터 프레임의 다른 모든 고유 값을 '기타'범주로 그룹화하는 방법은 무엇입니까?

뜨겁다태그

보관