Hadoop에서 데이터 전처리 및 수집

user3163247

두 가지 유형의 로그가 있습니다.

1) 세션 로그 : SESSION_ID, USER_ID, START_DATE_TIME, END_DATE_TIME

2) 이벤트 로그 : SESSION_ID, DATE_TIME, X, Y, Z

이벤트 로그 만 저장하면되지만 SESSION_ID를 해당 USER_ID로 바꾸려고합니다. HDFS에 데이터를 저장하려면 어떤 기술 (예 : Flume?)을 사용해야합니까?

감사!

벽옥

예 Flume을 사용하여 로그 파일을 HDFS로 이동할 수 있습니다.

SESSION_ID를 USER_ID로 바꾸려면 다음을 수행 할 수 있습니다.

셸 스크립트를 사용하여이 작업을 수행하고 '수정 된 이벤트 로그 파일'을 생성합니다. 이것이 Flume이 선택하는 것입니다. 이것은 가장 간단한 접근 방식입니다.

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정
0

몇 마디 만하겠습니다

0리뷰
로그인참여 후 검토

관련 기사

분류에서Dev

Azure SQL에서 데이터 수집 및 처리 옵션

분류에서Dev

데이터 프레임 열에서 집합 및 개수 사전 만들기

분류에서Dev

C ++에서 데이터 집계 및 사후 처리를위한 관용구

분류에서Dev

리디렉션에서 데이터 전달 및 수신-React Hooks

분류에서Dev

Inno Setup Pascal Script에서 런타임에 전 처리기의 데이터 수집을 평가합니다.

분류에서Dev

PHP 메일러에서 데이터 변수 처리 및 PHP 파일 포함

분류에서Dev

java : 목록에서 데이터 수집 및 결합

분류에서Dev

Python 스크립트에서 데이터 전달 및 수신

분류에서Dev

SQL Server 테이블에서 데이터 그리드 채우기 및 편집

분류에서Dev

Spark-groupby 및 수집 중에 열에서 데이터 순서 유지

분류에서Dev

IMFSourceReader 및 IMFSample에서 이미지 데이터 처리

분류에서Dev

심포니에서 교리로 데이터 및 행 수 검색

분류에서Dev

양식에서 수집 된 불완전한 데이터

분류에서Dev

DataTables 및 Ajax를 통해 서버 측 데이터 처리를 수행하는 웹 사이트에서 데이터 스크래핑

분류에서Dev

txt 파일에서 데이터 추출 및 처리

분류에서Dev

전단지 및 노드에서 대규모 데이터 세트 포인트 처리

분류에서Dev

이벤트 트리거 이전에 개체 폐기 및 가비지 수집

분류에서Dev

주파수 데이터 프레임 생성 및 이전 데이터 프레임에서 열 전송

분류에서Dev

R 데이터 프레임에서 다른 처리 및 반복 횟수의 평균 취하기

분류에서Dev

데이터 아키텍처 및 데이터 캐싱; 메모리 데이터베이스에서 나쁜 생각?

분류에서Dev

데이터베이스 설계 : 데이터베이스 테이블에서 이전 및 새 데이터 관리

분류에서Dev

Power Bi에서 데이터 피벗 해제 및 정수 및 문자열 분리

분류에서Dev

JVM 가비지 수집 및 메모리 내 Java 데이터베이스

분류에서Dev

AsyncTask.onPostExecute ()의 결과 인수에 전달 된 데이터 처리

분류에서Dev

UITableCellView 및 UITableView에서 데이터 전송

분류에서Dev

R : 수집 및 확산을 사용하여 시계열 데이터 세트를 와이드에서 롱으로 전치

분류에서Dev

R 두 변수에 대한 데이터 프레임 집계 및 함수 적용

분류에서Dev

JSON에서 데이터 추출 및 데이터 수정

분류에서Dev

Javascript에서 함수 매개 변수로 데이터 및 href 전달

Related 관련 기사

  1. 1

    Azure SQL에서 데이터 수집 및 처리 옵션

  2. 2

    데이터 프레임 열에서 집합 및 개수 사전 만들기

  3. 3

    C ++에서 데이터 집계 및 사후 처리를위한 관용구

  4. 4

    리디렉션에서 데이터 전달 및 수신-React Hooks

  5. 5

    Inno Setup Pascal Script에서 런타임에 전 처리기의 데이터 수집을 평가합니다.

  6. 6

    PHP 메일러에서 데이터 변수 처리 및 PHP 파일 포함

  7. 7

    java : 목록에서 데이터 수집 및 결합

  8. 8

    Python 스크립트에서 데이터 전달 및 수신

  9. 9

    SQL Server 테이블에서 데이터 그리드 채우기 및 편집

  10. 10

    Spark-groupby 및 수집 중에 열에서 데이터 순서 유지

  11. 11

    IMFSourceReader 및 IMFSample에서 이미지 데이터 처리

  12. 12

    심포니에서 교리로 데이터 및 행 수 검색

  13. 13

    양식에서 수집 된 불완전한 데이터

  14. 14

    DataTables 및 Ajax를 통해 서버 측 데이터 처리를 수행하는 웹 사이트에서 데이터 스크래핑

  15. 15

    txt 파일에서 데이터 추출 및 처리

  16. 16

    전단지 및 노드에서 대규모 데이터 세트 포인트 처리

  17. 17

    이벤트 트리거 이전에 개체 폐기 및 가비지 수집

  18. 18

    주파수 데이터 프레임 생성 및 이전 데이터 프레임에서 열 전송

  19. 19

    R 데이터 프레임에서 다른 처리 및 반복 횟수의 평균 취하기

  20. 20

    데이터 아키텍처 및 데이터 캐싱; 메모리 데이터베이스에서 나쁜 생각?

  21. 21

    데이터베이스 설계 : 데이터베이스 테이블에서 이전 및 새 데이터 관리

  22. 22

    Power Bi에서 데이터 피벗 해제 및 정수 및 문자열 분리

  23. 23

    JVM 가비지 수집 및 메모리 내 Java 데이터베이스

  24. 24

    AsyncTask.onPostExecute ()의 결과 인수에 전달 된 데이터 처리

  25. 25

    UITableCellView 및 UITableView에서 데이터 전송

  26. 26

    R : 수집 및 확산을 사용하여 시계열 데이터 세트를 와이드에서 롱으로 전치

  27. 27

    R 두 변수에 대한 데이터 프레임 집계 및 함수 적용

  28. 28

    JSON에서 데이터 추출 및 데이터 수정

  29. 29

    Javascript에서 함수 매개 변수로 데이터 및 href 전달

뜨겁다태그

보관