구조가 다른 Hive에서 여러 파일 가져 오기

debugcn 에 게시 Dev

오타비오 R. 로시

두 가지 문제가 있습니다. 문제 해결을 도와주세요.

문제 1 : 파일 구조 다음 열이있는 3 개의 파일이 있습니다.

log_in.csv (request_id, date_in, origin)
log_out.csv (request_id, date_out, destination)
request.csv (request_id, date_request, user)

각 파일은 서로 다른 순간에 작성되므로 "날짜"는 동일하지 않습니다. request_id는 요청이 완료된 경우 모든 파일에서 동일합니다.

예:

log_out.csv

request_id |       date_out      |  destination
    1      | 2015-11-13 01:02:02 | 192.168.0.7
    3      | 2015-11-13 05:01:05 | 192.168.0.5
    4      | 2015-11-13 03:09:02 | 192.168.0.10

log_in.csv

request_id |       date_in       |    origin
    1      | 2015-11-13 01:02:03 | 192.168.0.10
    2      | 2015-11-13 02:03:04 | 192.168.0.9
    4      | 2015-11-13 03:09:02 | 192.168.0.3

request.csv

request_id |       date_in       |  user
    1      | 2015-11-13 01:02:01 | user1
    2      | 2015-11-13 02:03:01 | user2
    3      | 2015-11-13 02:03:01 | user1
    4      | 2015-11-13 03:09:01 | user3

이 파일을 저장하는 더 좋은 방법은 무엇입니까?

문제 2 : 디렉토리

HDFS에서 일별 이름이 같은 경우 어떻게 내 디렉토리를 올바르게 구성하고 파일을로드 할 수 있습니까?

예 :

LOGS / 20151113 / log_out.csv
LOGS / 20151113 / log_in.csv
LOGS / 20151113 / request.csv
LOGS / 20151114 / log_out.csv
LOGS / 20151114 / log_in.csv
LOGS / 20151114 / request.csv
.
.
.

미리 감사드립니다

쪽빛

@Otavio R. Rossi : 데이터가 이미 hdfs에있는 경우 3 개의 (외부) 테이블, 로그인, 로그 아웃 및 요청할 수 있습니다.

같은 것,

    CREATE EXTERNAL TABLE login(
     request_id INT,
     date_out TIMESTAMP,
     destination STRING
     )
    ROW FORMAT DELIMITED
    FIELDS TERMINATED BY '|'
    STORED AS TEXTFILE;
    LOAD  DATA  INPATH  'hdfs location'

이제 이러한 테이블은 용도에 따라 날짜 또는 년 / 월 / 일별로 분할 할 수 있습니다.

또한 상관 관계를 찾고있는 경우 request_id에서 3 개의 테이블을 모두 조인하여 모든 데이터를 하나의 테이블에로드하는 것을 고려할 수 있습니다. 도움이 되었기를 바랍니다 !

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-06-6

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사

구조가 다른 Hive에서 여러 파일 가져 오기

구조가 다른 Hive에서 여러 파일 가져 오기

SSIS를 사용하여 구조가 다른 XML 파일 가져 오기

Hive에서 .sql 파일 가져 오기

Mongo 가져 오기 : 서로 다른 "_id"에 대한 여러 업데이트 쿼리가있는 파일

Python에서 여러 구분 기호가있는 CSV 파일 가져 오기

Python : exec ()를 사용하여 다른 파일에서 목록 가져 오기

파이썬에서 여러 파일 가져 오기

다른 js 파일에서 js 파일 가져 오기 또는 요구

다른 파이썬 파일에서 변수 가져 오기

가져 오기 도구를 사용하여 여러 파일에서 데이터 가져 오기

다른 파일에서 가져올 때 기본 내보내기가 여러 번 호출되지 않습니다.

Winmerge에서 여러 파일의 재귀 목록 가져 오기 (폴더 트리 / 구조 없음)

Java에서 여러 클래스 파일 가져 오기

Access에서 여러 XML 파일 가져 오기

여러 tsv / csv 파일에서 헤더 가져 오기

stdin (C)에서 여러 파일의 파일 크기 가져 오기

동일한 파일의 여러 가져 오기에 반응

다른 파일 Python에서 클래스 변수 가져 오기

Dart의 다른 파일에서 확장 방법 가져 오기

Python : 다른 위치에서 파일 가져 오기

React의 다른 파일에서 JSON 값 가져 오기

한 파일에서 다른 MATLAB으로 변수 가져 오기

다른 Excel 파일에서 데이터 가져 오기

jslint 다른 파일에서 전역 변수 가져 오기

다른 PHP 페이지에서 파일 이름 가져 오기

다른 .cpp 파일에서 데이터 가져 오기

함수에서 다른 PHP 파일로 값 가져 오기

Powershell-다른 파일에서 내용 가져 오기

다른 파일에서 임의의 행 가져 오기

다른 디렉토리에서 파일 가져 오기