Spark 또는 caseesndra를 사용하여 로그 파일을 쿼리하는 가장 좋은 방법

Muhunthan

다른 서버에 로그 파일이 있고 (5 개의 서버가 LAN을 통해 연결됨) 결과를 처리하고 가져와야합니다.

  • 각 노드에는 4TB 로그 파일이 있으며 HDFS를 사용하여 모든 로그 파일을 Spark에로드합니다.
  • 요청이 올 때마다 Spark는 모든 파일 (5 * 4TB)을로드 한 다음 Spark SQL로 쿼리합니다.

모든 로그 파일을 caseesndra에로드 한 다음 쿼리하면 어떻게됩니까 (미리로드 할 수 있음)? 빠른 방법은 ..?

Doanduyhai

HDFSCassandra 는 각각 고유 한 장점이 있습니다.

모든 로그 파일을 완전히 처리해야하는 경우 HDFS파일 시스템 이고 대량의 데이터를 저장하고 일괄 처리하도록 설계 되었기 때문에 더 나은 선택 입니다.

이제 로그 파일 일부만 처리해야하는 경우 기본 키로 데이터를 필터링하고 더 빠르게 액세스 할 수 있으며 모든 파일을 스캔하는 것을 건너 뛸 수 있으므로 Cassandra 와 같은 데이터 저장소 가 더 나은 선택입니다.

Cassandra 는 OLTP 워크로드 용으로 설계되었지만 HDFS 및 종류는 OLAP 워크로드 용으로 설계되었습니다.

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정
0

몇 마디 만하겠습니다

0리뷰
로그인참여 후 검토

관련 기사

분류에서Dev

파일을 입력 또는 stdin으로 사용하여 명령을 실행하는 가장 좋은 방법

분류에서Dev

차트를 사용하여 C ++ 프로그램을 설명하는 가장 좋은 방법

분류에서Dev

ngFormController를 사용하여 값을 얻는 가장 좋은 방법

분류에서Dev

laravel을 사용하여 내 데이터베이스를 쿼리하는 가장 좋은 방법

분류에서Dev

Sftp를 사용하여 디렉토리에서 모든 파일을 다운로드하는 가장 좋은 방법은 무엇입니까?

분류에서Dev

vb.net을 사용하여 큰 Excel 파일에서 SQL 쿼리를 실행하는 가장 좋은 방법은 무엇입니까?

분류에서Dev

파일의 하위 경로를 얻는 가장 좋은 방법

분류에서Dev

powershell을 사용하여 파일 증가를보고하는 가장 좋은 방법은 무엇입니까?

분류에서Dev

awk / sed를 사용하여 JSON과 유사한 파일을 구문 분석하는 가장 좋은 방법

분류에서Dev

저장 프로 시저와 쿼리를 결합하는 가장 좋은 방법

분류에서Dev

하위 쿼리로 IIF 조건부를 수행하는 가장 좋은 방법

분류에서Dev

GitHub를 사용하여 프로젝트에 새로운 기능을 추가하는 가장 좋은 방법

분류에서Dev

PHP 또는 JS를 사용하여 스캔 한 PDF 파일을 구문 분석하는 가장 좋은 방법은 무엇입니까?

분류에서Dev

GGplots를 표시하는 가장 좋은 (또는 좋은) 방법

분류에서Dev

Java를 사용하여 Windows 시스템에서 Linux 시스템으로 파일을 복사하는 가장 좋은 방법

분류에서Dev

확장 방법을 사용하여 로그 파일 또는 콘솔에 메시지를 쓰는 방법

분류에서Dev

Spark Scala를 사용하여 추가 모드에서 단일 JSON 파일 아래에 여러 쿼리의 출력을 저장하는 방법

분류에서Dev

다시로드를 사용하지 않고 프로그램을 개발하는 가장 좋은 방법

분류에서Dev

C ++로 사용자를 로그인하는 가장 좋은 방법

분류에서Dev

동일한 셰이더를 사용하지만 동일한 텍스처 또는 색상을 사용하지 않는 여러 VAO를 그리는 가장 좋은 방법은 무엇입니까?

분류에서Dev

mysql을 사용하여 주소를 검색하는 가장 좋은 방법

분류에서Dev

G ++를 사용하여 헤더와 정적 라이브러리가있는 프로그램을 컴파일 할 때 누락 된 종속성을 확인하는 가장 좋은 방법은 무엇입니까?

분류에서Dev

CSS + SAS를 사용하여이 그리드를 구성하는 가장 좋은 방법은 무엇입니까?

분류에서Dev

docx 또는 doc 파일을 Java에서 txt로 변환하는 가장 좋은 방법은 무엇입니까?

분류에서Dev

Pandas를 사용하여 조건으로 NULL 값을 채우는 가장 좋은 방법은 무엇입니까?

분류에서Dev

DOM을 사용하여 글자로 단어를 분할하는 가장 좋은 방법

분류에서Dev

사전 사전을 탭 파일로 변환하는 가장 좋은 방법

분류에서Dev

하나의 방법으로 여러 쿼리를 구조화하는 가장 좋은 방법 C # asp.net

분류에서Dev

Pyinstaller에서 하위 프로세스를 사용하여 호출되는 CLI 프로그램에 대한 종속성을 지정하는 가장 좋은 방법

Related 관련 기사

  1. 1

    파일을 입력 또는 stdin으로 사용하여 명령을 실행하는 가장 좋은 방법

  2. 2

    차트를 사용하여 C ++ 프로그램을 설명하는 가장 좋은 방법

  3. 3

    ngFormController를 사용하여 값을 얻는 가장 좋은 방법

  4. 4

    laravel을 사용하여 내 데이터베이스를 쿼리하는 가장 좋은 방법

  5. 5

    Sftp를 사용하여 디렉토리에서 모든 파일을 다운로드하는 가장 좋은 방법은 무엇입니까?

  6. 6

    vb.net을 사용하여 큰 Excel 파일에서 SQL 쿼리를 실행하는 가장 좋은 방법은 무엇입니까?

  7. 7

    파일의 하위 경로를 얻는 가장 좋은 방법

  8. 8

    powershell을 사용하여 파일 증가를보고하는 가장 좋은 방법은 무엇입니까?

  9. 9

    awk / sed를 사용하여 JSON과 유사한 파일을 구문 분석하는 가장 좋은 방법

  10. 10

    저장 프로 시저와 쿼리를 결합하는 가장 좋은 방법

  11. 11

    하위 쿼리로 IIF 조건부를 수행하는 가장 좋은 방법

  12. 12

    GitHub를 사용하여 프로젝트에 새로운 기능을 추가하는 가장 좋은 방법

  13. 13

    PHP 또는 JS를 사용하여 스캔 한 PDF 파일을 구문 분석하는 가장 좋은 방법은 무엇입니까?

  14. 14

    GGplots를 표시하는 가장 좋은 (또는 좋은) 방법

  15. 15

    Java를 사용하여 Windows 시스템에서 Linux 시스템으로 파일을 복사하는 가장 좋은 방법

  16. 16

    확장 방법을 사용하여 로그 파일 또는 콘솔에 메시지를 쓰는 방법

  17. 17

    Spark Scala를 사용하여 추가 모드에서 단일 JSON 파일 아래에 여러 쿼리의 출력을 저장하는 방법

  18. 18

    다시로드를 사용하지 않고 프로그램을 개발하는 가장 좋은 방법

  19. 19

    C ++로 사용자를 로그인하는 가장 좋은 방법

  20. 20

    동일한 셰이더를 사용하지만 동일한 텍스처 또는 색상을 사용하지 않는 여러 VAO를 그리는 가장 좋은 방법은 무엇입니까?

  21. 21

    mysql을 사용하여 주소를 검색하는 가장 좋은 방법

  22. 22

    G ++를 사용하여 헤더와 정적 라이브러리가있는 프로그램을 컴파일 할 때 누락 된 종속성을 확인하는 가장 좋은 방법은 무엇입니까?

  23. 23

    CSS + SAS를 사용하여이 그리드를 구성하는 가장 좋은 방법은 무엇입니까?

  24. 24

    docx 또는 doc 파일을 Java에서 txt로 변환하는 가장 좋은 방법은 무엇입니까?

  25. 25

    Pandas를 사용하여 조건으로 NULL 값을 채우는 가장 좋은 방법은 무엇입니까?

  26. 26

    DOM을 사용하여 글자로 단어를 분할하는 가장 좋은 방법

  27. 27

    사전 사전을 탭 파일로 변환하는 가장 좋은 방법

  28. 28

    하나의 방법으로 여러 쿼리를 구조화하는 가장 좋은 방법 C # asp.net

  29. 29

    Pyinstaller에서 하위 프로세스를 사용하여 호출되는 CLI 프로그램에 대한 종속성을 지정하는 가장 좋은 방법

뜨겁다태그

보관