dsbulk 언로드를 실행하고 S3에 직접 쓰는 방법

debugcn 에 게시 Dev

Wonger

dsbulk unload 명령을 실행하고 싶지만 내 카산드라 클러스터에 내보내려는 테이블에 ~ 1tb의 데이터가 있습니다. 디스크에 쓰는 대신 dsbulk unload 명령을 실행하고 데이터를 s3로 스트리밍하는 방법이 있습니까?

내 개발 환경에서 다음 명령을 실행하고 있지만 분명히 이것은 내 컴퓨터의 디스크에 쓰는 것입니다.

bin/dsbulk unload -k myKeySpace -t myTable -url ~/data --connector.csv.compression gzip

알렉스 오트

기본적으로 "기본적으로"지원하지 않습니다. 이론적으로 DSBulk는 이제 오픈 소스 이므로 구현할 수 있지만 누군가가 수행해야합니다.

업데이트 : 해결 방법은 Adam이 지적한대로 aws s3 cp다음과 같이 DSBulk에서 사용 하고 파이프하는 것입니다.

dsbulk unload .... |aws s3 cp - s3://...

그러나 제한이 있습니다. 언로드는 한 스레드에서 수행되므로 언로드가 훨씬 느려질 수 있습니다.

단기적으로 Spark Cassandra Connector와 함께 로컬 마스터 모드에서 Apache Spark를 사용할 수 있습니다 (Spark 2.4의 경우).

spark-shell --packages com.datastax.spark:spark-cassandra-connector-assembly_2.11:2.5.1

그리고 내부 :

val data = spark.read.format("org.apache.spark.sql.cassandra")\
   .options(Map( "table" -> "table_name", "keyspace" -> "keyspace_name")).load()
data.write.format("json").save("s3a://....")

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-04-5

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사

dsbulk 언로드를 실행하고 S3에 직접 쓰는 방법

dsbulk 언로드를 실행하고 S3에 직접 쓰는 방법

터미널에서 직접 Java를 실행하는 방법

S3에 직접 업로드 할 때 IE9에서 콘텐츠 유형을 설정하는 방법

파일에 쓴 후 업로드하지 않고 csv 파일과 같이 메모리 값의 사전 데이터를 s3 버킷에 직접 쓰는 방법

Launcher에서 .tcl 파일을 직접 실행 가능하게 만드는 방법

화면에 직접 무언가를 칠하는 방법?

imageBitMap에서 직접 읽고 쓰는 방법

양식 데이터를 사용하여 여러 파일을 Amazon S3에 직접 업로드하는 방법은 무엇입니까?

Cakephp에서 모델을 직접로드하는 방법

ConfigureServices 메서드에서 직접 HttpContextAccessor를 주입하는 방법

plotlyexpress에서 직접 크기 모드를 변경하는 방법

Notepad ++에서 직접 파일을 실행하는 방법

Eclipse 카탈로그에 XSD를 직접 추가하는 방법

명령 프롬프트에서 PHP를 직접 실행할 때 PHP 경로를 설정하는 방법

postgresql에서 직접 저장 프로 시저를 실행하는 방법은 무엇입니까?

Codeigniter에서 직접 URL 액세스를 방지하는 방법

직접 실행 창과 동일한 방식으로 컬렉션을 콘솔에 출력하는 방법

직접 모든 파일에 코드를 적용하고 xml 파일을 txt 파일로 변환하는 방법

Excel에서 특정 셀로 직접 이동하는 방법

CMD에서 직접 Msgbox를 표시하는 방법

JsonGenerator에서 직접 JsonNodes 트리를 구축하는 방법

BackboneJs의 en 요소에 div를 직접 추가하는 방법

Linux에서 PC 스피커를 직접 구동하는 방법

Amazon MSK Topic을 S3에 직접 덤프하는 방법이 있습니까?

하드 드라이브를 VDI 이미지에 직접 복제하는 방법

장고 URL에서 관리자를 직접 호출하는 방법

클라이언트 (html, js, css)를 노드로 정수화하고 서버에서 실행하는 방법

클라이언트 (html, js, css)를 노드로 정수화하고 서버에서 실행하는 방법

클라이언트 (html, js, css)를 노드로 정수화하고 서버에서 실행하는 방법

노드 모듈을 직접 실행하는 방법은 무엇입니까?