Pandas Dataframe에서 JSON으로 : 1 백만 개의 레코드에 대해 한 줄을 반환합니다.

debugcn 에 게시 Dev

코드 괴짜

JSON 데이터를 처리해야하는데 JSON이 하나의 행만 포함하는 방식으로 형식이 지정되었습니다. 터미널에서 wc -l file.json돌아오고 있습니다0

Pandas Dataframe을 JSON으로 변환하여 파일이 생성됩니다.

다음은 샘플입니다. file.json

[
{"id":683156,"overall_rating":5.0,"hotel_id":220216,"hotel_name":"Beacon Hill Hotel","title":"\u201cgreat hotel, great location\u201d","text":"The rooms here are not palatial","author_id":"C0F"},
{"id":692745,"overall_rating":5.0,"hotel_id":113317,"hotel_name":"Casablanca Hotel Times Square","title":"\u201cabsolutely delightful\u201d","text":"I travelled from Spain...","author_id":"8C1"}
]

피크

파일 당 10,000 개의 레코드로 분할하고 싶습니다.

jq를 사용하여 다음과 같이 배열의 최상위 항목을 한 줄에 하나씩 내보낼 수 있습니다.

jq -c '.[]' file.json

각 파티션을 배열로 재구성하지 않고 단순히이 스트림을 분할하려는 경우 split.

각 파티션을 배열로 만들려면 jq를 사용하여 파티션을 만든 다음 awk별도의 파일을 만드는 것과 같은 도구를 사용할 수 있습니다. 예를 들어이 SO Q & A : Bash 또는 Fish shell에서 JQ로 JSON 파일 분할 / 청킹?

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-04-2

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사

Pandas Dataframe에서 JSON으로 : 1 백만 개의 레코드에 대해 한 줄을 반환합니다.

Pandas Dataframe에서 JSON으로 : 1 백만 개의 레코드에 대해 한 줄을 반환합니다.

특정 레코드에 대한 NULL 값의 백분율을 반환합니다.

SQL-해당 계정에 대한 레코드 간의 비교를 기반으로 계정에 대한 모든 레코드를 반환합니다.

1 개 열을 기준으로 각 개인에 대한 고유 한 레코드를 선택합니다.

테이블의 각 레코드에 대한 평균을 반환합니다.

Pandas Dataframe에서 4 개의 행을 병합하여 1 개의 행을 4 개의 하위 행으로 만들고 싶습니다.

nestjs는 1 개의 경로에 대해 404를 찾을 수 없음을 반환합니다.

여러 행을 결합한 각 레코드에 대해 가변 개수의 열을 반환하는 SQL 쿼리

행 1에서 열 값을 한 번만 반환하고 다른 행에 대해서는 NULL을 반환합니다.

함수의 반환 값에 대한 유형을 추론합니다. 여기서 함수 매개 변수는 함수의 레코드입니다.

BigQuery : 상관 된 하위 쿼리에서 레코드 유형의 고유 한 값을 반환해야합니다.

PHP json_encode는 동일한 객체에 대해 두 개의 다른 서버에서 다른 값을 반환합니다.

Pandas에서 한 열의 고유 값으로 열을 만든 다음 다른 열의 값을 기반으로 채우려면 어떻게해야합니까?

Pandas 데이터 프레임의 각 열을 한 열에 대해 쌍으로 플로팅합니다.

하나의 컨트롤러에서 두 개의 다른 테이블에 대한 레코드를 만드는 것이 나쁜 습관으로 간주됩니까?

백만 개 이상의 레코드에 대한 ip2location 쿼리

Windows XP에서 cmd.exe에 대한 반환 코드 1은 무엇을 의미합니까?

Pandas : 롤링 창에서 최대 값을 찾고 최대 행과 4 개 행에 대해 다른 열의 합계를 반환합니다.

PSNR의 OpenCV 구현은 두 개의 동일한 이미지에 대해 361 값을 반환합니다.

n-1 인덱스 레코드를 기반으로하는 값에 대한 pandas groupby

SQL Server 쿼리 : 여러 레코드 값의 합계에 대한 특정 레코드의 백분율 값을 반환하는 방법

raspbian의 getaddrinfo는 OS X 다중에서 동일한 코드 인 루프백 IP 만 반환합니다.

TSQL XML 값은 모든 레코드에 대해 노드의 첫 번째 값을 반환합니다.

MySQL WHERE IN은 1 개의 레코드 만 반환합니다.

조인 된 테이블의 각 레코드에 대한 날짜 기반 상위 1 개 레코드

SQL은 지난주의 각 요일에 생성 된 레코드 수에 대해 0을 반환합니다.

Pandas 데이터 프레임의 특정 값에 대한 열 이름을 반환합니다.

2 개 이상의 값을 반환 한 하위 쿼리-특정 날짜의 값으로 날짜 범위에 대한 레코드 업데이트

Bootstrap에서 동일한 여백으로 세 개의 열을 만드는 방법은 무엇입니까?

glGetUniformLocation은 GLSL의 구조체 배열에 대해 -1을 반환합니다.