JSON 데이터를 처리해야하는데 JSON이 하나의 행만 포함하는 방식으로 형식이 지정되었습니다. 터미널에서 wc -l file.json
돌아오고 있습니다0
Pandas Dataframe을 JSON으로 변환하여 파일이 생성됩니다.
다음은 샘플입니다. file.json
[
{"id":683156,"overall_rating":5.0,"hotel_id":220216,"hotel_name":"Beacon Hill Hotel","title":"\u201cgreat hotel, great location\u201d","text":"The rooms here are not palatial","author_id":"C0F"},
{"id":692745,"overall_rating":5.0,"hotel_id":113317,"hotel_name":"Casablanca Hotel Times Square","title":"\u201cabsolutely delightful\u201d","text":"I travelled from Spain...","author_id":"8C1"}
]
파일 당 10,000 개의 레코드로 분할하고 싶습니다.
jq를 사용하여 다음과 같이 배열의 최상위 항목을 한 줄에 하나씩 내보낼 수 있습니다.
jq -c '.[]' file.json
각 파티션을 배열로 재구성하지 않고 단순히이 스트림을 분할하려는 경우 split
.
각 파티션을 배열로 만들려면 jq를 사용하여 파티션을 만든 다음 awk
별도의 파일을 만드는 것과 같은 도구를 사용할 수 있습니다. 예를 들어이 SO Q & A : Bash 또는 Fish shell에서 JQ로 JSON 파일 분할 / 청킹?
이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.
침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제
몇 마디 만하겠습니다