awk를 사용하여 행렬의 각 행에 대한 문자열의 합계

debugcn 에 게시 Dev

Reilstein

매우 긴 데이터 프레임 (~ 11 백만 x 130)이 백분율로 드물게 채워져 있습니다 (0.00-100.00, 부동 소수점).

누락 된 항목은 다음과 같이 "NA"로 표시됩니다.

cat1    NA    NA    99.90    NA    NA    10.90    NA
cat2    NA    1.00    NA    19.12    NA    NA    NA  
cat3    NA    NA    NA    NA    NA    NA    45.00

이 데이터 프레임을 행별로 살펴보고 "NA"의 발생을 합산하고 싶습니다.

일반적으로 R에서를 수행하여 매우 쉽게 수행 할 수 apply(data.frame, 1, function(x) sum(is.na(x))있지만 파일이 너무 커서 메모리 문제가 계속 발생합니다. 가능한 경우 AWK로 이것을 수행하여 향후 유사한 문제에 대해 명령 줄에 적용 할 수 있습니다.

나는 awk를 잘 사용하지 못하지만 본질적으로 각 레코드 / 행에 대한 필드에서 "NA"의 발생을 합하고 나중에 파일 줄을 건너 뛰기위한 인덱스로 사용할 수 있습니다.

미리 감사드립니다

RomanPerekhrest

간단하게 :

$ awk '{ for (i=2;i<=NF;i++) if ($i=="NA") c++; print c; c=0 }' file
5
5
6

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-06-12

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사

awk를 사용하여 행렬의 각 행에 대한 문자열의 합계

awk를 사용하여 행렬의 각 행에 대한 문자열의 합계

JavaScript를 사용하여 2 차원 행렬에서 대각선 합산의 뺄셈 계산

R에서 행렬의 각 행에 대한 가중 합계를 얻는 방법

double 행렬의 각 행에 대한 특정 열 합계

각 행에 대한 R은 특수 조건을 충족하기 전에 행에서 열 중 하나의 값을 사용하여 합계를 계산합니다.

동일한 인덱스를 사용하여 Matlab에서 행렬의 행 합계

전이 행렬 합계의 각 행에 대한 증명 1

Python에서 한 열의 각 행에 대한 한자 수를 계산합니다.

행렬 열의 하위 집합에 대한 행 합계 찾기

iOS-Accelerate.framework를 사용하여 행렬의 각 행 및 / 또는 열의 내적을 계산합니다.

파이썬을 사용하여 32x32 행렬을 가져 와서 이러한 행렬의 대부분을 단일 배열에 추가 한 다음 각 행렬에 타임 스탬프 인덱스를 추가합니다.

행렬에 의한 각 행의 제품 합계

numpy : 행렬에서 각 행의 다른 하위 집합에 대한 평균

"dplyr"를 사용하여 데이터 프레임의 각 행에 대한 특정 비율 계산

행렬의 각 행에 대한 벡터 발생 횟수 계산

직사각형 행렬에 대한 Python의 희소 행렬 행렬 곱셈

2D 행렬 PYTHON의 최대 합계 사각형

awk 내부의 행과 열을 반복하여 각 셀의 특정 부분 문자열을 계산합니다.

별개의 행과 열에서 각 요소의 최대 행렬 합계

R-3 개 열의 각 값을 인수로 사용하여 3 개 열 행렬의 각 행에 3 개 인수 함수를 적용합니다.

ArrayFormula를 사용하여 여러 열을 계산하고 각 행의 합계를 출력합니다.

행렬의 각 행에서 요소를 사용하여 함수 적용

벡터 값을 사용하여 R의 부대 각 행렬에 새 행 추가

다른 행렬의 열 (또는 행)을 사용하여 행렬의 각 열 (또는 행)에 대한 가중 평균을 계산하는 방법은 무엇입니까?

xarray를 사용하여 그리드의 각 지점에 대한 시간 합계를 얻습니다.

파이썬 3.5를 사용하는 sympy 1.0의 행렬 항목에 대한 합계

R Shiny-for 루프를 사용하여 행렬의 대각 요소 추출

df의 열에 각 그룹에 대한 '합계'행 추가

루프를 사용하여 R의 행 합계를 가져 오지 마십시오. 여기서 각 행에 대해 서로 다른 열의 합계를 시작하고 중지합니다.

C에서 fork ()를 사용하여 폴더에있는 각 텍스트 파일의 행을 병렬로 계산