한 배열의 요소를 다른 배열에서 효율적으로 제거하는 방법

debugcn 에 게시 Dev

알렉산더 소아 레

약 135k 문서 (문서 당 여러 페이지)와 약 800k 단어의 어휘로 구성된 텍스트 말뭉치를 분석하고 있습니다. 어휘의 절반과 같은 것이 빈도가 1 또는 2 인 단어라는 것을 알았으므로 제거하고 싶습니다.

그래서 나는 다음과 같은 것을 실행하고 있습니다.

remove_indices = np.array(index_df[index_df['frequency'] <= 2]['index']).astype(int)

for file_name in tqdm(corpus):
    content = corpus[file_name].astype(int)
    content = [index for index in content if index not in remove_indices]
    corpus[file_name] = np.array(content).astype(np.uint32)

어디 corpus다음과 같은 :

{
    'filename1.txt': np.array([43, 177718, 3817, ...., 28181]).astype(np.uint32),
    'filename2.txt': ....
}

각 단어는 이전에 양의 정수 인덱스로 인코딩되었습니다.

문제는 각 반복마다 여러 번의 검사 content = [index for index in content if index not in remove_indices]를 거쳐야하는 데 len(remove_indices) * len(content)있습니다. 이것은 영원히 걸릴 것입니다 (tqdm은 나에게 100h +를 말하고 있습니다). 속도를 높이는 방법에 대한 팁이 있습니까?

내가 지금까지 시도한 것

단어의 빈도가 1 또는 2 인 경우 remove_indices말뭉치에서 제거 된 후 제거 할 수 있다는 사실을 활용 합니다. 아직도 영원하다 ...

안바르 쿠 르무 코프

이 목록 이해 대신 https://numpy.org/devdocs/reference/generated/numpy.isin.htmlnumpy.isin() 방법을 사용할 수 있습니다 .

또는 set기존 단어 / 인덱스를 만들 수 있습니다 . 그러면이 in연산은 O (n) 대신 O (1)이됩니다 (여기서 n은 배열의 길이).

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-04-2

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사

한 배열의 요소를 다른 배열에서 효율적으로 제거하는 방법

한 배열의 요소를 다른 배열에서 효율적으로 제거하는 방법

한 배열의 값 발생을 다른 배열의 위치에 효율적으로 합하는 방법

int 배열에서 임의로 선택한 다음 선택한 요소를 제거하는 방법

다른 배열로 배열의 요소를 제거하는 방법

numpy를 사용하여 한 배열의 각 요소가 다른 배열에 있는지 여부를 테스트하는 가장 효율적인 방법

한 배열의 요소를 다른 배열에 비교하는 방법

효율적인 방법으로 NET Core에서 한 데이터 유형의 배열을 다른 배열로 변환 하시겠습니까?

PHP는 다른 배열에서 선택한 요소를 기반으로 배열 요소를 제거합니다.

효율적인 방법으로 C에서 배열 크기를 결정하기위한 제안 필요

C #에서 서로 다른 배열의 동일한 요소를 계산하는 방법

JS 배열에서 다음 동일한 요소를 제거하는 방법

최선의 방법으로 Perl의 배열에서 숫자보다 작은 요소를 제거하는 방법

Matlab에서 다른 배열의 모든 값으로 한 배열의 인덱스를 참조하는 방법

C에서 정적 배열의 요소를 효과적으로 제거하는 방법

Javascript를 사용하여 다른 배열로 필터링 한 후 배열의 요소를 검색하는 방법>

문장 배열에서 문자열 배열의 정확한 개별 개수를 효율적으로 찾는 방법은 무엇입니까?

한 배열의 요소가 PHP에서 다른 배열에없는 경우 다차원 배열의 요소를 얻는 방법

배열에서 단일 요소를 쉽고 효율적으로 삭제하는 방법은 무엇입니까?

배열 목록에서 가장 효율적인 방법으로 삭제 요소?

한 배열의 요소를 키로 다른 배열에 매핑하고 결과 값을 배열로 반환하는 방법은 무엇입니까?

고유 한 무 방향 경로를 효율적으로 열거하는 방법

배열의 임의 위치에 요소를 효율적으로 삽입하는 방법은 무엇입니까?

다차원 배열의 요소에 대한 참조를 문자열로 효율적으로 인코딩

파이썬. 배열에서 사용자 지정 개체를 효율적으로 제거하는 방법

다른 열의 요소를 기반으로 pyspark 배열에서 요소 제거

배열에서 n 개의 요소를 동적으로 제거하고 다른 배열에 추가

Numpy에서 2 차원 배열의 모든 요소를 1 차원 배열로 효율적으로 곱하는 방법은 무엇입니까?

배열 요소를 다른 배열의 인덱스로 사용하는 방법

다른 열의 모든 요소에 대해 더 큰 요소의 수를 효율적으로 계산하는 방법은 무엇입니까?

mongoose를 사용하여 MongoDB에서 한 배열 위치에서 다른 배열 위치로 요소를 이동하는 방법은 무엇입니까?