문장에서 시퀀스 단어 목록을 인식하는 가장 좋은 방법 찾기

debugcn 에 게시 Dev

아미르

시퀀스를 기반으로 한 문장에서 찾고 싶은 단어 목록이 두 개 있습니다. "정규식"사용이 가능한지 확인하고 싶은지 아니면 if 조건으로 문장을 확인해야하나요?

n_ali = set(['ali','aliasghar'])
n_leyla = set(['leyla','lili',leila])
positive_adj = set(['good','nice','handsome'])
negative_adj = set(['bad','hate','lousy'])


Sentence = "aliasghar is nice man. ali is handsome man of my life. lili has so many bad attitude who is next to my friend. "

다음과 같은 패턴을 찾고 싶습니다.

n_ali + positive_adj
n_ali + negative_adj
n_leyla + positive_adj
n_leyla + negative_adj

VS2015에서 파이썬 3.5를 사용하고 있으며 NLTK에서 처음입니다. 한 단어를 확인하기 위해 "정규식"을 만드는 방법을 알고 있지만 유사한 이름 목록에 가장 적합한 방법이 무엇인지 잘 모르겠습니다. 친절하게 저를 도와주고이 접근 방식을 구현하는 가장 좋은 방법을 제안하십시오.

슬라이더

불용어 제거를 고려해야합니다.

import nltk
from nltk.corpus import stopwords
>>> words = [word for word in nltk.word_tokenize(sentence) if word not in stopwords.words('english')]
>>> words
['aliasghar', 'nice', 'man', '.', 'ali', 'handsome', 'man', 'life', '.', 'lili', 'many', 'bad', 'attitude', 'next', 'friend', '.']

좋아, 이제 원하는 데이터를 얻었습니다 (대부분). 간단한 루핑을 사용하여 결과를 for ali및 leila개별적 으로 쌍으로 저장해 봅시다 .

>>> ali_adj = []
>>> leila_adj = []
>>> for i, word in enumerate(words[:-1]):
...     if word in n_ali and (words[i+1] in positive_adj.union(negative_adj)):
...             ali_adj.append((word, words[i+1]))
...     if word in n_leyla and (words[i+1] in positive_adj.union(negative_adj)):
...             leila_adj.append((word, words[i+1]))
... 
>>> 
>>> ali_adj
[('aliasghar', 'nice'), ('ali', 'handsome')]
>>> leila_adj
[]

leila"many"는 불용어가 아니기 때문에 설명 할 형용사를 찾을 수 없습니다 . 이 유형의 문장을 수동으로 정리해야 할 수도 있습니다.

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-06-11

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사

문장에서 시퀀스 단어 목록을 인식하는 가장 좋은 방법 찾기

문장에서 시퀀스 단어 목록을 인식하는 가장 좋은 방법 찾기

세관 목록보기 어댑터에서 IabHelper에 액세스하는 가장 좋은 방법

즐겨 찾기 목록을 쿼리하는 가장 좋은 방법

큰 목록에서 고유 한 항목을 찾는 가장 좋은 방법

변수 목록에서 항목을 찾는 가장 좋은 방법

Python의 다차원 목록에서 항목을 찾는 가장 좋은 방법

문자열의 단어 집합에서 단어를 찾는 가장 좋은 방법은 무엇입니까?

SQLite에서 단 하나의 객체 기록을 저장하는 가장 좋은 방법은 무엇입니까?

Android에서 즐겨 찾기 목록을 만드는 가장 좋은 방법은 무엇입니까?

큰 텍스트 파일에서 여러 문자열 목록을 찾는 가장 좋은 방법은 무엇입니까?

인덱스 배열로 목록을 정렬하는 가장 좋은 방법

자바에서 디스크에 방대한 객체 목록을 저장하는 가장 좋은 방법

두 목록에없는 값을 찾는 가장 좋은 방법 C #

문장 부호를 제거한 후 텍스트 파일에서 고유 한 단어 목록을 인쇄하고 가장 긴 단어 찾기

C ++에서 시퀀스를 한 번 실행하는 가장 좋은 방법

Django 단위 테스트에서 datetime을 패치하는 가장 좋은 방법

DateTime을 기반으로 목록에서 항목을 제거하는 가장 좋은 방법

Python 3을 사용하여 목록에서 정확한 단어 시퀀스를 찾는 방법은 무엇입니까?

AngularJS 지시문에 바인딩하기 전에 html을 수정하는 가장 좋은 방법

단위 테스트에서 행렬 값을 확인하는 가장 좋은 방법은 무엇입니까?

재정의 방법을 기록하는 가장 좋은 방법

Excel에서 프로세스 단계 다이어그램을 만드는 가장 좋은 방법

Python : 문자열에서 단어 목록을 생성하고 색인에 따라 텍스트 파일에 저장하는 방법은 무엇입니까?

golang에서 단어를 검열하는 가장 좋은 방법

정규 표현식을 사용하여 루비에서 하위 문자열을 찾는 가장 좋은 방법

문장 목록에서 단어 목록을 제거하는 쉬운 방법은 무엇입니까?

펄에서 정수 부분 문자열을 찾는 가장 좋은 방법

문자 시퀀스가 주어지면 주어진 목록에서 가장 가까운 것을 찾습니다.

파이썬 3에서 정규식을 사용하여 부분 문자열을 찾는 가장 좋은 방법

반복자를 사용하여 C ++에서 여러 크기의 여러 목록을 동시에 반복하는 가장 좋은 방법은 무엇입니까?