사전 훈련 된 Gensim
의 구문 모델이 있습니까? 그렇지 않다면 사전 훈련 된 단어 임베딩을 사용하여 구문 모델을 리버스 엔지니어링하고 생성 할 수 있습니까?
내가 사용하려고 구글 뉴스 - 벡터 - negative300.bin Gensim의과를 Word2Vec
. 먼저 Google의 사전 학습 된 임베딩에서 벡터를 찾을 수 있도록 내 단어를 구문으로 매핑해야합니다.
공식 Gensim 문서를 검색했지만 정보를 찾을 수 없습니다. 감사!
나는 Phrases
모델을 공유하는 사람을 모른다 . 그러한 모델은 전처리 / 토큰 화 단계와 작성자가 사용한 특정 매개 변수에 매우 민감합니다.
높은 수준의 알고리즘 설명 외에 GoogleNews
2013 년 단어 벡터에 입력 된 데이터에 대해 수행 된 토큰 화 / 정규화 / 구문 조합에 대한 Google의 정확한 선택 이 어디에나 문서화되어 있는 것을 보지 못했습니다 . 존재하는 토큰을 검토하여 전처리에 대한 일부 추측을 할 수 있지만 유사한 선택을 다른 텍스트에 적용하는 코드를 알지 못합니다.
유니 그램 토큰 화를 모방 한 다음 유니 그램 문자열을 최대 일부까지 더 긴 멀티 그램으로 추측하여 결합하고, 해당 조합이 있는지 확인하고, 존재하지 않을 경우 유니 그램 (또는 존재하는 가장 큰 조합)으로 되돌릴 수 있습니다. 순진하게 수행하면 비용이 많이들 수 있지만, 특히 자주 사용되는 단어의 일부 하위 집합에 대해 정말 중요한 경우 최적화를 수행 할 수 있습니다. GoogleNews
집합이 단어를 내림차순으로 나열하는 규칙을 따르는 것으로 보이기 때문입니다.
(일반적으로 단어 벡터의 빠르고 쉬운 시작 세트 GoogleNews
이지만 약간 과도하게 의존 한다고 생각 합니다. 2013 년 이후로 발전한 단어 / 구문과 새로운 감각이 부족할 것이며, 그것이 포착하는 모든 의미가 결정됩니다. 2013 년까지 이어지는 뉴스 기사에 의해 ... 다른 도메인의 지배적 인 단어 감각과 일치하지 않을 수 있습니다. 도메인이 특별히 뉴스가 아니고 충분한 데이터가있는 경우 도메인 별 토큰 화 / 조합을 결정합니다. 성능이 더 좋을 것입니다.)
이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.
침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제
몇 마디 만하겠습니다