Apache Lucene Solr를 사용한 정보 검색 실험을 위해 대규모 html 파일 모음을 빠르게 색인화하려고합니다. 최신 릴리스 ( solr-4.9.0/example/solr
)와 함께 배포 된 예제 Solr 인스턴스를 사용하고 있으며 빠르고 더러운 솔루션의 정신으로 curl을 사용하여 문서를 제출하고 있습니다.
curl http://localhost:8983/solr/update/extract?literal.id=001 -F [email protected]
인덱싱 중에 Solr 패널의 로그를 보면 다음과 같은 형식의 많은 오류가 표시됩니다.
org.apache.solr.common.SolrException: ERROR: [doc=BLOG06-20060103-014-0011844415] multiple values encountered for non multiValued field keywords: [hair care, shampoo, hair styles, hair styles, ...]
키워드 추출을 수행하는 구성 요소가 공백으로 구분 된 단어 목록이어야 할 때 여러 값을 가져 오는 것처럼 보입니다. 이것을 강제하기 위해 어떤 조치를 취해야합니까, 아니면 일종의 버그처럼 보이나요?
솔루션은 키워드 필드 schema.xml
가 multiValued="true"
지정 되었는지 확인하는 것만 큼 간단했습니다 . 그런 다음 몇 가지 다른 분야에서이 작업을 수행해야했습니다. 나는 어리석게도 스키마가 데모 인스턴스의 기본 문서 파서와 일치하도록 설정 될 것이라고 생각했습니다.
이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.
침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제
몇 마디 만하겠습니다