Javascript를 사용하여 pdf에서 텍스트의 특정 부분을 추출 하시겠습니까?

Soko Fuzu

수정해야합니다. pdf의 모든 텍스트를 추출하기 위해 찾은이 코드를 사용하고 있습니다.

<!-- edit this; the PDF file must be on the same domain as this page -->
<iframe id="input" src="your-file.pdf"></iframe>

<!-- embed the pdftotext service as an iframe -->
<iframe id="processor" src="http://hubgit.github.com/2011/11/pdftotext/"></iframe>

<!-- a container for the output -->
<div id="output"></div>

<script>
var input = document.getElementById("input");
var processor = document.getElementById("processor");
var output = document.getElementById("output");

// listen for messages from the processor
window.addEventListener("message", function(event){
  if (event.source != processor.contentWindow) return;

  switch (event.data){
    // "ready" = the processor is ready, so fetch the PDF file
    case "ready":
      var xhr = new XMLHttpRequest;
      xhr.open('GET', input.getAttribute("src"), true);
      xhr.responseType = "arraybuffer";
      xhr.onload = function(event) {
        processor.contentWindow.postMessage(this.response, "*");
      };
      xhr.send();
    break;

    // anything else = the processor has returned the text of the PDF
    default:
      output.textContent = event.data.replace(/\s+/g, " ");
    break;
  }
}, true);
</script>

출력은 단락없이 압축 된 텍스트입니다. 내 모든 pdf에는 처음 어딘가에 'Datacover'라는 단어가 있으며 큰 단락 뒤에옵니다.

내가 원하는 것은 'Datacover'라는 단어의 첫 번째 인스턴스까지 처음부터 모든 텍스트를 삭제하고 'Datacover'라는 단어의 앞부분에서 '의 세 번째 인스턴스까지 모든 텍스트를 표시하는 것입니다. '<-(공백이있는 점) 끝까지 다음 텍스트를 모두 삭제합니다.

도울 수 있니? 감사!

네 번째 새

단어 경계 사이에 Datacover를 일치시키고 점과 공백이 다음에 나타날 때까지 \bnewling을 포함하여 모든 문자와 일치하는 욕심이없는 방식으로 3 번 반복 할 수 있습니다.[\s\S]*?\.

\bDatacover\b(?:[\s\S]*?\. ){3}

Regex 데모

데이터를 얻으려면 다음을 사용할 수 있습니다.

event.data.match(regex)

예를 들면 :

const regex = /\bDatacover\b(?:[\s\S]*?\. ){3}/g;
let event = {
  data: `testhjgjhg hjg jhg jkgh kjhghjkg76t 76 tguygtf yr 6 rt6 gtyut 67 tuy yoty yutyu tyu yutyuit iyut iuytiyu tuiyt Datacover uytuy tuyt uyt uiytuiyt uytutest.
yu tuyt uyt uyt iutiuyt uiy
 yuitui tuyt
test. 
 uiyt uiytuiyt
 uyt ut ui
this is a test. 
sjhdgfjsa. 
hgwryuehrgfhrghw fsdfdfsfs sddsfdfs.`
};

console.log(event.data.match(regex));

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정
0

몇 마디 만하겠습니다

0리뷰
로그인참여 후 검토

관련 기사

분류에서Dev

pytesseract를 사용하여 이미지의 특정 부분에서 텍스트를 추출 할 수 있습니까?

분류에서Dev

R에서 REGEX를 사용하여 값의 특정 문자열을 새 열로 추출 하시겠습니까?

분류에서Dev

BeautifulSoup을 사용하여 테이블의 특정 셀에서 데이터를 추출 하시겠습니까?

분류에서Dev

pandas를 사용하여 핵심 문구 뒤에 문자열의 특정 부분을 추출 하시겠습니까?

분류에서Dev

bash를 사용하여 특정 방식으로 텍스트 파일의 값을 출력 하시겠습니까?

분류에서Dev

Python의 Beautiful Soup을 사용하여 특정 span 태그에서 텍스트를 추출 할 수 없습니다.

분류에서Dev

dd를 사용하여 파일의 정확한 부분을 추출 하시겠습니까?

분류에서Dev

정규식을 사용하여 패턴을 무시하고 텍스트를 추출 하시겠습니까?

분류에서Dev

Python을 사용하여 PDF에서 특정 텍스트 만 추출

분류에서Dev

파이썬에서 정규식을 사용하여 "----"로 구분 된 텍스트의 특수 부분을 어떻게 추출 할 수 있습니까?

분류에서Dev

matlab을 사용하여 텍스트 파일에서 특정 단어를 검색하고 문자열을 추가 하시겠습니까?

분류에서Dev

터미널을 사용하여 파일에서 텍스트를 추출 하시겠습니까?

분류에서Dev

파이썬에서 여러 정규식을 사용하여 특정 텍스트를 추출합니까?

분류에서Dev

Pandas에서 정규식을 사용하여 열의 특정 부분 추출

분류에서Dev

텍스트의 일부를 추출하고 원하는 형식을 Python으로 지정 하시겠습니까?

분류에서Dev

C #을 사용하여 텍스트 파일에서 특정 텍스트 추출

분류에서Dev

특정 태그 뒤에 html에서 모든 텍스트를 추출 하시겠습니까?

분류에서Dev

PowerShell을 사용하여 텍스트의 특정 부분을 추출하는 방법은 무엇입니까?

분류에서Dev

HtmlAgilityPack을 사용하여 텍스트의 특정 HTML 부분을 어떻게 추출합니까?

분류에서Dev

PHP를 사용하여 PDF에서 특정 텍스트를 추출하는 방법

분류에서Dev

임의의 텍스트에서 특정 단어 앞에 중단을 추가 하시겠습니까?

분류에서Dev

PHP를 사용하여 텍스트 파일에서 특정 정보 추출

분류에서Dev

각 줄의 텍스트 파일에서 부분 문자열을 추출 하시겠습니까?

분류에서Dev

정규식을 사용하여 Snowflake에서 특정 텍스트 추출

분류에서Dev

Selenium 및 Python을 사용하여 HTML 코드에서 특정 텍스트를 추출하는 방법

분류에서Dev

Notepad ++를 사용하여 텍스트 파일에서 특정 길이 URL을 추출하는 방법

분류에서Dev

Notepad ++를 사용하여 문서에서 특정 텍스트 추출

분류에서Dev

AS3 TextField : 특정 줄에 텍스트를 추가 하시겠습니까?

분류에서Dev

~ .ssh / config를 사용하여 특정 호스트에 대해 항상 TERM = cygwin을 설정 하시겠습니까?

Related 관련 기사

  1. 1

    pytesseract를 사용하여 이미지의 특정 부분에서 텍스트를 추출 할 수 있습니까?

  2. 2

    R에서 REGEX를 사용하여 값의 특정 문자열을 새 열로 추출 하시겠습니까?

  3. 3

    BeautifulSoup을 사용하여 테이블의 특정 셀에서 데이터를 추출 하시겠습니까?

  4. 4

    pandas를 사용하여 핵심 문구 뒤에 문자열의 특정 부분을 추출 하시겠습니까?

  5. 5

    bash를 사용하여 특정 방식으로 텍스트 파일의 값을 출력 하시겠습니까?

  6. 6

    Python의 Beautiful Soup을 사용하여 특정 span 태그에서 텍스트를 추출 할 수 없습니다.

  7. 7

    dd를 사용하여 파일의 정확한 부분을 추출 하시겠습니까?

  8. 8

    정규식을 사용하여 패턴을 무시하고 텍스트를 추출 하시겠습니까?

  9. 9

    Python을 사용하여 PDF에서 특정 텍스트 만 추출

  10. 10

    파이썬에서 정규식을 사용하여 "----"로 구분 된 텍스트의 특수 부분을 어떻게 추출 할 수 있습니까?

  11. 11

    matlab을 사용하여 텍스트 파일에서 특정 단어를 검색하고 문자열을 추가 하시겠습니까?

  12. 12

    터미널을 사용하여 파일에서 텍스트를 추출 하시겠습니까?

  13. 13

    파이썬에서 여러 정규식을 사용하여 특정 텍스트를 추출합니까?

  14. 14

    Pandas에서 정규식을 사용하여 열의 특정 부분 추출

  15. 15

    텍스트의 일부를 추출하고 원하는 형식을 Python으로 지정 하시겠습니까?

  16. 16

    C #을 사용하여 텍스트 파일에서 특정 텍스트 추출

  17. 17

    특정 태그 뒤에 html에서 모든 텍스트를 추출 하시겠습니까?

  18. 18

    PowerShell을 사용하여 텍스트의 특정 부분을 추출하는 방법은 무엇입니까?

  19. 19

    HtmlAgilityPack을 사용하여 텍스트의 특정 HTML 부분을 어떻게 추출합니까?

  20. 20

    PHP를 사용하여 PDF에서 특정 텍스트를 추출하는 방법

  21. 21

    임의의 텍스트에서 특정 단어 앞에 중단을 추가 하시겠습니까?

  22. 22

    PHP를 사용하여 텍스트 파일에서 특정 정보 추출

  23. 23

    각 줄의 텍스트 파일에서 부분 문자열을 추출 하시겠습니까?

  24. 24

    정규식을 사용하여 Snowflake에서 특정 텍스트 추출

  25. 25

    Selenium 및 Python을 사용하여 HTML 코드에서 특정 텍스트를 추출하는 방법

  26. 26

    Notepad ++를 사용하여 텍스트 파일에서 특정 길이 URL을 추출하는 방법

  27. 27

    Notepad ++를 사용하여 문서에서 특정 텍스트 추출

  28. 28

    AS3 TextField : 특정 줄에 텍스트를 추가 하시겠습니까?

  29. 29

    ~ .ssh / config를 사용하여 특정 호스트에 대해 항상 TERM = cygwin을 설정 하시겠습니까?

뜨겁다태그

보관