HTML 파일에서 태그를 추출하여 새 파일에 쓰는 방법은 무엇입니까?

debugcn 에 게시 Dev

나탈리아 레 센데

내 HTML 파일의 형식은 아래와 같습니다.

<unit id="2" status="FINISHED" type="pe">

    <S producer="Alice_EN">CHAPTER I Down the Rabbit-Hole</S>

    <MT producer="ALICE_GG">CAPÍTULO I Abaixo do buraco de coelho</MT>

    <annotations revisions="1">

     <annotation r="1">
    

<PE producer="A1.ALICE_GG"><html>
 <head>

 </head>
 <body>
   CAPÍTULO I Descendo pela toca do coelho
  </body>
</html></PE>

전체 HTML 파일의 두 태그에서 모든 콘텐츠를 추출해야합니다. <unit id ...>로 시작하는 태그 중 하나의 내용은 한 줄에 있지만 "<PE 생산자 ..."로 시작하고 ''로 끝나는 다른 태그의 내용은 다른 줄에 분산되어 있습니다. . 이 두 태그 내에서 콘텐츠를 추출하고 콘텐츠를 새 파일에 차례로 써야합니다. 내 출력은 다음과 같아야합니다.

<unit id="2" status="FINISHED" type="pe">

<PE producer="A1.ALICE_GG"><html>
<head>

</head>
<body>
  CAPÍTULO I Descendo pela toca do coelho
</body>
</html></PE>

내 코드는 파일의 모든 태그에서 콘텐츠를 추출하지 않습니다. 누구든지 무슨 일이 일어나고 있는지 그리고 어떻게이 코드가 제대로 작동하도록 할 수 있는지에 대한 단서를 가지고 있습니까?

import codecs
import re

t=codecs.open('ALICE.per1_replaced.html','r')

t=t.read()


unitid=re.findall('<unit.*?"pe">', t)
PE=re.findall('<PE.*?</PE>', t, re.DOTALL)



for i in unitid:
    for j in PE:
        a=i + '\n' + j + '\n'
    with open('PEtags.txt','w') as fi:
        fi.write(a)

Wiktor Stribiżew

일치 항목을 반복하고 파일에 쓰는 코드에 문제가 있습니다.

귀하 initid와 PE일치 횟수가 같으면 코드를 다음과 같이 조정할 수 있습니다.

import re

with open('ALICE.per1_replaced.html','r') as t:
  contents = t.read()
  unitid=re.findall('<unit.*?"pe">', contents)
  PE=re.findall('<PE.*?</PE>', contents, re.DOTALL)
  with open('PEtags.txt','w') as fi:
    for i, p in zip(unitid, PE):
      fi.write( "{}\n{}\n".format(i, p) )

이 기사는 인터넷에서 수집됩니다. 재 인쇄 할 때 출처를 알려주십시오.

침해가 발생한 경우 연락 주시기 바랍니다[email protected] 삭제

에서 수정2021-04-6

몇 마디 만하겠습니다

0리뷰

로그인참여 후 검토

Related 관련 기사

기사

HTML 파일에서 태그를 추출하여 새 파일에 쓰는 방법은 무엇입니까?

HTML 파일에서 태그를 추출하여 새 파일에 쓰는 방법은 무엇입니까?

gnu / linux에서 exiftool 구성 파일을 사용하여 pdf 파일에 대한 새 exiftool 태그를 만드는 방법은 무엇입니까?

HTML에서 글꼴 태그를 추출하는 방법은 무엇입니까?

다른 파일에서 발생하는 경우 새 파일에 쓰는 방법은 무엇입니까?

문자열에서 부분 일치를 추출하고 파일에 쓰는 방법은 무엇입니까?

AAC 파일에서 태그를 편집하는 방법은 무엇입니까?

linux / unix에서 해시 태그 # index.html # 파일을 제거하는 방법은 무엇입니까?

다운로드 한 csv 파일에서 특정 데이터를 추출하고 새 csv 파일로 바꾸는 방법은 무엇입니까?

v-for를 사용하여 html 파일의 한 태그에서 vue js의 여러 데이터 요소에 액세스하는 방법은 무엇입니까?

[Git] 특정 파일의 히스토리를 추출하고 새로운 빈 브랜치에 쓰는 방법은 무엇입니까?

PDF 파일에서 벡터를 추출하는 방법은 무엇입니까?

파일에서 함수를 추출하는 방법은 무엇입니까?

파일 이름에서 Guid를 추출하는 방법은 무엇입니까?

파일 이름에서 Guid를 추출하는 방법은 무엇입니까?

groovy를 사용하여 XML 파일에 <root> 태그를 추가하는 방법은 무엇입니까?

PHP의 HTML 입력 태그에서 선택한 파일 경로를 얻는 방법은 무엇입니까?

VHDL에서 파일에 새 줄을 쓰는 방법은 무엇입니까?

Java에서 파일에 새 줄을 쓰는 방법은 무엇입니까?

bash를 사용하여 html 파일에서 특정 이미지의 URL 및 제목 텍스트를 추출하는 방법은 무엇입니까?

BeautifulSoup을 사용하여 html 주석 태그 내에서 json을 추출하는 방법은 무엇입니까?

Terraform 상태 파일에 새 출력 변수를 채우는 방법은 무엇입니까?

파이썬에서 파일에 매우 많은 수를 계산하고 쓰는 방법은 무엇입니까?

쓰기 모드에서 새 파일을 안전하게 만드는 방법은 무엇입니까?

SharpZipLib을 사용하여 zip 파일에서 폴더를 추출하는 방법은 무엇입니까?

GStreamer를 사용하여 .mkv 파일에서 자막을 추출하는 방법은 무엇입니까?

html의 <a> 태그에서 jsp 파일로 ID를 얻는 방법은 무엇입니까?

파이썬을 사용하여 다른 파일 안에있는 여러 파일에서 데이터를 추출하는 방법은 무엇입니까?

새 Windows 7 상태 표시 줄에 항상 파일 크기를 표시하는 방법은 무엇입니까?

<a> html 태그에서 하이퍼 링크 텍스트를 추출하는 방법은 무엇입니까?

한 번에 여러 HTML 파일에서 텍스트를 제거하는 방법은 무엇입니까?