XPath / Python- <div>内でさまざまなhtmlタグとテキストを取得する方法

debugcn 投稿 Dev

ポッジョ

私はこのURLでhtmlコンテンツをスクレイプしようとしています：http：//www.dlib.org/dlib/november14/beel/11beel.htmlこのPythonsintaxで：

    s="http://www.dlib.org/dlib/november14/beel/11beel.html"
    content = requests.get(s)
    tree = html.fromstring(content.text)
    titoli = tree.xpath('/html/body/form/table[3]/tr/td/table[5]/tr/td/table[1]/tr/td[2]/h3/text()')
    par = tree.xpath('/html/body/form/table[3]/tr/td/table[5]/tr/td/table[1]/tr/td[2]/p/text()')
    articoli = json.dumps({'titoli':titoli,'contenuti':par})
    print ("Content-type: json")
    print
    print (articoli)

主なリクエストは、ページの最も便利なdiv内のすべてのタグ、タグコンテンツ、テキストを返すXPathクエリを見つけることです。これは、このパス/ html / body / form / table [3] / tr / td /で見つけることができます。 table [5]またはコメント行の下のWebインスペクターの使用：！-CONTENTTABLE-。以前に投稿したコードでは、divのコンテンツ全体を取得することはできませんが、p div内のタイトルとテキストのみを取得することができます。現在、別の方法を見つけることができません。

gtlambert

Python / XPathを使用してWebサイトの特定のセクションの実際のHTMLコンテンツを取得するには、のfrom lxml import etree代わりに使用する方が簡単ですfrom lxml import html。要素ツリーを設定すると、（前述のように）テキストコンテンツを返すだけでなく、要素のHTMLコンテンツを返すことができる関数があります。コードは次のようになります。

from lxml import etree
import requests

s = "http://www.dlib.org/dlib/november14/beel/11beel.html"
page = requests.get(s)
tree = etree.HTML(page.text)
element = tree.xpath('./body/form/table[3]/tr/td/table[5]')
content = etree.tostring(element[0])

tree.xpath選択した要素のリストを返します。この場合、特定のXPathを使用しているため、1つの要素のみを含むリストが返されます。したがって、を使用etree.tostring(element[0])してリストの最初の要素にアクセスし、要素のHTMLコンテンツを文字列として返す必要があります。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集2021-05-28

コメントを追加

サインイン

分類Dev

Related 関連記事

記事

XPath / Python- <div>内でさまざまなhtmlタグとテキストを取得する方法

XPath / Python- <div>内でさまざまなhtmlタグとテキストを取得する方法

Angular Webサイトで、SeleniumとPythonを使用して<div>タグ内の正確なテキストを取得しますか？

divテキストの下に設計されている<b>タグのxpathを取得する方法

セレンとPythonバインディングでxpathを使用して、タグ内にないテキストのみを抽出する方法

Pythonでページをスクロールしながら、リストタグ内に複数のdiv要素のテキストを取得する方法

Xpath + Selenium / Python div ng-if =

tdタグ内のdivのxpathを取得します

XPath Python Seleniumで特定のhtmlタグを持つテキストを無視する方法は?

Xpathは、同じテキストのdivがないdivを検索します

Python：Forループで各DIVの値を取得するXpathの問題

Python BeautifulSoup：divタグからテキストを取得する

特定のdivタグと次のdivの間のテキストを抽出するXpath

Python Selenium xPathは、divクラスからrelを選択します

1つのdivの下でさまざまな要素からすべてのテキストを取得する方法

XPath：別のDIVで条件を指定してテキストを取得する

Pythonで2つのdivタグの間にテキストを取得する

Xpath：divタグからデータを取得する方法

<a>の一部ではないテキストノードをXPATH、python seleniumで取得しますか？

PythonのXpathでタグ間のテキストを選択する

xpathを使用してdivからのみテキストを取得しようとしています

Python Selenium、要素テキスト xPath を取得

SeleniumとPythonを介してHTMLDOMからさまざまなテキストを取得する方法

PythonでWebDriver Seleniumを使用して、「<div class = 'wld' text>」として指定された属性を持つすべてのタグに含まれるテキストを取得します

PythonでWebDriver Seleniumを使用して、「<div class = 'wld' text>」として指定された属性を持つすべてのタグに含まれるテキストを取得します

xpathとpythonで不要なBRタグを含むタグ間のテキストを抽出するにはどうすればよいですか？

xpathとRobotframeworkを使用してdiv内でタグ名を見つける方法

Python Selenium Cannot find element using absolute xpath div

Python Selenium Xpath テキストを取得する

特定の文字の後にdivのテキストを取得する[xpath]

他のhtmlがタグ内にある場合、divタグからPythonのテキストを抽出するにはどうすればよいですか？