XPath / Python- <div>内でさまざまなhtmlタグとテキストを取得する方法

ポッジョ

私はこのURLでhtmlコンテンツをスクレイプしようとしていますhttp://www.dlib.org/dlib/november14/beel/11beel.htmlこのPythonsintaxで:

    s="http://www.dlib.org/dlib/november14/beel/11beel.html"
    content = requests.get(s)
    tree = html.fromstring(content.text)
    titoli = tree.xpath('/html/body/form/table[3]/tr/td/table[5]/tr/td/table[1]/tr/td[2]/h3/text()')
    par = tree.xpath('/html/body/form/table[3]/tr/td/table[5]/tr/td/table[1]/tr/td[2]/p/text()')
    articoli = json.dumps({'titoli':titoli,'contenuti':par})
    print ("Content-type: json")
    print
    print (articoli)

主なリクエストは、ページの最も便利なdiv内のすべてのタグ、タグコンテンツ、テキストを返すXPathクエリを見つけることです。これは、このパス/ html / body / form / table [3] / tr / td /で見つけることができます。 table [5]またはコメント行の下のWebインスペクターの使用:!-CONTENTTABLE-。以前に投稿したコードでは、divのコンテンツ全体を取得することはできませんが、p div内のタイトルとテキストのみを取得することができます。現在、別の方法を見つけることができません。

gtlambert

Python / XPathを使用してWebサイトの特定のセクションの実際のHTMLコンテンツを取得するには、のfrom lxml import etree代わりに使用する方が簡単ですfrom lxml import html要素ツリーを設定すると、(前述のように)テキストコンテンツを返すだけでなく、要素のHTMLコンテンツを返すことができる関数があります。コードは次のようになります。

from lxml import etree
import requests

s = "http://www.dlib.org/dlib/november14/beel/11beel.html"
page = requests.get(s)
tree = etree.HTML(page.text)
element = tree.xpath('./body/form/table[3]/tr/td/table[5]')
content = etree.tostring(element[0])

tree.xpath選択した要素のリストを返します。この場合、特定のXPathを使用しているため、1つの要素のみを含むリストが返されます。したがって、を使用etree.tostring(element[0])してリストの最初の要素にアクセスし、要素のHTMLコンテンツを文字列として返す必要があります。

この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。

侵害の場合は、連絡してください[email protected]

編集
0

コメントを追加

0

関連記事

分類Dev

Angular Webサイトで、SeleniumとPythonを使用して<div>タグ内の正確なテキストを取得しますか?

分類Dev

divテキストの下に設計されている<b>タグのxpathを取得する方法

分類Dev

セレンとPythonバインディングでxpathを使用して、タグ内にないテキストのみを抽出する方法

分類Dev

Pythonでページをスクロールしながら、リストタグ内に複数のdiv要素のテキストを取得する方法

分類Dev

Xpath + Selenium / Python div ng-if =

分類Dev

tdタグ内のdivのxpathを取得します

分類Dev

XPath Python Seleniumで特定のhtmlタグを持つテキストを無視する方法は?

分類Dev

Xpathは、同じテキストのdivがないdivを検索します

分類Dev

Python:Forループで各DIVの値を取得するXpathの問題

分類Dev

Python BeautifulSoup:divタグからテキストを取得する

分類Dev

特定のdivタグと次のdivの間のテキストを抽出するXpath

分類Dev

Python Selenium xPathは、divクラスからrelを選択します

分類Dev

1つのdivの下でさまざまな要素からすべてのテキストを取得する方法

分類Dev

XPath:別のDIVで条件を指定してテキストを取得する

分類Dev

Pythonで2つのdivタグの間にテキストを取得する

分類Dev

Xpath:divタグからデータを取得する方法

分類Dev

<a>の一部ではないテキストノードをXPATH、python seleniumで取得しますか?

分類Dev

PythonのXpathでタグ間のテキストを選択する

分類Dev

xpathを使用してdivからのみテキストを取得しようとしています

分類Dev

Python Selenium、要素テキスト xPath を取得

分類Dev

SeleniumとPythonを介してHTMLDOMからさまざまなテキストを取得する方法

分類Dev

PythonでWebDriver Seleniumを使用して、「<div class = 'wld' text>」として指定された属性を持つすべてのタグに含まれるテキストを取得します

分類Dev

PythonでWebDriver Seleniumを使用して、「<div class = 'wld' text>」として指定された属性を持つすべてのタグに含まれるテキストを取得します

分類Dev

xpathとpythonで不要なBRタグを含むタグ間のテキストを抽出するにはどうすればよいですか?

分類Dev

xpathとRobotframeworkを使用してdiv内でタグ名を見つける方法

分類Dev

Python Selenium Cannot find element using absolute xpath div

分類Dev

Python Selenium Xpath テキストを取得する

分類Dev

特定の文字の後にdivのテキストを取得する[xpath]

分類Dev

他のhtmlがタグ内にある場合、divタグからPythonのテキストを抽出するにはどうすればよいですか?

Related 関連記事

  1. 1

    Angular Webサイトで、SeleniumとPythonを使用して<div>タグ内の正確なテキストを取得しますか?

  2. 2

    divテキストの下に設計されている<b>タグのxpathを取得する方法

  3. 3

    セレンとPythonバインディングでxpathを使用して、タグ内にないテキストのみを抽出する方法

  4. 4

    Pythonでページをスクロールしながら、リストタグ内に複数のdiv要素のテキストを取得する方法

  5. 5

    Xpath + Selenium / Python div ng-if =

  6. 6

    tdタグ内のdivのxpathを取得します

  7. 7

    XPath Python Seleniumで特定のhtmlタグを持つテキストを無視する方法は?

  8. 8

    Xpathは、同じテキストのdivがないdivを検索します

  9. 9

    Python:Forループで各DIVの値を取得するXpathの問題

  10. 10

    Python BeautifulSoup:divタグからテキストを取得する

  11. 11

    特定のdivタグと次のdivの間のテキストを抽出するXpath

  12. 12

    Python Selenium xPathは、divクラスからrelを選択します

  13. 13

    1つのdivの下でさまざまな要素からすべてのテキストを取得する方法

  14. 14

    XPath:別のDIVで条件を指定してテキストを取得する

  15. 15

    Pythonで2つのdivタグの間にテキストを取得する

  16. 16

    Xpath:divタグからデータを取得する方法

  17. 17

    <a>の一部ではないテキストノードをXPATH、python seleniumで取得しますか?

  18. 18

    PythonのXpathでタグ間のテキストを選択する

  19. 19

    xpathを使用してdivからのみテキストを取得しようとしています

  20. 20

    Python Selenium、要素テキスト xPath を取得

  21. 21

    SeleniumとPythonを介してHTMLDOMからさまざまなテキストを取得する方法

  22. 22

    PythonでWebDriver Seleniumを使用して、「<div class = 'wld' text>」として指定された属性を持つすべてのタグに含まれるテキストを取得します

  23. 23

    PythonでWebDriver Seleniumを使用して、「<div class = 'wld' text>」として指定された属性を持つすべてのタグに含まれるテキストを取得します

  24. 24

    xpathとpythonで不要なBRタグを含むタグ間のテキストを抽出するにはどうすればよいですか?

  25. 25

    xpathとRobotframeworkを使用してdiv内でタグ名を見つける方法

  26. 26

    Python Selenium Cannot find element using absolute xpath div

  27. 27

    Python Selenium Xpath テキストを取得する

  28. 28

    特定の文字の後にdivのテキストを取得する[xpath]

  29. 29

    他のhtmlがタグ内にある場合、divタグからPythonのテキストを抽出するにはどうすればよいですか?

ホットタグ

アーカイブ