それは、XPathを呼び出すことが可能であるnormalize-space()
表示をHTMLに<br>
、<br/>
新しいラインとして?XPathバージョンは1.0です
ウェブサイトからの記事を解析します。実際のHTMLコードの例:
<div id="someid">
<img src="https://habrastorage.org/webt/ej/ye/hp/ejyehp08ercmqzlhzh3um6mtukm.jpeg"><br>
<br>
Организовать удаленный доступ для сотрудников — задача прикладная. Решений на рынке немало, при этом, и подводных камней достаточно. Под катом рассказ о нашем «чемодане», который раскладывается быстро и удобно за 30 минут. Просьба не воспринимать это как рекламный BS, поскольку внутри реальная инструкция по применению.<a name="habracut"></a><br>
<br>
<a href="https://www.parallels.com/ru/products/ras/remote-application-server/">Parallels Remote Application Server</a> (RAS) — это комплексное средство для доставки виртуальных приложений и рабочих столов, позволяющее работать с приложениями и данными с любого устройства, в том числе мобильного. Мы понимаем, что такие решения хочется сначала протестировать в конкретных условиях, прежде чем принимать решение о покупке. <br>
<br>
</div>
サイトからテキストを抽出できない問題。問題は、normalize-space
含まれるすべてのタグを削除することです<br>
。その結果、長いテキスト行が1行になります。区切りのあるテキスト行が必要です。
期待される結果:
Организовать удаленный доступ для сотрудников — задача прикладная. Решений на рынке немало, при этом, и подводных камней достаточно. Под катом рассказ о нашем «чемодане», который раскладывается быстро и удобно за 30 минут. Просьба не воспринимать это как рекламный BS, поскольку внутри реальная инструкция по применению.
Parallels Remote Application Server(RAS) — это комплексное средство для доставки виртуальных приложений и рабочих столов, позволяющее работать с приложениями и данными с любого устройства, в том числе мобильного. Мы понимаем, что такие решения хочется сначала протестировать в конкретных условиях, прежде чем принимать решение о покупке.
残念ながら、私はxpathでこの問題を解決していません。このソリューションはPython(Scrapy Framework)に適していますが、アルゴリズムは他の言語でも同じです。
parsed_text = remove_tags(response.xpath(record['xpath_text']).extract_first())
text = re.sub(r'\n\s*\n', '\n\n' , parsed_text).strip()
この記事はインターネットから収集されたものであり、転載の際にはソースを示してください。
侵害の場合は、連絡してください[email protected]
コメントを追加