具有Scrapy节点的XPath以\ n开头

克里斯·DH

我在html上使用scrapy:

<td nowrap="" valign="top" align="right">
    <br>
    Text is here.
    <br>
    Other text is here
    <br>
</td>

td [1] / text()[1]给我:

(empty line)
Text is here.

我已经尝试过normalize-space,即normalize-space(td [1] / text()[1]),当我在firefox扩展中进行测试时可以工作,但在scrapy中不能工作。我认为scrapy被\ n绊倒了,并且跳过了(或者只占用了节点的第一行,这没什么)。我还尝试了一些“在前”和“在后”的代码,但我认为它可能被认为是一个元素,我的DOM表示nodeValue =“ \ nText在这里”有什么想法吗?

ec

提取每个文本,通过索引获得所需的文本。例如:

response.xpath("//table[@id='myid']/tr[1]/td[1]//text()")[1]

来自Scrapy Shell的演示:

$ scrapy shell http://www.trobar.org/troubadours/coms_de_peiteu/guilhen_de_peiteu_01.php
In [1]: table = response.xpath("//table")[2]
In [2]: td = "".join(table.xpath(".//td[1]//text()").extract())
In [3]: print(td)

Companho, farai un vers qu'er covinen,
Et aura-i mais de foudatz no-y a de sen,
Et er totz mesclatz d'amor e de joy e de joven.

E tenguatz lo per vilan qui no-l enten,
O dins son cor voluntiers non l'apren:
Greu partir si fai d'amor qui la troba a talen.

Dos cavalhs ai a ma sselha, ben e gen,
Bon son et adreg per armas e valen,
E no-ls puesc amdos tener, que l'us l'autre non cossen.

Si-ls pogues adomesjar a mon talen,
Ja no volgr'alhors mudar mon garnimen,
Que meils for'encavalguatz de nuill ome viven.

Launs fon dels montaniers lo plus corren,
Mas aitan fer' estranhez'a longuamen
Et es tan fers e salvatges, que del bailar si defen.

L'autre fon noyritz sa jus part Cofolen
Ez anc no-n vis bellazor, mon escien:
Aquest non er ja camjatz ni per aur ni per argen.

Qu'ie-l donei a son senhor polin payssen,
Pero si-m retinc ieu tan de covenen
Que, s'ilh lo tenia un an, qu'ieu lo tengues mais de cen.

Cavalier, datz mi cosselh d'un pessamen:
-Anc mays no fuy issaratz de cauzimen- :
Res non sai ab qual me tengua, de n'Agnes o de n'Arsen.

De Gimel ai lo castel e-l mandamen,
E per Niol fauc ergueill a tota gen:
C'ambedui me son jurat e plevit per sagramen.

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

在Scrapy中选择具有非ASCII字符的节点

来自分类Dev

Xpath选择父节点具有某些属性的节点

来自分类Dev

使用Scrapy从具有多个后代的节点中擦除文本

来自分类Dev

scrapy xpath:具有许多<tr> <td>的选择器

来自分类Dev

对于具有n个节点的完整二叉树,叶节点有多少个节点?

来自分类Dev

使用xpath选择所有具有信息的节点

来自分类Dev

Xpath-以子字符串开头的具有相同名称的多个标签

来自分类Dev

正则表达式匹配所有以n个字符开头的事件

来自分类Dev

在列表的开头插入节点

来自分类Dev

Scrapy xpath获取以<开头的元素的文本

来自分类Dev

XPath选择具有属性名称的节点

来自分类Dev

在XML的开头添加子节点

来自分类Dev

以@开头的节点包

来自分类Dev

生成具有n个节点的所有无向图

来自分类Dev

如何删除字符串dataframe列中第n个开头之后的所有字符?

来自分类Dev

检索href以scrapy开头

来自分类Dev

XPath-选择具有节制的节点

来自分类Dev

在Scrapy中选择具有非ASCII字符的节点

来自分类Dev

Xpath选择父节点具有某些属性的节点

来自分类Dev

在链表的开头插入节点

来自分类Dev

正则表达式javascript:以*开头,以\ n(?!\ *)结尾,并忽略中间是否有*

来自分类Dev

有没有更实用的方法将n个元素添加到列表的开头?

来自分类Dev

使用xpath选择所有具有信息的节点

来自分类Dev

在Ruby中生成具有n位数字(开头为0除外)的随机字符串

来自分类Dev

Xpath:仅返回具有内容的节点

来自分类Dev

创建所有以'n'开头的jpeg文件的数组-PHP

来自分类Dev

在列表的开头插入节点

来自分类Dev

在单向链表的开头插入节点

来自分类Dev

如何删除链表开头的节点?

Related 相关文章

热门标签

归档