从网址中提取[0-9 _] +

love2node

我将以下正则表达式放在一起以从URL中提取图像ID:

''' Parse the post details from the full story page '''
def parsePostFromPermalink(session, permalink):

    r = session.get('https://m.facebook.com{0}'.format(permalink))
    dom = pq(r.content)

    # Parse the images, extract the ID's, and construct large image URL
    images = []
    for img in dom('a img[src*="jpg"]').items():
        if img.attr('src'):
            m = re.match(r'/([0-9_]+)n\.jpg/', img.attr('src'))
            images.append(m)
    return images

网址示例:

https://scontent-lhr3-1.xx.fbcdn.net/v/t1.0-0/cp0/e15/q65/s200x200/13645330_275977022775421_8826465145232985957_n.jpg?efg=eyJpIjoiYiJ9&oh=ed5b4593ed9c8b6cfe683f9c6932acc7&oe=57EE1224

我想要这一点:

13645330_275977022775421_8826465145232985957

我已经在regex101上对其进行了测试,并且可以正常工作:https ://regex101.com/r/eS6eS7/2

img.attr('src')包含正确的URL,并且不为空。我测试了这个。当我尝试使用时m.group(0),出现了group不是函数的异常mNone

难道我做错了什么?

tobias_k

两个问题:

工作示例:

>>> url = "https://scontent-lhr3-1.xx.fbcdn.net/v/t1.0-0/cp0/e15/q65/s200x200/13645330_275977022775421_8826465145232985957_n.jpg?efg=eyJpIjoiYiJ9&oh=ed5b4593ed9c8b6cfe683f9c6932acc7&oe=57EE1224"
>>> re.search(r'([0-9_]+)n\.jpg', url).group(0)
'13645330_275977022775421_8826465145232985957_n.jpg'

如果只需要数字部分,请使用此(group(1),并注意其他_):

>>> re.search(r'([0-9_]+)_n\.jpg', url).group(1)
'13645330_275977022775421_8826465145232985957'

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

使用php,如何将[0-9],[0-9]替换为[0-9] [0-9]?

来自分类Dev

从instagram图片网址中提取用户和标题

来自分类Dev

从中提取RSS Feed网址

来自分类Dev

正则表达式-从网址中提取数字

来自分类Dev

PHP-从网址中提取标签

来自分类Dev

如何从Scala Play中以#分隔的网址中提取参数

来自分类Dev

在iOS 9中提取企业应用程序的IPA

来自分类Dev

如何在iOS 9中使用Swift从CMSampleBuffer中提取像素数据进行处理?

来自分类Dev

如何从网址中提取标题?

来自分类Dev

从网址中提取名称实体

来自分类Dev

在HTML网站上的href中提取网址

来自分类Dev

从网址字符串中提取ID

来自分类Dev

Regex [Python]从网址路径参数中提取

来自分类Dev

从网址中提取商品ID

来自分类Dev

如何从网址中提取IP地址

来自分类Dev

从Facebook FQL中提取网址

来自分类Dev

从xml网址中提取值

来自分类Dev

从网址中提取特定字段

来自分类Dev

从帖子中提取网址

来自分类Dev

IE9使用基于#的网址

来自分类Dev

从长网址中提取Facebook照片ID

来自分类Dev

从网址中提取bash中的数据

来自分类Dev

从路线网址中提取参数

来自分类Dev

从R中的字符串中提取加号(+),减号(-)和句点(。)字符以及所有数字[0-9]

来自分类Dev

从网址中提取名称实体

来自分类Dev

从网址中提取Twitch ursername

来自分类Dev

模式 ?(-)+([0-9])

来自分类Dev

[0-9]* 和 [0-9] 的区别

来自分类Dev

如何从网页中提取网址