从网址中提取[0-9 _] +

debugcn 发表于 Dev

love2node

我将以下正则表达式放在一起以从URL中提取图像ID：

''' Parse the post details from the full story page '''
def parsePostFromPermalink(session, permalink):

    r = session.get('https://m.facebook.com{0}'.format(permalink))
    dom = pq(r.content)

    # Parse the images, extract the ID's, and construct large image URL
    images = []
    for img in dom('a img[src*="jpg"]').items():
        if img.attr('src'):
            m = re.match(r'/([0-9_]+)n\.jpg/', img.attr('src'))
            images.append(m)
    return images

网址示例：

https://scontent-lhr3-1.xx.fbcdn.net/v/t1.0-0/cp0/e15/q65/s200x200/13645330_275977022775421_8826465145232985957_n.jpg?efg=eyJpIjoiYiJ9&oh=ed5b4593ed9c8b6cfe683f9c6932acc7&oe=57EE1224

我想要这一点：

13645330_275977022775421_8826465145232985957

我已经在regex101上对其进行了测试，并且可以正常工作：https ://regex101.com/r/eS6eS7/2

img.attr('src')包含正确的URL，并且不为空。我测试了这个。当我尝试使用时m.group(0)，出现了group不是函数的异常。m是None。

难道我做错了什么？

tobias_k

两个问题：

那些/.../不是Python regex语法的一部分
您应该使用search而不是match

工作示例：

>>> url = "https://scontent-lhr3-1.xx.fbcdn.net/v/t1.0-0/cp0/e15/q65/s200x200/13645330_275977022775421_8826465145232985957_n.jpg?efg=eyJpIjoiYiJ9&oh=ed5b4593ed9c8b6cfe683f9c6932acc7&oe=57EE1224"
>>> re.search(r'([0-9_]+)n\.jpg', url).group(0)
'13645330_275977022775421_8826465145232985957_n.jpg'

如果只需要数字部分，请使用此（group(1)，并注意其他_）：

>>> re.search(r'([0-9_]+)_n\.jpg', url).group(1)
'13645330_275977022775421_8826465145232985957'

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-06-26

我来说两句

0条评论

登录后参与评论

来自分类Dev

使用php，如何将[0-9]，[0-9]替换为[0-9] [0-9]？

来自分类Dev

从instagram图片网址中提取用户和标题

来自分类Dev

从中提取RSS Feed网址

来自分类Dev

正则表达式-从网址中提取数字

来自分类Dev

PHP-从网址中提取标签

来自分类Dev

如何从Scala Play中以＃分隔的网址中提取参数

来自分类Dev

在iOS 9中提取企业应用程序的IPA

来自分类Dev

如何在iOS 9中使用Swift从CMSampleBuffer中提取像素数据进行处理？

来自分类Dev

如何从网址中提取标题？

来自分类Dev

从网址中提取名称实体

来自分类Dev

在HTML网站上的href中提取网址

来自分类Dev

从网址字符串中提取ID

来自分类Dev

Regex [Python]从网址路径参数中提取

来自分类Dev

从网址中提取商品ID

来自分类Dev

如何从网址中提取IP地址

来自分类Dev

从Facebook FQL中提取网址

来自分类Dev

从xml网址中提取值

来自分类Dev

从网址中提取特定字段

来自分类Dev

从帖子中提取网址

来自分类Dev

IE9使用基于＃的网址

来自分类Dev

从长网址中提取Facebook照片ID

来自分类Dev

从网址中提取bash中的数据

来自分类Dev

从路线网址中提取参数

来自分类Dev

从R中的字符串中提取加号（+），减号（-）和句点（。）字符以及所有数字[0-9]

来自分类Dev

从网址中提取名称实体

来自分类Dev

从网址中提取Twitch ursername

来自分类Dev

模式 ?(-)+([0-9])

来自分类Dev

[0-9]* 和 [0-9] 的区别

来自分类Dev

如何从网页中提取网址

Related 相关文章

文章