在 Python 中从 URL 中提取域名

debugcn 发表于 Dev

科比博

我正在尝试从 URL 列表中提取域名。就像在https://stackoverflow.com/questions/18331948/extract-domain-name-from-the-url
我的问题是 URL 可以是一切，几个例子：
m.google.com=> google
m.docs.google.com=> google
www.someisotericdomain.innersite.mall.co.uk=> mall
www.ouruniversity.department.mit.ac.us=> mit
www.somestrangeurl.shops.relevantdomain.net=> relevantdomain
www.example.info=>example
等等..
域的多样性不允许我使用正则表达式，如如何从 URL 获取域名中所示（因为我的脚本将在来自真实网络流量的大量 url 上运行，正则表达式必须是巨大的，才能捕获上述提到的所有类型的域）。
不幸的是，我的网络研究没有提供任何有效的解决方案。
有没有人知道如何做到这一点？
任何帮助将不胜感激！
谢谢

阿卡什·卡罗蒂亚

使用tldextract哪个更有效的版本urlparse，tldextract准确地将gTLDor ccTLD（通用或国家代码顶级域）与注册的domain和分开subdomains。

>>> import tldextract
>>> ext = tldextract.extract('http://forums.news.cnn.com/')
ExtractResult(subdomain='forums.news', domain='cnn', suffix='com')
>>> ext.domain
'cnn'

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-07-11

我来说两句

0条评论

登录后参与评论

来自分类Dev

Related 相关文章

文章

在 Python 中从 URL 中提取域名

在 Python 中从 URL 中提取域名

如何使用正则表达式从记事本++中的URL中提取域名

从Shell中的文件中提取域名

通过python中的xpath从url源中提取unicode数据

仅从url提取域名，摆脱路径（Python）

从R中的URL提取域名的功能

通过Bash ShellScripting从URL列表中提取父域名

正则表达式从URL中提取域名

如何使用findall函数从python中的文本文件中提取特定的url

从URL，RE，python中提取Amzon ASIN

使用python从URL中提取图像名称

无法在python中提取URL链接

从android中的文本中提取完整的url

在select mysql中从url中提取id

从python中的python数组中提取行

如何从Java中的绝对URL中提取相对URL

从Python中的字典列表中提取键值对

从Python中的函数调用中提取变量

从python中的字节中提取LSB位

在Python中从JSON响应中提取令牌

在python中从HLS流中提取帧

从python中的表列表中提取列

从Python中的API请求中提取数据

从python中的嵌套字典中提取值

从Python中的文件中提取各种变量

从python中的胖图像中提取文件

无法从python中的xml中提取文本

从python中的字典列表中提取元素

从python中的json文件中提取元素

在 PYTHON 中提取标签中的单词