在 Python 中从 URL 中提取域名

科比博

我正在尝试从 URL 列表中提取域名。就像在https://stackoverflow.com/questions/18331948/extract-domain-name-from-the-url
我的问题是 URL 可以是一切,几个例子:
m.google.com=> google
m.docs.google.com=> google
www.someisotericdomain.innersite.mall.co.uk=> mall
www.ouruniversity.department.mit.ac.us=> mit
www.somestrangeurl.shops.relevantdomain.net=> relevantdomain
www.example.info=>example
等等..
域的多样性不允许我使用正则表达式,如如何从 URL 获取域名中所示(因为我的脚本将在来自真实网络流量的大量 url 上运行,正则表达式必须是巨大的,才能捕获上述提到的所有类型的域)。
不幸的是,我的网络研究没有提供任何有效的解决方案。
有没有人知道如何做到这一点?
任何帮助将不胜感激 !
谢谢

阿卡什·卡罗蒂亚

使用tldextract哪个更有效的版本urlparsetldextract准确地将gTLDor ccTLD(通用或国家代码顶级域)与注册的domain分开subdomains

>>> import tldextract
>>> ext = tldextract.extract('http://forums.news.cnn.com/')
ExtractResult(subdomain='forums.news', domain='cnn', suffix='com')
>>> ext.domain
'cnn'

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何使用正则表达式从记事本++中的URL中提取域名

来自分类Dev

从Shell中的文件中提取域名

来自分类Dev

通过python中的xpath从url源中提取unicode数据

来自分类Dev

仅从url提取域名,摆脱路径(Python)

来自分类Dev

从R中的URL提取域名的功能

来自分类Dev

通过Bash ShellScripting从URL列表中提取父域名

来自分类Dev

正则表达式从URL中提取域名

来自分类Dev

如何使用findall函数从python中的文本文件中提取特定的url

来自分类Dev

从URL,RE,python中提取Amzon ASIN

来自分类Dev

使用python从URL中提取图像名称

来自分类Dev

无法在python中提取URL链接

来自分类Dev

从android中的文本中提取完整的url

来自分类Dev

在select mysql中从url中提取id

来自分类Dev

从python中的python数组中提取行

来自分类Dev

如何从Java中的绝对URL中提取相对URL

来自分类Dev

从Python中的字典列表中提取键值对

来自分类Dev

从Python中的函数调用中提取变量

来自分类Dev

从python中的字节中提取LSB位

来自分类Dev

在Python中从JSON响应中提取令牌

来自分类Dev

在python中从HLS流中提取帧

来自分类Dev

从python中的表列表中提取列

来自分类Dev

从Python中的API请求中提取数据

来自分类Dev

从python中的嵌套字典中提取值

来自分类Dev

从Python中的文件中提取各种变量

来自分类Dev

从python中的胖图像中提取文件

来自分类Dev

无法从python中的xml中提取文本

来自分类Dev

从python中的字典列表中提取元素

来自分类Dev

从python中的json文件中提取元素

来自分类Dev

在 PYTHON 中提取标签中的单词