我是regex的新手,我正试图从一个很大的html文本文件中获取URL。链接被“捕获”为以下类型的字符串:
,"link_value":"https://www.linkedin.com/company/randomcompanyA"},"event":"link_click&
我想编写一条正则表达式行,该行可以使我得到以"
,包含 linkedin
或instagram
等等开头和结尾的任何字符串。换句话说,我想通过在该链接中定义一个子字符串来获取字符串/链接,所以我不希望返回通用行文件中的所有链接。到目前为止,我已经能够编写以下内容:
(?<=").+?(?=")
但我无法在其中的“包含linkedin”部分中工作。因此link_value
,例如,上述命令也将返回。
任何帮助表示赞赏!
既然你已经使用了一下变通,你可以通过你开始比赛让你的正则表达式更具体的http://
或者https://
是这样的:
(?<=")https?:\/\/[^\/]*?\b(?:linkedin|instagram)\.\S+?(?=")
正则表达式详细信息:
https?:\/\/
将匹配http://
或https://
[^\/]*?
匹配0个或多个不属于/
(惰性)的字符\b(?:linkedin|instagram)\.
将匹配链接中给定的任何字符串,后跟一个点。\S+?
匹配一个或多个非空格字符(惰性)本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句