这是一个输入示例:
['ARTA Travel Group', 'Arta | آرتا', 'ARTAS™ Practice Development', 'ArtBinder', 'Arte Arac Takip App', 'アート建築', 'Arte Brasil Bar & Grill', 'ArtPod Stage', 'Artpollo扫码', 'Artpollo阿波罗-价值最优的艺术品投资电商', '아트홀']
像上面的列表一样,我要删除中文,韩语,日语,阿拉伯语的元素。
以下是预期的输出(仅英语):
['ARTA Travel Group', 'ARTAS™ Practice Development', 'ArtBinder', 'Arte Arac Takip App', 'Arte Brasil Bar & Grill', 'ArtPod Stage']
您可以使用regex
unicode范围进行搜索。™属于字母符号,范围从2100—214F
; 您可以全部包含它们,也可以只选择特定的一个。
import re
s = ['ARTA Travel Group', 'Arta | آرتا', 'ARTAS™ Practice Development', 'ArtBinder', 'Arte Arac Takip App', 'アート建築', 'Arte Brasil Bar & Grill', 'ArtPod Stage', 'Artpollo扫码', 'Artpollo阿波罗-价值最优的艺术品投资电商', '아트홀']
result = [i for i in s if not re.findall("[^\u0000-\u05C0\u2100-\u214F]+",i)]
print (result)
['ARTA Travel Group', 'ARTAS™ Practice Development', 'ArtBinder', 'Arte Arac Takip App', 'Arte Brasil Bar & Grill', 'ArtPod Stage']
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句