使用正则表达式从文本中拆分单词

debugcn 发表于 Dev

哈里·乔杜里（Hari Chaudhary）

我需要过滤给定的文本以获取所有单词，包括撇号（不能认为是单个单词）。

Para = "'hello' world '"

我正在使用拆分文本

String[] splits = Para.split("[^a-zA-Z']");

预期产量：

hello world

但它给：

'hello' world '

除了上面的正则表达式没有过滤单个撇号（'）和'hello'之外，我一切都很好。

如何过滤这两件事？

伯恩哈德·巴克（Bernhard Barker）

据我所知，您正在寻找'下一个或上一个字符不是字母的地方。

我想出的正则表达式可以做到这一点，包含在一些测试代码中：

String str = "bob can't do 'well'";
String[] splits = str.split("(?:(?<=^|[^a-zA-Z])'|'(?=[^a-zA-Z]|$)|[^a-zA-Z'])+");
System.out.println(Arrays.toString(splits));

解释：

(?<=^|[^a-zA-Z])'-匹配'前一个字符不是字母的字符，或者我们在字符串的开头。
'(?=[^a-zA-Z]|$)-匹配'下一个字符不是字母的字符，或者我们在字符串的末尾。
[^a-zA-Z']-不是字母或字母'。
(?:...)+-以上任何一项或多项（?:仅是为了使其成为一个非捕获组）。

见这为更多的正则表达式环视（(?<=...)和(?=...)）。

简化：

可以使用负向外观将正则表达式简化为以下内容：

"(?:(?<![a-zA-Z])'|'(?![a-zA-Z])|[^a-zA-Z'])+"

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-06-6

我来说两句

0条评论

登录后参与评论

来自分类Dev

使用正则表达式拆分单词

来自分类Dev

使用正则表达式拆分字符串中的单词，但不拆分符号

来自分类Dev

使用一个正则表达式将整个文本拆分为单词

来自分类Dev

使用正则表达式java拆分文本

来自分类Dev

使用标识符在字符串中拆分单词的正则表达式模式

来自分类Dev

使用正则表达式从文本中删除连续重复的单词并显示新文本

来自分类Dev

用于拆分单词/（斜杠）单词的正则表达式

来自分类Dev

使用正则表达式C＃从文本中拆分三个整数

来自分类Dev

使用正则表达式在HTML文本中查找字母加倍的单词

来自分类Dev

使用正则表达式从python中的文本中提取特定单词

来自分类Dev

使用正则表达式在HTML文本中查找字母加倍的单词

来自分类Dev

使用正则表达式从用户文本输入中查找某些单词的所有出现

来自分类Dev

使用正则表达式拆分列中的值

来自分类Dev

使用正则表达式在熊猫中拆分列

来自分类Dev

拆分方法中的多个正则表达式使用

来自分类Dev

使用正则表达式匹配Python中的单词

来自分类Dev

使用正则表达式组合R中的单词

来自分类Dev

使用正则表达式解析 PHP 中的文本

来自分类Dev

使用正则表达式从目录中解析文本

来自分类Dev

按字符大小拆分，但完全在Python正则表达式中包含单词

来自分类Dev

正则表达式：如何使用正则表达式从句子中删除英语单词？

来自分类Dev

如何通过正则表达式识别“文本”单词？

来自分类Dev

如何通过正则表达式识别“文本”单词？

来自分类Dev

如何在php中使用正则表达式突出显示印地文文本中的所有单词？

来自分类Dev

使用正则表达式将pandas列值与文本文件中的单词进行比较

来自分类Dev

使用正则表达式拆分数据（正则表达式）

来自分类Dev

正则表达式 - 使用正则表达式查找 2 个或更多单词

来自分类Dev

正则表达式在文本中匹配单词，但在引号或注释中不匹配

来自分类Dev

python中的正则表达式可在标签之间拆分每个文本

Related 相关文章

文章