我正在使用一次只输入一个单词的字符串标记器。当我阅读此令牌时,我想从中剥离所有没有字母字符(AZ)和句点(。)的内容。我目前正在使用类似这样的东西,但是它会留下一些奇怪的字符以及诸如“,”之类的东西。我想知道是否有一种更居高临下,更有效的方法来处理这种事情。
StringTokenizer biDoc = new StringTokenizer(new String(value.getBytes()));
while(biDoc.hasMoreElements()){
String token = new String(biDoc.nextToken().replaceAll("[-@#$%^&*',;!?:()\'\"/<>]+_", "").replace("/[0-9]", ""));
contentPrev.add(token);
}
所以我希望:鲍勃。我去了学校,我喜欢去编码。将显示:嗨,鲍勃。我上学并且喜欢编码
这是我的第一个问题,抱歉,如果格式不正确。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句