我看过NLTK的语料库部分,但似乎没有数字语料库。我想将单词编号更改为文本。例如:
输入:one thousand two hundred forty three
输出:1243
输入:second
输出:2
输入:five percent
输出:0.05
没有。您需要做的就是以此为基础。是否有一种方法可以将数字单词转换为整数?或您发现有用/较容易与之合作的其他人。
要开始,你需要正则表达式来提取感兴趣的字符串(即one
,two
...),然后更换使用上面的代码。
您给出的第一个示例将是三个中最简单的一个,最后一个示例只是将该数字除以100,因为输出实际上是整数。第二个将有些棘手,因为您必须修改代码或可能创建一个全新的函数。
AFAIK,没有模块可以解析整个文本。
当我进一步研究时,另一种可能性是使用Tree Parser中的CD
标记来帮助识别数字。但是您仍然需要与上述功能类似的功能。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句