NLTK,读取字号以浮点数

杰森

我看过NLTK的语料库部分,但似乎没有数字语料库。我想将单词编号更改为文本。例如:

输入:one thousand two hundred forty three输出:1243

输入:second输出:2

输入:five percent输出:0.05

勒布

没有。您需要做的就是以此为基础。是否有一种方法可以将数字单词转换为整数?或您发现有用/较容易与之合作的其他人。

要开始,你需要正则表达式来提取感兴趣的字符串(即onetwo...),然后更换使用上面的代码。

您给出的第一个示例将是三个中最简单的一个,最后一个示例只是将该数字除以100,因为输出实际上是整数。第二个将有些棘手,因为您必须修改代码或可能创建一个全新的函数。

AFAIK,没有模块可以解析整个文本。

当我进一步研究时,另一种可能性是使用Tree Parser中的CD标记来帮助识别数字。但是您仍然需要与上述功能类似的功能。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章