计算每个单词的频率

Atwp67

我一直在浏览互联网,意识到MySQL并不是达到此目的的最佳方法,但无论如何我都在问。任何人看到或使用过哪种查询,函数或存储过程,都可以在整个文本列中获得单词的出现频率。

    ID|comment
    ----------------------
 Ex. 1|I love this burger
     2|I hate this burger

     word   |  count
     -------|-------
     burger |  2
     I      |  2
     this   |  2
     love   |  1
     hate   |  1
随机种子

这个解决方案似乎可以完成工作(从此页面几乎逐字被盗)。它需要一个auxiliary表,表填充从1到至少不同单词的预期数量的连续数字。检查辅助表是否足够大,否则结果将是错误的(显示无错误),这一点非常重要。

SELECT
    SUBSTRING_INDEX(SUBSTRING_INDEX(maintable.comment, ' ', auxiliary.id), ' ', -1) AS word,
    COUNT(*) AS frequency
FROM maintable 
JOIN auxiliary ON
    LENGTH(comment)>0 AND SUBSTRING_INDEX(SUBSTRING_INDEX(comment, ' ', auxiliary.id), ' ', -1)
    <> SUBSTRING_INDEX(SUBSTRING_INDEX(comment, ' ', auxiliary.id-1), ' ', -1)
GROUP BY word
HAVING word <> ' '
ORDER BY frequency DESC;

SQL小提琴

这种方法效率极低,因为它不能使用任何索引。

作为替代,我将使用一个统计表,该表将与触发器保持最新。也许使用上述方法初始化统计信息表。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

用Java计算句子中每个单词的频率

来自分类Dev

Java程序-计算文本文件中的所有单词,并计算每个单词的出现频率

来自分类Dev

计算单词列表中的单词频率

来自分类Dev

计算列字符串值中包含的每个单词的频率

来自分类Dev

计算每个日期的频率词

来自分类Dev

字符串中每个单词的频率

来自分类Dev

计算字典列表中单词的出现频率

来自分类Dev

使用Monoid计算单词的频率图

来自分类Dev

如何计算文字中的单词频率

来自分类Dev

Python:计算txt文件中单词的频率

来自分类Dev

计算列表中出现频率最高的单词

来自分类Dev

如何计算每个嵌套列表的项目频率?

来自分类Dev

如何计算kafka中每个ID的频率

来自分类Dev

计算每个单词的出现次数

来自分类Dev

如何计算每个单词的字母

来自分类Dev

计算每个单词出现的行数

来自分类Dev

计算每个单词的出现次数

来自分类Dev

计算R?中多个单词的单词频率

来自分类Dev

大熊猫DataFrame中每个单词的频率

来自分类Dev

R中URL中每个单词的行频率

来自分类Dev

一组字符串中每个单词的频率

来自分类Dev

计算Excel字符串中单词的频率

来自分类Dev

如何计算齐普夫定律中的单词出现频率?

来自分类Dev

用Java计算.txt文件中单词的频率

来自分类Dev

Java:计算特定单词的频率并写入文件

来自分类Dev

计算R中的特定单词频率

来自分类Dev

优化Pandas df以计算单词列表中的位置字符频率

来自分类Dev

如何计算文本中单词频率的最佳zipf分布

来自分类Dev

如何在Python中计算给定单词的频率