如何将sklearn CountVectorizer与'word'和'char'分析器一起使用?-蟒蛇

睡觉

如何将sklearn CountVectorizer与'word'和'char'分析器一起使用?http://scikit-learn.org/stable/modules/generation/sklearn.feature_extraction.text.CountVectorizer.html

我可以分别通过单词或字符提取文本特征,但是如何创建一个charword_vectorizer有没有办法组合矢量化器?或使用多个分析仪?

>>> from sklearn.feature_extraction.text import CountVectorizer
>>> word_vectorizer = CountVectorizer(analyzer='word', ngram_range=(1, 2), min_df=1)
>>> char_vectorizer = CountVectorizer(analyzer='char', ngram_range=(1, 2), min_df=1)
>>> x = ['this is a foo bar', 'you are a foo bar black sheep']
>>> word_vectorizer.fit_transform(x)
<2x15 sparse matrix of type '<type 'numpy.int64'>'
    with 18 stored elements in Compressed Sparse Column format>
>>> char_vectorizer.fit_transform(x)
<2x47 sparse matrix of type '<type 'numpy.int64'>'
    with 64 stored elements in Compressed Sparse Column format>
>>> char_vectorizer.get_feature_names()
[u' ', u' a', u' b', u' f', u' i', u' s', u'a', u'a ', u'ac', u'ar', u'b', u'ba', u'bl', u'c', u'ck', u'e', u'e ', u'ee', u'ep', u'f', u'fo', u'h', u'he', u'hi', u'i', u'is', u'k', u'k ', u'l', u'la', u'o', u'o ', u'oo', u'ou', u'p', u'r', u'r ', u're', u's', u's ', u'sh', u't', u'th', u'u', u'u ', u'y', u'yo']
>>> word_vectorizer.get_feature_names()
[u'are', u'are foo', u'bar', u'bar black', u'black', u'black sheep', u'foo', u'foo bar', u'is', u'is foo', u'sheep', u'this', u'this is', u'you', u'you are']
弗雷德·富

您可以传递一个callable作为analyzer参数来完全控制令牌化,例如

>>> from pprint import pprint
>>> import re
>>> x = ['this is a foo bar', 'you are a foo bar black sheep']
>>> def words_and_char_bigrams(text):
...     words = re.findall(r'\w{3,}', text)
...     for w in words:
...         yield w
...         for i in range(len(w) - 2):
...             yield w[i:i+2]
...             
>>> v = CountVectorizer(analyzer=words_and_char_bigrams)
>>> pprint(v.fit(x).vocabulary_)
{'ac': 0,
 'ar': 1,
 'are': 2,
 'ba': 3,
 'bar': 4,
 'bl': 5,
 'black': 6,
 'ee': 7,
 'fo': 8,
 'foo': 9,
 'he': 10,
 'hi': 11,
 'la': 12,
 'sh': 13,
 'sheep': 14,
 'th': 15,
 'this': 16,
 'yo': 17,
 'you': 18}

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

将Like和Concat与Char类型一起使用

来自分类Dev

将DLLImport与char **和float **一起使用

来自分类Dev

如何将sklearn CountVectorizer与多个字符串结合使用?

来自分类Dev

如何将 CountVectorizer 与聚合数据一起使用?

来自分类Dev

如何将磁盘使用状况分析器与插入的主目录(.Private / ECRYPTFS)一起使用

来自分类Dev

如何使用Dart分析器从源生成AST并与AST一起使用?

来自分类Dev

如何在Elasticsearch中组合模式分析器和char_filter

来自分类Dev

如何在countVectorizer中使用bigrams + trigrams + word-marks词汇?

来自分类Dev

在蟒蛇一定数量的数字和

来自分类Dev

将printf与%s和char *一起使用时出现问题

来自分类Dev

如何将`GridSpec()`和`subplots()`一起使用

来自分类Dev

如何使用选定的定位器创建新的组和显示层?玛雅蟒蛇

来自分类Dev

如何将查询构建器与sum()列和groupBy一起使用

来自分类Dev

如何将列表写入和读取到文件?蟒蛇 3.7

来自分类Dev

Scikit学习CountVectorizer:自定义预处理器,令牌生成器和分析器

来自分类Dev

如何将一个 Word 文档中的表格和图形链接到 MS Word 中的单独 Word 文档

来自分类Dev

如何将 cin>> 与初始化的 char* 一起使用为 NULL

来自分类Dev

带有CountVectorizer和其他预测变量的sklearn DecisionTreeClassifier

来自分类Dev

蟒蛇硒和铬

来自分类Dev

max() 和 min() 蟒蛇

来自分类Dev

如何将CURL和PHP简单HTML DOM解析器与对象一起使用

来自分类Dev

如何将CURL和PHP简单HTML DOM解析器与对象一起使用

来自分类Dev

Powershell-如何将“删除项”与多个选择器和通配符一起使用?

来自分类Dev

如何将单消息转换与 Kafka Connect JDBC 源连接器和多个表一起使用?

来自分类Dev

如何将pika连接到RabbitMQ远程服务器?(蟒蛇皮卡)

来自分类Dev

Tensorflow错误连接Char和Word嵌入

来自分类Dev

systemd计时器OnUnitActiveSec和OnCalendar可以更换蟒蛇

来自分类Dev

如何访问和使用存储在另一个类的init中的类中的数据?(蟒蛇)

来自分类Dev

如何防止纸浆和蟒蛇的不可行错误?

Related 相关文章

  1. 1

    将Like和Concat与Char类型一起使用

  2. 2

    将DLLImport与char **和float **一起使用

  3. 3

    如何将sklearn CountVectorizer与多个字符串结合使用?

  4. 4

    如何将 CountVectorizer 与聚合数据一起使用?

  5. 5

    如何将磁盘使用状况分析器与插入的主目录(.Private / ECRYPTFS)一起使用

  6. 6

    如何使用Dart分析器从源生成AST并与AST一起使用?

  7. 7

    如何在Elasticsearch中组合模式分析器和char_filter

  8. 8

    如何在countVectorizer中使用bigrams + trigrams + word-marks词汇?

  9. 9

    在蟒蛇一定数量的数字和

  10. 10

    将printf与%s和char *一起使用时出现问题

  11. 11

    如何将`GridSpec()`和`subplots()`一起使用

  12. 12

    如何使用选定的定位器创建新的组和显示层?玛雅蟒蛇

  13. 13

    如何将查询构建器与sum()列和groupBy一起使用

  14. 14

    如何将列表写入和读取到文件?蟒蛇 3.7

  15. 15

    Scikit学习CountVectorizer:自定义预处理器,令牌生成器和分析器

  16. 16

    如何将一个 Word 文档中的表格和图形链接到 MS Word 中的单独 Word 文档

  17. 17

    如何将 cin>> 与初始化的 char* 一起使用为 NULL

  18. 18

    带有CountVectorizer和其他预测变量的sklearn DecisionTreeClassifier

  19. 19

    蟒蛇硒和铬

  20. 20

    max() 和 min() 蟒蛇

  21. 21

    如何将CURL和PHP简单HTML DOM解析器与对象一起使用

  22. 22

    如何将CURL和PHP简单HTML DOM解析器与对象一起使用

  23. 23

    Powershell-如何将“删除项”与多个选择器和通配符一起使用?

  24. 24

    如何将单消息转换与 Kafka Connect JDBC 源连接器和多个表一起使用?

  25. 25

    如何将pika连接到RabbitMQ远程服务器?(蟒蛇皮卡)

  26. 26

    Tensorflow错误连接Char和Word嵌入

  27. 27

    systemd计时器OnUnitActiveSec和OnCalendar可以更换蟒蛇

  28. 28

    如何访问和使用存储在另一个类的init中的类中的数据?(蟒蛇)

  29. 29

    如何防止纸浆和蟒蛇的不可行错误?

热门标签

归档