在作为列表列表的数据帧的每一行中应用 TfidfVectorizer

低的

我有一个包含 2 列的 Pandas 数据框,我想sklearn TfidfVectorizer用于其中之一的文本分类然而,这一列是一个列表列表,TFIDF 想要原始输入作为文本。这个问题中,他们提供了一个解决方案,以防我们只有一个列表列表,但我想问一下如何在我的数据帧的每一行中应用这个函数,该行包含一个列表列表。先感谢您。

Input:

0    [[this, is, the], [first, row], [of, dataframe]]
1    [[that, is, the], [second], [row, of, dataframe]]
2    [[etc], [etc, etc]]

想要的输出:

0    ['this is the', 'first row', 'of dataframe']
1    ['that is the', 'second', 'row of dataframe']
2    ['etc', 'etc etc']
丹尼·梅塞霍

您可以使用apply

import pandas as pd

df = pd.DataFrame(data=[[[['this', 'is', 'the'], ['first', 'row'], ['of', 'dataframe']]],
                        [[['that', 'is', 'the'], ['second'], ['row', 'of', 'dataframe']]]],
                  columns=['paragraphs'])


df['result'] = df['paragraphs'].apply(lambda xs: [' '.join(x) for x in xs])
print(df['result'])

输出

0     [this is the, first row, of dataframe]
1    [that is the, second, row of dataframe]
Name: result, dtype: object

此外,如果您想将矢量化器与上述函数结合使用,您可以执行以下操作:

def vectorize(xs, vectorizer=TfidfVectorizer(min_df=1, stop_words="english")):
    text = [' '.join(x) for x in xs]
    return vectorizer.fit_transform(text)


df['vectors'] = df['paragraphs'].apply(vectorize)
print(df['vectors'].values)

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何在TfidfVectorizer中应用Kfold?

来自分类Dev

sklearn中的TfidfVectorizer如何具体包含单词

来自分类Dev

如何在熊猫数据框上使用sklearn TFIdfVectorizer

来自分类Dev

python的TfidfVectorizer中n-gram的令牌模式

来自分类Dev

如何从 sklearn TfidfVectorizer 中删除所有非英语标记?

来自分类Dev

TfidfVectorizer NotFittedError

来自分类Dev

TfidfVectorizer的替代

来自分类Dev

将列表中数据帧的每一行除以相应的矩阵值

来自分类Dev

sklearn 管道:在 GridSearchCV 中应用 TimeSeriesSplit 之前,在完整训练集上运行 TfidfVectorizer?

来自分类Dev

为什么Tfidfvectorizer中的token_pattern参数不能与scikit一起使用?

来自分类Dev

TfidfVectorizer 是否隐式地为大型数据集设置了其拟合输出的阈值?

来自分类Dev

scikit TfidfVectorizer.transform()返回同一文档的不同结果

来自分类Dev

Sklearn tf-idf TfidfVectorizer无法捕获一个字母单词

来自分类Dev

scikit-learn中的TfidfVectorizer:ValueError:np.nan是无效的文档

来自分类Dev

python django从命令加载到缓存TfidfVectorizer中并在视图中使用

来自分类Dev

从joblib文件加载的TfidfVectorizer模型仅在相同的会话中训练时才能工作

来自分类Dev

使用参数stop_words时scikit学习TfidfVectorizer中的错误

来自分类Dev

获取列表列的每一行的长度

来自分类Dev

了解TfidfVectorizer输出

来自分类Dev

TfIdfVectorizer无法正确标记

来自分类Dev

TfidfVectorizer的单词频率

来自分类Dev

TfidfVectorizer和SelectKBest错误

来自分类Dev

TfidfVectorizer dtype不匹配

来自分类Dev

scikit中的k均值向量在内部学习归一化还是TfidfVectorizer归一化不起作用?

来自分类Dev

scikit中的k均值向量在内部学习归一化还是TfidfVectorizer归一化不起作用?

来自分类Dev

在 Pandas 数据帧的每一行上应用函数

来自分类Dev

同时使用countvectorizer和tfidfvectorizer作为特征向量与KMeans进行文本聚类是否有意义?

来自分类Dev

如何制作一个包含元素的列表作为python中输入的每一行

来自分类Dev

TfidfVectorizer背后的数学是什么?

Related 相关文章

  1. 1

    如何在TfidfVectorizer中应用Kfold?

  2. 2

    sklearn中的TfidfVectorizer如何具体包含单词

  3. 3

    如何在熊猫数据框上使用sklearn TFIdfVectorizer

  4. 4

    python的TfidfVectorizer中n-gram的令牌模式

  5. 5

    如何从 sklearn TfidfVectorizer 中删除所有非英语标记?

  6. 6

    TfidfVectorizer NotFittedError

  7. 7

    TfidfVectorizer的替代

  8. 8

    将列表中数据帧的每一行除以相应的矩阵值

  9. 9

    sklearn 管道:在 GridSearchCV 中应用 TimeSeriesSplit 之前,在完整训练集上运行 TfidfVectorizer?

  10. 10

    为什么Tfidfvectorizer中的token_pattern参数不能与scikit一起使用?

  11. 11

    TfidfVectorizer 是否隐式地为大型数据集设置了其拟合输出的阈值?

  12. 12

    scikit TfidfVectorizer.transform()返回同一文档的不同结果

  13. 13

    Sklearn tf-idf TfidfVectorizer无法捕获一个字母单词

  14. 14

    scikit-learn中的TfidfVectorizer:ValueError:np.nan是无效的文档

  15. 15

    python django从命令加载到缓存TfidfVectorizer中并在视图中使用

  16. 16

    从joblib文件加载的TfidfVectorizer模型仅在相同的会话中训练时才能工作

  17. 17

    使用参数stop_words时scikit学习TfidfVectorizer中的错误

  18. 18

    获取列表列的每一行的长度

  19. 19

    了解TfidfVectorizer输出

  20. 20

    TfIdfVectorizer无法正确标记

  21. 21

    TfidfVectorizer的单词频率

  22. 22

    TfidfVectorizer和SelectKBest错误

  23. 23

    TfidfVectorizer dtype不匹配

  24. 24

    scikit中的k均值向量在内部学习归一化还是TfidfVectorizer归一化不起作用?

  25. 25

    scikit中的k均值向量在内部学习归一化还是TfidfVectorizer归一化不起作用?

  26. 26

    在 Pandas 数据帧的每一行上应用函数

  27. 27

    同时使用countvectorizer和tfidfvectorizer作为特征向量与KMeans进行文本聚类是否有意义?

  28. 28

    如何制作一个包含元素的列表作为python中输入的每一行

  29. 29

    TfidfVectorizer背后的数学是什么?

热门标签

归档