NLTK令牌-从熊猫系列中创建单词的单个列表

Louloumonkey

我正在寻找有关NLTK或任何其他可以帮助我解决所面临问题的库的帮助。

我不是Python专家(实际上我只是4个月前才开始学习Python),但是在寻求帮助之前,我已经做了很多研究:

将单词标记化为熊猫数据框中的新列

将熊猫数据框列传递给NLTK标记生成器等...


这就是我所拥有的:一个数据框,其中包含大量有关学生在我们的网站上搜索信息时所寻找的内容(这是校园的网站)的信息。

它看起来像这样:

session             | student_query
2020-05-15 09:34:21 | exams session june 2020
2020-05-15 09:41:12 | when are the exams?
2020-05-15 09:59:51 | exams.
2020-05-15 10:02:18 | what's my teacher's email address

我想要的是一个看起来像这样的大清单['查询','考试','会话','june','2020','when','are','the',tests' ,“考试”,“什么”,“ s”,“我”,“老师”,“ s”,“电子邮件”,“地址” ===>一个字符串,所有单词(没有句子),没有标点符号。

我试过了:

tokens = df['query'].apply(word_tokenize)
text = nltk.Text(tokens)

===>给我每一行一个单独的字符串

sentences = pd.Series(df.Name)
sentences = sentences.str.replace('[^A-z ]','').str.replace(' +',' ').str.strip()
splitwords = [ nltk.word_tokenize( str(sentence) ) for sentence in sentences ]
print(splitwords)

===>好一点,但不是我想要的

纽约市编码员

您可以这样做:

df['student_query'] = df['student_query'].str.replace(r'\?|\.|\'', ' ')
list_of_words = ' '.join(df['student_query']).split()
print(list_of_words)

['exams', 'session', 'june', '2020', 'when', 'are', 'the', 'exams', 'exams', 'what', 's', 'my', 'teacher', 's', 'email', 'address']

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何从NLTK树中获取令牌?

来自分类Dev

从NLTK中的大型令牌中删除垃圾单词

来自分类Dev

NLTK正则表达式令牌生成器在正则表达式中不能很好地使用小数点

来自分类Dev

Python NLTK Word令牌化UnicodeDecode错误

来自分类Dev

将单个项目追加到熊猫系列的列表中

来自分类Dev

Python在nltk.tree中定位单词

来自分类Dev

在nltk python中查找单词词干

来自分类Dev

DataFrame 内列表中令牌的令牌频率

来自分类Dev

nltk句子令牌生成器给出AttributeError

来自分类Dev

NLTK停用词列表

来自分类Dev

在熊猫中执行nltk.stem.SnowballStemmer

来自分类Dev

如何通过nltk同义词集迭代每个单词并将拼写错误的单词存储在单独的列表中?

来自分类Dev

JavaCC识别令牌中的令牌

来自分类Dev

使用fdist的nltk单词对计数

来自分类Dev

特定单词的NLTK搭配

来自分类Dev

特定单词的NLTK搭配

来自分类Dev

使用fdist的nltk单词对计数

来自分类Dev

NLTK CFG语法与多个单词

来自分类Dev

如何使用nltk阻止西班牙语单词列表?

来自分类Dev

如何从POS标记单词列表中提取模式?NLTK

来自分类Dev

如何使用nltk来阻止西班牙语单词列表?

来自分类Dev

NLTK中的Unigram标记

来自分类Dev

如何使用Python中的列表从熊猫数据框/系列中提取单词?

来自分类Dev

熊猫NLTK标记化“不可散列的类型:'列表'”

来自分类Dev

熊猫NLTK标记化“不可散列的类型:'列表'”

来自分类Dev

nltk中的python嵌套列表理解

来自分类Dev

使用nltk pos标记器标记单个单词会标记每个字母而不是单词

来自分类Dev

计算熊猫数据框中的单个单词

来自分类Dev

消除熊猫和numpy句子列表中的单个字符单词

Related 相关文章

热门标签

归档