Pandas 数据帧上的 group by 期间的错误

kikee1222

您能否就以下问题提出建议,我有点卡住了。

因此,dataframe3 具有列“域”和“大小”。我的脚本清理了域并添加了一个名为“newdomain2”的新列

我添加下面的列并查看数据框,它看起来是正确的。

那么,df4 需要是 df3 的聚合版本(按域 + sum(size) 分组,但是当我尝试以下操作时,出现此错误:

类型错误:不可散列的类型:“列表”

我应该注意,如果我在同一个脚本中使用 'domain' 而不是 'cleandomain2',它可以正常工作。

你能帮我理解为什么会这样吗?

 df3['newdomain2']=cleandomain
 #show df3
 df3

 df4 = df3.groupby(['newdomain2'])[['size']].sum()

这是我用来生成新列值并将值添加到数据框的脚本

for x in index:
     #if it ends with a number, it's an IP
     if str(x[len(x)-1]).isnumeric():
         cleandomain.append(str(x[0])+'.'+str(x[1])+'.*.*')
     #if its in the CDN list, take a subdomain as well
     elif str(x[len(x)-2]).rstrip() in cdns:
         cleandomain.append(str(x[len(x)-3])+'.'+str(x[len(x)-2])+'.'+str(x[len(x)-1]))
     elif str(x[len(x)-3]).rstrip() in cdns:
         cleandomain.append(str(x[len(x)-4])+'.'+str(x[len(x)-3])+'.'+str(x[len(x)-2])+'.'+ str(x[len(x)-1]))
    #if its in the TLD list, do this
     elif str(x[len(x)-2]).rstrip()+'.'+ str(x[len(x)-1]).rstrip() in tld:
         cleandomain.append(str(x[len(x)-3])+'.'+str(x[len(x)-2])+'.'+ str(x[len(x)-1]))
     elif str(x[len(x)-1]) in tld:
         cleandomain.append(str(x[len(x)-2])+'.'+ str(x[len(x)-1]))
    #if its not in the TLD list, do this
     else:
         cleandomain.append(x)
 #add column do df3
 df3['newdomain2']=cleandomain
李洛奇

您不能直接将列表放入数据框列中,

df3['your_col'] = pd.Series(your_list).values

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

在 Pandas 数据帧上循环期间执行时间很长

来自分类Dev

重采样(反采样)在 Pandas 数据帧上产生不可预测的错误

来自分类Dev

python pandas数据帧分配错误

来自分类Dev

动画期间错误的帧值

来自分类Dev

动画期间错误的帧值

来自分类Dev

dplyr:子分组(group_by)数据帧上的colSums:优美

来自分类Dev

如何在pandas数据帧的期间日期时间栏中平均填空?

来自分类Dev

在Pandas数据帧上并行化操作时速度较慢

来自分类Dev

从pyspark转换在Pandas数据帧上实现Plotly

来自分类Dev

在复杂的 Pandas 数据帧上重新索引和插值

来自分类Dev

如何在 Pandas 数据帧变量上使用 format()

来自分类Dev

在 Pandas 数据帧的每一行上应用函数

来自分类Dev

Python:pandas数据帧上的多处理错误:客户端具有非平凡的状态,该状态是本地的且无法修复

来自分类Dev

Pandas 数据帧索引在索引数据帧的子集时导致问题。如何删除索引或防止错误发生?

来自分类Dev

在Ubuntu上安装Spark期间遇到错误

来自分类Dev

数据框行迭代期间发生错误

来自分类Dev

从mysql取数据期间Asynctask中的错误

来自分类Dev

加载数据期间的奏鸣曲错误

来自分类Dev

在 Pandas 数据帧上使用转换函数,为数据帧的每一行返回新值

来自分类Dev

使用to_hdf将pandas数据帧保存到磁盘时出现分段错误

来自分类Dev

过滤PANDAS数据帧:错误:缺少),位置2988处的子模式未终止

来自分类Dev

包含完整性计数的按位运算时,pandas 数据帧中的语法错误

来自分类Dev

长数据帧的 Python Pandas 越界日期时间时间戳错误

来自分类Dev

对 Pandas 数据帧进行分组

来自分类Dev

Pandas 从 MSSQL 加载数据帧

来自分类Dev

Pandas 数据帧的条件操作

来自分类Dev

Pandas 数据帧的条件减法

来自分类Dev

Pandas 在一个数据帧上给出 IndexError 但不在另一个类似的数据帧上给出

来自分类Dev

在具有unicode列名称的数据帧上使用pandas方法to_sql时出现UnicodeEncodeError

Related 相关文章

  1. 1

    在 Pandas 数据帧上循环期间执行时间很长

  2. 2

    重采样(反采样)在 Pandas 数据帧上产生不可预测的错误

  3. 3

    python pandas数据帧分配错误

  4. 4

    动画期间错误的帧值

  5. 5

    动画期间错误的帧值

  6. 6

    dplyr:子分组(group_by)数据帧上的colSums:优美

  7. 7

    如何在pandas数据帧的期间日期时间栏中平均填空?

  8. 8

    在Pandas数据帧上并行化操作时速度较慢

  9. 9

    从pyspark转换在Pandas数据帧上实现Plotly

  10. 10

    在复杂的 Pandas 数据帧上重新索引和插值

  11. 11

    如何在 Pandas 数据帧变量上使用 format()

  12. 12

    在 Pandas 数据帧的每一行上应用函数

  13. 13

    Python:pandas数据帧上的多处理错误:客户端具有非平凡的状态,该状态是本地的且无法修复

  14. 14

    Pandas 数据帧索引在索引数据帧的子集时导致问题。如何删除索引或防止错误发生?

  15. 15

    在Ubuntu上安装Spark期间遇到错误

  16. 16

    数据框行迭代期间发生错误

  17. 17

    从mysql取数据期间Asynctask中的错误

  18. 18

    加载数据期间的奏鸣曲错误

  19. 19

    在 Pandas 数据帧上使用转换函数,为数据帧的每一行返回新值

  20. 20

    使用to_hdf将pandas数据帧保存到磁盘时出现分段错误

  21. 21

    过滤PANDAS数据帧:错误:缺少),位置2988处的子模式未终止

  22. 22

    包含完整性计数的按位运算时,pandas 数据帧中的语法错误

  23. 23

    长数据帧的 Python Pandas 越界日期时间时间戳错误

  24. 24

    对 Pandas 数据帧进行分组

  25. 25

    Pandas 从 MSSQL 加载数据帧

  26. 26

    Pandas 数据帧的条件操作

  27. 27

    Pandas 数据帧的条件减法

  28. 28

    Pandas 在一个数据帧上给出 IndexError 但不在另一个类似的数据帧上给出

  29. 29

    在具有unicode列名称的数据帧上使用pandas方法to_sql时出现UnicodeEncodeError

热门标签

归档