将大量未清理的数据有效地读取到R中

sharu2801

我正在尝试对大型数据集(约8000万行9列)进行计算,但问题是未清除的数据集包含9个不需要的行(具有不同的no和列类型),每2280行实际重复一次数据。

尝试了从基本(read.table)到sqldf,ff,data.frame的不同选项,但无法读取实际数据并且对R感到陌生,这增加了担忧。该选项的工作方式为read.table(file,skip = 9,fill = T),然后对其进行细分,但这就是读取不需要的行并花了很多时间并耗尽了我的内存。尝试并研究了100个小时的阅读pdf的时间,但是没有任何细节可以像我这样对初学者进行解释或解决

看起来像:

ITEM: TIMESTEP  
0  
ITEM: NUMBER OF ATOMS  
2280  
ITEM: BOX BOUNDS pp pp pp  
-6.16961 6.16961  
-6.16961 6.16961  
-6.16961 6.16961  
ITEM: ATOMS id mol type x y z ix iy iz   
1 1 1 -0.31373 3.56934 -0.560608 1 -1 6   
2 1 1 0.266159 3.08043 -1.20681 1 -1 6   
3 1 1 1.07006 3.55954 -1.09484 1 -1 6   

我想通过每n 2280行跳过前9行来读取9列值,而不会用完内存。

规格:Windows 8 x64、4 GB RAM,512 GB SSD,双核x64 R

丰富的划痕

我建议在Windows上下载Cygwin64。您可以对大型数据集进行快速处理,并将块发送到文件中,然后再在R中进行处理。这是一个示例,

从外壳中删除前9行,并将其余的行发送到"myFile2.txt""myFile.txt"原始数据在哪里

$ tail -n +10 myFile.txt > myFile2.txt 

然后,在R中

> read.table('myFile2.txt')
#   V1 V2 V3        V4      V5        V6 V7 V8 V9
# 1  1  1  1 -0.313730 3.56934 -0.560608  1 -1  6
# 2  2  1  1  0.266159 3.08043 -1.206810  1 -1  6
# 3  3  1  1  1.070060 3.55954 -1.094840  1 -1  6

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

将数据帧列表中的数据有效地重新排列到 R 中的数组中?

来自分类Dev

使用Matlab的C API将数据有效地附加到变量

来自分类Dev

如何使用Python将批量数据有效地插入Cassandra?

来自分类Dev

如何从宽格式的数据中有效地在 R 中绘制大量图形?

来自分类Dev

使用Windows行尾有效地将文件读取到std :: string

来自分类Dev

使用R中的多行分隔线有效地读取数据

来自分类Dev

通过循环将数据有效地添加到h5py数据集中

来自分类Dev

如何有效地将大量数据从CSV文件导入到DataGridView

来自分类Dev

如何使用Python根据交易数据有效地创建用户图?

来自分类Dev

如何习惯/有效地将数据从“读取+搜索”传输到“写入”?

来自分类Dev

如何有效地将数据异步异步地填充到winform DataGridView中?

来自分类Dev

如何有效地在多线程程序中读取共享数据?

来自分类Dev

如何有效地从文件中读取十六进制双精度数据?

来自分类Dev

如何有效地将字典中的数据添加到数据框中?

来自分类Dev

R:更有效地子集数据

来自分类Dev

有效地将数据插入C#中多个表的MySQL中

来自分类Dev

有效地将二进制数据读入R

来自分类Dev

如何更有效地将数据框重塑为新形式(R)?

来自分类Dev

根据将来的时间序列数据有效地为时间序列数据生成标签

来自分类Dev

有效地找到R中数据帧中不同行的列值计数

来自分类Dev

如何有效地将数据框中的条目映射到字典

来自分类Dev

有效地将二进制数据嵌入脚本中

来自分类Dev

有效地将二进制数据嵌入脚本中

来自分类Dev

有效地将结果聚合到Python数据结构中

来自分类Dev

如何有效地将数组解码为pandas数据框中的列

来自分类Dev

如何有效地将图片存储在数据库中?

来自分类Dev

有效地将二进制数据嵌入脚本中

来自分类Dev

如何有效地将树结构保存在数据库中?

来自分类Dev

有效地使用R中的集合

Related 相关文章

  1. 1

    将数据帧列表中的数据有效地重新排列到 R 中的数组中?

  2. 2

    使用Matlab的C API将数据有效地附加到变量

  3. 3

    如何使用Python将批量数据有效地插入Cassandra?

  4. 4

    如何从宽格式的数据中有效地在 R 中绘制大量图形?

  5. 5

    使用Windows行尾有效地将文件读取到std :: string

  6. 6

    使用R中的多行分隔线有效地读取数据

  7. 7

    通过循环将数据有效地添加到h5py数据集中

  8. 8

    如何有效地将大量数据从CSV文件导入到DataGridView

  9. 9

    如何使用Python根据交易数据有效地创建用户图?

  10. 10

    如何习惯/有效地将数据从“读取+搜索”传输到“写入”?

  11. 11

    如何有效地将数据异步异步地填充到winform DataGridView中?

  12. 12

    如何有效地在多线程程序中读取共享数据?

  13. 13

    如何有效地从文件中读取十六进制双精度数据?

  14. 14

    如何有效地将字典中的数据添加到数据框中?

  15. 15

    R:更有效地子集数据

  16. 16

    有效地将数据插入C#中多个表的MySQL中

  17. 17

    有效地将二进制数据读入R

  18. 18

    如何更有效地将数据框重塑为新形式(R)?

  19. 19

    根据将来的时间序列数据有效地为时间序列数据生成标签

  20. 20

    有效地找到R中数据帧中不同行的列值计数

  21. 21

    如何有效地将数据框中的条目映射到字典

  22. 22

    有效地将二进制数据嵌入脚本中

  23. 23

    有效地将二进制数据嵌入脚本中

  24. 24

    有效地将结果聚合到Python数据结构中

  25. 25

    如何有效地将数组解码为pandas数据框中的列

  26. 26

    如何有效地将图片存储在数据库中?

  27. 27

    有效地将二进制数据嵌入脚本中

  28. 28

    如何有效地将树结构保存在数据库中?

  29. 29

    有效地使用R中的集合

热门标签

归档