我遇到了一个像这样的文件:
COL1 COL2 COL3
weqw asrg qerhqetjw
weweg ethweth rqerhwrtjw
rhqerhqerhq qergqer qerhqew5h
qerh qergqer wetjwryerj
我不能直接加载它fread
,所以我代替\s+
通过,
与sed
比我给了FREAD并解决它。但是,是否有内置的方式可以读取此类数据data.table
?
fread
尚不具备读取固定宽度文件的功能。
我也经常碰到这样烦人的文件。随时在Github页面上添加功能请求。
在您的情况下可能并非如此,但是您遇到的解决方案sed
在很多FWF上都不起作用,因为列之间没有空格,例如,您会看到像00010这样的字符串实际上包含3个字段。
在这种情况下,您将需要一个字段宽度字典,这时您有几个选择:
read.fwf
内 R
fwf
->csv
程序(我使用我写的程序,Python
速度非常快,可以根据需要共享代码)-基本来说是初始方法的增强版本,因此您不必再处理FWF我个人最常坚持第二种选择。read.fwf
没有像fread
这样优化,所以可能会很慢。而且,如果您有很多(比如20+)的FWF可供阅读,那么第3个选项将非常繁琐。
但是我同意内置这样的东西会很好fread
。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句