使用R下载和提取.gz数据文件

扫雷

我已经尝试通过改编这个类似的问题来解决我的问题但是,我要执行此操作的URL或文件出现以下错误。

trying URL 'http://cbio.mskcc.org/microrna_data/human_predictions_S_C_aug2010.txt.gz'
Content type 'application/x-gzip' length 65933953 bytes (62.9 Mb)
opened URL
downloaded 62.9 Mb

 Show Traceback

 Rerun with Debug
 Error in open.connection(file, "rt") : cannot open the connection In addition: Warning message:
In open.connection(file, "rt") :
  cannot open zip file 'D:....' 

这是我尝试的:

url_S_C <- "http://cbio.mskcc.org/microrna_data/human_predictions_S_C_aug2010.txt.gz"
tmpFile <- tempfile()
fileName <- gsub(".gz","",basename(url_S_C))
download.file(url_S_C, tmpFile)
data <- read.table(unz(tmpFile, fileName))
unlink(tmpFile)

也许这里的某人可以帮助我为什么这个特定文件对我不起作用?请注意,该文件很小(62.9 Mb),但是我无法通过类似问题的URL来重现该错误。

谢谢!

努尔塞尔

以R为基数的一些附加选项:

url <- "http://cbio.mskcc.org/microrna_data/human_predictions_S_C_aug2010.txt.gz"
tmp <- tempfile()
##
download.file(url,tmp)
##
data <- read.csv(
  gzfile(tmp),
  sep="\t",
  header=TRUE,
  stringsAsFactors=FALSE)
names(data)[1] <- sub("X\\.","",names(data)[1])
##
R> head(data)
   mirbase_acc mirna_name gene_id gene_symbol transcript_id ext_transcript_id           mirna_alignment
1 MIMAT0000062 hsa-let-7a    5270    SERPINE2    uc002vnu.2         NM_006216   uuGAUAUGUUGGAUGAU-GGAGu
2 MIMAT0000062 hsa-let-7a  494188      FBXO47    uc002hrc.2      NM_001008777 uugaUA-UGUU--GGAUGAUGGAGu
3 MIMAT0000062 hsa-let-7a   80025       PANK2    uc002wkc.2         NM_153638   uugauaUGUUGG-AUGAUGGAgu
4 MIMAT0000062 hsa-let-7a   26036      ZNF451    uc003pdp.2          AK027074    uuGAUAUGUUGGAUGAUGGAGu
5 MIMAT0000062 hsa-let-7a     586       BCAT1    uc001rgd.3         NM_005504    uugaUAUGUUGGAUGAUGGAGu
6 MIMAT0000062 hsa-let-7a   22903       BTBD3    uc002wnz.2         NM_014962  uuGAUAUGUUGGAU-GAUGG-AGu
                  alignment            gene_alignment mirna_start mirna_end gene_start gene_end
1     | :|: ||:|| ||| ||||    aaCGGUGAAAUCU-CUAGCCUCu           2        21        495      516
2     || |||:  ::||||||||:  acaaAUCACAGUUUUUACUACCUUc           2        19        459      483
3         |::||: ||||||||     aauuucAUGACUGUACUACCUga           3        17         77       99
4      || || |   | |||||||     ccCUCUAGA---UUCUACCUCa           2        21       1282     1300
5        :|| |:   ||||||||     guagGUAAAGGAAACUACCUCa           2        19       6410     6431
6    || || ||| || ||||| ||   uaCUUUAAAACAUAUCUACCAUCu           2        21       2265     2288
              genome_coordinates conservation align_score seed_cat energy mirsvr_score
1 [hg19:2:224840068-224840089:-]       0.5684         122        0 -14.73      -0.7269
2  [hg19:17:37092945-37092969:-]       0.6464         140        0 -16.38      -0.1156
3    [hg19:20:3904018-3904040:+]       0.6522         139        0 -16.04      -0.2066
4   [hg19:6:56966300-56966318:+]       0.7627         144        7 -14.51      -0.8609
5  [hg19:12:24964511-24964532:-]       0.6775         150        7 -15.09      -0.2735
6  [hg19:20:11906579-11906602:+]       0.5740         131        0 -12.59      -0.2540

或者,如果你是在一个类Unix系统,也可以获取.txt文件(无论是外部的R或使用systemsystem2从R内部)是这样的:

[nathan@nrussell tmp]$ url="http://cbio.mskcc.org/microrna_data/human_predictions_S_C_aug2010.txt.gz"
[nathan@nrussell tmp]$ wget "$url" && gunzip human_predictions_S_C_aug2010.txt.gz

然后按照上述步骤进行操作,human_predictions_S_C_aug2010.txt无论从何处读取wgetgunzip执行了该操作,

data <- read.csv(
  "~/tmp/human_predictions_S_C_aug2010.txt",
  stringsAsFactors=FALSE,
  header=TRUE,
  sep="\t")

就我而言。

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

使用R下载压缩数据文件,提取并导入.csv

来自分类Dev

使用R下载压缩数据文件,提取并导入.csv

来自分类Dev

从数据文件中提取数据

来自分类Dev

Ansible gzip 和 gunzip 数据文件

来自分类Dev

大数据文件中的r droplevel

来自分类Dev

使用ShinyFiles加载数据文件

来自分类Dev

使用ShinyFiles加载数据文件

来自分类Dev

如何使用宏引用数据文件?

来自分类Dev

Jekyll : 在 CSS 中使用数据文件

来自分类Dev

使用python从数据文件中提取选定的列

来自分类Dev

使用python从数据文件中提取选定的列

来自分类Dev

如何解析数据文件以提取特定数据和格式以供其他使用?

来自分类Dev

从单个csv文件中提取多个数据文件

来自分类Dev

使用Python编写和修改VTK多数据文件

来自分类Dev

R xgboost-如何使用本地数据文件?

来自分类Dev

无法下载其他数据文件:flashplugin-installer

来自分类Dev

Python从Web爬网URL下载数据文件

来自分类Dev

无法下载其他数据文件:flashplugin-installer

来自分类Dev

无法下载额外的数据文件-ttf-mscorefonts-installer

来自分类Dev

从 Imgur API 中提取数据文件 json 的问题

来自分类Dev

R数据文件等效于R_HISTFILE

来自分类Dev

使用对另一个文件使用awed for sed命令提取的数据文件

来自分类Dev

对大数据文件进行排序和求和

来自分类Dev

Jekyll-数据文件和结构化YAML

来自分类Dev

Clojure和Maven ...无法读取资源数据文件

来自分类Dev

gnuplot 4.2 和多图数据文件

来自分类Dev

R heatmap ggplot2订购为数据文件

来自分类Dev

如何将数据文件的某些行读入R

来自分类Dev

在R读取的数据文件中分配列名