如何在Python或R中将TAR文件解压缩为TXT(读取CEL文件)

斯蒂芬·斯图

我想知道是否有人知道如何在R中解压缩TAR文件以及如何从大量GZ文件中推断数据?此外,有谁知道如何在保持数据文件完整性的同时读取大量数据(大约100个)(在某些时候,我的计算机无法处理大量数据并开始写下涂鸦)?

作为一个新手程序员,仍在学习编程。我被分配去分析和交叉引用关于疾病特征的不同细胞结构之间发现的相似基因的数据。我设法访问TXT数据集文件以进行工作并将其格式化以被另一个名为GSEA的程序识别。

1.)我安装了一个名为“ WinZip”的软件,它帮助我将TAR文件解压缩为GZ文件。我将这些文件存储到“下载”下的新创建的文件夹中

2.)然后,我尝试使用R通过以下代码访问文件:

   >untar("file.tar", list=TRUE)

And it produced approximately 170 results (it converted TAR -> GZ files)

3)当我尝试输入一个GZ文件时,它生成了上千行我无法理解的单字母数字字母和数字。

                >989                                               ™šBx
                >990                                   33BŸ™šC:LÍC\005€
                >991                                               LÍB¬
                >992                                     B«™šBꙚB™™šB¯
                >993                                                 B¡
                >994                                                 BŸ
                >995                                              C\003
                >996                                         BŽ™šBð™šB¦
                >997                                                 B(
                >998                                           LÍAòffBó
                >999                                           LÍBñ™šBó
                >1000                                                 €

      > [ reached 'max' / getOption("max.print") -- omitted 64340 rows ]
         Warning messages:
      >1: In read.table("GSM2458563_Control_1_0.CEL.gz") :
       line 1 appears to contain embedded nulls
      >2: In read.table("GSM2458563_Control_1_0.CEL.gz") :
       line 2 appears to contain embedded nulls
      >3: In read.table("GSM2458563_Control_1_0.CEL.gz") :
       line 3 appears to contain embedded nulls
      >4: In read.table("GSM2458563_Control_1_0.CEL.gz") :
       line 4 appears to contain embedded nulls
      >5: In read.table("GSM2458563_Control_1_0.CEL.gz") :
       line 5 appears to contain embedded nulls
      >6: In scan(file = file, what = what, sep = sep, quote = quote, dec = dec,  :
       embedded nul(s) found in input

我想做的是同时访问所有这些文件,而又不会在计算机上造成信息过载并保持数据的完整性。然后,我想正确地访问类似于某种数据表的信息(理想情况下,我想知道GSEA是否可以从TAR到TXT文件进行转换以读取和识别此类数据)。

是否有人知道与window兼容的程序可以正确解压缩并读取此类文件,或者是否有任何R命令可以帮助我生成或转换此类数据文件?

亚维夫·亚尼夫(Aviv Yaniv)

背景研究

所以我一直在努力大约一个小时-这是结果。

您尝试打开的文件GSM2458563_Control_1_0已在.gz文件内部压缩,该.CELL文件包含一个文件,因此无法读取。

此类文件由“国家生物技术信息中心”发布

看到了Python 2代码来打开它们:

from Bio.Affy import CelFile
with open('GSM2458563_Control_1_0.CEL') as file: 
    c = CelFile.read(file)

我在biopython版本1.74上找到了有关Bio.Affy的文档

但是当前的biopython自述文件说:

“ ... Biopython 1.76是我们支持Python 2.7和Python 3.5的最终版本。”

现在不推荐使用Python 2,更不用说上面提到的已经发生了巨大的变化。

所以我找到了另一种解决方法,使用R。

我的规格:

Operation System : Windows 64
RStudio          : Version 1.3.1073
R Version        : R-4.0.2 for Windows

我已经预先安装了下面提到的依赖项。

使用该GEOquery.getGEO功能从NCBI GEO获取文件。

# Presequites
# Download and install Rtools custom from http://cran.r-project.org/bin/windows/Rtools/

# Install BiocManager
if (!requireNamespace("BiocManager", quietly=TRUE))
  install.packages("BiocManager")
BiocManager::install("GEOquery")


library(GEOquery)

# Download and open the data
gse <- getGEO("GSM2458563", GSEMatrix = TRUE)
show(gse)

# ****** Data Table ******
#    ID_REF    VALUE
# 1 7892501 1.267832
# 2 7892502 3.254963
# 3 7892503 1.640587
# 4 7892504 7.198422
# 5 7892505 2.226013

本文收集自互联网,转载请注明来源。

如有侵权,请联系[email protected] 删除。

编辑于
0

我来说两句

0条评论
登录后参与评论

相关文章

来自分类Dev

如何在python中的特定目录中读取多个.gz文件而不解压缩它们

来自分类Dev

如何重复解压缩tar本身内的tar文件

来自分类Dev

如何在.tar.gz中获取文件大小(原始文件大小)而不解压缩?

来自分类Dev

如何解压缩xxx.js.tar文件

来自分类Dev

解压缩TAR文件,导致错误

来自分类Dev

如何在解压缩之前检查/验证tar.gz文件

来自分类Dev

如何在现有目录中解压缩.tar文件

来自分类Dev

如何使用Python读取zip文件内容而不解压缩(压缩格式)

来自分类Dev

我如何使我的Python程序解压缩压缩的文件?

来自分类Dev

如何使用各种技术解压缩/解压压缩/归档的文件-zip,rar,gzip,tar

来自分类Dev

如何在不解压缩的情况下从远程URL读取zip文件

来自分类Dev

Matlab,如何在不解压缩的情况下读取zip.file中的文件

来自分类Dev

如何在Python中的Windows文件夹中解压缩zip文件

来自分类Dev

如何在Windows上解压缩dd文件?

来自分类Dev

如何在Linux中解压缩.dmg文件?

来自分类Dev

如何在Linux中递归解压缩特定文件?

来自分类Dev

如何使用python解压缩文件

来自分类Dev

从tar.gz文件读取而不保存解压缩的版本

来自分类Dev

如何在python中迭代和解压缩“.gz”文件?

来自分类Dev

如何“解压缩” zip文件?

来自分类Dev

如何解压缩“ .zip”文件?

来自分类Dev

如何“解压缩” ZIM文件?

来自分类Dev

如何解压缩该文件

来自分类Dev

如何从终端解压缩zip文件?

来自分类Dev

如何解压缩文件

来自分类Dev

使用python解压缩大文件

来自分类Dev

使用python解压缩大文件

来自分类Dev

错误解压缩后删除解压缩的tar.gz文件

来自分类Dev

如何解压缩.gz文件并将解压缩的文件保存到Python中的其他目录?

Related 相关文章

  1. 1

    如何在python中的特定目录中读取多个.gz文件而不解压缩它们

  2. 2

    如何重复解压缩tar本身内的tar文件

  3. 3

    如何在.tar.gz中获取文件大小(原始文件大小)而不解压缩?

  4. 4

    如何解压缩xxx.js.tar文件

  5. 5

    解压缩TAR文件,导致错误

  6. 6

    如何在解压缩之前检查/验证tar.gz文件

  7. 7

    如何在现有目录中解压缩.tar文件

  8. 8

    如何使用Python读取zip文件内容而不解压缩(压缩格式)

  9. 9

    我如何使我的Python程序解压缩压缩的文件?

  10. 10

    如何使用各种技术解压缩/解压压缩/归档的文件-zip,rar,gzip,tar

  11. 11

    如何在不解压缩的情况下从远程URL读取zip文件

  12. 12

    Matlab,如何在不解压缩的情况下读取zip.file中的文件

  13. 13

    如何在Python中的Windows文件夹中解压缩zip文件

  14. 14

    如何在Windows上解压缩dd文件?

  15. 15

    如何在Linux中解压缩.dmg文件?

  16. 16

    如何在Linux中递归解压缩特定文件?

  17. 17

    如何使用python解压缩文件

  18. 18

    从tar.gz文件读取而不保存解压缩的版本

  19. 19

    如何在python中迭代和解压缩“.gz”文件?

  20. 20

    如何“解压缩” zip文件?

  21. 21

    如何解压缩“ .zip”文件?

  22. 22

    如何“解压缩” ZIM文件?

  23. 23

    如何解压缩该文件

  24. 24

    如何从终端解压缩zip文件?

  25. 25

    如何解压缩文件

  26. 26

    使用python解压缩大文件

  27. 27

    使用python解压缩大文件

  28. 28

    错误解压缩后删除解压缩的tar.gz文件

  29. 29

    如何解压缩.gz文件并将解压缩的文件保存到Python中的其他目录?

热门标签

归档