根据第一栏中的Python 3.4.3中的日期拆分一个较大的csv文件

debugcn 发表于 Dev

克里斯托弗·锡安·霍尔

好的，所以我在下面的链接中找到了我需要的部分答案，只要我的csv文件采用2015-03-01,1,2,3,1,3第一列的格式，它就可以正常工作。当第一列更改为时，如何保持此工作2015-03-01 00:00:00.000

import csv
from itertools import groupby

for key, rows in groupby(csv.reader(open("largeFile.csv", "r", encoding='utf-16')),
                     lambda row: row[0]):
with open("%s.txt" % key, "w") as output:
    for row in rows:
        output.write(",".join(row) + "\n")

所以我有一个大文件，其中大约有170万行...

2015.01.01,NULL,NULL,NULL,NULL,NULL,0,1,0,1,0,0,0,1
2015.01.01,NULL,NULL,NULL,NULL,NULL,0,1,0,1,0,0,0,1
2015.01.01,NULL,NULL,NULL,NULL,NULL,0,1,0,1,0,0,0,1
2015.01.01,NULL,NULL,NULL,NULL,NULL,0,1,0,1,0,0,0,1
2015.01.01,NULL,NULL,NULL,NULL,NULL,0,1,0,1,0,0,0,1
2015.01.01,NULL,NULL,NULL,NULL,NULL,0,1,0,1,0,0,0,1
2015.01.01,NULL,NULL,NULL,NULL,NULL,0,1,0,1,0,0,0,1
2015.01.02,NULL,NULL,NULL,NULL,NULL,0,1,0,1,0,0,0,1
2015.01.02,NULL,NULL,NULL,NULL,NULL,0,1,0,1,0,0,0,1
2015.01.02,NULL,NULL,NULL,NULL,NULL,0,1,0,1,0,0,0,1
2015.01.02,NULL,NULL,NULL,NULL,NULL,0,1,0,1,0,0,0,1
2015.01.03,NULL,NULL,NULL,NULL,NULL,0,1,0,1,0,0,0,1
2015.01.03,NULL,NULL,NULL,NULL,NULL,0,1,0,1,0,0,0,1

该程序确实每天都在创建一个新的文本文档，这真是太好了！

但是，当列如下时，它将停止工作。

2015-03-01 00:00:01.000,NULL,NULL,NULL,NULL,NULL,0,1,0,1,0,0,0,1

2015-03-01 00:00:02.000,NULL,NULL,NULL,NULL,NULL,0,1,0,1,0,0,0,1

2015-03-02 00:00:01.000,NULL,NULL,NULL,NULL,NULL,0,1,0,1,0,0,0,1

2015-03-02 00:00:02.000,NULL,NULL,NULL,NULL,NULL,0,1,0,1,0,0,0,1

2015-03-02 00:00:03.000,NULL,NULL,NULL,NULL,NULL,0,1,0,1,0,0,0,1

2015-03-03 00:00:01.000,NULL,NULL,NULL,NULL,NULL,0,1,0,1,0,0,0,1

2015-03-03 00:00:02.000,NULL,NULL,NULL,NULL,NULL,0,1,0,1,0,0,0,1

它给了我以下错误。

追溯（最近一次通话）：文件“ C：\ Python34 \ Proj \ documents \ New folder \ dataPullSplit2.py”，第6行，带有open（“％s.txt”％key，“ w”）作为输出： OSError：[Errno 22]无效的参数：'2015-03-01 00：00：00.000.txt'

有人可以在这里向我指出正确的方向。

Found Temp Solution

好的，因此通过将其从“ w”更改为“ a”，我现在将其附加到文件上，并使用key[:-13]i能够切断文件名上的时间戳记...它可以工作，但是速度很慢。 ..我该如何改善并理解为什么进展如此缓慢？

这是现在的代码

import csv
from itertools import groupby

for key, rows in groupby(csv.reader(open("asdf2.txt", "r", encoding='utf-16')),
                     lambda row: row[0]):

with open("%s.txt" % key[:-13], "a") as output:
    for row in rows:
        output.write(",".join(row) + "\n")

迈克·米勒

假设您的文件应保留该模式2015.01.01，则清理key应当工作：

key = key.split()[0].replace('-', '.')

完整代码：

import csv
from itertools import groupby


def shorten_key(key):
    return key.split()[0].replace('-', '.')


for key, rows in groupby(csv.reader(open("asdf2.txt", "r", encoding='utf-16')),
                         lambda row: shorten_key(row[0])):

    with open("%s.txt" % shorten_key(key), "a") as output:
        for row in rows:
            output.write(",".join(row) + "\n")

快速测试：

keys = ['2015-03-01 00:00:02.000',  '2015.01.01']

for key in keys:
    print(key.split()[0].replace('-', '.'))

输出：

2015.03.01
2015.01.01

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-07-6

我来说两句

0条评论

登录后参与评论

来自分类Dev

Related 相关文章

文章

根据第一栏中的Python 3.4.3中的日期拆分一个较大的csv文件

根据第一栏中的Python 3.4.3中的日期拆分一个较大的csv文件

Excel：表中的第一栏

是否可以一次将3个行中的4个文件分开一个文件？

如何按组查找一栏中的前3个滚动值？

替换CSV第一栏中的数据

计算文件第一栏中的出现次数

d3js：为什么第一栏的数据显示不正确？

如何删除“。”后的字符。（点）在第一栏中？

如何删除“。”后的字符。（点）在第一栏中？

从Excel第一栏中获取错误的数值

只处理第一栏中的文字？

根据另一栏更新栏

如何根据第一列中的值将python列表分为3个单独的列表？

如何从一个.csv文件php中的3个表中导出数据

使用 ffmpeg 将两个 MP3 文件添加到一个 MP4 文件中

在 D3.js V5 中解析并上传一个 csv 文件

读取一个巨大的 csv 文件并使用 d3 在 Javascript 中填充地图

画一个svg，但4面中只有3面？

S4类中是否可以有一个S3插槽？

在Neo4j（4.1.3）中，如果一个节点不存在，我如何一个接一个地匹配3个节点

根据一栏计算不重复

第一栏中的元素在flexbox中无法正确对齐

C＃WinForms中列表视图第一栏中的图像

需要根据T-SQL中“收录日期”列计算出的第一个“ 3个月”，向列中的每个值添加3个月

MongoDB第一栏+第二栏> 2

MySQL Regex用于在较大的字符串中完全匹配3个相同字符，但不匹配4个相同字符

将一列拆分为 CSV 文件、PHP、多维数组中的 3 列

根据 Neo4j 中的时间树查找第一个/最后一个事件

在第一栏中为特定范围分配序列号

如何使用Vuetify.js的v-simple-table在第一栏中添加标题？