使用bash命令对结构化文件进行排序

debugcn 发表于 Dev

米歇尔·韦格穆勒

我需要对LDIF文件进行排序，其中几行属于父行。

例子

dn: 2

attr1: b

attr2: a

attr1: a

attr1: c



dn: 3

attr2: a

attr1: c

attr1: b

attr1: a



dn: 1

attr1: a

attr1: c

attr1: b

attr2: a

到这个

dn: 1

attr1: a

attr1: b

attr1: c

attr2: a


dn: 2

attr1: a

attr1: b

attr1: c

attr2: a


dn: 3

attr1: a

attr1: b

attr1: c

attr2: a

因此，对所有以dn开头的父行进行排序，在所有attrx之下进行排序，如果attrx具有多个值，则还将对其进行排序。我已经使用读取行完成了此操作，但是这需要花费数小时才能处理庞大的文件。有更快的方法来执行bash命令吗？

属性值始终只占一行。如果有多个值，则每个取一行。没有行是base64编码的。

埃米利奥·加拉拉加（Emilio Galarraga）

使用您的示例文件

awk 'BEGIN {RS="\n\n\n";FS="\n\n";OFS="*";ORS=""} {print $1,$2,$3,$4,$5}' file |awk -F'*' '{for(i=1; i<=NF; i++) c[i]=$i; n=asort(c); for (i=1; i<=n; i++) printf "%s%s*", c[i], (i<n?OFS:RS); delete c}' |sed 's/^*//' |awk -F'*' '{print $5"*"$1"*"$2"*"$3"*"$4}' |sort |awk -F'*' 'BEGIN{OFS="\n\n";ORS="\n\n\n"} {print $1,$2,$3,$4,$5;}'

将每个文本块转换为行，并使用“ *”分隔字段

awk 'BEGIN {RS="\n\n\n";FS="\n\n";OFS="*";ORS=""} {print $1,$2,$3,$4,$5}' file dn: 2*attr1: b*attr2: a*attr1: a*attr1: c dn: 3*attr2: a*attr1: c*attr1: b*attr1: a dn: 1*attr1: a*attr1: c*attr1: b*attr2: a

对行中的字段进行排序，并使用“ *”分隔字段

awk 'BEGIN {RS="\n\n\n";FS="\n\n";OFS="*";ORS=""} {print $1,$2,$3,$4,$5}' file |awk -F'*' '{for(i=1; i<=NF; i++) c[i]=$i; n=asort(c); for (i=1; i<=n; i++) printf "%s%s*", c[i], (i<n?OFS:RS); delete c}' |sed 's/^*//'

attr1: a *attr1: b *attr1: c *attr2: a *dn: 2 attr1: a *attr1: b *attr1: c *attr2: a *dn: 3 attr1: a *attr1: b *attr1: c *attr2: a *dn: 1

重新排列行中的fiesld，以首先“打印dn：x”

awk 'BEGIN {RS="\n\n\n";FS="\n\n";OFS="*";ORS=""} {print $1,$2,$3,$4,$5}' file |awk -F'*' '{for(i=1; i<=NF; i++) c[i]=$i; n=asort(c); for (i=1; i<=n; i++) printf "%s%s*", c[i], (i<n?OFS:RS); delete c}' |sed 's/^*//' |awk -F'*' '{print $5"*"$1"*"$2"*"$3"*"$4}'

dn: 2*attr1: a *attr1: b *attr1: c *attr2: a dn: 3*attr1: a *attr1: b *attr1: c *attr2: a dn: 1*attr1: a *attr1: b *attr1: c *attr2: a

按第一列或第一列对行进行排序

awk 'BEGIN {RS="\n\n\n";FS="\n\n";OFS="*";ORS=""} {print $1,$2,$3,$4,$5}' file |awk -F'*' '{for(i=1; i<=NF; i++) c[i]=$i; n=asort(c); for (i=1; i<=n; i++) printf "%s%s*", c[i], (i<n?OFS:RS); delete c}' |sed 's/^*//' |awk -F'*' '{print $5"*"$1"*"$2"*"$3"*"$4}' |sort

dn: 1*attr1: a *attr1: b *attr1: c *attr2: a dn: 2*attr1: a *attr1: b *attr1: c *attr2: a dn: 3*attr1: a *attr1: b *attr1: c *attr2: a

将行转换为一列并插入空行

awk 'BEGIN {RS="\n\n\n";FS="\n\n";OFS="*";ORS=""} {print $1,$2,$3,$4,$5}' file |awk -F'*' '{for(i=1; i<=NF; i++) c[i]=$i; n=asort(c); for (i=1; i<=n; i++) printf "%s%s*", c[i], (i<n?OFS:RS); delete c}' |sed 's/^*//' |awk -F'*' '{print $5"*"$1"*"$2"*"$3"*"$4}' |sort |awk -F'*' 'BEGIN{OFS="\n\n";ORS="\n\n\n"} {print $1,$2,$3,$4,$5;}'

dn: 1

attr1: a

attr1: b

attr1: c

attr2: a


dn: 2

attr1: a

attr1: b

attr1: c

attr2: a


dn: 3

attr1: a

attr1: b

attr1: c

attr2: a

我知道我使用了太多步骤。

本文收集自互联网，转载请注明来源。

如有侵权，请联系[email protected] 删除。

编辑于2021-06-19

我来说两句

0条评论

登录后参与评论

来自分类Dev

Related 相关文章

文章

使用bash命令对结构化文件进行排序

使用bash命令对结构化文件进行排序

如何使用numpy对复杂的结构化数据进行排序？

对结构化数组进行排序的性能（numpy）

使用Redis进行Spark结构化流式动态查找

使用（。）或→运算符在C中进行结构化

使用sed编辑非结构化文件

使用 Pandas 加载（双）结构化 txt 文件

根据字段名称值对numpy结构化数组中的值进行排序

我可以对numpy结构化数组中的多个字段进行排序吗？

根据字段名称值对numpy结构化数组中的值进行排序

Bash - 编辑结构化文本

读取Java中的结构化文件

VTK结构化点文件

遍历结构化文件的 2 列

Bash：按字节区分大小写的排序命令或使用python sort命令对文本文件进行排序

在平面文件中对字段进行分组和结构化数据的设计模式

TypeScript何时使用结构化类型？

使用结构化绑定的“反思”

如何使用带有Rxjava的MVP进行结构化和改造以从Observables中获取数据？

查询开始时，使用结构化流从Kafka主题的开头进行读取

使用REST API对Firestore查询进行结构化查询的多处条件

使用Google CSE在页面地图结构化数据中搜索整个属性以进行过滤

排序numpy结构化和记录数组非常慢

结构化表单以将$ _POST变量排序为数组

排序numpy结构化和记录数组非常慢

使用dictwriter并使用python将非结构化数据写入csv文件

我应该使用哪个函数将非结构化文本文件读入R？

如何使用T-SQL在SQL Server中输出非结构化文件？

结构化输出

转换interface {}以json编码进行结构化