文件a.txt
大约有10万个字,每个字都在换行符中
july.cpp
windows.exe
ttm.rar
document.zip
Fileb.txt
有15万个单词,一个单词一个行-一些单词来自file a.txt
,但是有些单词是新单词:
july.cpp
NOVEMBER.txt
windows.exe
ttm.rar
document.zip
diary.txt
如何将这些文件合并为一个,删除所有重复的行,并保留新行(行中存在a.txt
但不存在的行b.txt
,反之亦然)?
有一个命令可以执行此操作:comm
。如中所述man comm
,这很简单:
comm -3 file1 file2
Print lines in file1 not in file2, and vice versa.
请注意,comm
希望对文件内容进行排序,因此您必须在对它们进行调用之前comm
对它们进行排序,如下所示:
sort unsorted-file.txt > sorted-file.txt
总结一下:
sort a.txt > as.txt
sort b.txt > bs.txt
comm -3 as.txt bs.txt > result.txt
执行上述命令后,result.txt
文件中将包含预期的行。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句