使用sort与uniq或awk可去除Linux文本文件重复行。先排序使相同行相邻,再用uniq过滤,命令为sort file.txt | uniq > output.txt;或用awk通过数组记录已出现行实现去重,命令为awk ‘!seen[$0]++’ file.txt > output.txt。

如果您在处理文本文件时发现其中包含大量重复的行,这可能会影响数据的准确性和后续分析的效率。通过去除这些重复内容,可以有效提升文件质量。以下是几种在Linux系统中去除文本文件重复行的方法。
本文运行环境:Dell XPS 13,Ubuntu 24.04
一、使用sort命令结合uniq去重
该方法先对文件内容进行排序,使相同行相邻,再利用uniq命令过滤连续的重复行,从而实现去重目的。
1、打开终端,执行以下命令对文件进行排序并去除相邻重复行:sort file.txt | uniq > output.txt。
2、若希望直接修改原文件,可使用重定向配合临时文件:sort file.txt | uniq > temp.txt && mv temp.txt file.txt。
3、如需统计每行出现的次数,可在uniq后添加-c选项:sort file.txt | uniq -c。
二、使用awk实现去重
awk是一种强大的文本处理工具,能够逐行读取文件并通过数组记录已出现的行,从而识别并跳过重复内容。
1、运行如下命令,利用awk的关联数组特性去除重复行:awk ‘!seen[$0]++’ file.txt > output.txt。
2、若需要保留最后一次出现的重复行而非第一次,可采用反向处理方式:awk ‘{lines[NR]=$0; count[$0]=NR} END {for(i=1;i。
三、使用sed结合其他命令去重
sed本身不擅长全局状态管理,但可通过与shell循环结合的方式逐行检查并删除后续重复项,适用于小规模文件。
1、执行以下复合命令,逐行匹配并删除后面相同的行:sed -i ‘$!N; /^(.*)n1$/!P; D’ <(sort file.txt)。
2、将排序和sed处理分离,先排序再用sed简化逻辑:sort file.txt | sed ‘$!N; /^(.*)n1$/!P; D’ > output.txt。
四、利用perl脚本快速去重
perl语言在正则表达式和文本处理方面表现优异,适合编写简洁的去重脚本,能够在单行命令中完成复杂逻辑。
1、使用perl读取每一行,并借助哈希表记录已出现的行:perl -ne ‘print unless $seen{$_}++’ file.txt > output.txt。
2、若需忽略行首尾空白字符后再比较,可调整为:perl -lne ‘s/^s+|s+$//g; print unless $seen{$_}++’ file.txt > output.txt。
以上就是LINUX怎么去除文本文件中的重复行_Linux文本文件去重方法的详细内容,更多请关注创想鸟其它相关文章!
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 chuangxiangniao@163.com 举报,一经查实,本站将立刻删除。
发布者:程序猿,转转请注明出处:https://www.chuangxiangniao.com/p/725319.html
微信扫一扫
支付宝扫一扫