提升效率必备,掌握这些Shell文本处理技能!
Shell
脚本是Linux
系统里的一项基本功,就算它的语法看起来有点奇怪,读起来也不是特别顺畅,但在一些情况下,它仍然是最能干的解决办法。学好Shell脚本,不仅让你对Linux
系统了解更深,还能让你手快地做好很多日常任务。
在这篇文章里,我会跟你分享在Linux Shell里处理文字时最常使用的几个“利器”:find
、grep
、xargs
、sort
、uniq
、tr
、cut
、paste
、wc
、sed
和awk
,而且每个都会配上实用的例子。我们的目标是让脚本简单直白,最好一行命令或者两行就搞定。
找文件的小能手
find
是个找文件的小能手,本事大得很,不管文件躲在哪个角落,它都能帮你把它揪出来。
查找指定类型文件
- 查找
.txt
和.pdf
文件:
find . \( -name "*.txt" -o -name "*.pdf" \) -print
- 使用正则表达式查找
.txt
和.pdf
:
find . -regex ".*\(\.txt|\.pdf\)$"
-iregex
: 忽略大小写的正则
查找特定条件的文件
- 查找最近 7 天被访问的文件:
find . -atime -7 -type f -print
- 查找大于 2K 的文件:
find . -type f -size +2k
后续操作
- 删除
.swp
文件:
find . -type f -name "*.swp" -delete
- 将 10 天前的
.txt
文件拷贝到OLD
目录:
find . -type f -mtime +10 -name "*.txt" -exec cp {} OLD \;
文本搜索神器
grep是个超级好用的工具,专门用来在大量文字中找到你需要的内容。
常用选项
- 只显示匹配行:
grep "pattern" file
- 统计匹配次数:
grep -c "pattern" file
- 打印匹配行的行号:
grep -n "pattern" file
- 递归搜索:
grep -r "pattern" .
扩展功能
- 多模式匹配:
grep -e "pattern1" -e "pattern2" file
- 查找并删除文件:
grep "pattern" file* -lZ | xargs -0 rm
命令行高效参数处理器
xargs
具有将命令输出作为后续命令行参数的功能,从而实现了多个命令的高效与灵活链式执行。
实用示例
- 多行输出转为单行:
cat file.txt | xargs
- 将文件中的每一行传递给脚本:
cat file.txt | xargs -I {} ./script.sh -p {}
- 统计
.cpp
文件中的行数:
find . -name "*.cpp" -print0 | xargs -0 wc -l
排序与去重
进行数据去重与排序操作:利用 sort
命令实现数据的有序排列,而采用 uniq
工具则旨在消除序列中的冗余重复项,从而达到精简数据集的目的。
排序
- 按数字降序排序:
sort -nrk 1 data.txt
去重
- 去除重复行:
sort file.txt | uniq
- 统计每行出现的次数:
sort file.txt | uniq -c
字符转换
tr
是一个在Unix
和Linux
操作系统中广泛使用的命令行工具,其全称为"translate
"。该工具主要用于对来自标准输入或指定文件的字符进行替换、删除或压缩操作。
基本语法结构如下:
tr [选项] 从字符集 到字符集
- 从字符集 指定了需要被转换或删除的原始字符。
- 到字符集 指定了转换目标字符或操作(如果只想删除字符,则此部分可省略)。
基础用法
例如,以下命令将把输入文本中的所有小写字母转换为大写字母:
echo "hello world" | tr 'a-z' 'A-Z'
另一个例子是删除文本中的所有数字:
echo "Example123 text." | tr -d '0-9'
tr命令还支持一些选项来扩展其功能,如-d
用于删除字符,而不是转换它们;-s
用于压缩连续重复的字符为一个。
按列切割文本
cut`是 Linux 中用于按列截取文本的命令。它通过指定分隔符(默认为制表符)来选择并提取文件中的特定字段或字符。它常用于处理结构化数据,如 CSV 文件,快速提取有用的信息。
基本操作
- 截取第 2 和第 4 列:
cut -f2,4 filename
- 排除第 3 列:
cut -f3 --complement filename
按列拼接文本
paste命令用于将多个文件的内容按列拼接在一起,生成一个新的输出。它会逐行读取每个文件,并将相应行的内容用制表符(默认)或指定的分隔符连接起来。常见用法包括将两个文件横向拼接在一起,或将单个文件的多列数据合并。
基本用法
将两个文本按列拼接到一起
cat file1 file2
colin
book
默认的定界符是制表符,可以用-d指明定界符。
paste file1 file2 -d ','
colin,book
统计行、词和字符数
wc
(word count)是一个用于统计文件内容的命令行工具,能够统计文件中的行数、单词数、字符数等信息。常见用法包括统计行数wc -l
、单词数wc -w
以及字符数wc -m
。它可以处理多个文件,并在终端中输出每个文件的统计结果,通常用于文本分析和简单的文件内容审计。
基本用法
- 统计行数:
wc -l file
- 统计单词数:
wc -w file
9. 流编辑器
sed
(Stream Editor)是一个轻量级、强大的文本处理工具,适用于在流式数据或文件中进行快速的查找、替换、删除、插入等操作。它以非交互的方式逐行处理文本,支持正则表达式,常用于批量编辑和转换文件内容。sed
的常见用途包括替换字符串、删除或提取特定行、插入文本等,非常适合需要在命令行中对文件进行简单编辑的场景。
文本替换
- 替换每行的第一个匹配项:
sed 's/old/new/' file
- 全局替换:
sed 's/old/new/g' file
其它操作
- 移除空行:
sed '/^$/d' file
10. 文本处理利器
awk
是处理结构化文本的强大工具,支持复杂的模式匹配和数据处理。
基本用法
- 打印每行的第二个字段:
awk '{print $2}' file
- 统计行数:
awk 'END {print NR}' file
- 过滤并打印匹配的行:
awk '/pattern/' file
进阶功能
- 按范围打印:
awk 'NR==4,NR==6{print}' file
- 格式化输出:
seq 10 | awk '{printf "->%4s\n", $1}'
总结
虽然 Python 等脚本语言在复杂任务中更具优势,但使用 Shell 脚本处理简单的文件操作和文本处理依然十分高效。本文介绍的这些工具都是非常基础且实用的命令,希望能帮助你快速提升在 Linux 下的操作效率。