伍佰目录 短网址
  当前位置:海洋目录网 » 站长资讯 » 站长资讯 » 文章详细 订阅RssFeed

正则表达式与文本处理工具 脚本实战

来源:本站原创 浏览:118次 时间:2022-10-24
正则表达式、文本处理工具与脚本基础1、正则表达式

正则表达式分两类:

  • ​ 基本正则表达式:BRE
  • ​ 扩展正则表达式:ERE
1.1 基本正则表达式元字符1.1.1 字符匹配
.               匹配任意单个字符,可以是一个汉字[]              匹配指定范围的任意单个字符,例如:[grain]    [0-9]   [a-z][^]             匹配指定范围外的任意单个字符,例如:[^grain][:alnum:]       字母和数字[:alpha:]       代表任何英文大小写字母,即a-z,A-Z[:lower:]       小写字母,相当于a-z[:upper:]       大写字母[:blank:]       空白字符[:space:]       水平和垂直的空白字符[:digit:]       十进制数字……
1.1.2 匹配次数

用在要指定次数的字符后面,用于指定前面的字符要出现的次数

*               匹配前面的字符任意次,包括0次.*              任意长度的任意字符\?              匹配其前面的字符0或1次\+              匹配其前面的字符至少1次\{n\}           匹配前面的字符n次\{m,n\}         匹配前面的字符至少m次,至多n次\{,n\}          匹配前面的字符至多n次,<=n\{n,\}          匹配前面的字符至少n次
1.1.3 位置锚定
^               行首锚定,用于模式的最左侧$               行尾锚定,用于模式的最右侧^PATTERN$       用于模式匹配整行^$              空行^[:space:]$     空白行\<              词首锚定,用于单词模式的左侧\>              词尾锚定,用于单词模式的右侧\<PATTERN\>     匹配整个单词
1.1.4 分组其它 或者

分组:()将多个字符捆绑在一起,当作一个整体处理,例如:\(root\)+

后向引用:分组括号中的模式匹配到的内容会被正则表达式引擎记录与内部的变量中,这些变量的命名方式为:\1,\2,\3……, \1 表示从左侧起第一个左括号以及与之匹配右括号之间模式匹配到的字符

或者: \|

\(string1\(string2\)\)\1: string1\(string2\)\2: sting2
1.2 扩展正则表达式1.2.1 字符匹配元字符
.               匹配任意单个字符,可以是一个汉字[]              匹配指定范围的任意单个字符,例如:[grain]    [0-9]   [a-z][^]             匹配指定范围外的任意单个字符,例如:[^grain][:alnum:]       字母和数字[:alpha:]       代表任何英文大小写字母,即a-z,A-Z[:lower:]       小写字母,相当于a-z[:upper:]       大写字母[:blank:]       空白字符[:space:]       水平和垂直的空白字符[:digit:]       十进制数字……
1.2.2 次数匹配
*               匹配前面字符任意次?               0或1次+               1次或多次{n}             匹配n次{m,n}           至少m,至多n次
1.2.3 位置锚定
^               行首$               行尾\<,\b           词首\>,\b           词尾
1.2.4 分组其它
()              分组后向引用:\1,\2,...|                  或者a|b             #a或bC|cat            #C或cat(C|c)at         #Cat或cat
2、 文本处理之 grep

作用:文本搜索工具,根据用户指定的“模式”对目标逐行进行匹配检查,打印匹配到的行

模式:由正则表达式字符及文本字符所编写的过滤条件

格式:

grep [OPTIONS] PATTERN [FILE...]

常见选项:

--color=auto            对匹配到的文本着色显示-m #                    匹配#次后停止-v                      显示不被pattern匹配到的行-i                      忽略字符大小写-n                      显示匹配的行号-c                      统计匹配的行数-o                      仅显示匹配到的字符串-q                      静默模式,不输出任何信息-A #                    后#行-B #                    前#行-C #                    前后各#行-e                      多个选项间逻辑or关系 如:grep -e 'cat' -e 'dog' file-w                      匹配整个单词-E                      使用ERE,相当于egrep-f file                 根据模式文件处理-r                        递归目录,但不处理软链接-R                      递归目录,并处理软链接[root@CentOS8 ~]#df | grep '/dev/sd'/dev/sda2      104806400 2311224 102495176   3% //dev/sda5       52403200  402140  52001060   1% /data/dev/sda1        1038336  172128    866208  17% /boot[root@CentOS8 ~]#df|grep '^/dev/sd'|tr -s ' ' %|cut -d% -f5|sort -n|tail -117
3、 文本处理之 sed

格式:

sed [option]... 'script;script;...' inputfile...

常用选项:

-n          不输出模式空间内容到屏幕,即不自动打印-e          多点编辑-f file     从指定文件中读取编辑脚本-r,-E       使用扩展正则表达式-i          原处编辑,加后缀代表备份并编辑

script格式:

'地址命令'

地址格式:

1.  不给地址:   对全文进行处理2.  单地址:    #:指定的行, $:最后一行    /pattern/:  被此处模式所匹配到的每一行3.  地址范围:    #,#         从#行到#行,3,6 从第3行到第6行    #,+#        从#行到+#行,3,+4 从3行到第7行4.  步长:~        1~2 奇数行        2~2 偶数行

命令:

p               打印当前模式空间内容,追加到默认输出之后Ip              忽略大小写输出d               删除模式空间匹配的行,并立即启用下一轮循环a [\\]text      之指定行后面追加文本,支持使用\n实现多行追加i [\\]text      在行前面插入文本c [\\]text      替换行为单行或多行文本w /path/file    保存模式匹配的行至指定文件r /path/file    读取指定文件的文本至模式空间中匹配到的行后=               为模式空间中的行打印行号!               模式空间中匹配行取反s/pattern/string/修饰符        查找替换,支持使用分隔符,也可以使用:s@@@,s###替换修饰符:g       行内全局替换p       显示替换成功的行w /path/file    将替换成功的行保存到文件中I,i     忽略大小写[root@CentOS8 ~]#sed -n '1,4p' /etc/passwdroot:x:0:0:root:/root:/bin/bashbin:x:1:1:bin:/bin:/sbin/nologindaemon:x:2:2:daemon:/sbin:/sbin/nologinadm:x:3:4:adm:/var/adm:/sbin/nologin[root@CentOS8 ~]#
4、 文本处理之 awk

格式:

awk [OPTIONS] 'program' var=value file...awk [OPTIONS] -f programfile var=value file...

说明:

program通常是被放在单引号中,并可以由三种部分组成

  • BEGIN语句块
  • 模式匹配的通用语句块
  • END语句块

常见选项:

  • -F “分隔符” 指明输入时用到的字段分隔符,默认是连续的空白符
  • -v var=value 变量赋值

Program格式:

pattern{action;...}

pattern:决定动作语句何时触发及触发事件,比如:BEGIN,END,正则表达式等

action:对数据进行处理,放在{}内指明,常见:print,printf

动作 print

格式:

print item1,item2,...

说明:

  • 逗号分隔符
  • 输出item可以是字符串,也可以是数值
  • 如省略item,相当于print $0
  • 固定字符需要用" "引起来,而变量和数字不需要
[root@CentOS8 ~]#awk -F: -v OFS=':' '/root/{print $1,$3,$7}' /etc/passwdroot:0:/bin/bashoperator:11:/sbin/nologin[root@CentOS8 ~]#
5、 文本处理实例
  • 统计出/etc/passwd文件中其默认shell为非/sbin/nologin的用户个数,并将用户都显示出来
[root@CentOS8 ~]#echo `grep -v '/sbin/nologin' /etc/passwd |wc -l` && grep -v '/sbin/nologin' /etc/passwd | cut -d: -f112rootsyncshutdownhaltleenumnumbermageiaslackwareuser1user2user3[root@CentOS8 ~]#awk '!/\/sbin\/nologin/{print $NF}' /etc/passwd | wc -l12[root@CentOS8 ~]#awk -F: '!/\/sbin\/nologin/{print $1}' /etc/passwdrootsyncshutdownhaltleenumnumbermageiaslackwareuser1user2user3[root@CentOS8 ~]#echo `awk '!/\/sbin\/nologin/{print $NF}' /etc/passwd | wc -l` && awk -F: '!/\/sbin\/nologin/{print $1}' /etc/passwd12rootsyncshutdownhaltleenumnumbermageiaslackwareuser1user2user3[root@CentOS8 ~]#
  • 查出用户UID最大值的用户名、UID及shell类型
[root@CentOS8 ~]#awk -F: '{print $1,$3,$7}' /etc/passwd | sort -nr -k2|head -n1nobody 65534 /sbin/nologin[root@CentOS8 ~]#getent passwd | sort -t: -k3 -n|tail -n1|cut -d: -f1,3,7nobody:65534:/sbin/nologin
  • 统计当前连接本机的每个远程主机IP的连接数,并按从大到小排序
[root@CentOS8 ~]ss -nt | tail -n +2 | tr -s ' ' : | cut -d: -f6|sort|uniq -c|sort -nr[root@CentOS8 ~]ss -nt | grep "^ESTAB" | tr -s ' ' : | cut -d: -f6|sort|uniq -c|sort -nr[root@CentOS8 ~]ss -nt | awk -F" +|:" '/^ESTAB/{print $(NF-2)}' |sort|uniq -c | sort -nr
6、文本编辑 vim6.1 vim三种模式和转换

三种常见模式:

  • 命令或普通模式: more模式,可以实现移动光标,剪切、粘贴文本
  • 插入或编辑模式:用于修改文本
  • 扩展命令或命令模式: 保存,退出等

命令模式 --> 插入模式

i   insert,在光标所在处插入I   在当前光标所在行的行首输入a   在光标所在处的后面输入A   在当前光标所在行的行尾输入o   在当前光标所在行的下方打开一个新行O   在当前光标所在行的上方打开一个新行
  • 插入模式 --- Esc ---> 命令模式
  • 命令模式 --- : --- > 扩展命令模式
  • 扩展命令模式 --- Esc ,enter ---> 命令模式
6.2 扩展命令模式常用命令
w           写磁盘文件wq          写入并退出q!          不存盘退出wq!         强制存盘退出r file      读文件内容到当前文件中w file      将当前文件内容写入另一个文件!command    执行命令r!command   读入命令的输出
6.3 地址定界
/part1/,/part2/     #从第一次被part1匹配开始,一直到第一次被part2匹配结束/pattern/           #从当前行向下查找,直到匹配pattern的第一行%           #全文,相当于1,$$           #最后一行.,$-1       #当前行到倒数第二行#           #第 # 行#,#         #从左侧#起始行,到右侧#结束行
6.4 地址定界后跟一个编辑命令
d       #删除y       #复制w file  #指定范围的行另存至指定文件中r file  #在指定位置插入指定文件中的所有内容
6.5 查找替换

格式

s/要查找的内容/替换的内容/修饰符修饰符:    i       #忽略大小写    g       #全局替换,默认情况下,每一行只替换第一次出现    gc      #全局替换,每次替换前询问要查找的内容: 可使用基本正则表达式替换为的内容: 不能使用模式,但是可以使用后向引用\1,\2,...等符号,还可以使用 "&" 引用前面查找时查到的整个内容
6.6 定制vim工作特性

配置文件

/etc/vimrc      #全局~/.vimrc        #个人

常用特性:

行号    显示: set number, 简写 set nu    取消显示:set nonumber,简写 set nonu复制保留格式    启用: set paste    禁用: set nopasteTab用指定空格个数代替    启用: set tabstop=# 指定#个空格代替Tab    简写: set ts=#光标所在行标识线    启用: set cursorline,简写 set cul    禁用: set nocursorline    
6.7 命令模式

字符间跳转:

​ h:左 l:右 j:下 k:上

单词间跳转:

​ w: 下一个单词词首

​ e: 当前或下一个单词词尾

​ b: 当前或前一个单词词首

当前页跳转:

​ H: 页首 M:页中间行 L:页底

​ zt:将光标所在当前行移到屏幕顶端

​ zz:将光标所在当前行移到屏幕中间

​ zb:将光标所在当前行移到屏幕底端

行首行尾跳转:

​ ^ 第一个非空白字符

​ 0 行首

​ $ 行尾

行间移动:

​ #G或 :# 跳转到#行

​ G 最后一行

​ 1G,gg 第一行

句间移动:

​ )下一句 ( 上一句

翻屏操作:

​ Ctrl+f 向文件尾部翻一屏 Ctrl+b 向文件首部翻一屏

​ Ctrl+d 向文件尾部翻半屏 Ctrl+u 向文件首部翻半屏

删除命令:

​ d 删除,结合光标跳转可以实现范围删除

​ d$ 删除到行尾

​ d^ 删除到非空行首

​ dd 剪切光标所在行

​ #dd 多行删除

​ D:从当前光标位置一直删除到行尾,相当于d$

复制命令:

​ y$ 复制

​ y0 复制到行尾

​ y^ 复制到非空行首

​ yy 复制行

​ #yy 复制多行

​ Y: 复制整行

查找:

/pattern: 从当前光标所在处向文件尾部查找

?pattern: 从当前光标所在处向文件首部查找

n: 与命令同方向

N: 与命令反方向

撤销更改:

u 撤销最近的更改

#u 撤销之前多次更改

U 撤销光标落在这行后所有此行的更改

. 重复前一个操作

#. 重复前一个操作#次

7、shell脚本基础

shell脚本:包含一些命令或声明,并符号一定格式的文本文件

格式要求: 首行shebang机制

#!/bin/bash#!/usr/bin/python#!/usr/bin/perl
7.1 脚本实例
  • 编写脚本disk.sh,显示当前硬盘分区中空间利用率最大的值
[root@CentOS8 script]#bash disk.sh17[root@CentOS8 script]#cat disk.sh#!/bin/bashdf -h| awk -F" +|%" '/\/dev\/sd/{print $5}'|sort -nr|head -n1
  • 编写脚本 system_info.sh,显示当前主机系统信息,包括:主机名,IPv4地址,操作系统版本,内核版本,CPU型号,内存大小,硬盘大小
[root@CentOS8 script]#cat system_info.sh #!/bin/bashRED="\E[1;31m"GREEN="echo -e \E[1;32m"END="\E[0m"$GREEN-------------------Host systeminfo--------------------$ENDecho -e "HOSTNAME:  $RED`hostname`$END"echo -e "IPADDR:    $RED`ifconfig ens33|grep -Eo '([0-9]{1,3}\.){3}[0-9]{1,3}' |head -n1`$END"echo -e "OSVERSION: $RED`cat /etc/redhat-release`$END"echo -e "KERNEL:    $RED`uname -r`$END"echo -e "CPU:       $RED`lscpu|grep 'Model name'|tr -s ' '|cut -d: -f2`$END"echo -e "MEMORY:    $RED`free -h|grep Mem|tr -s ' ' :|cut -d: -f2`$END"echo -e "DISK:      $RED`lsblk|awk '/^sd/{print $1,$4}'`$END"$GREEN------------------------------------------------------$END[root@CentOS8 script]#

  推荐站点

  • At-lib分类目录At-lib分类目录

    At-lib网站分类目录汇集全国所有高质量网站,是中国权威的中文网站分类目录,给站长提供免费网址目录提交收录和推荐最新最全的优秀网站大全是名站导航之家

    www.at-lib.cn
  • 中国链接目录中国链接目录

    中国链接目录简称链接目录,是收录优秀网站和淘宝网店的网站分类目录,为您提供优质的网址导航服务,也是网店进行收录推广,站长免费推广网站、加快百度收录、增加友情链接和网站外链的平台。

    www.cnlink.org
  • 35目录网35目录网

    35目录免费收录各类优秀网站,全力打造互动式网站目录,提供网站分类目录检索,关键字搜索功能。欢迎您向35目录推荐、提交优秀网站。

    www.35mulu.com
  • 就要爱网站目录就要爱网站目录

    就要爱网站目录,按主题和类别列出网站。所有提交的网站都经过人工审查,确保质量和无垃圾邮件的结果。

    www.912219.com
  • 伍佰目录伍佰目录

    伍佰网站目录免费收录各类优秀网站,全力打造互动式网站目录,提供网站分类目录检索,关键字搜索功能。欢迎您向伍佰目录推荐、提交优秀网站。

    www.wbwb.net