linux进价命令(sort,comm,unip等)
1. sed
sed 是一种在线编辑器,它一次处理一行内容。处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(pattern space),接着用sed命令处理缓冲区中的内容,处理完成后,把缓冲区的内容送往屏幕。接着处理下一行,这样不断重复,直到文件末尾。文件内容并没有 改变,除非你使用重定向存储输出。Sed主要用来自动编辑一个或多个文件;简化对文件的反复操作;编写转换程序等。
function:
a :新增, a 的后面可以接字串,而这些字串会在新的一行出现(目前的下一行)~
c :取代, c 的后面可以接字串,这些字串可以取代 n1,n2 之间的行!
d :删除,因为是删除啊,所以 d 后面通常不接任何咚咚;
i :插入, i 的后面可以接字串,而这些字串会在新的一行出现(目前的上一行);
p :列印,亦即将某个选择的数据印出。通常 p 会与参数 sed -n 一起运行~
s :取代,可以直接进行取代的工作哩!通常这个 s 的动作可以搭配正规表示法!例如 1,20s/old/new/g 就是啦!
示例
# 替换sed 's/[0-9][0-9][0-9]\+,//g' k.txt > k6.txt
我使用这个命令来处理sql,将文件中,三位以上数字,并且后面有逗号的字符串替换为空.例如2345,
这样,将所有的id去掉.
wc
统计指定文件中的字节数、字数、行数,并将统计结果显示输出
示例
# 统计文件有多少行
wc -l k.txt
unip
对文件进行去重
示例
# 对1.txt排序,去重,在排序之后输出到1_tmp.txt
cat 1.txt | sort | uniq | sort > 1_tmp.txt
1.txt的内容为:
1
2
4
3
2
处理之后为:
1
2
3
4
sort
对文件排序
示例
# 对1.txt排序
cat 1.txt | sort
1.txt内容为:
1
3
2
2
排序后为:
1
2
2
3
comm
comm命令可以用于两个文件之间的比较,它有一些选项可以用来调整输出,以便执行交集、求差、以及差集操作。
参数:
-1:不显示在第一个文件出现的内容;
-2:不显示在第二个文件中出现的内容;
-3:不显示同时在两个文件中都出现的内容。
示例:
# 求交集(在两个文件中都出现)
comm -12 1.txt 2.txt
# 求差集(在第一个文件中有第二个文件没有)
comm -23 1.txt 2.txt
# 求差(两个文件同时有的不显示)
comm -3 1.txt 2.txt
实际的一个使用场景
其实这本来是mysql的工作,我需要将第一个表的主键在第二个表中的数据过滤掉.之后统计一下有多少条.
像我这种老实人,肯定就使用in
语句了,结果,好特么慢啊.
后来在大佬的提示下用上面几个命令完成了.
将两个表的主键都导出成文件,然后comm
一下子就完事了,速度杠杠的!
参考链接
完。
ChangeLog
2019-01-11 完成以上皆为个人所思所得,如有错误欢迎评论区指正。
欢迎转载,烦请署名并保留原文链接。
联系邮箱:huyanshi2580@gmail
更多学习笔记见个人博客------>呼延十
linux进价命令(sort,comm,unip等)
1. sed
sed 是一种在线编辑器,它一次处理一行内容。处理时,把当前处理的行存储在临时缓冲区中,称为“模式空间”(pattern space),接着用sed命令处理缓冲区中的内容,处理完成后,把缓冲区的内容送往屏幕。接着处理下一行,这样不断重复,直到文件末尾。文件内容并没有 改变,除非你使用重定向存储输出。Sed主要用来自动编辑一个或多个文件;简化对文件的反复操作;编写转换程序等。
function:
a :新增, a 的后面可以接字串,而这些字串会在新的一行出现(目前的下一行)~
c :取代, c 的后面可以接字串,这些字串可以取代 n1,n2 之间的行!
d :删除,因为是删除啊,所以 d 后面通常不接任何咚咚;
i :插入, i 的后面可以接字串,而这些字串会在新的一行出现(目前的上一行);
p :列印,亦即将某个选择的数据印出。通常 p 会与参数 sed -n 一起运行~
s :取代,可以直接进行取代的工作哩!通常这个 s 的动作可以搭配正规表示法!例如 1,20s/old/new/g 就是啦!
示例
# 替换sed 's/[0-9][0-9][0-9]\+,//g' k.txt > k6.txt
我使用这个命令来处理sql,将文件中,三位以上数字,并且后面有逗号的字符串替换为空.例如2345,
这样,将所有的id去掉.
wc
统计指定文件中的字节数、字数、行数,并将统计结果显示输出
示例
# 统计文件有多少行
wc -l k.txt
unip
对文件进行去重
示例
# 对1.txt排序,去重,在排序之后输出到1_tmp.txt
cat 1.txt | sort | uniq | sort > 1_tmp.txt
1.txt的内容为:
1
2
4
3
2
处理之后为:
1
2
3
4
sort
对文件排序
示例
# 对1.txt排序
cat 1.txt | sort
1.txt内容为:
1
3
2
2
排序后为:
1
2
2
3
comm
comm命令可以用于两个文件之间的比较,它有一些选项可以用来调整输出,以便执行交集、求差、以及差集操作。
参数:
-1:不显示在第一个文件出现的内容;
-2:不显示在第二个文件中出现的内容;
-3:不显示同时在两个文件中都出现的内容。
示例:
# 求交集(在两个文件中都出现)
comm -12 1.txt 2.txt
# 求差集(在第一个文件中有第二个文件没有)
comm -23 1.txt 2.txt
# 求差(两个文件同时有的不显示)
comm -3 1.txt 2.txt
实际的一个使用场景
其实这本来是mysql的工作,我需要将第一个表的主键在第二个表中的数据过滤掉.之后统计一下有多少条.
像我这种老实人,肯定就使用in
语句了,结果,好特么慢啊.
后来在大佬的提示下用上面几个命令完成了.
将两个表的主键都导出成文件,然后comm
一下子就完事了,速度杠杠的!
参考链接
完。
ChangeLog
2019-01-11 完成以上皆为个人所思所得,如有错误欢迎评论区指正。
欢迎转载,烦请署名并保留原文链接。
联系邮箱:huyanshi2580@gmail
更多学习笔记见个人博客------>呼延十