一、Linux Shell入门
推荐阅读
Quiz 1 一个接受命令行参数的shell脚本
任务 编写一个shell脚本1.sh,这个脚本接受一个命令行参数,并把这个参数打印两次到标准输出。如果输入没有参数输入或者有多于一个参数输入,输出"error"。
样例 1.
./1.sh hello
hellohello
样例 2.
./1.sh
error
运行命令
sh 1.sh [ARGUMENT]
Quiz1 我的代码如下
#!/bin/bash
if [ $# -eq 1 ]
then echo "$1$1"
else
echo "error"
fi
$1: 表示输入的参数
$#: 表示输入的参数数目
Quiz 2 生成时间相关文件夹
任务 编写一个shell脚本2.sh,无论脚本在任何位置用绝对路径执行都能完成这样的任务,在脚本2.sh所在目录新建一个空文件tmp_YYYYMMDD YYYYMMDD为当前日期
运行命令
命令:
sh src/2.sh; ls src
输出:
2.sh tmp_20130329
Quiz2 我的代码如下
#!/bin/bash
mkdir 'tem_'`date '+%Y%m%d'`
二、学习grep
推荐阅读
题目
你需要用grep脚本(或者用grep和其他shell命令配合)实现如下一些功能
Quiz 1
任务 请完成脚本1.sh
,统计文件中的空行个数并输出
测试命令
sh 1.sh
Quiz1 我的代码如下
#!/bin/bash
echo `grep '^$' 1.dat | wc -l`
^$表示开头即结尾-也就是空行,再用wc统计下行数即可。
Quiz 2
任务 请完成脚本2.sh
,统计文件中不包含".txt"的行的行数并输出
测试命令
sh 2.sh
Quiz2 我的代码如下
#!/bin/bash
echo `grep -v '.txt' 2.dat`
先找到含.txt的行,再用-v参数,含义为--invert-match, 即取逆。
Quiz 3
任务 请完成脚本3.sh
,求两个文件的差集(3a.txt-3b.txt)并排序输出到标准io中
测试命令
sh 3.sh
Quiz3 我的代码如下
#!/bin/bash
echo `grep -f 3b.dat 3a.dat -v`
-f [arg]:从文件[arg]中取patterns。
-v参数:取逆。
所以上面命令的含义是:根据3b.dat的所有行建立pattern,从3a.dat中找到符合此pattern的行(此时即为3b.dat∩3a.dat),再取3a.dat的逆。
故流程为:
- 第一步:返回3b.dat∩3a.dat
- 第二步:返回3a.dat - (3b.dat∩3a.dat) = 3a.dat - 3b.dat
Quiz 4
任务 在log文件中,有表示各轮迭代模型性能的报告(如下所示),
Total: P=0.97198463(7841/8067) R=0.97914585(7841/8008) F=0.97555210
请将他们提取出来,并以如下格式输出。
P=0.97 R=0.98 F=0.98
测试命令
sh 4.sh
Quiz4 我的代码如下
#!/bin/bash
grep 'Total:' 4.dat | sed 's/[a-zA-Z :*=]//g' | awk '{printf("P=%.2f R=%.2f F=%.2f \n", $1, $2, $3)}'
流程如下:
- 第一步:用grep取出含
Total:
的行。 - 第二步:用sed将此行中的
空格 : * =及字母
全部删除。 - 第三步:用awk将数据按格式输出。
三、学习Awk
推荐阅读
题目
Quiz1
Quiz1 我的代码如下
#!/bin/bash
awk '!(NR%2)' 1.dat
NR表示:操作的当前行数。
如果操作的行数不是奇数,则输出。
Quiz2
the 100
i 50
is 45
...
输出文件是
the 100 100
i 50 150
is 45 195
...
Quiz2 我的代码如下
#!/bin/bash
awk '{count=count+$2;printf("%s %d\n", $0, count)}' 2.dat
利用count暂存第二列数据,然后在该行第三列打印出即可。
Quiz3
读入一个包含词性的文件,从中提取出原始句子。
输入文件格式:
石家庄_ns 空气_n 污染_vn 排_v 第一_m
潘石屹_ns 遭遇_v 被_p 代言_n
...
输出文件:
石家庄空气污染排第一
潘石屹遭遇被代言
...
Quiz3 我的代码如下
#!/bin/bash
sed 's/_[a-zA-Z ]*//g' 3.dat
将_和后面的词性及空格
去掉即可。
四、学习sed
推荐阅读
题目
请使用sed完成下列任务。当然,你也可以使用之前的shell命令(比如awk、grep)与sed配合。
Quize 1
任务 去掉文件中的空行
Quiz1 我的代码如下
#!/bin/bash
sed 's/ //g' 1.dat
Quiz 2
任务某个文件包含三列,第三列是文本,但是文本被'
扩了起来,请用提取出这一列并去掉开头和结尾的'
符号。
Quiz2 我的代码如下
#!/bin/bash
cut -d " " -f 7- 2.dat | sed "s/^'//g;s/'$//g"
将第三列取出,再取出前后的'
符号即可。
五、学习Uniq和Sort
Quiz 1
Find out the most frequency 100 queries from the query log
提示
- 使用uniq -c 可以统计词频
- 使用sort -k <column>可以指定对输入按照第<column>列进行排序
- 使用sort -n 可以指定采用数值方法进行排序
- 使用sort -r 可以指定逆序排序
- 使用sed将空格替换为\n
Quiz1 我的代码如下
#!/bin/bash
sort query_log.txt | uniq -c | sort -r | head -100
通过uniq统计行数,再用sort逆序排序,再用head输出前100行即可。
这里有个坑点是数据要先sort一下不然会出现重复词无法集中统计的问题,详细可以见uniq的manual描述:
直白的翻译是:
输入中不相邻的重复行不会被发现,所以你可能需要先对文件排序。