轻松实践Linux - 了解shell脚本及grep、sed、a

一、Linux Shell入门

Quiz 1 一个接受命令行参数的shell脚本

任务编写一个shell脚本1.sh，这个脚本接受一个命令行参数，并把这个参数打印两次到标准输出。如果输入没有参数输入或者有多于一个参数输入，输出"error"。

样例 1.

./1.sh hello
hellohello

样例 2.

./1.sh
error

运行命令

sh 1.sh [ARGUMENT]

Quiz1 我的代码如下

#!/bin/bash
if [ $# -eq 1 ]
    then echo "$1$1"
else
    echo "error"
fi

$1: 表示输入的参数
$#: 表示输入的参数数目

Quiz 2 生成时间相关文件夹

任务编写一个shell脚本2.sh，无论脚本在任何位置用绝对路径执行都能完成这样的任务，在脚本2.sh所在目录新建一个空文件tmp_YYYYMMDD YYYYMMDD为当前日期

运行命令
命令：

sh src/2.sh; ls src

输出：

2.sh tmp_20130329

Quiz2 我的代码如下

#!/bin/bash
mkdir 'tem_'`date '+%Y%m%d'`

二、学习grep

题目

你需要用grep脚本(或者用grep和其他shell命令配合)实现如下一些功能

Quiz 1

任务请完成脚本1.sh，统计文件中的空行个数并输出

测试命令

sh 1.sh

Quiz1 我的代码如下

#!/bin/bash
echo `grep '^$' 1.dat | wc -l`

^$表示开头即结尾-也就是空行，再用wc统计下行数即可。

Quiz 2

任务请完成脚本2.sh，统计文件中不包含".txt"的行的行数并输出

测试命令

sh 2.sh

Quiz2 我的代码如下

#!/bin/bash
echo `grep -v '.txt' 2.dat`

先找到含.txt的行，再用-v参数，含义为--invert-match, 即取逆。

Quiz 3

任务请完成脚本3.sh，求两个文件的差集(3a.txt-3b.txt)并排序输出到标准io中

测试命令

sh 3.sh

Quiz3 我的代码如下

#!/bin/bash
echo `grep -f 3b.dat 3a.dat -v`

-f [arg]：从文件[arg]中取patterns。
-v参数：取逆。

所以上面命令的含义是：根据3b.dat的所有行建立pattern，从3a.dat中找到符合此pattern的行(此时即为3b.dat∩3a.dat)，再取3a.dat的逆。
故流程为：

第一步：返回3b.dat∩3a.dat
第二步：返回3a.dat - (3b.dat∩3a.dat) = 3a.dat - 3b.dat

Quiz 4

任务在log文件中，有表示各轮迭代模型性能的报告（如下所示），

Total:      P=0.97198463(7841/8067) R=0.97914585(7841/8008) F=0.97555210

请将他们提取出来，并以如下格式输出。

P=0.97 R=0.98 F=0.98

测试命令

sh 4.sh

Quiz4 我的代码如下

#!/bin/bash
grep 'Total:' 4.dat | sed 's/[a-zA-Z :*=]//g' | awk '{printf("P=%.2f R=%.2f F=%.2f \n", $1, $2, $3)}'

流程如下：

第一步：用grep取出含Total:的行。
第二步：用sed将此行中的空格： * =及字母全部删除。
第三步：用awk将数据按格式输出。

三、学习Awk

题目

Quiz1

Quiz1 我的代码如下

#!/bin/bash
awk '!(NR%2)' 1.dat

NR表示：操作的当前行数。
如果操作的行数不是奇数，则输出。

Quiz2

the 100
i 50
is 45
...

输出文件是

the 100 100
i 50 150
is 45 195
...

Quiz2 我的代码如下

#!/bin/bash
awk '{count=count+$2;printf("%s %d\n", $0, count)}' 2.dat

利用count暂存第二列数据，然后在该行第三列打印出即可。

Quiz3

读入一个包含词性的文件，从中提取出原始句子。
输入文件格式：

石家庄_ns 空气_n 污染_vn 排_v 第一_m
潘石屹_ns 遭遇_v 被_p 代言_n
...

输出文件：

石家庄空气污染排第一
潘石屹遭遇被代言
...

Quiz3 我的代码如下

#!/bin/bash
sed 's/_[a-zA-Z ]*//g' 3.dat

将_和后面的词性及空格去掉即可。

四、学习sed

题目

请使用sed完成下列任务。当然，你也可以使用之前的shell命令（比如awk、grep）与sed配合。

Quize 1

任务去掉文件中的空行

Quiz1 我的代码如下

#!/bin/bash 
sed 's/ //g' 1.dat

Quiz 2

任务某个文件包含三列，第三列是文本，但是文本被'扩了起来，请用提取出这一列并去掉开头和结尾的'符号。

Quiz2 我的代码如下

#!/bin/bash
cut -d " " -f 7- 2.dat | sed "s/^'//g;s/'$//g"

将第三列取出，再取出前后的'符号即可。

五、学习Uniq和Sort

Quiz 1

Find out the most frequency 100 queries from the query log

提示

使用uniq -c 可以统计词频
使用sort -k <column>可以指定对输入按照第<column>列进行排序
使用sort -n 可以指定采用数值方法进行排序
使用sort -r 可以指定逆序排序
使用sed将空格替换为\n

Quiz1 我的代码如下

#!/bin/bash
sort query_log.txt | uniq -c | sort -r | head -100

通过uniq统计行数，再用sort逆序排序，再用head输出前100行即可。
这里有个坑点是数据要先sort一下不然会出现重复词无法集中统计的问题，详细可以见uniq的manual描述：

直白的翻译是：
输入中不相邻的重复行不会被发现，所以你可能需要先对文件排序。

全部栏目

轻松实践Linux - 了解shell脚本及grep、sed、a

一、Linux Shell入门

推荐阅读

Quiz 1 一个接受命令行参数的shell脚本

Quiz 2 生成时间相关文件夹

二、学习grep

推荐阅读

题目

Quiz 1

Quiz 2

Quiz 3

Quiz 4

三、学习Awk

推荐阅读

题目

Quiz1

Quiz2

Quiz3

四、学习sed

推荐阅读

题目

Quize 1

Quiz 2

五、学习Uniq和Sort

Quiz 1