from bs4 import BeautifulSoup
from urllib.request import urlopen
import re
import random
base_url =
his = ["/item/%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB/5162711"]
for i in range(20):
url = base_url + his[-1]
html = urlopen(url).read().decode('utf-8')
soup = BeautifulSoup(html, features='lxml')
print(i, soup.find('h1').get_text(), ' url: ', base_url + his[-1])
sub_urls = soup.find_all("a", {"target": "_blank", "href":
if len(sub_urls) != 0:
his.append(random.sample(sub_urls, 1)[0]['href'])
else:
his.pop()
# 0 网络爬虫 url:
# 1 分布式搜索引擎 url:
# 2 网络爬虫 url:
# 3 超文本 url:
# 4 文本 url:
# 5 苏联 url:
# 6 匈牙利十月事件 url:
# 7 多瑙河 url:
# 8 奥地利 url:
# 9 多瑙河 url:
# 10 韦斯 url:
# 11 多瑙河 url:
# 12 最大水头 url:
# 13 多瑙河 url:
# 14 温带海洋性气候 url:
# 15 多瑙河 url:
# 16 汛期 url:
# 17 黑龙江 url:
# 18 额木尔河 url:
# 19 大兴安岭 url: