代码拉取完成,页面将自动刷新
import requests
import re
import time
HEADERS = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
}
# 利用正则表达式去爬虫的注意事项
# 1.正则表达式去爬取元素的时候,与 xpath、bs4 不同,没有结构关系,都是当成一个字符串进行匹配处理
# 2.re.DOTALL可以让【.符号】匹配到所有的字符【包含\n】
# 3.正则表达式匹配【任意多字符】一般采用非饥饿型方式【.*?】
def spider_page(url):
"""
爬取某一页的数据
:param url:
:return:
"""
response = requests.get(url, headers=HEADERS)
text_raw = response.text
# print(text_raw)
# 1.获取所有的标题
titles = re.findall(r'<div\sclass="cont">.*?<b>(.*?)</b>', text_raw, re.DOTALL)
# 2.获取所有的朝代
dynasties = re.findall(r'<p\sclass="source">.*?<a.*?>(.*?)</a>', text_raw, re.DOTALL)
# 3.获取作者信息
authors = re.findall(r'<p\sclass="source">.*?<a.*?>.*?<a.*?>(.*?)</a>', text_raw, re.DOTALL)
# 4.获取古诗文内容
# 内容待进一步美化【去掉多余的元素】
contents_pre = re.findall(r'<div\sclass="contson".*?>(.*?)</div>', text_raw, re.DOTALL)
contents = []
for content_pre in contents_pre:
# 4.1 利用sub()函数把内容中的【<.*?>或者换行字符】替换为空
content = re.sub(r'<.*?>|\n', "", content_pre)
contents.append(content.strip())
# 诗词列表数据
poems = []
# 5. 使用zip()把四个列表组合在一起
for value in zip(titles, dynasties, authors, contents):
# 5.1 自动进行解包放入到变量当中
title, dynastie, author, content = value
# 5.2 新建dict,并加入到诗词列表数据中
poem = {
'title': title,
'dynastie': dynastie,
'author': author,
'content': content
}
poems.append(poem)
return poems
def spider():
# 全部诗词列表数据
poems = []
# 1.爬取前面10页数据
for page_num in range(100):
url = 'https://www.gushiwen.org/default_{}.aspx'.format(page_num + 1)
print('开始爬取第{}页诗词数据'.format(page_num + 1))
poems.append(spider_page(url))
time.sleep(1)
# 2.显示数据
for poem in poems:
print(poem)
print("==" * 40)
print('恭喜!爬取数据完成!')
if __name__ == '__main__':
spider()
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。