最新消息: USBMI致力于为网友们分享Windows、安卓、IOS等主流手机系统相关的资讯以及评测、同时提供相关教程、应用、软件下载等服务。

requests使用re爬取腾讯体育新闻

业界 admin 19浏览 0评论

简介

爬取新闻标题

1. 安装

pip install request
pip install fake_useragent

2. 演示

  1. 进入网址,查看网页源代码

  2. 找到标题界面,根据li标签的特征使用re匹配

  3. 代码演示

import requests
from fake_useragent import UserAgent # 伪装请求头的库
import re

url = 'http://sports.qq/'   # 腾讯体育新闻网址
headers = {'User-Agent': UserAgent().chrome} 

response = requests.get(url, headers)
pattern = r'<li><a target="_blank" href="(.*?)" class="(.*?)">(.*?)</a></li>'
s = re.findall(pattern=pattern, string=response.text)

for content in s:
    print(content[2])

print('--------完成-------')
  1. 结果

简介

爬取新闻标题

1. 安装

pip install request
pip install fake_useragent

2. 演示

  1. 进入网址,查看网页源代码

  2. 找到标题界面,根据li标签的特征使用re匹配

  3. 代码演示

import requests
from fake_useragent import UserAgent # 伪装请求头的库
import re

url = 'http://sports.qq/'   # 腾讯体育新闻网址
headers = {'User-Agent': UserAgent().chrome} 

response = requests.get(url, headers)
pattern = r'<li><a target="_blank" href="(.*?)" class="(.*?)">(.*?)</a></li>'
s = re.findall(pattern=pattern, string=response.text)

for content in s:
    print(content[2])

print('--------完成-------')
  1. 结果
发布评论

评论列表 (0)

  1. 暂无评论