爬虫项目讲解
我做的是爬取汽车之家全部车型以及配置表的爬虫代码
我们要爬取的就是这个网站 https://www.autohome
这边我已经爬取完毕,但是有一些错误,后续说
第一步先找到汽车之家全部的车型
通过刷新网络然后就可以找到了车型库的链接了
https://car.autohome/AsLeftMenu/As_LeftListNew.ashx?typeId=2%20&brandId=0%20&fctId=0%20&seriesId=0
原本的车型库地址是上面这个,但是后来搞糊涂了,typeid的值让我换成了1,就将错就错的一直写下去了,不过思路都是一样的(其实是原本的地址车型太多了,更容易出错)
我写的车型库地址是下面这个
https://car.autohome/AsLeftMenu/As_LeftListNew.ashx?typeId=1%20&brandId=134%20&fctId=0%20&seriesId=0
找到了车型库的地址那我们就要把全部的车型都给爬出来先
第一步代码如下
#先引入几个爬虫常用的库,都是新手级别的,我也是刚学python几天,没事摸摸鱼练练手
import requests
import re
from bs4 import BeautifulSoup
#1.创建一个访问网页的函数
def askurl(url):
headers = {
"user-agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36 QIHU 360SE"
}
html = requests.get(url,headers=headers)
return html.text
#2.先获取到车型库的车型
def getcars():
html = askurl('https://car.autohome/AsLeftMenu/As_LeftListNew.ashx?typeId=1%20&brandId=134%20&fctId=0%20&seriesId=0')
print(html)
#3.运行代码
def main():
getcars()
#4.主程序
if __name__ == '__main__':
main()
运行得到以下的数据,通过观察,可以看到每个厂家都有固定的brand值,那这个brand值的作用就是可以从刚刚的车型库链接获取到车厂所有的车型,例如本田的可以获取到雅阁这个车型的某些值
我们把第一个brand的值替换掉车型库链接的brandid的值,就可以展开车厂所拥有的车型链接了
爬虫项目讲解
我做的是爬取汽车之家全部车型以及配置表的爬虫代码
我们要爬取的就是这个网站 https://www.autohome
这边我已经爬取完毕,但是有一些错误,后续说
第一步先找到汽车之家全部的车型
通过刷新网络然后就可以找到了车型库的链接了
https://car.autohome/AsLeftMenu/As_LeftListNew.ashx?typeId=2%20&brandId=0%20&fctId=0%20&seriesId=0
原本的车型库地址是上面这个,但是后来搞糊涂了,typeid的值让我换成了1,就将错就错的一直写下去了,不过思路都是一样的(其实是原本的地址车型太多了,更容易出错)
我写的车型库地址是下面这个
https://car.autohome/AsLeftMenu/As_LeftListNew.ashx?typeId=1%20&brandId=134%20&fctId=0%20&seriesId=0
找到了车型库的地址那我们就要把全部的车型都给爬出来先
第一步代码如下
#先引入几个爬虫常用的库,都是新手级别的,我也是刚学python几天,没事摸摸鱼练练手
import requests
import re
from bs4 import BeautifulSoup
#1.创建一个访问网页的函数
def askurl(url):
headers = {
"user-agent":"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36 QIHU 360SE"
}
html = requests.get(url,headers=headers)
return html.text
#2.先获取到车型库的车型
def getcars():
html = askurl('https://car.autohome/AsLeftMenu/As_LeftListNew.ashx?typeId=1%20&brandId=134%20&fctId=0%20&seriesId=0')
print(html)
#3.运行代码
def main():
getcars()
#4.主程序
if __name__ == '__main__':
main()
运行得到以下的数据,通过观察,可以看到每个厂家都有固定的brand值,那这个brand值的作用就是可以从刚刚的车型库链接获取到车厂所有的车型,例如本田的可以获取到雅阁这个车型的某些值
我们把第一个brand的值替换掉车型库链接的brandid的值,就可以展开车厂所拥有的车型链接了