selenium基本使用、无头浏览器(chrome浏览器)、搜索标签-USB迷|专注于互联网分享

selenium基本使用、无头浏览器(chrome浏览器)、搜索标签

selenium基本使用

这个模块：既能发请求，又能解析，还能执行js

selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行
JavaScript代码的问题

selenium 会做web方向的自动化测试
appnium 会做 app方向的自动化测试

selenium 可以操作浏览器，模拟人的行为

使用浏览器

下载浏览器驱动（chrome）：
- .html?path=chromedriver/
- /
- .0.6045.105/win64/chromedriver-win64.zip
- 火狐驱动：/
- 跟浏览器型号和版本一一对应的
  ie，火狐，谷歌：谷歌为例
  谷歌浏览器有很多版本：跟版本一一对应
将驱动放到python解释器目录下，或者配置环境变量
下载模块：pip install selenium
写python代码，操作浏览器

import time
from selenium import webdriver# 跟人操作浏览器一样，打开了谷歌浏览器，拿到浏览器对象
bro=webdriver.Firefox()# 在地址栏中输入地址
bro.get('')
time.sleep(5)
bro.close()

指令

bro为实例化所得对象

在地址栏中输入地址：bro.get('网址地址')
关闭浏览器：bro.close()
设置等待：bro.implicitly_wait(10)，从页面中找标签，如果找不到，就等待
页面最大化：bro.maximize_window()
当前页面html内容：bro.page_source)
选择器：
from selenium.webdrivermon.by import By
- 找一个：bro.find_element(by=By.选择器,value='')
- 找所有：bro.find_elements(by=By.选择器,value='')
点击：找到的标签.click()
文本框写入：找到的标签.send_keys()

模拟登录

from selenium import webdriver
from selenium.webdrivermon.by import Bybro = webdriver.Firefox()
bro.get('')
bro.implicitly_wait(10)
bro.maximize_window()# 找到登录按钮
a_login = bro.find_element(by=By.LINK_TEXT, value='登录')
a_login.click()# 往输入框中写文字
username = bro.find_element(by=By.ID, value='TANGRAM__PSP_11__userName')
username.send_keys('13437238745')
password = bro.find_element(by=By.ID, value='TANGRAM__PSP_11__password')
password.send_keys('caimina1')agree = bro.find_element(By.ID, 'TANGRAM__PSP_11__isAgree')
agree.click()submit = bro.find_element(By.ID, 'TANGRAM__PSP_11__submit')
submit.click()bro.close()

selenium其它用法

无头浏览器(chrome浏览器)

如果我们做爬虫，我们只是为了获取数据，不需要非有浏览器在显示 ⇢ \dashrightarrow ⇢ 隐藏浏览器图形化界面

import timefrom selenium import webdriver
from selenium.webdrivermon.by import Byfrom selenium.webdriver.chrome.options import Options
chrome_options = Options()
chrome_options.add_argument('blink-settings=imagesEnabled=false') #不加载图片, 提升速度
chrome_options.add_argument('--headless') #浏览器不提供可视化页面. linux下如果系统不支持可视化不加这条会启动失败
bro = webdriver.Chrome(options=chrome_options)bro.get('.html')print(bro.page_source)
time.sleep(3)
bro.close()

搜索标签

根据id号查找标签：
根据name属性查找标签：
根据标签查找标签：
按类名找：
a标签文字：
a标签文字，模糊匹配：
按css选择器找：
按xpath找：

获取标签的属性，文本，大小，位置

属性：bro.get_attribute('src')
文本：bro.text
大小：tag.size
位置：bro.location
id（不是标签id，无需关注）：tag.id
标签名：tag.tag_name

找到页面中所有div

divs=bro.find_elements(By.TAG_NAME,'div')

按类名找

div=bro.find_element(By.CLASS_NAME,'postDesc').text

按css选择器

div=bro.find_element(By.CSS_SELECTOR,'div.postDesc').text#id为topics下的div下的div中类为postDesc
div=bro.find_element(By.CSS_SELECTOR,'#topics > div > div.postDesc').text

selenium基本使用、无头浏览器(chrome浏览器)、搜索标签

selenium基本使用

这个模块：既能发请求，又能解析，还能执行js

selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行
JavaScript代码的问题

selenium 会做web方向的自动化测试
appnium 会做 app方向的自动化测试

selenium 可以操作浏览器，模拟人的行为

使用浏览器

下载浏览器驱动（chrome）：
- .html?path=chromedriver/
- /
- .0.6045.105/win64/chromedriver-win64.zip
- 火狐驱动：/
- 跟浏览器型号和版本一一对应的
  ie，火狐，谷歌：谷歌为例
  谷歌浏览器有很多版本：跟版本一一对应
将驱动放到python解释器目录下，或者配置环境变量
下载模块：pip install selenium
写python代码，操作浏览器

import time
from selenium import webdriver# 跟人操作浏览器一样，打开了谷歌浏览器，拿到浏览器对象
bro=webdriver.Firefox()# 在地址栏中输入地址
bro.get('')
time.sleep(5)
bro.close()

指令

bro为实例化所得对象

在地址栏中输入地址：bro.get('网址地址')
关闭浏览器：bro.close()
设置等待：bro.implicitly_wait(10)，从页面中找标签，如果找不到，就等待
页面最大化：bro.maximize_window()
当前页面html内容：bro.page_source)
选择器：
from selenium.webdrivermon.by import By
- 找一个：bro.find_element(by=By.选择器,value='')
- 找所有：bro.find_elements(by=By.选择器,value='')
点击：找到的标签.click()
文本框写入：找到的标签.send_keys()

模拟登录

from selenium import webdriver
from selenium.webdrivermon.by import Bybro = webdriver.Firefox()
bro.get('')
bro.implicitly_wait(10)
bro.maximize_window()# 找到登录按钮
a_login = bro.find_element(by=By.LINK_TEXT, value='登录')
a_login.click()# 往输入框中写文字
username = bro.find_element(by=By.ID, value='TANGRAM__PSP_11__userName')
username.send_keys('13437238745')
password = bro.find_element(by=By.ID, value='TANGRAM__PSP_11__password')
password.send_keys('caimina1')agree = bro.find_element(By.ID, 'TANGRAM__PSP_11__isAgree')
agree.click()submit = bro.find_element(By.ID, 'TANGRAM__PSP_11__submit')
submit.click()bro.close()

selenium其它用法

无头浏览器(chrome浏览器)

如果我们做爬虫，我们只是为了获取数据，不需要非有浏览器在显示 ⇢ \dashrightarrow ⇢ 隐藏浏览器图形化界面

import timefrom selenium import webdriver
from selenium.webdrivermon.by import Byfrom selenium.webdriver.chrome.options import Options
chrome_options = Options()
chrome_options.add_argument('blink-settings=imagesEnabled=false') #不加载图片, 提升速度
chrome_options.add_argument('--headless') #浏览器不提供可视化页面. linux下如果系统不支持可视化不加这条会启动失败
bro = webdriver.Chrome(options=chrome_options)bro.get('.html')print(bro.page_source)
time.sleep(3)
bro.close()

搜索标签

根据id号查找标签：
根据name属性查找标签：
根据标签查找标签：
按类名找：
a标签文字：
a标签文字，模糊匹配：
按css选择器找：
按xpath找：

获取标签的属性，文本，大小，位置

属性：bro.get_attribute('src')
文本：bro.text
大小：tag.size
位置：bro.location
id（不是标签id，无需关注）：tag.id
标签名：tag.tag_name

找到页面中所有div

divs=bro.find_elements(By.TAG_NAME,'div')

按类名找

div=bro.find_element(By.CLASS_NAME,'postDesc').text

按css选择器

div=bro.find_element(By.CSS_SELECTOR,'div.postDesc').text#id为topics下的div下的div中类为postDesc
div=bro.find_element(By.CSS_SELECTOR,'#topics > div > div.postDesc').text

USB迷 | 专注于互联网分享

selenium基本使用、无头浏览器(chrome浏览器)、搜索标签

selenium基本使用、无头浏览器(chrome浏览器)、搜索标签

selenium基本使用

使用浏览器

指令

模拟登录

selenium其它用法

无头浏览器(chrome浏览器)

搜索标签

搜索标签

获取标签的属性，文本，大小，位置

找到页面中所有div

按类名找

按css选择器

selenium基本使用、无头浏览器(chrome浏览器)、搜索标签

selenium基本使用

使用浏览器

指令

模拟登录

selenium其它用法

无头浏览器(chrome浏览器)

搜索标签

搜索标签

获取标签的属性，文本，大小，位置

找到页面中所有div

按类名找

按css选择器

与本文相关的文章

评论列表 (0)