page_source 打印出来仍然是网页源码

来源:9-1 selenium动态网页请求与模拟登录知乎

Macrowz

2018-03-06

老师,我按照8-1章节的selenium的print(browser.page_source)打印出加载后的html页面,但是为什么print出来的仍然是和网页源码一样的html?

直接用selenium的browser.find_element_by_css_selector()函数,是可以定位到元素。

但是用Selector(text=browser.page_source)以后,无法定位元素,因为下载的不是渲染以后的html,下载的仍然是网页源码。http://img.mukewang.com/szimg/5a9e3573000175cd09130388.jpg

写回答

3回答

bobby

2018-03-12

# !/usr/bin/env python
# encoding: utf-8
from selenium import webdriver
chrome_opt = webdriver.ChromeOptions()
prefs = {"profile.managed_default_content_settings.images":2}
chrome_opt.add_experimental_option("prefs", prefs)
browser = webdriver.Chrome(executable_path="E:/tmp/chromedriver.exe", chrome_options=chrome_opt)
browser.get("https://www.renrendai.com/loan/1")
import time
time.sleep(10)
html = browser.find_element_by_tag_name('html').get_attribute('innerHTML')
print(html)

我这里本地运行了这个url是没有问题的啊

0
1
Macrowz
谢谢老师!
2018-03-12
共1条回复

bobby

2018-03-08

你先在请求以后 sleep 几秒再获取源码试试呢

0
1
Macrowz
老师,sleep了10秒以后,browser.page_source()仍然是未渲染的html。 url是:“https://www.renrendai.com/loan/1” 老师能不能看一下?
2018-03-08
共1条回复

qq_小青年_18

2018-03-07

我这边使用之后打印出来的是网络请求之后完整数据

0
1
Macrowz
请问你用的url是“www.renrendai.com/loan/1”吗?
2018-03-07
共1条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5831 学习 · 6293 问题

查看课程