学习爬微博网站遇到的问题,请求解答,谢谢

来源:10-4 scrapy-redis编写分布式爬虫代码

慕莱坞7202075

2018-07-11

爬取微博网站 个人信息,关注数、粉丝数和微博,三个指标;

css语句:response.css(".WB_main_r  .user_atten li::text").extract(),  返回的结果一直是空列表 [ ]。

下面是网页截图

http://img.mukewang.com/szimg/5b45fc500001ac9113470617.jpg

下图是右键查看源码的代码,与上图中代码不一样。这样的情况下,是以源码为准来css定位爬取吗?

http://img.mukewang.com/szimg/5b45fcd2000185dd12880589.jpg

这里的代码基本都在</script>标签内。例如代码结构下

<script>FM.view({"pid":"plc_frame","js":["home\/js\/pl\/lib.js?version=b1d20fbbbb3d0864"],"jsDefer":true});</script><div id="pl_common_webim"></div>

对于<script>FM.view()这样的代码如何css定位爬取?

另外,能够帮忙给出爬取 关注数、粉丝数和微博三个指标的css语句,十分谢谢!!!


写回答

2回答

bobby

2018-07-16

from scrapy.selector import Selector
body = '<html><body><span>good</span></body></html>'
sel = Selector(text=body)
data = sel.css('XXXX')

这样写

0
1
慕莱坞7202075
谢谢bobby老师
2018-07-17
共1条回复

bobby

2018-07-13

script中的脚本是无法通过css方式来为你定位的,所以你可以通过正则表达式获取到这里的html源码 然后传给selector初始化 然后就可以用css方式获取了

0
1
慕莱坞7202075
老师,传给selector初始化然后再进行css方式定位获取,不太明白。能否取个栗子
2018-07-15
共1条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5796 学习 · 6290 问题

查看课程