学习爬微博网站遇到的问题，请求解答，谢谢

来源：10-4 scrapy-redis编写分布式爬虫代码

慕莱坞7202075

2018-07-11

爬取微博网站个人信息，关注数、粉丝数和微博，三个指标；

css语句：response.css(".WB_main_r .user_atten li::text").extract(), 返回的结果一直是空列表 [ ]。

下面是网页截图

下图是右键查看源码的代码，与上图中代码不一样。这样的情况下，是以源码为准来css定位爬取吗？

这里的代码基本都在</script>标签内。例如代码结构下

对于<script>FM.view（）这样的代码如何css定位爬取？

另外，能够帮忙给出爬取关注数、粉丝数和微博三个指标的css语句，十分谢谢！！！

写回答

2回答

bobby

2018-07-16

已采纳

from scrapy.selector import Selector
body = '<html><body><span>good</span></body></html>'
sel = Selector(text=body)
data = sel.css('XXXX')

这样写

慕莱坞7202075

谢谢bobby老师

2018-07-17

共1条回复

bobby

2018-07-13

script中的脚本是无法通过css方式来为你定位的，所以你可以通过正则表达式获取到这里的html源码然后传给selector初始化然后就可以用css方式获取了

慕莱坞7202075

老师，传给selector初始化然后再进行css方式定位获取，不太明白。能否取个栗子

2018-07-15

共1条回复

Scrapy打造搜索引擎畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy，用Django+Elasticsearch搭建搜索引擎

5831 学习 · 6293 问题

相似问题

回答 2

回答 2

回答 1

回答 1

回答 2