无法爬取网页内嵌的一个word文档编辑器

来源:3-3 正则表达式-2

慕先生1163759

2022-10-10

爬取一个网页,内嵌一个word文档的编辑器,现在问题是
1 用谷歌浏览器打开会显示无法使用插件
2 可以用ie打开,但是发现无法捕捉word文档编辑器里面内容的元素,其他以外的内容都可以捕捉到元素。

请问要用何种方法才能把这个编辑器加载的word文档内容给下载下来?
写回答

1回答

bobby

2022-10-10

你应该是想抓百度文库这种网页的内容吧 https://blog.csdn.net/weixin_44510615/article/details/107694231 看看这个试试

0
2
bobby
回复
慕先生1163759
插件可以自己走tcp协议, 你的浏览器只能抓取到http协议, 所以这个是正常的, 可以试试wireshark抓tcp包
2022-10-12
共2条回复

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5796 学习 · 6290 问题

查看课程