数据库设计

来源:4-21 数据插入主键冲突的解决方法

AmoXiang

2020-07-30

  1. 数据库设计中为什么把url加密 然后生成对应id 作为主键
  2. 视频中讲解 scrapy源码url去重 但是也没有用到或者更改配置 会影响重新抓取到相同内容是什么意思呀
写回答

2回答

bobby

2020-07-30

  1. url的长度可能非常长。有可能不长。我们之前抓取过一个大型网站有一些url的长度大于2000,你想一下 99%的长度不超过100, 但是有些长度超过2000所以如果保存url那么我的长度得超过2000这样很浪费空间。并且对这个字段进行查询效率很低

  2. 比如你抓取商品A,如果只是url去重,那么后续这个商品信息更新了怎么办?

0
5
bobby
回复
AmoXiang
好的。
2020-08-05
共5条回复

AmoXiang

提问者

2020-07-31

那为什么不设置自动增长呢

0
0

Scrapy打造搜索引擎 畅销4年的Python分布式爬虫课

带你彻底掌握Scrapy,用Django+Elasticsearch搭建搜索引擎

5795 学习 · 6290 问题

查看课程