item强度无区分问题，谢谢

来源：4-1 item2vec算法的背景与物理意义

慕虎5084663

2019-03-14

（1）您举的item强度的例子，比如在信息流中，看一个视频的80%，与看一个视频的8%，说明用户对两者的强度不同。您说在itemcf中对这个问题有所修正。
我看过您之前课程，关于itemcf的公式，i和j的相似公式解决了三个问题：
原始公式中，用除以各自购买用户数的方式，解决热门item问题；在两个公式升级中，一个解决活跃用户的贡献度，另一个是对两个item的操作之间的时间间隔衰减。
应该没有解决item的强度不同的问题吧？
另外，对于item的强度问题，比如在电商领域，按照分类生成序列可以吗？比如浏览的放到一个序列，购买的放到一个序列，这样做会有什么问题吗？

（2）在item2vec中如何解决热门item问题？以及活跃用户问题？
热门item问题：热门item会频繁出现在很多序列中；
活跃用户：生成的序列没有太大意义（您举的例子，比如在电商中的批发商，什么都买，没有明显兴趣偏好）

写回答

1回答

David

2019-03-14

已采纳

（1）我们在实战中，召回里一般是低于播放比例的直接扔掉，然后高于这个值的一视同仁，在排序中我们用样本增强的方式，来影响loss，比如看了50%的和看了100%，看了100%的样本在影响loss的时候可能会多给一些权重。召回里一般不加区分，如果加也很容易，仿照之前的几个变形。电商里在召回阶段也是基本上都放到一起，可以加一个强度区分。更多的打法不是在召回区分，而是在排序model里设定不同的目标函数，然后学习不同的参数。

（2）item2vec，只会控制低频item 低于多少次出现的不要，高频不需要控制，正常的推荐系统总有一些头部item。活跃用户的点击序列只要有意义，比如信息流里观看视频都是大于10s，就可以当成正常样本，他只不过相当于提供了一个长段落而已。 item2vec关注的更多是序列性行为。但是往往我们也会手动设定一个值，超过这个长度的样本丢弃。来防止一些脏数据。如果觉着课程对您有帮助，请给课程一个评价。

慕虎5084663

非常感谢！

2019-03-14

共1条回复

BAT大牛亲授个性化推荐算法实战

让你掌握一套完整的，能落地的个性化推荐算法体系。可用于毕设。

844 学习 · 254 问题

查看课程

相似问题

关于LFM和itemcf对比问题，谢谢

回答 1

真无语！！！！！！！！！！！！！！！！！！！！！！！！！！！