item强度无区分问题,谢谢
来源:4-1 item2vec算法的背景与物理意义

慕虎5084663
2019-03-14
(1)您举的item强度的例子,比如在信息流中,看一个视频的80%,与看一个视频的8%,说明用户对两者的强度不同。您说在itemcf中对这个问题有所修正。
我看过您之前课程,关于itemcf的公式,i和j的相似公式解决了三个问题:
原始公式中,用除以各自购买用户数的方式,解决热门item问题;在两个公式升级中,一个解决活跃用户的贡献度,另一个是对两个item的操作之间的时间间隔衰减。
应该没有解决item的强度不同的问题吧?
另外,对于item的强度问题,比如在电商领域,按照分类生成序列可以吗?比如浏览的放到一个序列,购买的放到一个序列,这样做会有什么问题吗?
(2)在item2vec中如何解决热门item问题?以及活跃用户问题?
热门item问题:热门item会频繁出现在很多序列中;
活跃用户:生成的序列没有太大意义(您举的例子,比如在电商中的批发商,什么都买,没有明显兴趣偏好)
1回答
-
(1)我们在实战中,召回里一般是低于播放比例的直接扔掉,然后高于这个值的一视同仁,在排序中我们用样本增强的方式,来影响loss,比如看了50%的和看了100%,看了100%的样本在影响loss的时候可能会多给一些权重。召回里一般不加区分,如果加也很容易,仿照之前的几个变形。电商里在召回阶段也是基本上都放到一起,可以加一个强度区分。更多的打法不是在召回区分,而是在排序model里设定不同的目标函数,然后学习不同的参数。
(2)item2vec,只会控制低频item 低于多少次出现的不要,高频不需要控制,正常的推荐系统总有一些头部item。活跃用户的点击序列只要有意义,比如信息流里 观看视频都是大于10s,就可以当成正常样本,他只不过相当于提供了一个长段落而已。 item2vec关注的更多是序列性行为。 但是往往我们也会手动设定一个值,超过这个长度的样本丢弃。来防止一些脏数据。 如果觉着课程对您有帮助,请给课程一个评价。
012019-03-14
相似问题