相似度匹配案例
来源:13-5 -集群数据量预估
慕粉2040365749
2020-04-17
请教老师,有没有做过相似度匹配或者是推荐案例。我尝试10万*50万的数据,jieba+word2vec+余弦相似度+取top3的方案,笛卡尔积巨大,处理性能不佳。
之后作罢 采用了spark+es的方案,并行查es相似度前3,大概5分内能出结果。
机器是1台64 cores +128ram。
10万到50万数据中取每条记录的top3。
请教前者是否有合理的方案?是否是硬件资源不够?
写回答
1回答
-
Michael_PK
2020-04-17
硬件资源应该差不多了。但是你这直说了记录数,每条记录数多少,算法复杂度多少,都不太清楚,不太好评估
012020-04-20
相似问题
Spark并行与资源分配的问题
回答 1