spark 分布式计算

来源:4-3 -YARN架构

奶茶三兄弟d

2021-02-03

  1. 老师,我们项目是做案件分析,然后数据导入的时候,做了一些清洗规则,然后ETL,入图库,图库现在用的是solr + hbase,但是后面进行分析的时候(如交易汇聚、来源去向什么的),实际上还是在一台机器上,将图数据缓存在内存中,然后序列化到文件中,下次同样的参数分析,直接是将文件内容给烦序列化,那其实还是在遍历,很多遍历,数据量大的时候,就会很慢,因为其实还是在一台机器上做,虽然现场机器10多台,但是集群分布式效果根本没有利用到。
  2. 老师,想问下,如果是用spark做分布式图计算的话,是不是效果很好,spark是不是专门做这样的分布式计算的,谢谢老师
写回答

1回答

Michael_PK

2021-02-03

spark的图计算也可以,用业界的其他图数据库存储都是可以的。你所说的在一个机器上存数据?这个不是太明白,图数据库很多都是集群的呢,也就是说都是分布式的

0
7
奶茶三兄弟d
非常感谢!
2021-02-22
共7条回复

10小时入门大数据

【毕设】大数据零基础入门必备,轻松掌握Hadoop开发核心技能

1456 学习 · 656 问题

查看课程