老师,我的这个问题是接着上一条问题的。我附个图
来源:8-2 大数据与学习这门课后还能干什么?.mp4

baby猫
2018-06-24
这个数据只是冰山一角。我现在刚进去的这家公司,他们做的是这种:主要做的是文章类型,用工具把某个网站的文章内容拿下来(标题、文章内容等等),清一色的中文,而且内容很多。然后,用Excel把其中的什么关键词给他提取出来之后,分析哪种类型的文章比较受欢迎。他们希望,这个过程用代码来实现,然后用什么机器学习的算法来研究这种爆文的形式和规律。老师,我是感觉,学完课程的这套技术和现在做的工作有点不对口啊,然后就是感觉很痛苦。我觉得,运用机器学习算法把模型训练出来之后,你可以用这个模型去预测其他未知的数据。我看Kaggle数据网站上很多的任务目标做的都是预测,包括那个很经典的例子(预测泰坦尼克号的那个),是不是这种?
1回答
-
同学你好,这个咱慢慢来分析。咱们的课程里,是分了两个方向进行分析的,一个是探索性数据分析,一个是建模分析。探索性数据分析的结论可以用在建模分析中,但探索性数据分析的结果本身就可以被当做结论的。针对你形容的数据,我们可以分成三种方向去分析(以下内容,希望可以慢慢读):一,直接进行探索分析,得到用户感兴趣与否的直接反映。比如,我们可以直接看分类条目的用户数量,或者每个主题的用户数量或者所占比例,通过这些直接反映用户喜好。当然,可能会有的问题在于,我们得到的数据是一段输入文本,并不是“枚举”,而带有较大的随意性,这样,需要我们把这些文本进行处理,通过统计词频、关键词处理等方式,构造新的特征(这部分属于特征工程),以这些新特征为维度进行探索分析,会清晰很多。二,聚类分析。同样基于特征工程,我们可以基于新特征进行聚类分析(详见特征工程相关内容和聚类相关内容),观察用户感兴趣的簇有什么特点。三,分类回归预测。如果我们得到的字段里有直接可以反映用户感兴趣相关的字段(比如,用户评分),我们就可以直接将这个字段作为模型中的label,进行预测模型的生成,然后,观察模型中哪些特征发挥了比较大的作用,得到你需要的结论。这个类似的模型,可以参考LDA模型相关内容。
如果我说的不够清楚,或者同学还有更深的思考,欢迎及时把疑问提出来。122018-06-25
相似问题