非负矩阵分解算法思想如下:
并行化思路:
由公式(2-8)和(2-9)可以看出,矩阵更新所需要的主要操作就是矩阵之间的乘法运算,并行化操作也主要是对乘法运算进行并行,对矩阵H的并行化步骤如下:
并行化算法设计:
针对以上的并行化流程,并行化步骤如下:
算法实现和结果:
算法采用hadoop streaming实现,矩阵采用稀疏结构进行存储,部署在5个计算节点,每个节点为8核心,设置的map数量为0.75*cores,其中cores为集群所有的核心数,鉴于集群配置都是一样的核数,所以是乘以0.75,如果配置一样,这个需要根据具体情况进行调优。在运算过程中,矩阵会越来越稀疏,运算速度会越来越快。矩阵A维度为280W*50W,topic的数量设置为200,迭代一轮大概10min到最后的5min左右。代码比较糙,就不放出来了,有问题可以一起交流讨论下。
算法需要改进的方面:
1.稀疏性的问题,如何添加稀疏性约束来产生比较稀疏性的解?
2.运算速度的提升,根据实验跑出来的结果,迭代一轮平均10分钟,一个小时才迭代6轮,算法需要进行多轮迭代,这个基本不能承受,当然这个根据集群的节点数量有一定的关系,考虑到目前语料集合比较小,而且扩展集群节点数量不太可能,有机会可以试试MPI上运行效果。
分享到:
相关推荐
数据架构师第006节实战.基于hadoop streaming的wordcount .mp4
- 该项目实现了KNN算法在Hadoop平台基于***欧拉距离***,***加权欧拉距离***,***高斯函数***的MapReduce实现。 - 特色或创意:在网上KNN实现的例子上添加了基于***欧拉距离***,***加权欧拉距离***,***高斯函数***...
Hadoop Streaming 官方中文文档
基于Hadoop的Kmeans算法实现:Kmeans算法是很典型的基于距离的聚类算法,采用距离作为相似性的评价指标。即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的...
基于Hadoop图书推荐系统源码+数据库.zip基于Hadoop图书推荐系统源码+数据库.zip基于Hadoop图书推荐系统源码+数据库.zip基于Hadoop图书推荐系统源码+数据库.zip基于Hadoop图书推荐系统源码+数据库.zip基于Hadoop图书...
hadoop大数据针对apriori算法的设计于实现
基于Hadoop Mapreduce 实现酒店评价文本情感分析(python源码+项目说明).zip基于Hadoop Mapreduce 实现酒店评价文本情感分析(python源码+项目说明).zip基于Hadoop Mapreduce 实现酒店评价文本情感分析(python...
这是一个基于hadoop的云盘系统,实现的界面是用javaweb完成的,使用的是spring Struts2 hibernate集合框架,配有sql文件。直接导入后运行这是一个基于hadoop的云盘系统,实现的界面是用javaweb完成的,使用的是...
基于Hadoop大数据平台实现遗传算法并行化,借助于Hadoop中的MapReduce模型,将遗传算法划分为Map和Reduce两个阶段,在Map阶段并行化执行。真正意义上实现了遗传算法的并行化。
基于Hadoop Mapreduce 实现酒店评价文本情感分析(python开发源码+项目说明).zip基于Hadoop Mapreduce 实现酒店评价文本情感分析(python开发源码+项目说明).zip基于Hadoop Mapreduce 实现酒店评价文本情感分析...
此代码提供了描述的大规模近可分离非负矩阵分解的 MapReduce 实现。 该实现使用 Hadoop 和 Python 流,由 Dumbo 和 Feathers 支持。 给定一个大小为m x n的数据矩阵X ,具有m >> n和非负项,我们对可分离的非负矩阵...
基于Hadoop的物品租赁系统-基于Hadoop的物品租赁系统源码-基于Hadoop的物品租赁管理系统-基于Hadoop的物品租赁管理系统java代码-基于Hadoop的物品租赁系统设计与实现-基于springboot的基于Hadoop的物品租赁系统-...
基于hadoop的好友推荐系统 使用 MapReduce 内含系统说明文件
基于Hadoop的校园网盘的设计与实现 (2).pdf基于Hadoop的校园网盘的设计与实现 (2).pdf基于Hadoop的校园网盘的设计与实现 (2).pdf基于Hadoop的校园网盘的设计与实现 (2).pdf基于Hadoop的校园网盘的设计与实现 (2).pdf...
( Hadoop Streaming编程实战(C++、PHP、Python).pdf ) ( Hadoop Streaming编程实战(C++、PHP、Python).pdf )
基于hadoop+hbase+springboot实现的分布式网盘系统,适合本科毕业设计 资源包含的整个demo在Hadoop,和Hbase环境搭建好了,可以启动起来。 技术选型 1.Hadoop 2.Hbase 3.SpringBoot ...... 系统实现的功能 1.用户...
基于Hadoop的电影推荐系统的设计与实现源码(毕业设计)java+Hadoop,使用Hadoop2.7,jdk1.8;分为前台,后台和推荐三个子系统,可直接运行。sql私信
基于Hadoop的物品租赁系统-基于Hadoop的物品租赁系统源码-基于Hadoop的物品租赁管理系统-基于Hadoop的物品租赁管理系统java代码-基于Hadoop的物品租赁系统设计与实现-基于springboot的基于Hadoop的物品租赁系统-...
三、基于Hadoop平台,设计并实现了数据挖掘系统,.,系统封装了底层的Hadoop系统接口,提供了本文介绍的几种聚类算法服务。系统自顶向下的逻辑层次分别为用户层、服务引擎层、挖掘引擎层、底层Hadoop驱动层。 四、研究...
使用Hadoop Streaming技术将Last比对软件快速部署到云计算环境中,解决当前单机版Last比对软件处理大数据能力差的问题。通过自定义的基于NFS 文件系统的数据集切分方法和基于Partitioner的任务分配方式能够实现均衡...