非负矩阵分解算法基于hadoop streaming的实现 - 923723914 - ITeye博客

`

923723914

浏览: 632598 次

最近访客更多访客>>

rattersnake

u012363178

jiefengwen

wanghaojava

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

全部博客 (1376)

社区版块

存档分类

最新评论

涛声依旧是：怎么提示掉线，怎么才能在线
基于Tomcat7、Java、WebSocket的服务器推送聊天室
dcode：楼主写的不错，正好遇到点问题，看着你的文章解决了，感谢分享。。 ...
在 Visual Studio 2010 中配置SharpPcap

非负矩阵分解算法基于hadoop streaming的实现

阅读更多

非负矩阵分解算法思想如下：

并行化思路：

由公式(2-8)和(2-9)可以看出，矩阵更新所需要的主要操作就是矩阵之间的乘法运算，并行化操作也主要是对乘法运算进行并行，对矩阵H的并行化步骤如下：

并行化算法设计：

针对以上的并行化流程，并行化步骤如下：

算法实现和结果：

算法采用hadoop streaming实现，矩阵采用稀疏结构进行存储，部署在5个计算节点，每个节点为8核心，设置的map数量为0.75*cores，其中cores为集群所有的核心数，鉴于集群配置都是一样的核数，所以是乘以0.75，如果配置一样，这个需要根据具体情况进行调优。在运算过程中，矩阵会越来越稀疏，运算速度会越来越快。矩阵A维度为280W*50W，topic的数量设置为200，迭代一轮大概10min到最后的5min左右。代码比较糙，就不放出来了，有问题可以一起交流讨论下。

算法需要改进的方面：

1.稀疏性的问题，如何添加稀疏性约束来产生比较稀疏性的解？

2.运算速度的提升，根据实验跑出来的结果，迭代一轮平均10分钟，一个小时才迭代6轮，算法需要进行多轮迭代，这个基本不能承受，当然这个根据集群的节点数量有一定的关系，考虑到目前语料集合比较小，而且扩展集群节点数量不太可能，有机会可以试试MPI上运行效果。

分享到：

基于mpich搭建MPI集群 | 介绍几篇很有意思的计算机科普文章

2013-09-20 11:31
浏览 530
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

数据架构师第006节实战.基于hadoop streaming的wordcount .mp4: 数据架构师第006节实战.基于hadoop streaming的wordcount .mp4

KNN算法基于Hadoop平台实现的的MapReduce实现+源代码+文档说明: - 该项目实现了KNN算法在Hadoop平台基于***欧拉距离***，***加权欧拉距离***，***高斯函数***的MapReduce实现。 - 特色或创意：在网上KNN实现的例子上添加了基于***欧拉距离***，***加权欧拉距离***，***高斯函数***...

Hadoop Streaming 官方中文文档: Hadoop Streaming 官方中文文档

基于Hadoop的Kmeans算法实现: 基于Hadoop的Kmeans算法实现：Kmeans算法是很典型的基于距离的聚类算法，采用距离作为相似性的评价指标。即认为两个对象的距离越近，其相似度就越大。该算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的...

基于Hadoop图书推荐系统源码+数据库.zip: 基于Hadoop图书推荐系统源码+数据库.zip基于Hadoop图书推荐系统源码+数据库.zip基于Hadoop图书推荐系统源码+数据库.zip基于Hadoop图书推荐系统源码+数据库.zip基于Hadoop图书推荐系统源码+数据库.zip基于Hadoop图书...

基于hadoop的apriori算法设计于实现: hadoop大数据针对apriori算法的设计于实现

基于Hadoop Mapreduce 实现酒店评价文本情感分析（python源码+项目说明）.zip: 基于Hadoop Mapreduce 实现酒店评价文本情感分析（python源码+项目说明）.zip基于Hadoop Mapreduce 实现酒店评价文本情感分析（python源码+项目说明）.zip基于Hadoop Mapreduce 实现酒店评价文本情感分析（python...

基于hadoop的web云盘系统: 这是一个基于hadoop的云盘系统，实现的界面是用javaweb完成的，使用的是spring Struts2 hibernate集合框架，配有sql文件。直接导入后运行这是一个基于hadoop的云盘系统，实现的界面是用javaweb完成的，使用的是...

基于Hadoop大数据平台实现遗传算法并行化: 基于Hadoop大数据平台实现遗传算法并行化，借助于Hadoop中的MapReduce模型，将遗传算法划分为Map和Reduce两个阶段，在Map阶段并行化执行。真正意义上实现了遗传算法的并行化。

基于Hadoop Mapreduce 实现酒店评价文本情感分析（python开发源码+项目说明）.zip: 基于Hadoop Mapreduce 实现酒店评价文本情感分析（python开发源码+项目说明）.zip基于Hadoop Mapreduce 实现酒店评价文本情感分析（python开发源码+项目说明）.zip基于Hadoop Mapreduce 实现酒店评价文本情感分析...

mrnmf:MapReduce 中的非负矩阵分解: 此代码提供了描述的大规模近可分离非负矩阵分解的 MapReduce 实现。该实现使用 Hadoop 和 Python 流，由 Dumbo 和 Feathers 支持。给定一个大小为m x n的数据矩阵X ，具有m >> n和非负项，我们对可分离的非负矩阵...

基于Hadoop的物品租赁管理系统-基于Web的基于Hadoop的物品租赁系统设计与实现-基于Hadoop的物品租赁管理系统ja: 基于Hadoop的物品租赁系统-基于Hadoop的物品租赁系统源码-基于Hadoop的物品租赁管理系统-基于Hadoop的物品租赁管理系统java代码-基于Hadoop的物品租赁系统设计与实现-基于springboot的基于Hadoop的物品租赁系统-...

基于hadoop的好友推荐系统: 基于hadoop的好友推荐系统使用 MapReduce 内含系统说明文件

基于Hadoop的校园网盘的设计与实现 (2).pdf: 基于Hadoop的校园网盘的设计与实现 (2).pdf基于Hadoop的校园网盘的设计与实现 (2).pdf基于Hadoop的校园网盘的设计与实现 (2).pdf基于Hadoop的校园网盘的设计与实现 (2).pdf基于Hadoop的校园网盘的设计与实现 (2).pdf...

( Hadoop Streaming编程实战（C++、PHP、Python）.pdf ): ( Hadoop Streaming编程实战（C++、PHP、Python）.pdf ) ( Hadoop Streaming编程实战（C++、PHP、Python）.pdf )

基于hadoop+hbase+springboot实现的分布式网盘系统，适合本科毕业设计: 基于hadoop+hbase+springboot实现的分布式网盘系统，适合本科毕业设计资源包含的整个demo在Hadoop，和Hbase环境搭建好了，可以启动起来。技术选型 1.Hadoop 2.Hbase 3.SpringBoot ...... 系统实现的功能 1.用户...

基于Hadoop的电影推荐系统的设计与实现源码（毕业设计）java+Hadoop: 基于Hadoop的电影推荐系统的设计与实现源码（毕业设计）java+Hadoop，使用Hadoop2.7，jdk1.8；分为前台，后台和推荐三个子系统，可直接运行。sql私信

基于Hadoop的物品租赁系统-基于Hadoop的物品租赁管理系统java代码-基于springboot的基于Hadoop的物品: 基于Hadoop的物品租赁系统-基于Hadoop的物品租赁系统源码-基于Hadoop的物品租赁管理系统-基于Hadoop的物品租赁管理系统java代码-基于Hadoop的物品租赁系统设计与实现-基于springboot的基于Hadoop的物品租赁系统-...

基于Hadoop的数据挖掘算法研究与实现: 三、基于Hadoop平台,设计并实现了数据挖掘系统,.,系统封装了底层的Hadoop系统接口,提供了本文介绍的几种聚类算法服务。系统自顶向下的逻辑层次分别为用户层、服务引擎层、挖掘引擎层、底层Hadoop驱动层。四、研究...

论文研究-基于Hadoop Streaming的Last比对软件并行化的研究与实现.pdf: 使用Hadoop Streaming技术将Last比对软件快速部署到云计算环境中，解决当前单机版Last比对软件处理大数据能力差的问题。通过自定义的基于NFS 文件系统的数据集切分方法和基于Partitioner的任务分配方式能够实现均衡...

Global site tag (gtag.js) - Google Analytics