最近发现京东的评论也开始标签化了,虽然相对于淘宝的标签显得比较生硬,但是也可以看出标签化是评论的一个趋势,我个人比较喜欢看评论说话,作为一个IT工作者,曾经思考了下评论的标签化工作可能涉及的技术,正好微博有人问起,现在简单的整理如下。
评论标签化的作用
评论的标签化的作用首先体现在用户体验好了,相对于看评论,标签可读性更好,更加明了,用户一眼便能看出好坏,当然电商是不会把坏的结果给显示出来的;其次,标签化对电商来说也是一种更深入理解用户的需求的方法,因为标签化涉及到评论的数据分析,而评论是用户的感情,看法等多种要素混合在一起,通过评论可以将用户看的更加清楚。
评论标签化的技术
这里从原始评论到评论的标签化来简单说一下。京东摘录的几条评论如下:{确实可以,符合这个价格;很好很不错 性价比高;外观洋气,质量不错,发货很快,值得拥有(感觉这个像机器人发的)。相信品牌的力量,满意}它们的标签分别是{“性价比高”;“配置不错”;速度快看电影不错外观漂亮性价比高}
1.分词
首先是将评论进行分词,将每条评论分成词的集合,这里分词跟常用的分词器在词典上有较大的不同,这里的词典较多的是电商根据自己应用独有的,因为分词的好坏涉及到后续处理效果的好坏,所以第一步也是很重要的。在分词过程中可以对去除一些无用的词,或者将噪声太多的评论丢掉。
这里假设分词后的结果为:确实/可以/符合/价格/;很好/很不错/性价比高;外观洋气/质量不错/发货很快/值得拥有,这里分词只是举例,不一定准确。
2.聚类
这里的聚类涉及到两种,一种是词的聚类,另一种是评论的聚类。一般电商词典大小可能上千万维,常见的聚类算法效果不会好,具有降维效果的聚类算法应用较多,比如LDA,LFM,PLSA等,这类的算法是首先构造文档-词的矩阵,然后对矩阵进行分解,分解成两个低维的带有隐语义的矩阵,即文档-主题矩阵和词-主题矩阵,因为分解后的矩阵维度较低,可以对词和文档进行聚类找到给定主题下语义相关的词集合和文档集合。通常根据每篇文档出现哪些主题,哪些主题出现次数最多就选择出来作为展示结果,通常采用隐语义模型时,主题是不可描述的,可以统计该主题下哪些词出现频率最高作为该主题的描述,但是这些词一般可能较为书面化,需要转化为展示的标签。
比如矩阵分解完成之后:可以/很好/很不错属于一类,价格/性价比高属于另一类,简单点就可以将很好、性价比高等作为标签展示,
算法需要考虑的地方:就拿PLSA来说,评论一般比较短,意味这文档-词矩阵非常稀疏,一般会有亿级*亿级的大小,需要大规模的并行化运算,PLSA并行化主要是EM算法的并行化,原理比较简单,但是工作会很复杂,这和集群大小和并行策略有关。
3.评论的标签化
经过聚类之后,可以得到给定主题下语义相关的词的集合,可以将该主题下出现频率最高的词作为标签展示,但是一般电商会有专门的标签库,这里涉及到一个索引的过程,比如可以/很好/很不错这一类,可以将这一类标记为质量不错,当评论属于这一类的时候,可以根据这一类的词查找到这个要展示的标签,通常电商的标签库很大,应该有个自动发现的过程,不然靠人的工作效率太地下了。
4.其它补充
通过以上三个步骤,基本上能对评论打标签了,个人感觉,实现像淘宝一样的服务,需要很多牛人一起努力的,毕竟从算法到线上服务实在太多坑了。除了上面提到一些方法,还会涉及情感分析,分类等,考虑到评论在某些类别下具有相似性,可以分块进行聚类以降低复杂度等。
以上就简单的谈这么多,虽然有些研究,但是属于纸上谈兵,并没有运用到实际系统中,如果有机会,可能会尝试用在我们的评论系统中去。微博上有人发出了在知乎的讨论方案,淘宝的评论归纳是如何做的,有兴趣可以去那里看一下,有些细节和思路跟本文不太一样,同学习了。
分享到:
相关推荐
概述:使用这个附加组件,可以便捷的将国内主要的电商平台:淘宝、天猫、京东的详情页图片进行抓取,会将其图片抓取出来,组合成一张大图,并新开标签页供于下载。 描述: 使用这个附加组件,可以便捷的将国内主要的...
O2O生鲜电商商品标签的梳理和优化.pdf
根据电子商务客户消费订单表,退货表,用户表以及购物车表数据来源,以及客户参加活动信息表和客户购买的商店,客户访问信息表(访问来源时间段)等数据,提取不用维度的标签特征,同时提出针对营销需要的模型算法,...
第二章 淘宝电商平台分析 11 2.1 淘宝电商平台概述 11 2.2 淘宝电商平台架构 12 2.3 淘宝电商平台功能模块 13 2.4 淘宝电商平台技术架构 14 第三章 HTML基础知识 16 3.1 HTML概述 16 3.2 HTML标签 17 3.3 HTML表单 ...
3. **标签处理:** 对评论进行标签化,即为每个评论分配情感标签(积极、消极、中性)。 4. **模型构建:** 使用深度学习模型,例如循环神经网络(RNN)、长短时记忆网络(LSTM)、或者更先进的模型如Transformer,...
京东评论数据口红评论数据,2000条,分正负标签,xlsx格式
YiiPin是一款精仿《美丽说》网站的社会化购物分享系统程序,让您轻松拥有一个媲美《美丽说》、《蘑菇街》等网站的淘宝客网站,并且支持当当联盟、拍拍客联盟等十几家购物网站商品抓取分享。 系统采用了当下最...
电商数据为csv格式,由evalution和label两个字段组成,风别为用户评论和正负面标签。对原始的文本进行分词,转编码等预处理 模型训练:net.py和text_classification.py net.py:CNN模型和模型的参数 text_...
【目录】 一、京东搜索数据 二、京东搜索产品新架构 1、搜索新形态:店铺,活动、促销搜索 2、搜索核心形态:商品搜索 3、搜索导航体验:标签属性
Python 批量为电商数据添加tag标签 Python源码Python 批量为电商数据添加tag标签 Python源码Python 批量为电商数据添加tag标签 Python源码Python 批量为电商数据添加tag标签 Python源码Python 批量为电商数据添加tag...
京东产品分类,分一级二级三级标签,附带标签吗,二级标签不太准确
【资源说明】 1、该资源包括项目的全部源码,下载可以直接使用! 2、本项目适合作为计算机、数学、电子信息等专业的课程设计、期末大作业和...基于Spark和Elastic Search的电商营销系统用户标签子系统设计与实现.zip
本资源中的源码都是经过本地编译过可运行的,下载后按照文档配置好环境就可以运行。资源项目的难度比较适中,内容都是经过助教老师审定过的,应该能够满足学习、使用需求,如果有需要的话可以放心下载使用。...
方便自己以后查找,仿淘宝评论标签,默认显示两行标签内容,点击展开显示全部标签内容,点击收起显示两行内容
批量为电商数据添加tag标签.zip
批量为电商数据添加tag标签.rar
仿淘宝、京东商品详情上滑切换tab实现,实现基于: tablayout + recyclerview
仿淘宝、京东多重商品属性组合Sku标签 [注意:本资源来自网络,如有侵权,请联系我删除,谢谢。]
Delphi 窗口标签化测试