网络大数据是指“人,机,物”三元世界在网络空间中交互、融合所产生并且在互联网上可获得的大数据,这些数据具有多源异构、交互性、时效性、社会性、突发性和高噪声等特点,不但非结构化数据多,而且数据的时效性强,网络大数据背后蕴含着丰富的、复杂关联的知识网络,有效利用网络大数据价值就是数据的去冗分类、去粗取精,从数据中挖掘出知识,对大数据网络背后的知识进行深入分析。

本文从三个方面分析大数据在淘宝电子商务模式中的应用,大数据分别在卖家,卖家,淘宝网企业自身的应用。淘宝数据分析我们离不开淘宝平台商品详情API接口的调用。
首先看看淘宝网的大数据应用之路。[2]

从图中可以看出,淘宝数据的应用不止可以应用于自身的战略服务,还有应用于针对卖家的数据产品,还有针对分析消费者行为的大数据分析[3][4]
简而言之就是从买家的足迹关注等等行为进行相关性分析,相关性分析的鼻祖是抽样分析,但是大数据反其道而行之把整个总体当成样本,每个个体都是[5]。由此我们可以看看淘宝的推荐系统。淘宝推荐方式是多种多样的,主要是通过分布式推荐系统,以及,许多著名的电子商务网站都在其服务平台中加入了推荐引擎,如亚马逊、淘宝、京东商城等。 传统的推荐算法主要有基于协同过滤的推荐、基于关联规则的推荐算法。而推荐系统的步骤主要是1.获取用户浏览记录2.构建推荐系统的推荐模型3.推荐系统的安全性控制。[6]现在更流行的是分布式推荐。
其次是针对于卖家服务的数据产品[8]例如服务于卖家选货的数据魔方、宝贝运营大师、淘榜样、生e经,用于店铺分析的小艾分析、一键导购、店铺黄金眼等工具。
最后针对淘宝也就是阿里企业自身的数据服务。阿里巴巴是一个基于业务,通过数据分析手段发现和分析业务问题为决策作支持的企业,阿里巴巴是目前国内数据应用比较早的企业。从阿里内部的数据职位也可以看出,内部设置了数据挖掘工程师、数据研发工程师、数据分析师等等很多数据方面的职位。
本文着重介绍大数据在消费者行为中的作用,主要是大数据在淘宝推荐算法中的应用。

推荐算法的最终目的是要使用户对商品产生购物行为。在研究影响消费者购物行为的研究中有几个变量(用户收入水平,用户网购经验,、商品的价格、商品的质量、商家的信用评价、商家的服务质量、网站的知名度、网站的易用性、网站安全性、购物意向、购物行为)。
基于大数据的推荐行为主要有数据获取,数据清洗,数据分类,数据处理,数据存储5步,首先是数据的获取,淘宝网首先由强大的服务器和后台系统。
比较知名的是数据魔方和淘宝指数,但是淘宝指数已经在2016年3月23号下线。新的阿里指数已经上线。
当然最后呈现出来的阿里指数只是数据经过处理之后的结果,它是大数据经过分析之后的结果。
这些数值都是大数据来源的一部分,对这些获得大数据进行深入挖掘可以获得一部分人的喜好,然后根据顾客喜好进行推荐。
进行深入分析的方法主要有 协同过滤技术,基于关联规则的推荐算法,基于内容的推荐算法,混合推荐算法,基于知识的推荐算法,基于社会网络分析方法的推荐[9],基于社会网络结构的推荐[10]
比较新的应用于大数据时代工具有Hadoop平台,Hadoop是当今最流行的分布式计算平台。Hadoop是一个用于处理和分析大规模数据的分布式计算框架,使用起来非常方便,用户可以在完全不懂分布式计算底层细节的情况下利用Hadoop开发分布式系统。用户还可以利用协同计算和协同存储实现横向扩展。Hadoop的两大核心技术是HDFS和MapReduce这是Hadoop的架构原理。[7]
上文介绍的数据采集可以使用Hadoop提供的结构进行收集。上面的多条信息可以分为(1)淘宝网站中用户和商品相关的数据(2)从淘宝网站系统日志中提取出来的数据。数据采集接口可以根据不同推荐引擎需要来采集不同类型的数据。
然后进入数据筛选清洗的阶段,对不同类型的数据进行分类处理,将特征数据转化成特定数据格式,以便于后续的计算。然后数据转换接口可以对一些即时使用的数据进行缓存,对一些持久性的数据存储到HDFS文件系统。
最后是数据的使用阶段,Hadoop的推荐系统使用的是MapReduce分布式计算框架,使用的是并行化推荐[7]主要是 基于矩阵乘法的MapReduce计算和基于稀疏矩阵的MapReduce计算。传统的协同过滤(如两个用户购买了多个相同物品说明这两个用户相似),内容推荐(如两个商品有相似的关键词、分类等)或者根据用户不同行为得到不同的相关表。然后进行用户相似度计算和项目相似度计算,在进行评分预测就可以得到比较准确的用户推荐了。
实际上最受作者关注的是Hadoop平台对于淘宝推荐系统的作用,基于Hadoop设计的推荐系统可以不关注底层的推荐算法,就像java语句的书写,可以较少的关注底层的设计。Hadoop平台上可以实现分布式推荐算法让并行化算法较好的运行在Hadoop平台上。
淘宝是国内最早关注到大数据应用的企业之一,从它大数据应用可以看到大数据的应用需要结合具体的行业才是有效的。大数据的应用可以给企业带来很多意想不到的收益。在一个每天产生海量数据的时代我们需要利用好大数据才可以带来更大效益。