大数据知识-中国指数网

大数据知识

来源：互联网日期：2015-10-12

分为大数据基本知识和大数据更新知识

（中国大数据网、中国统计网、199IT中文网等网站关于大数据知识、信息等的更新信息）

(大数据概念、大数据特点、大数据分析、大数据处理、大数据作用、大数据技术、大数据应用、大数据时代)

一、大数据时代

1. 数据的征服：读《大数据时代》

谷歌有一个名为“谷歌流感趋势”的工具，它通过跟踪搜索词相关数据来判断全美地区的流感情况（比如患者会搜索流感两个字）。近日，这个工具发出警告，全美的流感已经进入“紧张”级别。它对于健康服务产业和流行病专家来说是非常有用的，因为它的时效性极强，能够很好地帮助到疾病暴发的跟踪和处理。事实也证明，通过海量搜索词的跟踪获得的趋势报告是很有说服力的，仅波士顿地区，就有700例流感得到确认，该地区目前已宣布进入公共健康紧急状态。

这个工具工作的原理大致是这样的：设计人员置入了一些关键词（比如温度计、流感症状、肌肉疼痛、胸闷等），只要用户输入这些关键词，系统就会展开跟踪分析，创建地区流感图表和流感地图。谷歌多次把测试结果（蓝线）与美国疾病控制和预防中心的报告（黄线）做比对，从下图可知，两者结论存在很大相关性：

但它比线下收集的报告强在“时效性”上，因为患者只要一旦自觉有流感症状，在搜索和去医院就诊这两件事上，前者通常是他首先会去做的。就医很麻烦而且价格不菲，如果能自己通过搜索来寻找到一些自我救助的方案，人们就会第一时间使用搜索引擎。故而，还存在一种可能是，医院或官方收集到的病例只能说明一小部分重病患者，轻度患者是不会去医院而成为它们的样本的。

这就是一个典型的“大数据”的应用例子，舍恩伯格的这本《大数据时代》受到了广泛的赞誉，他本人也因此书被视为大数据领域中的领军人物。大数据起源于数据的充裕，舍恩伯格在他的另外一本书《删除》中，提到了这些源头。

1、信息的数字化，使得所有信息都可以得到一个完美的副本；2、存储器越来越廉价，大规模存储这些数字信息成本极低；3、易于提取：数据库技术的完善使得这些存储的信息能够被轻易按照一定的条件搜索出来；4、全球性覆盖，网络是无国界的，a地的数字信息可以让远在天边的b地调用。

当我们掌握有大量的数据后，便可以开始进行所谓“大数据”的操作。大数据在舍恩伯格看来，一共具有三个特征：全样而非抽样，效率而非精确，相关而非因果。

第一个特征非常好理解。在过去，由于缺乏获取全体样本的手段，人们发明了“随机调研数据”的方法。理论上，抽取样本越随机，就越能代表整体样本。但问题是获取一个随机样本代价极高，而且很费时。人口调查就是典型一例，一个稍大一点的国家甚至做不到每年都发布一次人口调查，因为随机调研实在是太耗时耗力了。

但有了云计算和数据库以后，获取足够大的样本数据乃至全体数据，就变得非常容易了。谷歌可以提供谷歌流感趋势的原因就在于它几乎覆盖了7成以上的北美搜索市场，而在这些数据中，已经完全没有必要去抽样调查这些数据：数据仓库，所有的记录都在那里躺着等待人们的挖掘和分析。

第二点其实建立在第一点的基础上。过去使用抽样的方法，就需要在具体运算上非常精确，因为所谓“差之毫厘便失之千里”。设想一下，在一个总样本为1亿人口随机抽取1000人，如果在1000人上的运算出现错误的话，那么放大到1亿中会有多大的偏差。但全样本时，有多少偏差就是多少偏差而不会被放大。诺维格，谷歌人工智能专家，在他的论文中写道：大数据基础上的简单算法比小数据基础上的复杂算法更加有效。

数据分析并非目的就是数据分析，而是有其它用途，故而时效性也非常重要。精确的计算是以时间消耗为代价的，但在小数据时代，追求精确是为了避免放大的偏差而不得已为之。但在样本=总体的大数据时代，“快速获得一个大概的轮廓和发展脉络，就要比严格的精确性要重要得多”。

第三个特征则非常有趣。相关性表明变量A和变量B有关，或者说A变量的变化和B变量的变化之间存在一定的正比（或反比）关系。但相关性并不一定是因果关系（A未必是B的因）。

亚马逊的推荐算法非常有名，它能够根据消费记录来告诉用户你可能会喜欢什么，这些消费记录有可能是别人的，也有可能是该用户历史上的。但它不能说出你为什么会喜欢的原因。难道大家都喜欢购买A和B，就一定等于你买了A之后的果就是买B吗？未必，但的确需要承认，相关性很高——或者说，概率很大。

舍恩伯格认为，大数据时代只需要知道是什么，而无需知道为什么，就像亚马逊推荐算法一样，知道喜欢A的人很可能喜欢B但却不知道其中的原因。这本书的译者天才教授周涛则有不同的看法，他认为，“放弃对因果性的追求，就是放弃了人类凌驾于计算机之上的智力优势，是人类自身的放纵和堕落”。

这个争议在我看来，双方讨论的可能不是一回事。舍恩伯格在这本书中完全不像他在《删除》一书中表现得那么有人文关怀，这是一本纯商业的书籍，商业本来就是以结果为导向的。但周涛谈论的却和“人工智能”有关。

吴军在他的《数学之美》中曾经提到，人工智能领域曾经走过一个很大的弯路，即人们总是试图让计算机理解人类的指令——注意，是理解，不是知道。但折腾了很多年，发现计算机的理解力实在白痴得比三岁小孩还要弱。最终人工智能放弃了这条途径，而改为数据传输和匹配。举个例子说，你在进行语音输入的时候，事实上计算机完全不知道你在说什么（或者说，完全不理解你的意思），但不妨碍它能够准确地把你说的话尽可能地用字符表达出来。苹果的Siri是很神奇，但它其实并不懂你的意思，而只是你的语音数据和它的后台数据一次匹配而已。

因果关系涉及到“理解”这个范畴，而不是简单的知道或匹配。舍恩伯格所谓放弃因果而寻求相关，是因为他本来就是写本商业书，要具体指导商业运作的，周涛所谓不可放弃因果，因为他是一名学者，并不完全站在赚钱这个角度上。换而言之，周涛看的是长远的未来，舍恩伯格讨论的是眼下。

在可以看到的未来中，可能计算机掌握不了三岁小孩的理解力，计算机和人类之间的象棋比赛，一个在思考，一个在做数据匹配，两者虽然都在下棋，路径却全然不同。人类可以暂时不用过于担心计算机来统治人类，因果关系这种理解，还是掌握在人类手中的。

大数据时代是信息社会运作的必然结果，而借由它，人类的信息社会更上一个台阶。农业社会人们以土地为核心资源，工业时代转为能源，信息社会则将变更为数据。谁掌握数据，以及数据分析方法，谁就将在这个大数据时代胜出，无论是商业组织，还是国家文明。

—— 《网络传播》供稿 ——

2. 大数据时代BI王者之剑—SAS企业挖掘系统

大数据的爆炸式增长在大容量、多样性和高增速方面，全面考验着现代企业的数据处理和分析能力；同时，也为企业带来了获取更丰富、更深入和更准确地洞察市场行为的大量机会。对企业而言，能够从大数据中获得全新价值的消息是令人振奋的。然而，如何从大数据中发掘出“真金白银”则是一个现实的挑战。这就要求采用一套全新的、对企业决策具有深远影响的解决方案。

SAS企业挖掘系统(SAS/Enterprise Miner)广泛应用于解决欺诈侦测、雇员流动、客户获取与维持、网络销售、市场细分、风险分析、亲和性分析、客户满意度、破产预测和投资组合分析等多样化问题。根据大数据时代的企业挖掘的特征，SAS INSTITUTE提出了数据挖掘的SEMMA方法论——在SAS/EM环境中，数据挖掘过程被划分为Sample、Explore、Modify、Model、Assess这五个阶段，简记为SEMMA:

1.Sample抽取一些代表性的样本数据集(通常为训练集、验证集和测试集)。样本容量的选择标准为：包含足够的重要信息，同时也要便于分析操作。该步骤涉及的处理工具为：数据导入、合并、粘贴、过滤以及统计抽样方法。

2.Explore通过考察关联性、趋势性以及异常值的方式来探索数据，增进对于数据的认识。该步骤涉及的工具为：统计报告、视图探索、变量选择以及变量聚类等方法。

3.Modify以模型选择为目标，通过创建、选择以及转换变量的方式来修改数据集。该步骤涉及工具为：变量转换、缺失处理、重新编码以及数据分箱等。

4.Model为了获得可靠的预测结果，我们需要借助于分析工具来训练统计模型或者机器学习模型。该步骤涉及技术为：线性及逻辑回归、决策树、神经网络、偏最小二乘法、LARS及LASSO、K近邻法以及其他用户(包括非SAS用户)的模型算法。

5.Assess评估数据挖掘结果的有效性和可靠性。涉及技术为：比较模型及计算新的拟合统计量、临界分析、决策支持、报告生成、评分代码管理等。数据挖掘者可能不会使用全部SEMMA分析步骤。然而，在获得满意结果之前，可能需要多次重复其中部分或者全部步骤。

在完成SEMMA步骤后，可将从优选模型中获取的评分公式应用于(可能不含目标变量的)新数据。将优选公式应用于新数据，这是大多数数据挖掘问题的目标。此外，先进的可视化工具使得用户能在多维直方图中快速、轻松地查阅大量数据并以图形化方式比较模拟结果。SAS/EM包括了一些非同寻常的工具，比如：能用来产生数据挖掘流程图的完整评分代码(SAS、C以及Java代码)的工具，以及交换式进行新数据评分计算和考察执行结果的工具。

如果您将优选模型注册进入SAS元数据服务器，便可以让SAS/EG和SAS/DI Studio的用户分享您的模型，从而将优选模型的评分代码整合进入工作报告和生产流程之中。SAS模型管理系统，通过提供了开发、测试和生产系列环境的项目管理结构，进一步补充了数据挖掘过程，实现了与SAS/EM的无缝联接。

在SAS/EM环境中，您可以从SEMMA工具栏上拖放节点进入工作区的工艺流程图中，这种流程图驱动着整个数据挖掘过程。SAS/EM的图形用户界面(GUI)是按照这样的思路来设计的：一方面，掌握少量统计知识的商务分析者可以浏览数据挖掘过程的技术方法；另一方面，具备数量分析技术的专家可以微调方式深入探索每一个分析节点。

SAS/EM使得评分过程实现了自动化，并提供模型开发所有阶段的完整代码(SAS、C、Java和PMML)。评分代码可以部署在在SAS系统、互联网或者关系数据库等实时或批处理环境中。

SAS/EM视频链接:http://www.tudou.com/programs/view/NHisFCskxAE/

http://v.youku.com/v_show/id_XNDg2MTA1Mjg4.html

大数据时代的企业需要基于海量数据进行探索和分析，以发现有意义的商务行为模式和规则。在商务智能领域，SAS Institute的产品凭籍其卓越性能足以傲视群雄，企业挖掘系统则如同具有精灵魔力的王者之剑，令尊贵的企业用户爱不释手。SAS/EM具备了一系列适于大数据挖掘的显著特征：(1)内涵丰富的SEMMA工具箱、(2)基于元数据理念的精确建模技术、(3)友好的、流程图式的数据挖掘模式、(4)独具特色的数据处理、存储、分析、呈现及共享方式。这些特征均使得商务挖掘过程能够以简练、流畅而高效的方式顺利进行。

二、大数据概念

"大数据"是一个体量特别大，数据类别特别大的数据集，并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理。 "大数据"首先是指数据体量(volumes)?大，指代大型数据集，一般在10TB?规模左右，但在实际应用中，很多企业用户把多个数据集放在一起，已经形成了PB级的数据量；其次是指数据类别(variety)大，数据来自多种数据源，数据种类和格式日渐丰富，已冲破了以前所限定的结构化数据范畴，囊括了半结构化和非结构化数据。接着是数据处理速度（Velocity）快，在数据量非常庞大的情况下，也能够做到数据的实时处理。最后一个特点是指数据真实性（Veracity）高，随着社交数据、企业内容、交易与应用数据等新数据源的兴趣，传统数据源的局限被打破，企业愈发需要有效的信息之力以确保其真实性及安全性。

百度百科：大数据(big data)，或称巨量资料，指的是所涉及的资料量规模巨大到无法通过目前主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。（在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中[2]大数据指不用随机分析法（抽样调查）这样的捷径，而采用所有数据的方法）大数据的4V特点：Volume（大量）、Velocity（高速）、Variety（多样）、Value（价值）。

互联网周刊："大数据"的概念远不止大量的数据（TB）和处理大量数据的技术，或者所谓的"4个V"之类的简单概念，而是涵盖了人们在大规模数据的基础上可以做的事情，而这些事情在小规模数据的基础上是无法实现的。换句话说，大数据让我们以一种前所未有的方式，通过对海量数据进行分析，获得有巨大价值的产品和服务，或深刻的洞见，最终形成变革之力。

研究机构Gartner："大数据"是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看，"大数据"指的是无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。亚马逊网络服务（AWS）、大数据科学家JohnRauser提到一个简单的定义：大数据就是任何超过了一台计算机处理能力的庞大数据量。研发小组对大数据的定义："大数据是最大的宣传技术、是最时髦的技术，当这种现象出现时，定义就变得很混乱。" Kelly说："大数据是可能不包含所有的信息，但我觉得大部分是正确的。对大数据的一部分认知在于，它是如此之大，分析它需要多个工作负载，这是AWS的定义。当你的技术达到极限时，也就是数据的极限"。大数据不是关于如何定义，最重要的是如何使用。最大的挑战在于哪些技术能更好的使用数据以及大数据的应用情况如何。这与传统的数据库相比，开源的大数据分析工具的如Hadoop的崛起，这些非结构化的数据服务的价值在哪里。

三、大数据特点

要理解大数据这一概念，首先要从"大"入手，"大"是指数据规模，大数据一般指在10TB(1TB=1024GB)规模以上的数据量。大数据同过去的海量数据有所区别，其基本特征可以用4个V来总结(Vol-ume、Variety、Value和Veloc-ity)，即体量大、多样性、价值密度低、速度快。

大量化(Volume)：企业面临着数据量的大规模增长。例如，IDC最近的报告预测称，到2020年，全球数据量将扩大50倍。目前，大数据的规模尚是一个不断变化的指标，单一数据集的规模范围从几十TB到数PB不等。简而言之，存储1PB数据将需要两万台配备50GB硬盘的个人电脑。此外，各种意想不到的来源都能产生数据。

多样化(Variety)：一个普遍观点认为，人们使用互联网搜索是形成数据多样性的主要原因，这一看法部分正确。然而，数据多样性的增加主要是由于新型多结构数据，以及包括网络日志、社交媒体、互联网搜索、手机通话记录及传感器网络等数据类型造成。其中，部分传感器安装在火车、汽车和飞机上，每个传感器都增加了数据的多样性。

快速化(Velocity)：高速描述的是数据被创建和移动的速度。在高速网络时代，通过基于实现软件性能优化的高速电脑处理器和服务器，创建实时数据流已成为流行趋势。企业不仅需要了解如何快速创建数据，还必须知道如何快速处理、分析并返回给用户，以满足他们的实时需求。根据IMS Research关于数据创建速度的调查，据预测，到2020年全球将拥有220亿部互联网连接设备。

价值（Value）密度低：大量的不相关信息，浪里淘沙却又弥足珍贵。对未来趋势与模式的可预测分析，深度复杂分析（机器学习、人工智能Vs传统商务智能(咨询、报告等）。

四、大数据分析

五、大数据技术

数据采集：ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成，最后加载到数据仓库或数据集市中，成为联机分析处理、数据挖掘的基础。

数据存取：关系数据库、NOSQL、SQL等。

基础架构：云存储、分布式文件存储等。

数据处理：自然语言处理(NLP，NaturalLanguageProcessing)是研究人与计算机交互的语言问题的一门学科。处理自然语言的关键是要让计算机"理解"自然语言，所以自然语言处理又叫做自然语言理解(NLU，NaturalLanguage Understanding)，也称为计算语言学(Computational Linguistics。一方面它是语言信息处理的一个分支，另一方面它是人工智能(AI, Artificial Intelligence)的核心课题之一。

统计分析：假设检验、显著性检验、差异分析、相关分析、T检验、方差分析、卡方分析、偏相关分析、距离分析、回归分析、简单回归分析、多元回归分析、逐步回归、回归预测与残差分析、岭回归、logistic回归分析、曲线估计、因子分析、聚类分析、主成分分析、因子分析、快速聚类法与聚类法、判别分析、对应分析、多元对应分析（最优尺度分析）、bootstrap技术等等。

数据挖掘：分类（Classification）、估计（Estimation）、预测（Prediction）、相关性分组或关联规则（Affinity grouping or association rules）、聚类（Clustering）、描述和可视化、Description and Visualization）、复杂数据类型挖掘(Text, Web ,图形图像，视频，音频等)。

模型预测：预测模型、机器学习、建模仿真。

结果呈现：云计算、标签云、关系图等。

六、大数据作用：

大数据时代到来，认同这一判断的人越来越多。那么大数据意味着什么，他到底会改变什么？仅仅从技术角度回答，已不足以解惑。大数据只是宾语，离开了人这个主语，它再大也没有意义。我们需要把大数据放在人的背景中加以透视，理解它作为时代变革力量的所以然。

变革价值的力量：未来十年，决定中国是不是有大智慧的核心意义标准（那个"思想者"），就是国民幸福。一体现在民生上，通过大数据让有意义的事变得澄明，看我们在人与人关系上，做得是否比以前更有意义；二体现在生态上，通过大数据让有意义的事变得澄明，看我们在天与人关系上，做得是否比以前更有意义。总之，让我们从前10年的意义混沌时代，进入未来10年意义澄明时代。

变革经济的力量：生产者是有价值的，消费者是价值的意义所在。有意义的才有价值，消费者不认同的，就卖不出去，就实现不了价值；只有消费者认同的，才卖得出去，才实现得了价值。大数据帮助我们从消费者这个源头识别意义，从而帮助生产者实现价值。这就是启动内需的原理。

变革组织的力量：随着具有语义网特征的数据基础设施和数据资源发展起来，组织的变革就越来越显得不可避免。大数据将推动网络结构产生无组织的组织力量。最先反映这种结构特点的，是各种各样去中心化的WEB2.0应用，如RSS、维基、博客等。大数据之所以成为时代变革力量，在于它通过追随意义而获得智慧。

七、大数据处理

具体的大数据处理方法有很多，一个普遍适用的处理流程可以概括为四步，分别是采集、导入和预处理、统计和分析，最后是数据挖掘。

大数据处理之一：采集

大数据的采集是指利用多个数据库来接收发自客户端（Web、App或者传感器形式等）的数据，并且用户可以通过这些数据库来进行简单的查询和处理工作。比如，电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据，除此之外，Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。

在大数据的采集过程中，其主要特点和挑战是并发数高，因为同时有可能会有成千上万的用户来进行访问和操作，比如火车票售票网站和淘宝，它们并发的访问量在峰值时达到上百万，所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。

大数据处理之二：导入/预处理

虽然采集端本身会有很多数据库，但是如果要对这些海量数据进行有效的分析，还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库，或者分布式存储集群，并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算，来满足部分业务的实时计算需求。

导入与预处理过程的特点和挑战主要是导入的数据量大，每秒钟的导入量经常会达到百兆，甚至千兆级别。

大数据处理之三：统计/分析

统计与分析主要利用分布式数据库，或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等，以满足大多数常见的分析需求，在这方面，一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata，以及基于MySQL的列式存储Infobright等，而一些批处理，或者基于半结构化数据的需求可以使用Hadoop。

统计与分析这部分的主要特点和挑战是分析涉及的数据量大，其对系统资源，特别是I/O会有极大的占用。

大数据处理之四：数据挖掘

与前面统计和分析过程不同的是，数据挖掘一般没有什么预先设定好的主题，主要是在现有数据上面进行基于各种算法的计算，从而起到预测（Predict）的效果，从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes，主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂，并且计算涉及的数据量和计算量都很大，常用数据挖掘算法都以单线程为主。
整个大数据处理的普遍流程至少应该满足这四个方面的步骤，才能算得上是一个比较完整的大数据处理。

八、大数据应用

大数据应用案例之：医疗行业

[1]Seton Healthcare是采用IBM最新沃森技术医疗保健内容分析预测的首个客户。该技术允许企业找到大量病人相关的临床医疗信息，通过大数据处理，更好地分析病人的信息。

[2]在加拿大多伦多的一家医院，针对早产婴儿，每秒钟有超过3000次的数据读取。通过这些数据分析，医院能够提前知道哪些早产儿出现问题并且有针对性地采取措施，避免早产婴儿夭折。

[3]它让更多的创业者更方便地开发产品，比如通过社交网络来收集数据的健康类App。也许未来数年后，它们搜集的数据能让医生给你的诊断变得更为精确，比方说不是通用的成人每日三次一次一片，而是检测到你的血液中药剂已经代谢完成会自动提醒你再次服药。

大数据应用案例之：能源行业

[1]智能电网现在欧洲已经做到了终端，也就是所谓的智能电表。在德国，为了鼓励利用太阳能，会在家庭安装太阳能，除了卖电给你，当你的太阳能有多余电的时候还可以买回来。通过电网收集每隔五分钟或十分钟收集一次数据，收集来的这些数据可以用来预测客户的用电习惯等，从而推断出在未来2~3个月时间里，整个电网大概需要多少电。有了这个预测后，就可以向发电或者供电企业购买一定数量的电。因为电有点像期货一样，如果提前买就会比较便宜，买现货就比较贵。通过这个预测后，可以降低采购成本。

[2]维斯塔斯风力系统，依靠的是BigInsights软件和IBM超级计算机，然后对气象数据进行分析，找出安装风力涡轮机和整个风电场最佳的地点。利用大数据，以往需要数周的分析工作，现在仅需要不足1小时便可完成。

大数据应用案例之：通信行业

[1]XO Communications通过使用IBM SPSS预测分析软件，减少了将近一半的客户流失率。XO现在可以预测客户的行为，发现行为趋势，并找出存在缺陷的环节，从而帮助公司及时采取措施，保留客户。此外，IBM新的Netezza网络分析加速器，将通过提供单个端到端网络、服务、客户分析视图的可扩展平台，帮助通信企业制定更科学、合理决策。

[2]电信业者透过数以千万计的客户资料，能分析出多种使用者行为和趋势，卖给需要的企业，这是全新的资料经济。

[3]中国移动通过大数据分析，对企业运营的全业务进行针对性的监控、预警、跟踪。系统在第一时间自动捕捉市场变化，再以最快捷的方式推送给指定负责人，使他在最短时间内获知市场行情。

[4]NTT docomo把手机位置信息和互联网上的信息结合起来，为顾客提供附近的餐饮店信息，接近末班车时间时，提供末班车信息服务。

大数据应用案例之：零售业

[1]"我们的某个客户，是一家领先的专业时装零售商，通过当地的百货商店、网络及其邮购目录业务为客户提供服务。公司希望向客户提供差异化服务，如何定位公司的差异化，他们通过从Twitter和Facebook上收集社交信息，更深入的理解化妆品的营销模式，随后他们认识到必须保留两类有价值的客户：高消费者和高影响者。希望通过接受免费化妆服务，让用户进行口碑宣传，这是交易数据与交互数据的完美结合，为业务挑战提供了解决方案。"Informatica的技术帮助这家零售商用社交平台上的数据充实了客户主数据，使他的业务服务更具有目标性。

[2]零售企业也监控客户的店内走动情况以及与商品的互动。它们将这些数据与交易记录相结合来展开分析，从而在销售哪些商品、如何摆放货品以及何时调整售价上给出意见，此类方法已经帮助某领先零售企业减少了17%的存货，同时在保持市场份额的前提下，增加了高利润率自有品牌商品的比例。

上一篇：大数据技术

下一篇：已经是最后一篇

综合指数

更多>>

	指数名称	数值	幅度	详细