大数据应用正改变着企业的业务发展方式。比如:京东、天猫通过对交易数据的“二次利用”,寻找目标客户、定向推荐商品。
也正是这些数据的二次利用给他们提供了大量价值,促进了这些企业的发展,推动着他们在营销、供应链与客户服务等领域的管理变革。同时,交易数据并不因为二次利用,而降低其价值;这也是,大数据应用与传统资源使用不同的地方。
数据的“混搭”分析,推动着商业发展和社会的进步。比如历史天气信息与航班误点信息,这两个不同领域的信息一块儿分析,便可以推算未来几天航班的误点率。
再比如,通过神经中枢肿瘤患病率和手机使用时间长短之间的大数据关联分析,来研究神经中枢肿瘤患病率是否与手机使用时间长短有关系等等。
大数据的应用,也促生了很多商业机会。随着大数据时代的到来,形成了很多大数据拥有公司,以及大数据技术公司;数据与技术的结合变促生了很多大数据应用,因此带来了很多商业机会。
例如,现在很多商业银行对自己大量客户的交易信息分析,规划新的理财产品,与其他商家合作,联合搞定向促销等等。
再次,大数据时代不再有个人隐私,将形成新的信息安全机制。
大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产,简单来说大数据就是海量的数据,就是数据量大、来源广、种类繁多(日志、视频、音频),大到PB级别,现阶段的框架就是为了解决PB级别的数据。
大数据的7大特征:海量性,多样性,高速性,可变性,真实性,复杂性,价值性。
随着大数据产业的发展,它逐渐从一个高端的、理论性的概念演变为具体的、实用的理念。
很多情况下大数据来源于生活。比如你点外卖,准备什么时候买,你的位置在哪,商家位置在哪,想吃什么……这都是数据,人一多各种各样的信息就越多,还不断增长,把这些信息集中,就是大数据。
大数据的价值并不是在这些数据上,而是在于隐藏在数据背后的——用户的喜好、习惯还有信息。
随着信息技术和人类生产生活交汇融合,全球数据呈现爆发增长、海量集聚的特点。无论是国家、企业还是社会公众,都越来越认识到数据的价值。因此,近年来,各地纷纷成立大数据发展局,企业纷纷推动数据资产治理,大数据辐射的行业也从传统的电信、金融逐渐扩展到工业、医疗、教育等。一时间,仿佛各行各业都在谈大数据,人人都在谈大数据。但也有声音说大数据迎来了“七年之痒”,面对大数据热潮也需要一些“冷思考”。我国大数据究竟发展得如何?未来我国大数据发展还有哪些机遇和挑战?
1、大数据产业进展显著
过去几年,大数据理念已经深入人心,“用数据说话”已经成为所有人的共识,数据也成了堪比石油、黄金、钻石的战略资源。五年来,我国大数据产业政策日渐完善,技术、应用和产业都取得了非常明显的进展。
在政策方面,我国从中央到地方的大数据政策体系已经基本完善,目前已经进入落地实施阶段。自从2014年“大数据”这个词写入政府工作报告以来,我国大数据发展的政策环境掀开了全新的篇章。在顶层设计上,国务院《促进大数据发展行动纲要》对政务数据共享开放、产业发展和安全三方面做了总体部署。《政务信息资源共享管理暂行办法》《大数据产业发展规划(2016-2020)》等文件也都已经出台。十九大报告中提出“推动大数据与实体经济深度融合”,“十三五”规划中提出“实施国家大数据战略”。卫健、农业、环保、检察、税务等部门还出台了领域大数据发展的具体政策。截至2019年初,所有省级行政区都发布了大数据相关的发展规划,十几个省市设立了大数据管理局,8个国家大数据综合试验区、11个国家工程实验室启动建设。可以说,大数据的政策体系已经基本搭建完成,目前已经纷纷进入落地实施甚至评估检查阶段。
在技术方面,我国大数据技术发展属于“全球第一梯队”,但国产核心技术能力严重不足。我国独有的大体量应用场景和多类型实践模式,促进了大数据领域技术创新速度和能力水平,处于国际领先地位。在技术全面性上,我国平台类、管理类、应用类技术均具有大面积落地案例和研究;在应用规模方面,我国已经完成大数据领域的最大集群公开能力测试,达到了万台节点;在效率能力方面,我国大数据产品在国际大数据技术能力竞争平台上也取得了前几名的好成绩;在知识产权方面,2018年我国大数据领域专利公开量约占全球的40%,位居世界第二。但我国大数据技术大部分为基于国外开源产品的二次改造,核心技术能力亟待加强。例如,目前国内主流大数据平台技术中,自研比例不超过10%。
在产业方面,我国大数据产业多年来保持平稳快速增长,但面临提质增效的关键转型。2018年,我国大数据产业延续多年来的增速,继续保持相对高速的增长。根据中国信息通信研究院的测算,2018年我国大数据产业整体规模有望达到5400亿元,同比增长15%。然而,综合国内外环境、新兴技术发展等多种因素,大数据产业的增速出现了下滑。我国的大数据产业也面临着从高速发展向高质量发展的关键转型期。
在应用方面,大数据的行业应用更加广泛,正加速渗透到经济社会的方方面面。随着大数据工具的门槛降低以及企业数据意识的不断提升,越来越多的行业开始尝到大数据带来的“甜头”。无论是从新增企业数量、融资规模还是应用热度来说,与大数据结合紧密的行业正在从传统的电信业、金融业扩展到政务、健康医疗、工业、交通物流、能源行业、教育文化等,行业应用“脱虚向实”趋势明显,与实体经济的融合更加深入。
2、产业的五大困局
虽然我国大数据总体发展形势良好,也面临难得的发展机遇,但仍然存在一些困难和问题。
一是,涉及核心技术的产业发展薄弱,未能有效提升我国核心技术竞争力。核心技术的影响力在大数据产业有着极高的重要性。由于大数据企业在完成产品开发后,可以近乎零成本无限制的复制,因此拥有核心技术的大企业,很容易将技术优势转化为市场优势,即凭借具体的信息产品赢得海量用户获得垄断地位。当前,从大数据技术与产品的供给侧看,我国虽然在局部技术实现了单点突破,但大数据领域系统性、平台级核心技术创新仍不多见。大数据处理工具都是“他山之石”,大部分企业用的都是国外的数据采集、数据处理、数据分析、数据可视化技术,自主核心技术突破还有待时日。尤其是开源产品的技术标准方面,我国的影响力尚亟待提升。
二是,数据孤岛和壁垒降低了大数据产业资源配置效率。大数据产业发展必须实现数据信息的自由流动和共享,如果数据不开放、不共享,数据整合就不能实现,数据价值也会大大降低。无论是政府数据、互联网数据还是其他数据,数据拥有者往往不愿对其进行开放流通。受制于前期信息基础设施建设,目前我国政府数据往往还存在着诸多“数据孤岛”和“数据烟囱”,数据价值难以发挥。
三是,数据安全管理薄弱增加了大数据产业的发展风险。大数据技术为经济社会发展带来创新活力的同时,也使数据安全、个人信息保护乃至大数据平台安全等面临新威胁与新风险。海量多源数据在大数据平台汇聚,来自多个用户的数据可能存储在同一个数据池中,并分别被不同用户使用,极易引发数据泄露风险。利用大数据技术对海量数据(21.90 -5.19%,诊股)进行挖掘分析所得结果可能包含涉及国家经济社会等各方面的敏感信息,需要对分析结果的共享和披露加强安全管理。
四是,产业垄断与恶性竞争现象频发,“劣币驱逐良币”现象明显。由于资源型产业门槛低、利润高,新兴的大数据企业往往首先将目光盯在获取数据资源上面。大量依托数据资源优势的企业诞生,为大数据产业带来了低附加值的垄断经济模式,使得依靠技术壁垒打江山的企业不得不面对残酷的市场竞争,放缓了技术研发的步伐。同时,数据垄断问题也愈发明显。少数互联网巨头企业拥有巨大数据,不但对产业发展不利,甚至存在巨大的数据聚集隐患。
五是,各地发展同质化严重,普遍存在重存储轻应用的现象。由于缺乏统一的大数据产业分类统计体系和产业运行监测手段,各地大数据产业的定位相似,同质化竞争加剧。而盲目的重复建设,更是可能导致大数据产业过剩。同时,由于部分地区信息化发展程度有限,大数据应用场景不够丰富,更是以数据中心等大数据存储设施的建设作为发展大数据产业的关键,且规模巨大,目标动辄以百万台计,后期若无法有效利用,将造成巨大的资源浪费。
目前阶段大数据技术及体系已经逐渐趋于成熟,不再是以概念贯穿的模式,大数据越来越多的被使用,伴随互联网化的发展更多的企业信息化已经由IT时代转变为DT时代,以数据为核心,用数据进行决策,基于数据驱动企业的创新与发展,相信在将来大数据也会有更广泛的应用空间,对于大数据的理解主要分为以下几个层面。
1.数据来源:对于大数据时代而言更多强调基于业务数据的沉淀,在一定规模的数据上进行进一步的分析、处理、转换,更大的挖掘数据本身的价值,发挥数据的意义,当然就企业自身沉淀发展的数据而言很难达到“大”的定义,“大数据”目前更多依然是政府、行业、产业互联等形式获取数据,通过企业内部数据与行业数据的标杆对比实现适合企业自身的发展定位,促进企业自身的发展及业务模式的创新。
2.数据价值:通过产业数据、行业数据的获取、汇聚、处理、分析、归纳,通过一系列技术实现海量数据的快速计算、呈现,将结构化、半结构化的数据进行有效存储,对大量、动态、能持续的数据,通过运用新技术、新模型、新工具进行处理,从而获得具有洞察力和新的价值。更为科学、直观、准确的发挥数据价值,实现以数据为中心的大运营、大整合、大管控的模式支撑。
3.应用方式:目前就大环境而言,大数据更多应用于产业互联、行业分析、政务服务等环节,同时也在不同层面的进入人民的生活中,比如根据个人的兴趣爱好为其推送相关的文档链接,物品模式等。大数据拥有广泛的应用空间,结合大数据的应用进一步为企业、政府、人民生活提供更有针对性、有特色的服务。以数据为支撑作为企业战略的决策的支撑,提高数据汇总的及时性,从而进一步的提升企业的核心竞争力。
这些年大数据成了香饽饽,每个人都在谈论大数据,但是他们真的懂大数据么?我觉得并不是。
很多人看来,大数据其实就数据量级很大,毕竟名字就是这么起的。但,大数据真的只是这样吗?
如果要说大数据的话,就不得不提出IBM公司的5V理论:Volume(大量)、Velocity(高速)、Variety(多样性)、Value(价值)以及Veracity(真实性)。
1、Volume(大量)
这个特点也是被人们所熟知的,现在是大数据时代,每天产生的数据都是极其恐怖的,之前的MB,GB已经远远不足以描述当下的数据量,甚至只能使用ZB这种超大的数据单位来进行描述了。而处理大数据,相应的也必须使用分布式运算才可以实现。
2、Velocity(高速)
海量数据需要足够的储存空间,但处理速度也必须要很快,不然用户的使用体验将会极大受到打击,很难想象百度搜索在用户搜索关键词之后,1分钟才出现结果。如果大数据处理速度不快,这个事情还真会是个现实,甚至有过之而无不及。
3、Variety(多样性)
所谓的大数据,并不是我们传统的结构化数据,更应该说,大数据的爆炸增长,其实是来源于非传统的非结构化数据,也就是音频、视频、图片、地理位置等。这些数据区别于传统的二维结构,对数据处理的要求更高,也是大数据时代急需解决的问题。
4、Value(价值)
海量的数据是不是就代表着海量的价值,并不如此。相反,数据价值密度在大数据时代反而变得更低,用大浪淘沙来形容并不为过。那该如何进行高效的价值挖掘呢?这就需要使用当下的机器算法来解决了,譬如特征提取,聚类算法,分类,譬如自动识别人脸,对人来说很简单的事,对机器却很复杂。
5、Veracity(真实性)
上面四点,个人认为还不是最重要的,最重要的应该是真实性,也就是数据的质量。质量的好坏,直接保证了最终大数据输出的截止是否真实可靠。很多人会觉得大数据就一定会是真实的,并不如此,拿广告领域而言,作弊流量现象随处可见。因此,大数据一定会是真实的,并不如此。