大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产,简单来说大数据就是海量的数据,就是数据量大、来源广、种类繁多(日志、视频、音频),大到PB级别,现阶段的框架就是为了解决PB级别的数据。
大数据的7大特征:海量性,多样性,高速性,可变性,真实性,复杂性,价值性。
随着大数据产业的发展,它逐渐从一个高端的、理论性的概念演变为具体的、实用的理念。
很多情况下大数据来源于生活。比如你点外卖,准备什么时候买,你的位置在哪,商家位置在哪,想吃什么……这都是数据,人一多各种各样的信息就越多,还不断增长,把这些信息集中,就是大数据。
大数据的价值并不是在这些数据上,而是在于隐藏在数据背后的——用户的喜好、习惯还有信息。
1、我理解的大数据就是:数据量大(Volume)、数据种类多样(Variety)、 要求实时性强(Velocity) 。对它关注也是因为它蕴藏的商业价值大(Value)。也是大数据的4V特性。符合这些特性的,叫大数据。
2、对它关注一个原因就它的大价值,比方ebay,建立的大数据分析平台可以准确分析用户的购物行为。通过对顾客的行为进行跟踪、对搜索关键字广告的投入产出进行衡量,优化后eBay 产品销售的广告费降低了99%,顶级卖家占总销售额的百分比却上升至32%。就大数据价值这一块,例子很多,详情可以再自己查查。
再一个对它关注的原因就是因为这么大量和复杂的数据确实不好管理,这样就有了处理大数据的一些技术,比如Hadoop。Hadoop是个开源的,像百度做搜索,就用Hadoop管理数据。淘宝在2011年11月11日,搞得优惠活动,你想想在零点的时候,淘宝点击有多高,每一笔买卖算一个数据请求,那怎么保证网站的正常运转啊?这些就是一些技术方面的关注了。
3、它的作用更多,拿球赛说,我们现在可以通过比赛录像找出对手缺点了。有个大数据应用是视频教练工具,用这个工具,球员可以比较和对比同一投球手的不同投球,或是几天或几周的投球情况的时间序列数据。
4、解决的问题。你问的大数据解决什么问题,应该是处理大数据的技术解决什么问题。通过我上面说的,你大概也能知道一点了,管理大规模的复杂数据需要用到大数据的技术,通过大数据的技术把这些大数据管理分析好了,可以使企业领导对各方面有更明确的认识,做出更好的决策。
总结下:大数据更多的体现数据的价值。各行业的数据都越来越多,在大数据情况下,如何保障业务的顺畅,有效的管理分析数据,能让领导层做出最有利的决策。这是关注大数据的原因。也是大数据技术要解决的问题。
这些都是我自己写的我个人的理解,供你参考。再有不明白的可以百度,或者加追问咱们共同探讨。嘿嘿。
这些年大数据成了香饽饽,每个人都在谈论大数据,但是他们真的懂大数据么?我觉得并不是。
很多人看来,大数据其实就数据量级很大,毕竟名字就是这么起的。但,大数据真的只是这样吗?
如果要说大数据的话,就不得不提出IBM公司的5V理论:Volume(大量)、Velocity(高速)、Variety(多样性)、Value(价值)以及Veracity(真实性)。
1、Volume(大量)
这个特点也是被人们所熟知的,现在是大数据时代,每天产生的数据都是极其恐怖的,之前的MB,GB已经远远不足以描述当下的数据量,甚至只能使用ZB这种超大的数据单位来进行描述了。而处理大数据,相应的也必须使用分布式运算才可以实现。
2、Velocity(高速)
海量数据需要足够的储存空间,但处理速度也必须要很快,不然用户的使用体验将会极大受到打击,很难想象百度搜索在用户搜索关键词之后,1分钟才出现结果。如果大数据处理速度不快,这个事情还真会是个现实,甚至有过之而无不及。
3、Variety(多样性)
所谓的大数据,并不是我们传统的结构化数据,更应该说,大数据的爆炸增长,其实是来源于非传统的非结构化数据,也就是音频、视频、图片、地理位置等。这些数据区别于传统的二维结构,对数据处理的要求更高,也是大数据时代急需解决的问题。
4、Value(价值)
海量的数据是不是就代表着海量的价值,并不如此。相反,数据价值密度在大数据时代反而变得更低,用大浪淘沙来形容并不为过。那该如何进行高效的价值挖掘呢?这就需要使用当下的机器算法来解决了,譬如特征提取,聚类算法,分类,譬如自动识别人脸,对人来说很简单的事,对机器却很复杂。
5、Veracity(真实性)
上面四点,个人认为还不是最重要的,最重要的应该是真实性,也就是数据的质量。质量的好坏,直接保证了最终大数据输出的截止是否真实可靠。很多人会觉得大数据就一定会是真实的,并不如此,拿广告领域而言,作弊流量现象随处可见。因此,大数据一定会是真实的,并不如此。
你好,大数据是指巨量的数据,指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。
当下,大数据技术作为新兴技术被许多互联网大厂所需,以华为为例。
1、华为云推出大数据稽核方案解决偷逃费。
很多朋友可能发现,部分省界收费站变少而ETC通道在增加,高速公路的出行体验比以前更加顺畅。然而,在公众体验节省费用、便捷通行等利好的同时,高速公路的管理运营单位却饱受新情况的困扰。
部分车主偷逃费方式多样化,包括换卡逃费、车头挂车分离逃费、倒换电子标签、ETC车道跟车逃费等。同时偷逃费行为向专业化、团伙化演变,给高速运营单位带来大量经济损失和严峻挑战。
目前收费卡口仍主要使用传统稽核方法。传统方式通常基于初步的车辆行驶异常信息作筛查依据,如频繁进出站等,却难以发现大量逃费,存在的主要问题是:。
大数据分析应用较少,缺乏数据深度分析。
基本以收费数据为主,视频/图片等辅助证据不足。
依赖大量人工进行稽核,效率低下。
针对传统稽核方法的不足之处,华为云正式推出高速公路大数据稽核解决方案。
该方案基于华为云业界领先的云数字平台,结合华为在高速公路行业的深厚积淀,利用大数据、人工智能、云计算等技术,实现了海量通行记录数据的偷逃费自动分析,并结合门架摄像头抓拍的图像记录实现偷逃费车辆的精准识别,保障高速业主收益。
华为云大数据稽核解决方案包括三大平台:。
AI边缘稽核平台,基于华为自研鲲鹏920和升腾310芯片+智能边缘平台IEF Edge架构,实现30+车辆特征和上万种车型的识别、稽核场景的实时处理,车辆通行照片的存储;。
大数据稽核平台,主要包括基础设施层、平台层、使能层、应用层:。
基础设施层:提供计算、存储、网络等基础资源。
平台层:提供智能数据湖平台DAYU、AI开发平台ModelArts、边缘管理平台IEF、数据库及中间件等通用平台及组件。
使能层:提供车辆识别算法、以图搜图、路径还原等基础能力。
应用层:包括稽核系统、客服系统等其他公共服务类系统,其中稽核系统主要实现偷逃费模型、通行记录分析、证据链管理、信用管理、黑白名单管理等稽核相关功能。
车辆特征训练开发平台,实现新的车型识别和车辆特征识别能力的持续提升,车辆异常通行照片的持久存储;其中ModelArts是一站式AI训练开发平台,提供车型和车辆特征的海量数据预处理及半自动化标注、大规模分布式训练、车辆识别模型自动化生成、云边按需部署模型等能力。
2、华为大数据工程师
华为云致力于为客户提供高度可信的业务运行环境,易获取、按需使用、弹性扩展的云安全服务,帮助客户保护云上的应用系统和重要数据,华为云已获得了CSA STAR、ISO安全体系等20多个安全合规认证,并在2018年就高分通过了等保四级测评。
目前,包括腾讯、阿里等互联网头部企业在内的大厂,均在积极使用大数据、云计算等技术为产品赋能。
例如最早使用大数据技术实现音乐推荐个性化的网易云音乐、在电商平台普遍使用的商品推荐功能等等,均是基于大数据技术运用的代表。
以华为为例,华为给1-3年经验的大数据开发工程师开到了高达4万的月薪,在其他大厂的招聘中30k-60k的大数据开发工程师,也只要1-3年工作经验,可以说大数据、云计算仍是当下的红利岗位。
希望我的回答对你有所帮助!
目前阶段大数据技术及体系已经逐渐趋于成熟,不再是以概念贯穿的模式,大数据越来越多的被使用,伴随互联网化的发展更多的企业信息化已经由IT时代转变为DT时代,以数据为核心,用数据进行决策,基于数据驱动企业的创新与发展,相信在将来大数据也会有更广泛的应用空间,对于大数据的理解主要分为以下几个层面。
1.数据来源:对于大数据时代而言更多强调基于业务数据的沉淀,在一定规模的数据上进行进一步的分析、处理、转换,更大的挖掘数据本身的价值,发挥数据的意义,当然就企业自身沉淀发展的数据而言很难达到“大”的定义,“大数据”目前更多依然是政府、行业、产业互联等形式获取数据,通过企业内部数据与行业数据的标杆对比实现适合企业自身的发展定位,促进企业自身的发展及业务模式的创新。
2.数据价值:通过产业数据、行业数据的获取、汇聚、处理、分析、归纳,通过一系列技术实现海量数据的快速计算、呈现,将结构化、半结构化的数据进行有效存储,对大量、动态、能持续的数据,通过运用新技术、新模型、新工具进行处理,从而获得具有洞察力和新的价值。更为科学、直观、准确的发挥数据价值,实现以数据为中心的大运营、大整合、大管控的模式支撑。
3.应用方式:目前就大环境而言,大数据更多应用于产业互联、行业分析、政务服务等环节,同时也在不同层面的进入人民的生活中,比如根据个人的兴趣爱好为其推送相关的文档链接,物品模式等。大数据拥有广泛的应用空间,结合大数据的应用进一步为企业、政府、人民生活提供更有针对性、有特色的服务。以数据为支撑作为企业战略的决策的支撑,提高数据汇总的及时性,从而进一步的提升企业的核心竞争力。