泥客网 - 发布最实用的电脑技术,最新鲜的网文!
泥客注册 | 加入收藏 |
泥客广告牌
关键词:轻松 移动 电脑 调侃 网络 高谈 信息化 探索

文章中心

您的当前位置:泥客网 >> 科技 >> 信息管理 >> 浏览文章

AI、BI、大数据、数据科学(2)

2021-05-15 17:51:28 文章来源:泥客论坛 字体:

03 商业智能和报表

关于分析与商业智能的区别,几乎没有形成过共识。有些人将分析归类为商业智能的一个子集,而另一些人则把它归为完全不同的类别。我把商业智能(BI)定义为:

一种管理策略,用来建立一种更有结构性和更有效的决策方法……BI包括报表、查询、联机分析处理(OLAP)、仪表盘、记分卡甚至分析等常见要素。综合性术语BI也可以指获取、清理、集成和存储数据的过程。

有些人会将分析和商业智能之间的区别归纳为两个方面的不同:

所使用量化方法(即算法、数学、统计)的复杂度;所产生结果是针对历史已发生的还是未来将发生的。

也就是说,商业智能的重点是使用相对简单的数学方法来对历史数据进行展示和呈现,而分析则被认为是采用更复杂的计算逻辑,并且能够预测一些特定问题、识别因果关系、确定最优解决方案的方法,有时也被用于指明需要采取的行动与措施。

大多数商业智能应用的局限性并不在于技术的限制,而在于分析的深度和为行动提供依据的真正洞察力。例如,告诉我已经发生了什么事情并不能帮助我决定如何行动以改变未来,这样的结果往往是通过离线分析(offline analysis)得到的。

分析的真正责任是形成可行动的、可操作的洞察力,从而能够帮助我们了解已经发生的事情(在什么地点发生,为什么会发生,在什么条件下发生),预测出未来可能发生什么,以及我们可以做什么来影响和优化未来的结果。

请注意,图1-1中描述的BI仪表盘描述了有关过去的事实,如销售、呼叫量、产品和账户,使你很容易获得组织当前销售状态或活动情况的快照。

▲图1-1 商业智能仪表盘

商业智能和它的近邻“报表”,都是用来描述有关现象的信息展示技术,通常位于数据传递管道的尾部,在那里可以直观地访问数据和结果。而另一方面,分析则超越了对数据的描述,它真正理解了这个现象的内在规律,从而来预测、优化和预判未来应采取的适当行动。

从传统上看,商业智能一直存在两个缺点,这源于它们与这样的事实有关:

BI通常专注于建立对过去已经发生事实的认识,因为它侧重于度量和监视,而不是预测和优化;其计量分析往往不够复杂,无法建立足以产生精确洞察力的有意义的改变(虽然正确的报表或可视化展现也可以对改变产生影响,但还不够精确)。

如果把商业智能与深入的“分析”恰当地结合在一起,而不仅仅停留在对事实的认识,它就更接近分析,但它又往往缺乏高级分析解决方案中经常用到的复杂统计、数学或者“机器学习”方法。

因此,我认为分析是商业智能总体框架内所包含的概念的一种自然演变。它更加强调充分开展必要的各种活动,以形成能促进行动的真知灼见。分析远远不止于在自助操作仪表盘或报表界面中所使用的、预先定义的可视化元素。

04 大数据

大数据(big data)是一种描述不和谐信息的方法,在将数据转化为洞察力的过程中,组织必须处理这些难以处理的信息。1997年,Michael Cox和David Ellsworth首次使用了大数据这一表述,他们当时提到的“问题”如下:

可视化为计算机系统提供了一个有趣的挑战:数据集通常相当大,占用了大量主内存、本地磁盘甚至远程磁盘的容量。我们称之为大数据问题。当数据集大到无法存放在主内存(核心存储器),或者甚至无法存储在本地磁盘上时,最常见的解决方案是扩充并获取更多的资源。

将大数据视为一个概念,它突出了这样一种挑战:数据的规模和复杂性超出了传统数据分析方法能够处理的范围。我们将大数据与传统的“小”数据进行对比,包括其容量(我们拥有多少数据)、速度(产生与获得数据的快慢)和多样性(包括数字、文本、图像、视频等多种数据形态)。

如果大数据是用来描述当今信息复杂性的概念,那么分析就可以帮助我们以主动的方式(预测性和规范性)来分析复杂性,而不是以被动的方式(即商业智能的范畴)来应对。

05 数据科学

与大数据相比,定义数据科学显得不是一件轻而易举的工作,因为在数据科学的众多定义中,很少发现一致的描述。关于数据科学意味着什么,以及它是否与分析完全不同,目前存在很多争论。

还有一些人,甚至试图通过讨论数据科学家的工作来定义数据科学:数据科学家所需要的技能,他们所扮演的角色,他们所使用的工具和技术,他们工作的地方,以及他们的教育背景,等等。但这些并没有对数据科学给出一个有意义的定义。

与其按照人(数据科学家)或他们所处理的问题来定义数据科学,不如将其定义如下:

数据科学是一门科学学科,它利用统计和数学等领域的定量方法以及现代技术,开发出用于发现模式、预测结果和为复杂问题找到最佳解决方案的算法。

数据科学和分析的区别在于,数据科学可以帮助甚至支持自动化实现对数据的分析,但是分析是一种以人为中心的策略,它充分利用各种工具,包括那些在数据科学中发现的工具,来理解事物现象之间的真正本质。

数据科学可能是这些概念中涉及面最广泛的,因为它关系到处理“数据”的整个科学和实践。我认为数据科学是由计算机科学家设计的分析学,但在实践中,数据科学往往侧重于对一般性宏观问题的研究,而分析往往侧重于解决特定行业或具体问题的挑战。

06 边缘(和环境)分析

在很多现代企业,分析是它们的一种核心业务活动,这些企业通过数据驱动和以人为中心的业务运营与管理流程实现了数据的大众化(democratize data)。

而边缘分析(edge analytics)一般指的是分布式分析,在这种场景下,分析被内置到一些机器或系统中,通过这种内置的方式,信息的生成与收集已经成为企业“下意识”的自主活动。

边缘分析通常与智能设备相关,这种情况下,分析计算是在数据收集点(例如设备、传感器、网络交换机或其他设备)开展的,与传统的数据管道传输方式(即采集数据、传输数据、清洗数据、集成数据、存储数据)不同,边缘分析把分析嵌入到收集数据的设备中完成或就近实现。

数据大众化

所谓数据大众化,指的是数据开放,使每个能够而且应该能够获得数据的人都有权通过工具来探索获取这些数据,而不是将数据局限于少数特权群体。

例如,传统的信用卡欺诈检测依赖于机器(例如读卡器),并通过与授权“代理”的连接发送请求来验证一个交易,算法需要在极短的时间内(百分之一毫秒)对此交易完成授权或打上欺诈标签,最后,读卡设备接收授权指令后完成或拒绝交易操作。在边缘分析中,算法将运行在仪器本身上(比如带有嵌入式分析的智能芯片读卡器)。

边缘分析通常与物联网(IoT)联系在一起。最近IDC在针对物联网IoT未来视界(FutureScape)的一份报告中提出,到2018年,40%的物联网数据将在网络中产生数据的边缘完成数据的存储、处理、分析和响应。

随着物联网的发展,我们很可能会看到未来对所谓的“万物分析”(Analytics of Things,AoT)有更多的关注,它指的是分析将给物联网数据带来独特价值的机会。

环境分析(ambient analytics)是另一个相关的术语,它的名字意味着“分析无处不在”。就像房间的灯光或音响常常不被注意,但却为舞台构建了氛围一样,环境分析也会影响我们工作和娱乐的环境。

我们看到环境智能正在日常生活场景中发挥作用,比如检测血糖水平和注射胰岛素。同样,当你回到住家附近时,家居自动化设备检测到相应信息,会自动调整温度和打开照明。环境分析超越了基于简单规则的决策,它利用算法来决定合适的行动路线。

毫无疑问,边缘和环境分析将继续挑战传统的以人为中心的管理方式与流程,传统管理方式下,使用分析结果(如对分析的理解、决策和采取的行动)以人为主,而在边缘和环境分析中会有越来越多的(不需要人工介入的)自主决策与执行。

掌上泥客
进入论坛论坛热帖
非凡