[toc]
本文内容作为复习参考,考试范围和知识点解释权归授课老师所有。
总结范围
2023-02-15 晚和匡老师面谈结果:不开卷是为了降低难度。
表述 | 判断 |
---|---|
商务智能试图以信息化技术自动完成数据到信息、信息到知识的提取过程。 | × |
从信息技术方面来看,商务智能涵盖了数据仓库、多维建模、ETL、OLAP、仪表盘、报表查询、数据统计、数据挖掘等多种相关技术。 | √ |
从商业应用方面来看,商务智能不仅支持最新的 IT 技术,同时也应该提供打包的商务解决方案。 | √ |
从层次结构方面来看,可以将商务智能体系结构划分为:数据源层、数据获取层、数据存储和管理层及信息访问/展现层。 | √ |
鉴于商务智能的重要作用,企业在进行信息化时,应以企业数据模型为蓝本,同步事务处理系统和分析处理系统。 | √ |
由于规范化引入了查询时的额外开销,在维度表规模不大的前提下,一般不考虑采用雪花模型。然而,在应对大型快变维度时,仍然可以使用采用雪花模型/微型维度的方式节约存储开销。 | √ |
非事实型事实表在多个维度间建立连接关系。但是由于没有独立的度量值,非事实型事实表无法独立使用,必须依附于其他事实表参与分析应用。 | √ |
在采用累积快照进行多维建模时,事实表中记录了单个生命周期中多个关键环节所产生的信息,并使用多个日期类型的维表对这些关键环节进行标记。 | √ |
为方便与操作型数据环境的对接,简化 ETL 的处理过程,用以连接维度表和事实表的关键字可以直接来源于操作型数据环境的关键字。 | × |
退化维度一般用以对事实表进行分组,并偶尔用以连接操作型数据环境。 | √ |
数据仓库是数据库技术进一步发展的必然阶段。由于数据仓库数据容量大,数据模型先进且允许存在冗余,数据仓库正日益替代数据库,成为主流的数据存储技术。 | × |
原子层拥有数据仓库最低粒度的数据,因此,在数据通过 ETL 进入原子层时,应与数据源保持相同粒度。 | × |
由于数据仓库的“不可更新”特性,数据仓库中的数据实际上是“滞后”的,所以数据仓库必须定期/不定期的采用刷新方式,将数据库等数据源中最新的数据变化反应到数据仓库中来。 | √ |
数据仓库是一种反映主题的全局性数据组织,在执行周期性分析应用或局部分析应用时,往往效率不高。在这种情况下,可以按部门或个人分别建立反映各个子主题的局部性数据组织,称作数据集市。 | √ |
数据仓库内部以“快照”的数据结构为中心来组织。快照通常包括关键字、时间、非关键字的主要数据和二级数据四个部分,其中非关键字的主要数据是数据仓库用以存放信息的主要部分。 | √ |
一般来说,ROLAP 查询效率优于MOLAP,但装载性能劣于MOLAP。(ROLAP 装载性能好,查询效率低) | × |
由于采用了多维数据库(MDDB),MOLAP 可以比 ROLAP 支持更多的维度。(MOLAP 有维度上限,ROLAP 没有维度上限) | × |
在 ROLAP 中,需要采用多维综合引擎,在多维查询和结果及 SQL 查询和结果之间进行转化。 | √ |
在 OLAP 系统中,可以融合 MOLAP 和 ROLAP 两种技术。采用关系型数据库存储细节数据,使用多维数据库来存放高层次数据或关系型数据库的查询结果。 | √ |
在需要对多维模型进行演化时,ROLAP 相对于 MOLAP 更加灵活便利。 | √ |
数据挖掘属于对数据的归纳。 | √ |
对数据挖掘的结果的评价分为主观评价和客观评价。一般来说,最常见的客观评价指标是“支持度(兴趣度)”/“置信度”。 | √ |
与分类方法不同,聚类方法不需要给定训练数据集和测试数据集,而是使用数据之间的相似程度/相异程度进行类别划分。因此,聚类方法是一种无指导的学习。 | √ |
采用相同的数据挖掘过程、数据挖掘方法、数据挖掘算法及相同的阈值和参数,对相同数据集进行多次数据挖掘,所得到的数据挖掘结果也应该是相同的。 | × |
将 B 是 A 的子女记做 A \(\to\) B,如存在 N1 \(\to\) N2,N2 \(\to\) N3,...Nk-1 \(\to\) Nk,则称 N1 是 Nk 的祖先。如数据库/数据仓库中存放着所有市民之间的子女关系,那么通过数据挖掘能够获取所有市民之间的祖先关系。(不需要数据挖掘,常规算法可以解决) | × |
商务智能的目标包括:为商务活动提供自动化解决方案;实现商务领域的人工智能;提供商务领域的专家系统;进行决策支持;改善信息访问方式。 | × |
依据多级体系划分属性,可以将维度表规范化,以雪花模型替代星型模型,从而节约存储空间。然而,由于规范化引入了查询时的额外开销,在维度表规模不大的前提下,一般不考虑采用雪花模型。 | √ |
非事实型事实表在多个维度间建立连接关系。由于没有独立的度量值,非事实型事实表无法独立使用,必须依附于其他事实表参与分析应用。 | √ |
一般来说,对事实表进行建模时,事务模型粒度最小,周期快照粒度最大,而累积快照粒度介于两者之间。(应为:事务模型 < 周期快照 < 累积快照) | × |
为保持历史一致性,维度表的元组属性发生变化时,需要用额外的行或者列来记录历史信息。因此,在对大型快变维度进行处理时,必须采用微型维度、预设波段等方法,将快变维度转化为渐变维度。 | × |
为方便与操作型数据环境的对接,并简化 ETL 的处理过程,用以连接维度表和事实表的关键字应当直接来源于操作型数据环境。 | × |
一般来说,MOLAP 查询效率优于 ROLAP,但装载性能 ROLAP 优于 MOLAP。 | √ |
由于采用了多维数据库(MDDB),MOLAP 可以比 ROLAP 支持更多的维度。(MOLAP 有维度上限,ROLAP 没有维度上限) | × |
在需要对多维模型的推度数量等进行调整的情况下,ROLAP 相对于 MOLAP 更加灵活便利。 | √ |
在 ROLAP 技术中,需要采用多维综合引擎,在多维查询和结果及 SQL 查询和结果之间进行转化。 | √ |
OLAP 的基本操作包括:切片/切块、旋转、上钻(Roll up)/下钻(Drill down)。其它操作包括跨钴(Drill across)/钻透(Drill through)。人们可以通过这些操作浏览数据立方体,从而获得对分析对象的全面理解。 | √ |
由于数据仓库的“不可更新”特性,数据仓库中的数据实际上是“滞后”的。这类问题可以通过使用操作数据存储(ODS)加以改善。 | √ |
鉴于大多数的数据仓库系统仍然使用关系型数据库加以实现,在线系统需要访问数据仓库中的信息时,依然可以比照数据库的访问方式,采用 SQL 等进行直接查询。(数据仓库不能够直接查询,数据库才可以) | × |
即使使用关系型数据库作为数据仓库的后台存储技术,由于目标、性能和使用对象等的不同,数据仓库仍然拥有自身所特有的数据建模思想、索引及优化方法。 | √ |
数据挖掘属于对数据的演绎。(数据挖掘是对数据的归纳) | × |
对数据挖掘的结果的评价分为主观评价和客观评价。一般来说,最常见的客观评价指标是“支持度(兴趣度)”/“置信度”。 | √ |
与分类方法不同,聚类方法不需要给定训练数据集和测试数据集,而是使用数据之间的相似程度/相异程度进行类别划分。因此,聚类方法是一种无指导的学习。 | √ |
特征规则挖掘可以被用来作为其他数据挖掘方法的前继步骤,通过在“基本关系表”和“概括关系表”上应用其他数据挖掘方法,可以得到不同概念层次上的数据挖掘结果。 | √ |
采用相同的数据挖掘过程、数据挖掘方法、数据挖掘算法及相同的阈值和参数,对相同数据集进行多次数据挖掘,所得到的数据挖掘结果也应该是相同的。 | × |
高等教育出版社《需求工程——软件建模与分析(第二版)》勘误:
事实上,封面英文书名和扉页的拼音书名完全不一样。
机械工业出版社《商业模式新生代》勘误:
businesslogic
拼写错误a.methodA.methodB()
”,应改为“a.methodA().methodB()
”在中国共产党内,曾经有一部分教条主义的同志长期拒绝中国革命的经验,否认“马克思主义不是教条而是行动的指南”这个真理,而只生吞活剥马克思主义书籍中的只言片语,去吓唬人们。还有另一部分经验主义的同志长期拘守于自身的片断经验,不了解理论对于革命实践的重要性,看不见革命的全局,虽然也是辛苦地——但却是盲目地在工作。这两类同志的错误思想,特别是教条主义思想,曾经在一九三一年至一九三四年使得中国革命受了极大的损失,而教条主义者却是披着马克思主义的外衣迷惑了广大的同志。毛泽东的《实践论》,是为着用马克思主义的认识论观点去揭露党内的教条主义和经验主义——特别是教条主义这些主观主义的错误而写的。因为重点是揭露看轻实践的教条主义这种主观主义,故题为《实践论》。毛泽东曾以这篇论文的观点在延安的抗日军事政治大学作过讲演。
笔者按照自己的理解给文章分了三个部分,仅供索引参考。
马克思以前的唯物论,离开人的社会性,离开人的历史发展,去观察认识问题,因此不能了解认识对社会实践的依赖关系,即认识对生产和阶级斗争的依赖关系。
首先,马克思主义者认为人类的生产活动是最基本的实践活动,是决定其它一切活动的东西。人的认识,主要地依赖于物质的生产活动,逐渐地了解自然的现象、自然的性质、自然的规律性、人和自然的关系;而且经过生产活动,也在各种不同程度上逐渐地认识了人和人的一定的相互关系。一切这些知识,离开生产活动是不能得到的。在没有阶级的社会中,每个人以社会一员的资格,同其它社会成员协力,结成一定的生产关系,从事生产活动,以解决人类物质生活问题。在各种阶级的社会中,各阶级的社会成员,则又以各种不同的方式,结成一定的生产关系,从事生产活动,以解决人类物质生活问题。这是人的认识发展的基本来源。
本文主要内容来自 SpriCoder的博客,更换了更清晰的图片并对原文的疏漏做了补充和修正。
在数据库及数据仓库中存贮有大量的数据,它们具有规范的结构形式与可靠的来源,且数量大、保存期间长,是一种极为宝贵的数据资源。充分开发、利用这些数据资源是目前计算机界的一项重要工作