EagleBear2002 的博客

这里必须根绝一切犹豫,这里任何怯懦都无济于事

选择题

主题分布

  1. 商务智能 overview、知识链、知识指令
  2. 数据仓库
  3. 数据仓库的设计
  4. OLAP
  5. MOLAP & ROLAP
  6. 多维建模
  7. 多维建模
  8. 数据挖掘

选项判断

表述 判断
商务智能试图以信息化技术自动完成数据到信息、信息到知识的提取过程。 ×
从信息技术方面来看,商务智能涵盖了数据仓库、多维建模、ETL、OLAP、仪表盘、报表查询、数据统计、数据挖掘等多种相关技术。
从商业应用方面来看,商务智能不仅支持最新的 IT 技术,同时也应该提供打包的商务解决方案。
从层次结构方面来看,可以将商务智能体系结构划分为:数据源层、数据获取层、数据存储和管理层及信息访问/展现层。
鉴于商务智能的重要作用,企业在进行信息化时,应以企业数据模型为蓝本,同步事务处理系统和分析处理系统。
由于规范化引入了查询时的额外开销,在维度表规模不大的前提下,一般不考虑采用雪花模型。然而,在应对大型快变维度时,仍然可以使用采用雪花模型/微型维度的方式节约存储开销。
非事实型事实表在多个维度间建立连接关系。但是由于没有独立的度量值,非事实型事实表无法独立使用,必须依附于其他事实表参与分析应用。
在采用累积快照进行多维建模时,事实表中记录了单个生命周期中多个关键环节所产生的信息,并使用多个日期类型的维表对这些关键环节进行标记。
为方便与操作型数据环境的对接,简化 ETL 的处理过程,用以连接维度表和事实表的关键字可以直接来源于操作型数据环境的关键字。 ×
退化维度一般用以对事实表进行分组,并偶尔用以连接操作型数据环境。
数据仓库是数据库技术进一步发展的必然阶段。由于数据仓库数据容量大,数据模型先进且允许存在冗余,数据仓库正日益替代数据库,成为主流的数据存储技术 ×
原子层拥有数据仓库最低粒度的数据,因此,在数据通过 ETL 进入原子层时,应与数据源保持相同粒度 ×
由于数据仓库的“不可更新”特性,数据仓库中的数据实际上是“滞后”的,所以数据仓库必须定期/不定期的采用刷新方式,将数据库等数据源中最新的数据变化反应到数据仓库中来。
数据仓库是一种反映主题的全局性数据组织,在执行周期性分析应用或局部分析应用时,往往效率不高。在这种情况下,可以按部门或个人分别建立反映各个子主题的局部性数据组织,称作数据集市。
数据仓库内部以“快照”的数据结构为中心来组织。快照通常包括关键字、时间、非关键字的主要数据和二级数据四个部分,其中非关键字的主要数据是数据仓库用以存放信息的主要部分。
一般来说,ROLAP 查询效率优于MOLAP,但装载性能劣于MOLAP。(ROLAP 装载性能好,查询效率低) ×
由于采用了多维数据库(MDDB),MOLAP 可以比 ROLAP 支持更多的维度。(MOLAP 有维度上限,ROLAP 没有维度上限) ×
在 ROLAP 中,需要采用多维综合引擎,在多维查询和结果及 SQL 查询和结果之间进行转化。
在 OLAP 系统中,可以融合 MOLAP 和 ROLAP 两种技术。采用关系型数据库存储细节数据,使用多维数据库来存放高层次数据或关系型数据库的查询结果。
在需要对多维模型进行演化时,ROLAP 相对于 MOLAP 更加灵活便利。
数据挖掘属于对数据的归纳。
对数据挖掘的结果的评价分为主观评价和客观评价。一般来说,最常见的客观评价指标是“支持度(兴趣度)”/“置信度”。
与分类方法不同,聚类方法不需要给定训练数据集和测试数据集,而是使用数据之间的相似程度/相异程度进行类别划分。因此,聚类方法是一种无指导的学习。
采用相同的数据挖掘过程、数据挖掘方法、数据挖掘算法及相同的阈值和参数,对相同数据集进行多次数据挖掘,所得到的数据挖掘结果也应该是相同的。 ×
将 B 是 A 的子女记做 A \(\to\) B,如存在 N1 \(\to\) N2,N2 \(\to\) N3,...Nk-1 \(\to\) Nk,则称 N1 是 Nk 的祖先。如数据库/数据仓库中存放着所有市民之间的子女关系,那么通过数据挖掘能够获取所有市民之间的祖先关系。(不需要数据挖掘,常规算法可以解决) ×
商务智能的目标包括:为商务活动提供自动化解决方案;实现商务领域的人工智能;提供商务领域的专家系统;进行决策支持;改善信息访问方式。 ×
依据多级体系划分属性,可以将维度表规范化,以雪花模型替代星型模型,从而节约存储空间。然而,由于规范化引入了查询时的额外开销,在维度表规模不大的前提下,一般不考虑采用雪花模型。
非事实型事实表在多个维度间建立连接关系。由于没有独立的度量值,非事实型事实表无法独立使用,必须依附于其他事实表参与分析应用。
一般来说,对事实表进行建模时,事务模型粒度最小,周期快照粒度最大,而累积快照粒度介于两者之间。(应为:事务模型 < 周期快照 < 累积快照) ×
为保持历史一致性,维度表的元组属性发生变化时,需要用额外的行或者列来记录历史信息。因此,在对大型快变维度进行处理时,必须采用微型维度、预设波段等方法,将快变维度转化为渐变维度。 ×
为方便与操作型数据环境的对接,并简化 ETL 的处理过程,用以连接维度表和事实表的关键字应当直接来源于操作型数据环境。 ×
一般来说,MOLAP 查询效率优于 ROLAP,但装载性能 ROLAP 优于 MOLAP。
由于采用了多维数据库(MDDB),MOLAP 可以比 ROLAP 支持更多的维度。(MOLAP 有维度上限,ROLAP 没有维度上限) ×
在需要对多维模型的推度数量等进行调整的情况下,ROLAP 相对于 MOLAP 更加灵活便利。
在 ROLAP 技术中,需要采用多维综合引擎,在多维查询和结果及 SQL 查询和结果之间进行转化。
OLAP 的基本操作包括:切片/切块、旋转、上钻(Roll up)/下钻(Drill down)。其它操作包括跨钴(Drill across)/钻透(Drill through)。人们可以通过这些操作浏览数据立方体,从而获得对分析对象的全面理解。
由于数据仓库的“不可更新”特性,数据仓库中的数据实际上是“滞后”的。这类问题可以通过使用操作数据存储(ODS)加以改善。
鉴于大多数的数据仓库系统仍然使用关系型数据库加以实现,在线系统需要访问数据仓库中的信息时,依然可以比照数据库的访问方式,采用 SQL 等进行直接查询。(数据仓库不能够直接查询,数据库才可以) ×
即使使用关系型数据库作为数据仓库的后台存储技术,由于目标、性能和使用对象等的不同,数据仓库仍然拥有自身所特有的数据建模思想、索引及优化方法。
数据挖掘属于对数据的演绎。(数据挖掘是对数据的归纳) ×
对数据挖掘的结果的评价分为主观评价和客观评价。一般来说,最常见的客观评价指标是“支持度(兴趣度)”/“置信度”。
与分类方法不同,聚类方法不需要给定训练数据集和测试数据集,而是使用数据之间的相似程度/相异程度进行类别划分。因此,聚类方法是一种无指导的学习。
特征规则挖掘可以被用来作为其他数据挖掘方法的前继步骤,通过在“基本关系表”和“概括关系表”上应用其他数据挖掘方法,可以得到不同概念层次上的数据挖掘结果。
采用相同的数据挖掘过程、数据挖掘方法、数据挖掘算法及相同的阈值和参数,对相同数据集进行多次数据挖掘,所得到的数据挖掘结果也应该是相同的。 ×
阅读全文 »

高等教育出版社《需求工程——软件建模与分析(第二版)》勘误:

  1. P108,“(4)目标的分类”下“保持(maintain):\(P \Rightarrow \Diamond Q\)”应为“保持(maintain):\(P \Rightarrow \square Q\)”;
  2. P108,“(4)目标的分类”下“避免(avoid):\(P \Rightarrow \Diamond \lnot Q\)”应为“避免(avoid):\(P \Rightarrow \square \lnot Q\)”;
  3. P379,图 14-44 状态图建立示例,图中左下角“列表显示do/显示产商品信息”应为“列表显示do/显示商品信息”

事实上,封面英文书名和扉页的拼音书名完全不一样。

请遵守相关法律法规,不得使用技术手段进行侵犯知识产权等违法行为。

背景

有些腾讯会议录制下载按钮提示“创建者已关闭导出权限”。我们希望在这种情况下下载视频,需要一些技术手段。

方案

阅读全文 »

  1. 图 10-7 a)第三个包名 businesslogic拼写错误
  2. 图 10-21 代码中出现中文括号,并且缩进混乱
  3. 15.2.3,P254,“重新编译个链接 A 之后 B 也要被重新编译和链接”,事实上 java 代码不需要链接
  4. 图 18-4,代码缩进有问题
  5. 12.3.3,表 12-2,聚合的多重性存疑;图 6-19 中手和手指的例子(1 只手有 0..5 个手指)不符合该表所示的多重性
  6. 14.2.1,P229,Cascading Message 的描述中“a.methodA.methodB()”,应改为“a.methodA().methodB()

成绩组成

  • pmx-详细设计:50 分
  • zh-架构设计:50 分

软件设计 Software Design

  1. “需求”定义了 Requirements defines
    1. 系统需要满足的目标。The goals the system needs to satisfy.
    2. 用户需求指出了目标,比如在线会议的应用目标是希望能够看到开会人员、听到声音和共享屏幕等等。
  2. “规约”定义了 Specification defines
    1. 系统的外部可观察行为。The externally-observable behaviour of the system.
  3. “架构”定义了 Architecture defines
    1. 系统一级的主要组成部分 The major system-level components
    2. 各部分的互动方式 Their methods of interaction
    3. 使用的技术 Technology used
    4. 比如在线会议软件,需要前端部分、操作系统调用功能部分、网络部分以及部分之间如何联系,使用什么技术
  4. “设计”定义了 Design defines
    1. 如何完成任务 how the job will get done
    2. 需要写的代码 The code that needs to be written.
    3. 我们将专门关注 OO 设计 We will focus exclusively on OO design.

面向对象设计 Object Oriented Design

阅读全文 »

论认识和实践的关系——知和行的关系
(一九三七年七月)

在中国共产党内,曾经有一部分教条主义的同志长期拒绝中国革命的经验,否认“马克思主义不是教条而是行动的指南”这个真理,而只生吞活剥马克思主义书籍中的只言片语,去吓唬人们。还有另一部分经验主义的同志长期拘守于自身的片断经验,不了解理论对于革命实践的重要性,看不见革命的全局,虽然也是辛苦地——但却是盲目地在工作。这两类同志的错误思想,特别是教条主义思想,曾经在一九三一年至一九三四年使得中国革命受了极大的损失,而教条主义者却是披着马克思主义的外衣迷惑了广大的同志。毛泽东的《实践论》,是为着用马克思主义的认识论观点去揭露党内的教条主义和经验主义——特别是教条主义这些主观主义的错误而写的。因为重点是揭露看轻实践的教条主义这种主观主义,故题为《实践论》。毛泽东曾以这篇论文的观点在延安的抗日军事政治大学作过讲演。

笔者按照自己的理解给文章分了三个部分,仅供索引参考。

马克思主义的认识论

马克思以前的唯物论,离开人的社会性,离开人的历史发展,去观察认识问题,因此不能了解认识对社会实践的依赖关系,即认识对生产和阶级斗争的依赖关系。

首先,马克思主义者认为人类的生产活动是最基本的实践活动,是决定其它一切活动的东西。人的认识,主要地依赖于物质的生产活动,逐渐地了解自然的现象、自然的性质、自然的规律性、人和自然的关系;而且经过生产活动,也在各种不同程度上逐渐地认识了人和人的一定的相互关系。一切这些知识,离开生产活动是不能得到的。在没有阶级的社会中,每个人以社会一员的资格,同其它社会成员协力,结成一定的生产关系,从事生产活动,以解决人类物质生活问题。在各种阶级的社会中,各阶级的社会成员,则又以各种不同的方式,结成一定的生产关系,从事生产活动,以解决人类物质生活问题。这是人的认识发展的基本来源。

阅读全文 »

关于费尔巴哈(马克思 1845 年稿本)

  1. 从前的一切唯物主义(包括费尔巴哈的唯物主义)的主要缺点是:对对象、现实、感性,只是从客体或者直观的形式去理解,而不是把它们当作感性的人的活动,当作实践去理解,不是从主体方面去理解。因此,和唯物主义相反,能动的方面却被唯心主义抽象地发展了,当然,唯心主义是不知道现实的、感性的活动本身的。费尔巴哈想要研究跟思想客体确实不同的感性客体:但是他没有把人的活动本身理解为对象性的[gegenständliche]活动。因此,他在《基督教的本质》中仅仅把理论的活动看作是真正人的活动,而对于实践则只是从它的卑污的犹太人的表现形式去理解和确定。因此,他不了解“革命的”、“实践批判的”活动的意义。
  2. 人的思维是否具有客观的[gegenständliche]真理性,这不是一个理论的问题,而是一个实践的问题。人应该在实践中证明自己思维的真理性,即自己思维的现实性和力量,自己思维的此岸性。关于思维——离开实践的思维——的现实性或非现实性的争论,是一个纯粹经院哲学的问题。
  3. 关于环境和教育起改变作用的唯物主义学说忘记了:环境是由人来改变的,而教育者本人一定是受教育的。因此,这种学说一定把社会分成两部分,其中一部分凌驾于社会之上。环境的改变和人的活动或自我改变的一致,只能被看作是并合理地理解为革命的实践。
  4. 费尔巴哈是从宗教上的自我异化,从世界被二重化为宗教世界和世俗世界这一事实出发的。他做的工作是把宗教世界归结于它的世俗基础。但是,世俗基础使自己从自身中分离出去,并在云霄中固定为一个独立王国,这只能用这个世俗基础的自我分裂和自我矛盾来说明。因此,对于这个世俗基础本身应当在自身中、从它的矛盾中去理解,并在实践中使之革命化。因此,例如,自从发现神圣家族的秘密在于世俗家庭之后,世俗家庭本身就应当在理论上和实践中被消灭。
  5. 费尔巴哈不满意抽象的思维而喜欢直观;但是他把感性不是看作实践的、人的感性的活动。
  6. 费尔巴哈把宗教的本质归结于人的本质。但是,人的本质不是单个人所固有的抽象物,在其现实性上,它是一切社会关系的总和。费尔巴哈没有对这种现实的本质进行批判,因此他不得不:
    1. 撇开历史的进程,把宗教感情固定为独立的东西,并假定有一种抽象的——孤立的——人的个体。
    2. 因此,本质只能被理解为“类”,理解为一种内在的、无声的、把许多个人自然地联系起来的普遍性。
  7. 因此,费尔巴哈没有看到,“宗教感情”本身是社会的产物,而他所分析的抽象的个人,是属于一定的社会形式的。
  8. 全部社会生活在本质上是实践的。凡是把理论引向神秘主义的神秘东西,都能在人的实践中以及对这个实践的理解中得到合理的解决。
  9. 直观的唯物主义,即不是把感性理解为实践活动的唯物主义至多也只能达到对单个人和市民社会的直观。
  10. 旧唯物主义的立脚点是市民社会,新唯物主义的立脚点则是人类社会或社会的人类。
  11. 哲学家们只是用不同的方式解释世界,问题在于改变世界。

马克思论费尔巴哈(恩格斯 1888 年发表的稿本)

  1. 从前的一切唯物主义——包括费尔巴哈的唯物主义——的主要缺点是:对对象、现实、感性,只是从客体的或者直观的形式去理解,而不是把它们当作人的感性活动,当作实践去理解,不是从主体方面去理解。因此,结果竟是这样,和唯物主义相反,唯心主义却发展了能动的方面,但只是抽象地发展了,因为唯心主义当然是不知道现实的、感性的活动本身的。费尔巴哈想要研究跟思想客体确实不同的感性客体,但是他没有把人的活动本身理解为对象性的[gegenständliche]活动。因此,他在《基督教的本质》中仅仅把理论的活动看作是真正人的活动,而对于实践则只是从它的卑污的犹太人的表现形式去理解和确定。因此,他不了解“革命的”、“实践批判的”活动的意义。
  2. 人的思维是否具有客观的[gegenständliche]真理性,这不是一个理论的问题,而是一个实践的问题。人应该在实践中证明自己思维的真理性,即自己思维的现实性和力量,自己思维的此岸性。关于离开实践的思维的现实性或非现实性的争论,是一个纯粹经院哲学的问题。
  3. 有一种唯物主义学说,认为人是环境和教育的产物,因而认为改变了的人是另一种环境和改变了的教育的产物,——这种学说忘记了:环境正是由人来改变的,而教育者本人一定是受教育的。因此,这种学说必然会把社会分成两部分,其中一部分凌驾于社会之上。(例如,在罗伯特·欧文那里就是如此。)环境的改变和人的活动的一致,只能被看作是并合理地理解为变革的实践。
  4. 费尔巴哈是从宗教上的自我异化,从世界被二重化为宗教的、想象的世界和现实的世界这一事实出发的。他做的工作是把宗教世界归结于它的世俗基础。他没有注意到,在做完这一工作之后,主要的事情还没有做。因为,世俗基础使自己从自身中分离出去,并在云霄中固定为一个独立王国,这一事实,只能用这个世俗基础的自我分裂和自我矛盾来说明。因此,对于这个世俗基础本身首先应当从它的矛盾中去理解,然后用排除矛盾的方法在实践中使之革命化。因此,例如,自从发现神圣家族的秘密在于世俗家庭之后,对于世俗家庭本身就应当从理论上进行批判,并在实践中加以变革。
  5. 费尔巴哈不满意抽象的思维而诉诸感性的直观;但是他把感性不是看作实践的、人的感性的活动。
  6. 费尔巴哈把宗教的本质归结于人的本质。但是,人的本质不是单个人所固有的抽象物,在其现实性上,它是一切社会关系的总和。费尔巴哈没有对这种现实的本质进行批判,因此他不得不:
    1. 撇开历史的进程,把宗教感情固定为独立的东西,并假定有一种抽象的——孤立的——人的个体;
    2. 因此,他只能把人的本质理解为“类”,理解为一种内在的、无声的、把许多个人纯粹自然地联系起来的普遍性。
  7. 因此,费尔巴哈没有看到,“宗教感情”本身是社会的产物,而他所分析的抽象的个人,实际上是属于一定的社会形式的。
  8. 社会生活在本质上是实践的。凡是把理论导致神秘主义的神秘东西,都能在人的实践中以及对这个实践的理解中得到合理的解决。
  9. 直观的唯物主义,即不是把感性理解为实践活动的唯物主义,至多也只能做到对“市民社会”的单个人的直观。
  10. 旧唯物主义的立脚点是“市民”社会;新唯物主义的立脚点则是人类社会或社会化的人类。
  11. 哲学家们只是用不同的方式解释世界,而问题在于改变世界。

本文主要内容来自 SpriCoder的博客,更换了更清晰的图片并对原文的疏漏做了补充和修正。

数据挖掘

在数据库及数据仓库中存贮有大量的数据,它们具有规范的结构形式与可靠的来源,且数量大、保存期间长,是一种极为宝贵的数据资源。充分开发、利用这些数据资源是目前计算机界的一项重要工作

数据资源的利用有三种方式

  1. 数据资源的查询服务
  2. 数据资源的演绎
    1. 知识的利用与搜索(AI)
    2. 演绎数据库
    3. 统计分析软件(SAS,SPSS)
    4. OLAP
  3. 数据资源的归纳
    1. 数据挖掘:数据资源的归纳
阅读全文 »