本文主要内容来自 SpriCoder的博客,更换了更清晰的图片并对原文的疏漏做了补充和修正。
本文提供了 pdf 版,以供打印:商务智能-02-数据仓库.pdf。
本文主要内容来自 SpriCoder的博客,更换了更清晰的图片并对原文的疏漏做了补充和修正。
本文提供了 pdf 版,以供打印:商务智能-02-数据仓库.pdf。
Donald E. Knuth (1938~), the "father of the analysis of algorithm", Turing Award, 1974
For his major contributions to the analysis of algorithms and the design of programming languages, and in particular for his contributions to the "Art of Computer Programming" through his well-known books in a continuous series by this title.
FAT(File Allocation Table)文件配置表。用来记录文件所在位置的表格。假若丢失文件分配表,那么硬盘上的数据就会因无法定位而无法使用。
用户执行物品搜索,推荐系统根据情况返回推荐结果
聚类是一种无监督学习,有时候被叫做被统计学分类、被物理学家排序、被营销人员分段。
将数据划分成类,并且满足以下两个条件:
不同于分类问题的是,我们直接从数据中获取到类标签和类的数量,也就是找到自然分类。
在分类问题中,可以将某个域中的每个实体置于一组离散的类别中的一个中:是/否,朋友/敌人,好/坏/无所谓,蓝色/红色/绿色等。
给定一个带有标签的实体的训练集,制定一个将标签分配给测试集中的实体的规则。
Hadoop 是一个开发和运行大规模数据分析程序的软件平台,隶属 Apache 的一个开源软件框架,在大量普通服务器组成的集群中对海量数据进行分布式计算。
主要模块:
-ROOT-
表开始查找。<key, value>
的 key
必须实现WritableComparable
Namenode,JobTracker, Secondary NameNode
能说明
Hadoop 主节点启动成功数据挖掘是什么?
发现具有以下特征的模式(模型):
- 有效性
- 可用性
- 出乎意料
- 可理解性
什么是数据挖掘:在大量数据的情况下发现数据的有效的,可用的,新的,可理解的模式
数据挖掘的常见任务: