什么是聚类
聚类是一种无监督学习,有时候被叫做被统计学分类、被物理学家排序、被营销人员分段。
将数据划分成类,并且满足以下两个条件:
- 类内相似度高
- 类间相似度低
不同于分类问题的是,我们直接从数据中获取到类标签和类的数量,也就是找到自然分类。
聚类是一种无监督学习,有时候被叫做被统计学分类、被物理学家排序、被营销人员分段。
将数据划分成类,并且满足以下两个条件:
不同于分类问题的是,我们直接从数据中获取到类标签和类的数量,也就是找到自然分类。
在分类问题中,可以将某个域中的每个实体置于一组离散的类别中的一个中:是/否,朋友/敌人,好/坏/无所谓,蓝色/红色/绿色等。
给定一个带有标签的实体的训练集,制定一个将标签分配给测试集中的实体的规则。
Hadoop 是一个开发和运行大规模数据分析程序的软件平台,隶属 Apache 的一个开源软件框架,在大量普通服务器组成的集群中对海量数据进行分布式计算。
主要模块:
-ROOT-
表开始查找。<key, value>
的 key 必须实现WritableComparable
Namenode,JobTracker, Secondary NameNode
能说明 Hadoop 主节点启动成功数据挖掘是什么?
发现具有以下特征的模式(模型):
- 有效性
- 可用性
- 出乎意料
- 可理解性
什么是数据挖掘:在大量数据的情况下发现数据的有效的,可用的,新的,可理解的模式
数据挖掘的常见任务:
嵌入式系统定义、应用(至少五种)、结构、特点
定义:
蓝海战略:通过根本性的差异化来创造全新的行业,而不是模仿现有商业模式在当前行业中竞争
蓝海战略的“四项行动架构”(增加价值,减少成本)
GUI 测试脚本录制与回放:
移动平台的碎片化问题:平台多样、操作系统版本、品牌、型号、屏幕尺寸分辨率……