Mechine Learning
数据用于计算
Big Data Analysis
计算用于数据
大数据产生原因
算力的增长远远赶不上数据产生的速度
什么是大数据
- 数据集的大小超出了典型数据库软件工具捕获,存储,管理和分析的能力
 - 大数据偏向于管理
 
大数据 4Vs

- Volumn,体积:数据量大
 - Velocity,速度:数据产生的速度快
 - Veracity,真实性:数据有效性
 - Variety,多样性:数据多样性
 - Value,价值:数据是价值稀疏的,大多数的数据是价值低的。
 
什么是 5G
- Gain:盈利
 - Growth:共同成长
 - Gamification:游戏化,游戏的模式和思想(面向商业模式的构建)
 - Governance:管理,协调
 - Globalization:全球化
 
为什么挖掘大数据
数据包含价值和知识
数据挖掘
- 给定大量数据的情况
 - 发现具有以下特征的模式(模型):有效性、可用性、出乎意料、可理解性
 
常见任务
- 描述类的方法:找出人类可理解的模式来描述数据:聚类
 - 预测类的方法:使用一些变量来预测未知的或者未来的其他变量的值。
- 预测在实际应用中的问题:因为现在的决策会影响到未来的决策,也就让现在的分布和原来的分布不再是独立同分布。
 - 发现没有价值的模式,被统计学家叫做 Bonferroni 原则
 
 
大数据的考虑方向

挑战
- Usage:使用
 - Quality:质量
 - Context:内容
 - Streaming:数据流动,大量的算法
 - Scalability:可扩展性
 
数据形态
- Ontologies:源数据
 - Structed:结构化
 - Networks:网络
 - Text:文本
 - Multimedia:流媒体
 - Signals:信号
 
操作
- Collect:收集
 - Prepare:准备,数据的值是不是为空
 - Represent:表示
 - Model:模型
 - Reason:原因(验证)
 - Visualize:可视化
 
课程学习目标
- 挖掘多类型的数据:多维度、图数据、数据无限、标签数据
 - 不同的计算模型:MapReduce、流式数据和在线计算算法、单机器的内存数据库
 - 尝试解决一些现实问题:推荐系统、购物篮分析、重复文件监测
 - 使用一些工具:线性代数(SVD、推荐系统)、优化(梯度下降)、动态规划(频繁挖掘)、Hashing
 
