EagleBear2002 的博客

这里必须根绝一切犹豫,这里任何怯懦都无济于事

Hadoop

Hadoop 是一个开发和运行大规模数据分析程序的软件平台,隶属 Apache 的一个开源软件框架,在大量普通服务器组成的集群中对海量数据进行分布式计算。

主要模块:

  • Hadoop Common
  • Hadoop Distributed File System(HDFS)
  • Hadoop YARN
  • Hadoop MapReduce

Hadoop 计算过程

阅读全文 »

选择题

  1. 设计分布式数据仓库 Hive 的数据表时,为取样更高效,一般可以对表中的连续字段进行分桶操作。
  2. 客户端首次查询 HBase 数据库时,首先需要从-ROOT-表开始查找。
  3. HBase 的 Region 组成中,必须要有MemStore项。
  4. HBase 是分布式列式存储系统,记录按列族集中存放。
  5. HBase 数据库的 BlockCache 缓存的数据块中,普通的数据块不一定能提高效率。
  6. 视频监控数据属于非结构化数据
  7. MapReduce 编程模型,键值对<key, value>的 key 必须实现WritableComparable
  8. 若不针对 MapReduce 编程模型中的 key 和 value 值进行特别设置,Average 是 MapReduce 不适宜的运算。
  9. 在实验集群的 master 节点使用 jps 命令查看进程时,终端出现Namenode,JobTracker, Secondary NameNode能说明 Hadoop 主节点启动成功
  10. Client 端上传文件的时候下列哪项正确?B
    • A. 数据经过 NameNode 传递给 DataNode
    • B. Client 端将文件切分为 Block,依次上传
    • C. Client 只上传数据到一台 DataNode,然后由 NameNode 负责 Block 复制工作
    • D. 以上都不正确
  11. Hadoop1.0 默认的调度器策略是先进先出调度器
  12. JobTracker负责 MapReduce 任务调度
  13. HDFS1.0 默认 Block Size 大小是 64MB
  14. HDFS 中的 block 默认保存3个备份
  15. Datanode负责 HDFS 数据存储。

判断题

  1. Hadoop 支持数据的随机读写。(错,Hbase 支持,Hadoop 不支持)
  2. NameNode 负责管理元数据信息 metadata,client 端每次读写请求,它都会从磁盘中读取或会写入 metadata 信息并反馈给 client 端。(错,内存中读取)
  3. MapReduce 的 input split 一定是一个 block。(错,默认是)
  4. MapReduce 适于 PB 级别以上的海量数据在线处理。(错,离线)
  5. 链式 MapReduce 计算中,对任意一个 MapReduce 作业,Map 和 Reduce 阶段可以有无限个 Mapper,但 Reducer 只能有一个。( 对)
  6. MapReduce 计算过程中,相同的 key 默认会被发送到同一个 reduce task 处理。(对)
  7. HBase 对于 NULL 的列,不需要占用存储空间。(没有则空不存储,对)
  8. HBase 可以有列,可以没有列族(column family)。(错,有列族)

简答题

阅读全文 »

大数据导论

数据挖掘是什么?

发现具有以下特征的模式(模型):

  • 有效性
  • 可用性
  • 出乎意料
  • 可理解性

什么是数据挖掘:在大量数据的情况下发现数据的有效的,可用的,新的,可理解的模式

数据挖掘的常见任务:

  • 描述类方法:如聚类,找出人类可理解的模式来描述数据
  • 预测类的方法:如推荐系统,使用一些变量来预测未知的或者未来的其他变量的值
阅读全文 »

简答题

嵌入式系统【2013】【2015】【2016】

嵌入式系统定义、应用(至少五种)、结构、特点

定义:

  1. 用于控制、监视或辅助操作机器和设备的装置(软件和硬件的综合体,可以涵盖机电等辅助装置)
  2. 国内:以应用为中心,以计算机技术为基础,软硬件可裁剪,适用于应用系统对功能、可靠性、成本、体积、功耗等具有严格要求的专用计算机系统
  3. 其他:看不见的计算机,一般不能被用户编程,它有一些专用的 I/O 设备,对用户的接口是应用专用的,包含有计算机,但又不是通用计算机应用系统。
阅读全文 »

商业模式视角下的蓝海战略

蓝海战略:通过根本性的差异化来创造全新的行业,而不是模仿现有商业模式在当前行业中竞争

  • 价值创新:不是在传统的绩效指标下超越对手,而是创造新的、未充分竞争的市场空间
  • 画布的可视化效果为蓝海战略带来“全局化”的视角
  • 通常还与开拓未被开发的客户群体相结合

蓝海战略的“四项行动架构”(增加价值,减少成本)

  • 行业中哪些理所当然的要素应被删除
  • 哪些要素应被大幅消减至行业标准以下
  • 哪些要素应该被大幅调整到行业标准之上
  • 哪些行业中从未提供的要素是应该被创造出来的
阅读全文 »

自动化脚本录制与回放

背景介绍

GUI 测试脚本录制与回放:

  • 基于坐标:录制内容为用户的动作和相应的点击坐标
  • 基于控件树:主流方法,对 UI 控件树进行解析,以控件的唯一标识(如 xpath)对控件进行定位
  • 基于图像:对比控件截图与屏幕截图从当前 UI 中定位控件

移动平台的碎片化问题:平台多样、操作系统版本、品牌、型号、屏幕尺寸分辨率……

阅读全文 »

题型:填空题、不定项选择、判断题、两道简答题

  • 云计算概念
    • 发展现状:概念普及度、云产品丰富度、云应用广泛性、市场规模等
    • 相对传统分布式集群、个人持有计算资源有何优势:降低计算成本、提高资源利用率
    • 和大数据、人工智能、物联网、互联网+等技术的关系?:提供算力、存储和网络资源
    • 面临的挑战——也是持续优化和发展的推动力
    • 开源之于云计算
  • 云计算架构
    • 极致的面向服务的计算架构:一切资源以服务的形式对外开放
    • 概念架构:二维视角(前端+后端,关注“云”功能)
    • 逻辑架构:“云体+云栈”(技术体系结构,关注如何实现“云”)
    • 物理架构:云数据中心(建筑、设备、网络、能耗、安全)+云操作系统(如 OpenStack, CloudStack,Eucalyptus 等)
  • 云数据中心:网络拓扑,绿色节能技术,自动化与容灾备份技术
  • 虚拟化技术:虚拟化层次,云数据中心的虚拟化,虚拟机迁移策略
  • 云操作系统:OpenStack 及其各组件

云计算概念

云计算是一种商业模式、一种计算范式、一种具体实现方式。计算、存储、网络和安全是云计算的四个关键技术。在很多应用场景下,云计算解决了其他方式无法解决的实际的应用需求。

阅读全文 »

起源与发展

模糊测试的诞生

出发点:提升 UNIX 操作系统的可靠性

技术构想:

  • 核心组件:一组用于产生随机字符的程序
  • 中心思想:以随机字符串作为输入,运行操作系统组件(Utilities),观察是否崩溃
  • 最终结果:保留能够产生崩溃的字符串输入,分析崩溃的类型,对崩溃进行分类
阅读全文 »