1、1、 简述大数据的来源与数据类型大数据的来源非常多,如信息管理系统、网络信息系统、物联网系统、科学实验系统等,其数据类型包括结构化数据、半结构化数据和非结构化数据。2、大数据产生的三个阶段(1)被动式生成数据(2)主动式生成数据(3) 感知式生成数据3、大数据处理的基本流程1数据抽取与集成2数据分析3数据解释4、大数据的特征 4V1O Volume,Variety,Value,Velocity,On-Line5、适合大数据的四层堆栈式技术架构6、大数据的整体技术和关键技术大数据的整体技术一般包括:数据采集、数据存取、基础架构、数据处理、统计分析、数据挖掘、模型预测和结果呈现等。大数据处理关键技
2、术一般包括:大数据采集、大数据预处理、大数据存储及管理、开发大数据安全大数据分析及挖掘、大数据展现和应用(大数据检索、大数据可视化、大数据应用、大数据安全等)。7、新一代数据体系的分类新一代数据体系中,将传统数据体系中没有考虑过的新数据源进行归纳与分类,可将其归纳到线上行为数据与内容数据两大类别。8、EDC系统的定义临床试验电子数据采集(Electric Data Capture,EDC)系统,在临床试验中的应用可以有效解决纸质CRF存在的问题。EDC是通过互联网从试验中心(Sites)直接远程收集临床试验数据的一种数据采集系统。9、EDC系统的基本功能数据录入、数据导出、试验设计、编辑检查、
3、操作痕迹、系统安全、在线交流、医学编码和支持多语言。10、EDC系统的优点(1)提高了临床研究的效率,缩短了临床研究周期(2)通过逻辑检查提高了数据质量(3)对研究质量的监测更加方便11、大数据采集的数据来源大数据的三大主要来源为商业数据、互联网数据与传感器数据。12、网络数据采集和处理的四个主要模块网络爬虫(Spider)、数据处理(Data Process)、URL队列(URL Queue)和数据(Data)。13、大数据集成在大数据领域中,数据集成技术也是实现大数据方案的关键组件。大数据中的集成是将大量不同类型的数据原封不动的保存在原地,而将处理过程适当的分配给这些数据。这是一个并行处理
4、的过程,当在这些分布式数据上执行请求后,需要整合并返回结果。14、数据集成时应解决的问题数据集成时应解决的问题包括数据转换、数据的迁移、组织内部的数据移动、从非结构化数据中抽取信息和将数据处理移动到数据端。15、网络数据处理的四个模块及主要功能分词(Words Analyze)、排重(Content Deduplicate)、整合(Integrate)和数据,如图2-17所示。这四个模块的主要功能如下。1)分词:对抓取到的网页内容进行切词处理。2)排重:对众多的网页内容进行排重。3)整合:对不同来源的数据内容进行格式上的整合。4)数据:包含两方面的数据,Spider Data和Dp Data。
5、16、大数据建模概念大数据建模是为了理解事物而对事物做出的一种抽象,是对事物的一种无歧义的书面描述。17、大数据分析模式分类根据实时性,可分为在线分析和离线分析根据数据规模,可分为内存级、BI级和海量级根据算法复杂度的分类18、大数据建模流程定义问题、数据理解、数据准备、模型建立、模型评估、模型更新与结果部署等。19、大数据建模应遵循的规律以业务目标作为实现目标业务知识是每一步的核心做好数据预处理试验对寻找解决方案是必要的数据中总含有模式数据挖掘增大对业务的认知预测提高了信息作用能力大数据建模的价值不在于预测的准确率模式因业务变化而变化20、数据可视化的概念数据可视化技术是指运用计算机图形学和
6、图像处理技术,将数据转换为图形或图像,然后在屏幕上显示出来,利用数据分析和开发工具发现其中未知信息的交互处理的理论、方法和技术。21、数据可视化流程22、数据可视化工具的特性1)实时性2)简单操作3)更丰富的展现4)多种数据集成支持方式23、数据可视化在生物领域中的应用测序数据可视化分子结构数据可视化关系网络可视化临床数据可视化24、Hadoop优点1)可扩展(Scalable)2)低成本(Economical)3)高效率(Efficient)4)可靠(Reliable)25、Hadoop的核心模块HDFS、MapReduce、Common及YARN,其中HDFS提供了海量数据的存储,MapR
7、educe提供了对数据的计算,Common为在通用硬件上搭建云计算环境提供基本的服务及接口,YARN可以控制整个集群并管理应用程序向基础计算资源的分配。26、YARN的基本设计思想将MapReduce中的JobTracker拆分成了两个独立的服务:一个全局的资源管理器ResourceManager和每个应用程序特有的ApplicationMaster。其中ResourceManager负责整个系统的资源管理和分配,而ApplicationMaster则负责单个应用程序的管理。27、HiveHive最早是由Facebook设计,基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张
8、数据库表,并提供类SQL查询功能。28、HBaseHBase即Hadoop Database,是一个分布式、面向列的开源数据库。HBase主要用于需要随机访问、实时读写的大数据。29、AvroAvro是一个数据序列化系统。类似于其他序列化机制,Avro可以将数据结构或者对象转换成便于存储和传输的格式,其设计目标是用于支持数据密集型应用,适合大规模数据的存储与交换。30、ChukwaChukwa是开源的数据收集系统,用于监控和分析大型分布式系统的数据。31、PigPig是一个对大型数据集进行分析和评估的平台。32、Spark原理Spark是一个开源的通用并行分布式计算框架,由加州大学伯克利分校的
9、AMP实验室开发,支持内存计算、多迭代批量处理、流处理和图计算等多种范式。Spark基于MapReduce算法实现的分布式计算,拥有MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。33、Spark的优点轻量级快速处理支持多语言支持复杂查询实时的流处理可以与Hadoop数据整合34、HDFS的设计目标高效的硬件响应流式数据访问大规模数据集简单的一致性模型异构软硬件平台间的可移植性35、HDFS架构解释下图答案在P107-P10836、以
10、一个文件File A(大小100MB)为例,说明HDFS的工作原理。读操作流程写操作流程答案在P109-P11137、HDFS的4类源代码基础包实体实现包应用包WebHDFS相关包38、MapReduceMapReduce是一个针对大规模群组中海量数据处理的分布式编程模型。39、HDFS接口远程过程调用接口与客户端相关接口HDFS各服务器间的接口40、HDFS和MapReduce的关系HDFS在集群上实现了分布式文件系统,MapReduce在集群上实现了分布式计算和任务处理。HDFS在MapReduce任务处理过程中提供了对文件操作和存储的支持。MapReduce在HDFS的基础上实现任务的分
11、发、跟踪、执行等工作,并收集结果。41、MapReduce技术特征易于使用良好的伸缩性大规模数据处理42、MapReduce工作机制答案在P116-P11743、MapReduce执行流程Map(映射)和Reduce(化简)是它的主要思想,Map负责将数据打散,Reduce负责对数据进行聚集,用户只需要实现Map和Reduce两个接口,即可完成TB级数据的计算。向MapReduce框架提交一个计算作业时,它会首先进行Split(分片),将File(文件)分配为多个数据片段,保证作业的并行效率。然后Map把计算作业拆分成若干个Map任务,然后分配到不同的结点上去执行,每一个Map任务处理输入数据
12、中的一部分。当Map任务完成后,它会生成一些中间文件,把这些文件重新组织作为Reduce阶段的输入,该过程称为Shuffle(洗牌),洗牌的操作一般包含本地化混合、分区、排序、复制及合并。Reduce任务的主要目标就是把前面经过洗牌的文件汇总到一起并输出。44、CommonCommon为Hadoop的其他模块提供了一些常用工具程序包,主要包括系统配置工具Configuration、远程过程调用RPC、序列化机制和Hadoop抽象文件系统FileSystem等。在通用硬件上搭建云计算环境提供基本的服务,同时为软件开发提供了API。45、大数据的一致性策略CAP,即一致性(Consistency)
13、、可用性(Availability)和分区容错性(Partition Tolerance)46、大数据分区技术通过一定的规则将超大型表分割成若干小块来分别处理。表进行分区时需要使用分区键来标志每一行属于哪一个分区,分区键以列的形式保存在表中。47、几种常见的数据分区算法范围分区列表分区哈希分区48、分布式环境下的数据缓存技术特点高性能动态扩展性高可用性易用性49、NoSQL数据库种类键值(Key-Value)存储列存储(Column-Oriented)文档(Document-Oriented)存储图形存储(Graph-Oriented)。50、四种类型NoSQL的特点及典型产品存储类型特 性典
14、 型 工 具键值存储可以通过键快速查询到值,值无需符合特定格式Redis列存储可存储结构化和半结构化数据,对某些列的高频率查询具有很好的I/O优势Bigtable、Hbase、Cassandra文档存储数据以文档形式存储,没有固定格式CouchDB、MongoDB图形存储以图形的形式存储数据及数据之间的关系Neo4J51、BigtableBigtable是Google开发的一个分布式结构化数据存储系统,运用按列存储数据的方法,是一个未开源的系统。52、Bigtable数据库的架构答案在P135.53、Bigtable数据库特点适合大规模海量数据,PB级数据。分布式、并发数据处理,效率极高。易于
15、扩展,支持动态伸缩。适用于廉价设备。适合于读操作,不适合写操作。不适用于传统关系型数据库。62、医学大数据的种类医院医疗大数据区域卫生信息平台大数据基于大量人群的医学研究或疾病监测大数据自我量化大数据网络大数据生物信息大数据63、大数据挖掘与传统数据挖掘方法的区别传统数据挖掘大数据挖掘样本数量少量数据样本分析与事物相关的所有数据,研究的样本数量趋近于总体数量事物之间的关系遵循事物之间的因果关系寻找事物之间的相关关系追求的目标追求绝对的准确性追求效率和趋势挖掘方式采集方法,内容分类,采信标准等都已存在即有规则,方法论完整挖掘新鲜事物,还没有形成清晰的方法、路径及评判标准64、医学大数据挖掘的特点
16、医学数据挖掘隐私性医学数据的多样性医学数据的不完整性医学数据的冗余性医学数据的动态性65、医学大数据挖掘的主要方法自动疾病预测趋势和行为关联分析聚类分析模糊系统与进化算法66、医学大数据挖掘的应用方向临床决策支持系统医疗数据透明度医学图像挖掘生物信息学DNA分析公众健康67、基于互联网大数据生物监测组成部分 互联网大数据的获取、从海量数据中提取出与生物事件相关的数据及建立数据与生物事件暴发的相互关系68、基于互联网的大数据生物监测的应用 基于搜索引擎的生物监测、基于社交网络的生物监测及基于社交网络的情绪监测69、区域卫生信息平台是连接规划区域内(医疗卫生机构、行政业务管理单位及各相关卫生机构)各机构的基本业务信息系统的数据交换和共享平台70、ETL(Extraction- Transformation-Loading)即数据抽取(Extract)、转换(Transform)、装载(Load)的过程,它是构建数据仓库的重要环节 9 第 页(共3页)