大数据学习资源汇总.docx-道客多多

资源描述

1、大数据学习资源汇总当前，整个互联网正在从 IT 时代向 DT 时代演进，大数据技术也正在助力企业和公众敲开DT 世界大门。当今“大数据”一词的重点其实已经不仅在于数据规模的定义，它更代表着信息技术发展进入了一个新的时代，代表着爆炸性的数据信息给传统的计算技术和信息技术带来的技术挑战和困难，代表着大数据处理所需的新的技术和方法，也代表着大数据分析和应用所带来的新发明、新服务和新的发展机遇。为了帮助大家更好深入了解大数据，云栖社区组织翻译了 GitHub Awesome Big Data 资源，供大家参考。本资源类型主要包括：大数据框架、论文等实用资源集合。资源列表：关系数据库管理系统（RDBM

2、S）框架分布式编程分布式文件系统文件数据模型 Key -Map 数据模型键-值数据模型图形数据模型 NewSQL 数据库列式数据库时间序列数据库类 SQL 处理数据摄取服务编程调度机器学习基准测试安全性系统部署应用程序搜索引擎与框架 MySQL 的分支和演化 PostgreSQL 的分支和演化 Memcached 的分支和演化嵌入式数据库商业智能数据可视化物联网和传感器文章论文视频关系数据库管理系统（RDBMS ） SQLServer：世界最有活力的数据库； MySQL：世界最流行的开源数据库； PostgreSQL：世界最先进的开源数据库；

3、Oracle 数据库：对象 -关系型数据库管理系统。框架 Apache Hadoop：分布式处理架构，结合了 MapReduce（并行处理）、YARN（作业调度）和 HDFS（分布式文件系统）； Tigon：高吞吐量实时流处理框架。分布式编程 AddThis Hydra ：最初在 AddThis 上开发的分布式数据处理和存储系统； AMPLab SIMR：用在 Hadoop MapReduce v1 上运行 Spark； Apache Beam：为统一的模型以及一套用于定义和执行数据处理工作流的特定SDK 语言； Apache Crunch：一个简单的 Java API，用于执行在普通的 Ma

4、pReduce 实现时比较单调的连接、数据聚合等任务； Apache DataFu：由 LinkedIn 开发的针对 Hadoop and 和 Pig 的用户定义的函数集合； Apache Flink：具有高性能的执行时间和自动程序优化； Apache Gora：内存中的数据模型和持久性框架； Apache Hama：BSP（整体同步并行）计算框架； Apache MapReduce ：在集群上使用并行、分布式算法处理大数据集的编程模型； Apache Pig ：Hadoop 中，用于处理数据分析程序的高级查询语言； Apache REEF ：用来简化和统一低层大数据系统的保留性评估执行框架；

5、 Apache S4 ：S4 中流处理与实现的框架； Apache Spark ：内存集群计算框架； Apache Spark Streaming ：流处理框架，同时是 Spark 的一部分； Apache Storm ：Twitter 流处理框架，也可用于 YARN； Apache Samza ：基于 Kafka 和 YARN 的流处理框架； Apache Tez ：基于 YARN，用于执行任务中的复杂 DAG（有向无环图）； Apache Twill ：基于 YARN 的抽象概念，用于减少开发分布式应用程序的复杂度； Cascalog：数据处理和查询库； Cheetah ：在 MapRed

6、uce 之上的高性能、自定义数据仓库； Concurrent Cascading ：在 Hadoop 上的数据管理 /分析框架； Damballa Parkour ：用于 Clojure 的 MapReduce 库； Datasalt Pangool ：可选择的 MapReduce 范例； DataTorrent StrAM ：为实时引擎，用于以尽可能畅通的方式、最小的开支和对性能最小的影响，实现分布式、异步、实时的内存大数据计算； Facebook Corona ：为 Hadoop 做优化处理，从而消除单点故障； Facebook Peregrine ：MapReduce 框架； Faceb

7、ook Scuba ：分布式内存数据存储； Google Dataflow ：创建数据管道，以帮助其分析框架； Netflix PigPen ：为 MapReduce，用于编译成 Apache Pig； Nokia Disco ：由 Nokia 开发的 MapReduc 获取、转换和分析数据； Google MapReduce ：MapReduce 框架； Google MillWheel ：容错流处理框架； JAQL ：用于处理结构化、半结构化和非结构化数据工作的声明性编程语言； Kite ：为一组库、工具、实例和文档集，用于使在 Hadoop 的生态系统上建立系统更加容易； Metamar

8、kets Druid ：用于大数据集的实时 e 框架； Onyx ：分布式云计算； Pinterest Pinlater ：异步任务执行系统； Pydoop ：用于 Hadoop 的 Python MapReduce 和 HDFS API； Rackerlabs Blueflood ：多租户分布式测度处理系统； Stratosphere ：通用集群计算框架； Streamdrill ：用于计算基于不同时间窗口的事件流的活动，并找到最活跃的一个； Tuktu ：易于使用的用于分批处理和流计算的平台，通过 Scala、 Akka 和 Play 所建； Twitter Scalding：基于 Cas

9、cading，用于 Map Reduce 工作的 Scala 库； Twitter Summingbird ：在 Twitter 上使用 Scalding 和 Storm 串流MapReduce； Twitter TSAR ：Twitter 上的时间序列聚合器。分布式文件系统 Apache HDFS：在多台机器上存储大型文件的方式； BeeGFS：以前是 FhGFS，并行分布式文件系统； Ceph Filesystem：设计的软件存储平台； Disco DDFS：分布式文件系统； Facebook Haystack：对象存储系统； Google Colossus：分布式文件系统(GFS2)；

10、Google GFS：分布式文件系统； Google Megastore：可扩展的、高度可用的存储； GridGain：兼容 GGFS、Hadoop 内存的文件系统； Lustre file system：高性能分布式文件系统； Quantcast File System QFS：开源分布式文件系统； Red Hat GlusterFS：向外扩展的附网存储（Network-attached Storage）文件系统； Seaweed-FS：简单的、高度可扩展的分布式文件系统； Alluxio：以可靠的存储速率在跨集群框架上文件共享； Tahoe-LAFS：分布式云存储系统；文件数据模型 Act

11、ian Versant：商用的面向对象数据库管理系统； Crate Data：是一个开源的大规模可扩展的数据存储，需要零管理模式； Facebook Apollo：Facebook 的 Paxos 算法，类似于 NoSQL 数据库； jumboDB：基于 Hadoop 的面向文档的数据存储； LinkedIn Espresso：可横向扩展的面向文档的 NoSQL 数据存储； MarkLogic：模式不可知的企业版 NoSQL 数据库技术； MongoDB：面向文档的数据库系统； RavenDB：一个事务性的，开源文档数据库； RethinkDB：支持连接查询和群组依据等查询的文档型数据库。Ke

12、y Map 数据模型注意：业内存在一些术语混乱，有两个不同的东西都叫做“列式数据库” 。这里列出的有一些是围绕“key-map” 数据模型而建的分布式、持续型数据库，其中所有的数据都有（可能综合了）键，并与映射中的键-值对相关联。在一些系统中，多个这样的值映射可以与键相关联，并且这些映射被称为“列族 ”（具有映射值的键被称为 “列”）。另一组也可称为“列式数据库 ”的技术因其存储数据的方式而有别于前一组，它在磁盘上或在存储器中而不是以传统方式，即所有既定键的键值都相邻着、逐行存储。这些系统也彼此相邻来存储所有列值，但是要得到给定列的所有值却不需要以前那么繁复的工作。前一组在这里被称为“key

13、map 数据模型”，这两者和 Key-value 数据模型之间的界限是相当模糊的。后者对数据模型有更多的存储格式，可在列式数据库中列出。若想了解更多关于这两种模型的区分，可阅读 Daniel Abadi 的博客： Distinguishing two major types of Column Stores。 Apache Accumulo：内置在 Hadoop 上的分布式键/值存储； Apache Cassandra：由 BigTable 授权，面向列的分布式数据存储； Apache HBase：由 BigTable 授权，面向列的分布式数据存储； Facebook HydraBase：Fa

14、cebook 所开发的 HBase 的衍化品； Google BigTable：面向列的分布式数据存储； Google Cloud Datastore：为完全管理型的无模式数据库，用于存储在 BigTable上非关系型数据； Hypertable：由 BigTable 授权，面向列的分布式数据存储； InfiniDB：通过 MySQL 的接口访问，并使用大规模并行处理进行并行查询； Tephra：用于 HBase 处理； Twitter Manhattan：Twitter 的实时、多租户分布式数据库。键-值数据模型 Aerospike：支持 NoSQL 的闪存优化，数据存储在内存。开源，“C

15、（不是 Java或 Erlang）中的服务器代码可精确地调整从而避免上下文切换和内存拷贝”。 Amazon DynamoDB：分布式键/值存储，Dynamo 论文的实现； Edis：为替代 Redis 的协议兼容的服务器； ElephantDB：专门研究 Hadoop 中数据导出的分布式数据库； EventStore：分布式时间序列数据库； GridDB：适用于存储在时间序列中的传感器数据； LinkedIn Krati：简单的持久性数据存储，拥有低延迟和高吞吐量； Linkedin Voldemort：分布式键/ 值存储系统； Oracle NoSQL Database：Oracle 公司开

16、发的分布式键值数据库； Redis：内存中的键值数据存储； Riak：分散式数据存储； Storehaus：Twitter 开发的异步键值存储的库； Tarantool：一个高效的 NoSQL 数据库和 Lua 应用服务器； TiKV：由 Google Spanner 和 HBase 授权，Rust 提供技术支持的分布式键值数据库； TreodeDB：可复制、共享的键 -值存储，能提供多行原子写入。图形数据模型 Apache Giraph：基于 Hadoop 的 Pregel 实现； Apache Spark Bagel：可实现 Pregel，为 Spark 的一部分； ArangoDB：多层

17、模型分布式数据库； DGraph：一个可扩展的、分布式、低时延、高吞吐量的图形数据库，旨在为Google 生产水平规模和吞吐量提供足够的低延迟，用于 TB 级的结构化数据的实时用户查询； Facebook TAO：TAO 是 facebook 广泛用来存储和服务于社交图形的分布式数据存储； GCHQ Gaffer：GCHQ 中的 Gaffer 是一个易于存储大规模图形的框架，其中节点和边缘都有统计数据； Google Cayley：开源图形数据库； Google Pregel ：图形处理框架； GraphLab PowerGraph：核心 C + GraphLab API 和建立在 Graph

18、Lab API 之上的高性能机器学习和数据挖掘工具包的集合； GraphX： Spark 中的弹性分布式图形系统； Gremlin：图形追踪语言； Infovore：以 RDF 为中心的 Map / Reduce 框架； Intel GraphBuilder：在 Hadoop 上构建大规模图形的工具； MapGraph：用于在 GPU 上大规模并行图形处理； Neo4j：完全用 Java 写入的图形数据库； OrientDB：文档和图形数据库； Phoebus：大型图形处理框架； Titan：建于 Cassandra 的分布式图形数据库； Twitter FlockDB：分布式图形数据库。Ne

19、wSQL 数据库 Actian Ingres：由商业支持，开源的 SQL 关系数据库管理系统； Amazon RedShift：基于 PostgreSQL 的数据仓库服务； BayesDB：面向统计数值的 SQL 数据库； CitusDB：通过分区和复制横向扩展 PostgreSQL； Cockroach：可扩展、地址可复制、交易型的数据库； Datomic：旨在产生可扩展、灵活的智能应用的分布式数据库； FoundationDB：由 F1 授意的分布式数据库； Google F1：建立在 Spanner 上的分布式 SQL 数据库； Google Spanner：全球性的分布式半关系型数据库

20、； H-Store：是一个实验性主存并行数据库管理系统，用于联机事务处理（OLTP）应用的优化； Haeinsa：基于 Percolator，HBase 的线性可扩展多行多表交易库； HandlerSocket：MySQL/MariaDB 的 NoSQL 插件； InfiniSQL：无限可扩展的 RDBMS； MemSQL：内存中的 SQL 数据库，其中有优化的闪存列存储； NuoDB：SQL / ACID 兼容的分布式数据库； Oracle TimesTen in-Memory Database：内存中具有持久性和可恢复性的关系型数据库管理系统； Pivotal GemFire XD：内存中

21、低延时的分布式 SQL 数据存储，可为内存列表数据提供 SQL 接口，在 HDFS 中较持久化； SAP HANA：是在内存中面向列的关系型数据库管理系统； SenseiDB：分布式实时半结构化的数据库； Sky：用于行为数据的灵活、高性能分析的数据库； SymmetricDS：用于文件和数据库同步的开源软件； Map-D：为 GPU 内存数据库，也为大数据分析和可视化平台； TiDB：TiDB 是分布式 SQL 数据库，基于谷歌 F1 的设计灵感； VoltDB：自称为最快的内存数据库。列式数据库注意：请在键-值数据模型阅读相关注释。 Columnar Storage：解释什么是列存储以

22、及何时会需要用到它； Actian Vector：面向列的分析型数据库； C-Store：面向列的 DBMS； MonetDB：列存储数据库； Parquet：Hadoop 的列存储格式； Pivotal Greenplum：专门设计的、专用的分析数据仓库，类似于传统的基于行的工具，提供了一个列式工具； Vertica：用来管理大规模、快速增长的大量数据，当用于数据仓库时，能够提供非常快的查询性能； Google BigQuery ：谷歌的云产品，由其在 Dremel 的创始工作提供支持； Amazon Redshift ：亚马逊的云产品，它也是基于柱状数据存储后端。时间序列数据库 Cube：

23、使用 MongoDB 来存储时间序列数据； Axibase Time Series Database：在 HBase 之上的分布式时间序列数据库，它包括内置的 Rule Engine、数据预测和可视化； Heroic：基于 Cassandra 和 Elasticsearch 的可扩展的时间序列数据库； InfluxDB：分布式时间序列数据库； Kairosdb：类似于 OpenTSDB 但会考虑到 Cassandra； OpenTSDB：在 HBase 上的分布式时间序列数据库； Prometheus：一种时间序列数据库和服务监测系统； Newts：一种基于 Apache Cassandra

24、的时间序列数据库。类 SQL 处理 Actian SQL for Hadoop：高性能交互式的 SQL，可访问所有的 Hadoop 数据； Apache Drill：由 Dremel 授意的交互式分析框架； Apache HCatalog：Hadoop 的表格和存储管理层； Apache Hive：Hadoop 的类 SQL 数据仓库系统； Apache Optiq：一种框架，可允许高效的查询翻译，其中包括异构性及联合性数据的查询； Apache Phoenix：Apache Phoenix 是 HBase 的 SQL 驱动； Cloudera Impala：由 Dremel 授意的交互式分析

25、框架； Concurrent Lingual：Cascading 中的类 SQL 查询语言； Datasalt Splout SQL：用于大数据集的完整的 SQL 查询工具； Facebook PrestoDB：分布式 SQL 查询工具； Google BigQuery：交互式分析框架，Dremel 的实现； Pivotal HAWQ：Hadoop 的类 SQL 的数据仓库系统； RainstorDB：用于存储大规模 PB 级结构化和半结构化数据的数据库； Spark Catalyst：用于 Spark 和 Shark 的查询优化框架； SparkSQL：使用 Spark 操作结构化数据； S

26、plice Machine：一个全功能的 Hadoop 上的 SQL RDBMS，并带有 ACID 事务； Stinger：用于 Hive 的交互式查询； Tajo：Hadoop 的分布式数据仓库系统； Trafodion：为企业级的 SQL-on-HBase 针对大数据的事务或业务工作负载的解决方案。数据摄取 Amazon Kinesis：大规模数据流的实时处理； Apache Chukwa：数据采集系统； Apache Flume：管理大量日志数据的服务； Apache Kafka：分布式发布- 订阅消息系统； Apache Sqoop：在 Hadoop 和结构化的数据存储区之间传送数据的

27、工具； Cloudera Morphlines：帮助 Solr、HBase 和 HDFS 完成 ETL 的框架； Facebook Scribe：流日志数据聚合器； Fluentd：采集事件和日志的工具； Google Photon：实时连接多个数据流的分布式计算机系统，具有高可扩展性和低延迟性； Heka：开源流处理软件系统； HIHO：用 Hadoop 连接不同数据源的框架； Kestrel：分布式消息队列系统； LinkedIn Databus：对数据库更改捕获的事件流； LinkedIn Kamikaze：压缩已分类整型数组的程序包； LinkedIn White Elephant：日

28、志聚合器和仪表板； Logstash：用于管理事件和日志的工具； Netflix Suro：像基于 Chukwa 的 Storm 和 Samza 一样的日志聚合器； Pinterest Secor：是实现 Kafka 日志持久性的服务； Linkedin Gobblin：LinkedIn 的通用数据摄取框架； Skizze：是一种数据存储略图，使用概率性数据结构来处理计数、略图等相关的问题； StreamSets Data Collector：连续大数据采集的基础设施，可简单地使用 IDE。服务编程 Akka Toolkit：JVM 中分布性、容错事件驱动应用程序的运行时间； Apache A

29、vro：数据序列化系统； Apache Curator：Apache ZooKeeper 的 Java 库； Apache Karaf：在任何 OSGi 框架之上运行的 OSGi 运行时间； Apache Thrift：构建二进制协议的框架； Apache Zookeeper：流程管理集中式服务； Google Chubby：一种松耦合分布式系统锁服务； Linkedin Norbert：集群管理器； OpenMPI：消息传递框架； Serf：服务发现和协调的分散化解决方案； Spotify Luigi：一种构建批处理作业的复杂管道的 Python 包，它能够处理依赖性解析、工作流管理、可视化

30、、故障处理、命令行一体化等等问题； Spring XD：数据摄取、实时分析、批量处理和数据导出的分布式、可扩展系统； Twitter Elephant Bird：LZO 压缩数据的工作库； Twitter Finagle：JVM 的异步网络堆栈。调度 Apache Aurora：在 Apache Mesos 之上运行的服务调度程序； Apache Falcon：数据管理框架； Apache Oozie：工作流作业调度程序； Chronos：分布式容错调度； Linkedin Azkaban：批处理工作流作业调度； Schedoscope：Hadoop 作业敏捷调度的 Scala DSL； Sp

31、arrow：调度平台； Airflow：一个以编程方式编写、调度和监控工作流的平台。机器学习 Apache Mahout：Hadoop 的机器学习库； brain：JavaScript 中的神经网络； Cloudera Oryx：实时大规模机器学习； Concurrent Pattern：Cascading 的机器学习库； convnetjs：Javascript 中的机器学习，在浏览器中训练卷积神经网络（或普通网络）； Decider：Ruby 中灵活、可扩展的机器学习； ENCOG：支持多种先进算法的机器学习框架，同时支持类的标准化和处理数据； etcML：机器学习文本分类； Etsy C

32、onjecture：Scalding 中可扩展的机器学习； Google Sibyl：Google 中的大规模机器学习系统； GraphLab Create：Python 的机器学习平台，包括 ML 工具包、数据工程和部署工具的广泛集合； H2O：Hadoop 统计性的机器学习和数学运行时间； MLbase：用于 BDAS 堆栈的分布式机器学习库； MLPNeuralNet：针对 iOS 和 Mac OS X 的快速多层感知神经网络库； MonkeyLearn：使文本挖掘更为容易，从文本中提取分类数据； nupic：智能计算的 Numenta 平台，它是一个启发大脑的机器智力平台，基于皮质学习

33、算法的精准的生物神经网络； PredictionIO：建于 Hadoop、Mahout 和 Cascading 上的机器学习服务器； SAMOA：分布式流媒体机器学习框架； scikit-learn：scikit-learn 为 Python 中的机器学习； Spark MLlib：Spark 中一些常用的机器学习（ML）功能的实现； Vowpal Wabbit：微软和雅虎发起的学习系统； WEKA：机器学习软件套件； BidMach：CPU 和加速 GPU 的机器学习库。基准测试 Apache Hadoop Benchmarking：测试 Hadoop 性能的微基准； Berkeley SW

34、IM Benchmark：现实大数据工作负载基准测试； Intel HiBench：Hadoop 基准测试套件； PUMA Benchmarking：MapReduce 应用的基准测试套件； Yahoo Gridmix3：雅虎工程师团队的 Hadoop 集群基准测试。安全性 Apache Knox Gateway：Hadoop 集群安全访问的单点； Apache Sentry：存储在 Hadoop 的数据安全模块。系统部署 Apache Ambari：Hadoop 管理的运作框架； Apache Bigtop：Hadoop 生态系统的部署框架； Apache Helix：集群管理框架； Apa

35、che Mesos：集群管理器； Apache Slider：一种 YARN 应用，用来部署 YARN 中现有的分布式应用程序； Apache Whirr：运行云服务的库集； Apache YARN：集群管理器； Brooklyn：用于简化应用程序部署和管理的库； Buildoop：基于 Groovy 语言，和 Apache BigTop 类似； Cloudera HUE：和 Hadoop 进行交互的 Web 应用程序； Facebook Prism：多数据中心复制系统； Google Borg：作业调度和监控系统； Google Omega：作业调度和监控系统； Hortonworks HO

36、YA：可在 YARN 上部署 HBase 集群的应用； Marathon：用于长期运行服务的 Mesos 框架。应用程序 Adobe spindle：使用 Scala、Spark 和 Parquet 处理的下一代 web 分析； Apache Kiji：基于 HBase，实时采集和分析数据的框架； Apache Nutch：开源网络爬虫； Apache OODT：用于 NASA 科学档案中数据的捕获、处理和共享； Apache Tika：内容分析工具包； Argus：时间序列监测和报警平台； Countly：基于 Node.js 和 MongoDB，开源的手机和网络分析平台； Domino：运

37、行、规划、共享和部署模型没有任何基础设施； Eclipse BIRT：基于 Eclipse 的报告系统； Eventhub：开源的事件分析平台； Hermes：建于 Kafka 上的异步消息代理； HIPI Library：在 Hadoops MapReduce 上执行图像处理任务的 API； Hunk：Hadoop 的 Splunk 分析； Imhotep：大规模分析平台； MADlib：RDBMS 的用于数据分析的数据处理库； Kylin：来自 eBay的开源分布式分析工具； PivotalR：Pivotal HD / HAWQ 和 PostgreSQL 中的 R； Qubole：为自动

38、缩放 Hadoop 集群，内置的数据连接器； Sense：用于数据科学和大数据分析的云平台； SnappyData：用于实时运营分析的分布式内存数据存储，提供建立在 Spark 单一集成集群中的数据流分析、OLTP（联机事务处理）和 OLAP（联机分析处理）； Snowplow：企业级网络和事件分析，由 Hadoop、 Kinesis、Redshift 和 Postgres提供技术支持； SparkR：Spark 的 R 前端； Splunk：用于机器生成的数据的分析； Sumo Logic：基于云的分析仪，用于分析机器生成的数据； Talend：用于 YARN、 Hadoop、HBASE 、

39、Hive 、HCatalog 和 Pig 的统一开源环境； Warp：利用大数据（OS X app）的实例查询工具。搜索引擎与框架 Apache Lucene：搜索引擎库； Apache Solr：用于 Apache Lucene 的搜索平台； ElasticSearch：基于 Apache Lucene 的搜索和分析引擎； Enigma.io：为免费增值的健壮性 web 应用，用于探索、筛选、分析、搜索和导出来自网络的大规模数据集； Facebook Unicorn：社交图形搜索平台； Google Caffeine：连续索引系统； Google Percolator：连续索引系统； Ter

40、aGoogle：大型搜索索引； HBase Coprocessor：为 Percolator 的实现，HBase 的一部分； Lily HBase Indexer：快速、轻松地搜索存储在 HBase 的任何内容； LinkedIn Bobo：完全由 Java 编写的分面搜索的实现，为 Apache Lucene 的延伸； LinkedIn Cleo：为一个一个灵活的软件库，使得局部、无序、实时预输入的搜索实现了快速发展； LinkedIn Galene：LinkedIn 搜索架构； LinkedIn Zoie：是用 Java 编写的实时搜索/ 索引系统； Sphinx Search Serve

41、r：全文搜索引擎MySQL 的分支和演化 Amazon RDS：亚马逊云的 MySQL 数据库； Drizzle：MySQL 的 6.0 的演化； Google Cloud SQL：谷歌云的 MySQL 数据库； MariaDB：MySQL 的增强版嵌入式替代品； MySQL Cluster：使用 NDB 集群存储引擎的 MySQL 实现； Percona Server：MySQL 的增强版嵌入式替代品； ProxySQL：MySQL 的高性能代理； TokuDB：用于 MySQL 和 MariaDB 的存储引擎； WebScaleSQL：运行 MySQL 时面临类似挑战的几家公司，它们的工程

42、师之间的合作。PostgreSQL 的分支和演化 Yahoo Everest - multi-peta-byte database / MPP derived by PostgreSQL. HadoopDB：MapReduce 和 DBMS 的混合体； IBM Netezza：高性能数据仓库设备； Postgres-XL：基于 PostgreSQL，可扩展的开源数据库集群； RecDB：完全建立在 PostgreSQL 内部的开源推荐引擎； Stado：开源 MPP 数据库系统，只针对数据仓库和数据集市的应用程序； Yahoo Everest：PostgreSQL 可以推导多字节 P 比特数据

43、库/MPP。Memcached 的分支和演化 Facebook McDipper：闪存的键/值缓存； Facebook Memcached：Memcache 的分支； Twemproxy：Memcached 和 Redis 的快速、轻型代理； Twitter Fatcache：闪存的键/ 值缓存； Twitter Twemcache：Memcache 的分支。嵌入式数据库 Actian PSQL：Pervasive Software 公司开发的 ACID 兼容的 DBMS，在应用程序中嵌入了优化； BerkeleyDB：为键/值数据提供一个高性能的嵌入式数据库的一个软件库； HanoiDB：E

44、rlang LSM BTree 存储； LevelDB：谷歌写的一个快速键-值存储库，它提供了从字符串键到字符串值的有序映射； LMDB：Symas 开发的超快、超紧凑的键- 值嵌入的式数据存储； RocksDB：基于性 LevelDB，用于快速存储的嵌入式持续性键-值存储。商业智能 BIME Analytics：商业智能云平台； Chartio：精益业务智能平台，用于可视化和探索数据； datapine：基于云的自助服务商业智能工具； Jaspersoft：功能强大的商业智能套件； Jedox Palo：定制的商业智能平台； Microsoft：商业智能软件和平台； Microstrateg

45、y：商业智能、移动智能和网络应用软件平台； Pentaho：商业智能平台； Qlik：商业智能和分析平台； Saiku：开源的分析平台； SpagoBI：开源商业智能平台； Tableau：商业智能平台； Zoomdata：大数据分析； Jethrodata：交互式大数据分析。数据可视化 Airpal：用于 PrestoDB 的网页 UI； Arbor：利用网络工作者和 jQuery 的图形可视化库； Banana：对存储在 Kibana 中 Solr. Port 的日志和时戳数据进行可视化； Bokeh：一个功能强大的 Python 交互式可视化库，它针对要展示的现代 web 浏览器，旨在为

46、 D3.js 风格的新奇的图形提供优雅简洁的设计，同时在大规模数据或流数据集中，通过高性能交互性来表达这种能力； C3：基于 D3 可重复使用的图表库； CartoDB：开源或免费增值的虚拟主机，用于带有强大的前端编辑功能和 API 的地理空间数据库； chartd：只带 Img 标签的反应灵敏、兼容 Retina 的图表； Chart.js：开源的 HTML5 图表可视化效果； Chartist.js：另一个开源 HTML5 图表可视化效果； Crossfilter：JavaScript 库，用于在浏览器中探索多元大数据集，用 Dc.js 和 D3.js.效果很好； Cubism：用于时间序

47、列可视化的 JavaScript 库； Cytoscape：用于可视化复杂网络的 JavaScript 库； DC.js：维度图表，和 Crossfilter 一起使用，通过 D3.js 呈现出来，它比较擅长连接图表/附加的元数据，从而徘徊在 D3 的事件附近； D3：操作文件的 JavaScript 库； Dpose：从可重复使用的图表和组件构成复杂的、数据驱动的可视化； D3Plus：一组相当强大的可重用的图表，还有 D3.js 的样式； Echarts：百度企业场景图表； Envisionjs：动态 HTML5 可视化； FnordMetric：写 SQL 查询，返回 SVG 图表，而不是表； Freeboard：针对 IOT 和其他 Web 混搭的开源实时仪表盘构建； Gephi：屡获殊荣的开源平台，可视化和操纵大型图形和网络连接，有点像Photo

展开阅读全文