大数据通用架构

Lambda架构

Lambda架构
  1. Lambda架构有三层,批处理层、速度层和服务层。
    1. 批处理层:批处理层是基于Hadoop生态,随着数据的更新会对所有数据进行重计算并将计算结果保存到NoSQL数据库中(如:electicalsearch、HBase、Redis、Hive等),提供批处理视图,批处理视图会整体批量更新;
    2. 速度层:由于批处理的机制导致延迟较大(天级/小时级),如果需要尽快的处理实时数据则需要提供单独的机制产生实时视图,通常只需要保存少量近期数据;
    3. 服务层:只会调用批处理视图和实时视图(汇总实时图和批处理视图),为应用系统提供查询服务;
  2. Lambda架构特点:
    1. 有批处理层、速度层和服务层三层;
    2. 所有数据最终都需要放在统一分布式存储上;
    3. 批处理层重新计算以后速度层的视图就可以丢弃;
    4. Lambda平台实现逻辑复杂(实时数据和批处理数据是两套处理)
阅读更多

数据治理到通用概念

华为云数据治理架构

华为云数据治理中心

数据集成

数据集成就是将不同到数据源到数据通过ETL工具集成到数据打数据管理系统中。一般由独立到数据集成数据集成工具完成。

  1. 数据集成工具 数据集成集群管理,需要新建一个数据集成的集群,通常是一个ETL工具(数据加载的工具集合)。
  2. 数据链接 是用数据集成集群集成数据是是需要建立源数据和目标数据之间的链接。新建连接(源数据链接和和目标数据链接);
  3. 新建作业 选在源和目标数据链接以及、数据库和表名称以及字段映射关系以及数据集成任务的执行参数
  4. 启动任务执行
阅读更多

纵横大数据主要观点(四)

经典DBMS的挑战

  1. 数据量与处理压力带来的扩展性的挑战,主要体现在:
    1. 企业的核心业务系统,应付用户并发量与数据量增长的压力越来越严重;
    2. 企业的业务分析系统应付数据处理强度与数据量增长的压力也越来越严重。
  2. 对多种数据类型管理以及弱模式管理需求满足。
  3. 主流关系型数据库应对现代数据管理需求的挑战的主要策略,主要分两种(基于分布式与并行技术解决方案架构):
    1. Share Disk:从名字上可以判断,主要是扩展了数据库计算能力,但是磁盘、网络IO依旧是瓶颈;典型产品Oracle RAC,实际项目中超过4个RAC节点OLTP的集群很少,当增加第一个RAC节点时数据库性能可以显著提升性能,增加更多节点数据库性能则不能线性增加,甚至可能出现多节点的数据库性能还不如单机性能(数据库主要性能瓶颈时磁盘IO瓶颈,在OLTP和OLAP都有可能发生,OLAP场景更多一些;节点数量增加并没有解决硬盘IO瓶颈,且增加节点导致的协调、控制等损耗更大)。
    2. Share Nothing :通过分片技术让每个节点上存储的数据都不相同,这样即可解决水平扩展中磁盘IO问题,典型产品TeraData,GreenPlum;这种架构下由于数据分散在不同节点,这种架构天然就不适合OLTP的场景(例如:表关联操作不得不进行节点间数据迁移工作)。Share Nothing架构基本上都用于OLAP场景。
阅读更多

纵横大数据主要观点(三)

什么是数据库联邦

作者引入了一个数据库“联邦”的概念,是为了避免和数据库“集群”概念混淆。 关系型数据库联邦是数据库设计的一种架构:将一组互相独立的关系型数据库用网络连接起来协同工作,综合采用各种技术(分库分表、读写分离)以达到更强的数据管理与服务能力,提供更加的性能、更大的容量与更多的并发用户数。

一个联邦架构的数据系统需要提供以下关键服务

  1. 分布服务:确定由那个子数据库来执行相关的服务
  2. 协调服务:数据库节点之间交互数据处理,统一调度控制等
  3. 监控与管理服务:对分布式节点进行监控以及统一管理(例如节点升级、重启等)
  4. 消息服务:跨节点数据处理时需要用消息机制传递数据
阅读更多

纵横大数据主要观点(二)

分布式关系型数据库典型的架构

Share-Nothing

MPPDB一般都是此架构,主要是将数据拆分存储到不同的节点上,在各自节点上独立读写数据,正因为如此,此架构只适合OLAP业务,如果进行表关联操作时仍会进行网络节点之间的数据迁移与交换工作,同样的网络会成为MPPDB 水平扩展的瓶颈。TeraData目前最大商用规模大约600节点。

Share-Disk

典型的应用是Oracle RAC,不同于传统的HA架构,ShareDisk架构中的每个节点都是工作节点,独立处理业务。由于是ShareDisk架构,读写磁盘就会出现冲突,会产生大量的存储网络流量,通常存储网络的流量会因为数据库节点规模增加变成瓶颈

OLTP和OLAP 通常部署在两套系统中主要原因是数据库系统追求的高TPS,OLTP追求的是高并发、随机读写,要保持交易十五的ACID 特性,维护强大的数据库日志,目前实现OLTP单点能力(主机平台+高端IO存储)。OLAP追求的是批量操作、高并发读操作,技术上主要解决很好的分配与管理各种资源(即资源的精细化管理)。 关于Join操作,跨表聚合操作,对于OLTP数据库需要大量的IO操作将表数据读取到内存进行操作;而MPP数据库本身就是根据某个键值对数据进行分布式存储,相当于提前为多表Join操作做了很多工作。OLTP通常是通过hash join进行优化,OLAP是通过分布式join。

阅读更多

纵横大数据主要观点

大数据时代企业数据特征

大数据时代企业大数据标为 “大、 广、联”特征,“大”指的是数据量大,“广”指的是数据涉及各类不同胸痛,不同类型大数据,例如:IoT数据、日志数据等,“联”指的是企业内外部数据关联、不同业务部门大数据关联。

数据处理大要求没有变化

大数据时代虽然数据量激增,但是企业对数据处理的要求没有变化,甚至要求更高。主要是要求高可靠、高负载、 低成本

阅读更多