纵横大数据主要观点(三)

什么是数据库联邦

作者引入了一个数据库“联邦”的概念,是为了避免和数据库“集群”概念混淆。 关系型数据库联邦是数据库设计的一种架构:将一组互相独立的关系型数据库用网络连接起来协同工作,综合采用各种技术(分库分表、读写分离)以达到更强的数据管理与服务能力,提供更加的性能、更大的容量与更多的并发用户数。

一个联邦架构的数据系统需要提供以下关键服务

  1. 分布服务:确定由那个子数据库来执行相关的服务
  2. 协调服务:数据库节点之间交互数据处理,统一调度控制等
  3. 监控与管理服务:对分布式节点进行监控以及统一管理(例如节点升级、重启等)
  4. 消息服务:跨节点数据处理时需要用消息机制传递数据
阅读更多

纵横大数据主要观点(二)

分布式关系型数据库典型的架构

Share-Nothing

MPPDB一般都是此架构,主要是将数据拆分存储到不同的节点上,在各自节点上独立读写数据,正因为如此,此架构只适合OLAP业务,如果进行表关联操作时仍会进行网络节点之间的数据迁移与交换工作,同样的网络会成为MPPDB 水平扩展的瓶颈。TeraData目前最大商用规模大约600节点。

Share-Disk

典型的应用是Oracle RAC,不同于传统的HA架构,ShareDisk架构中的每个节点都是工作节点,独立处理业务。由于是ShareDisk架构,读写磁盘就会出现冲突,会产生大量的存储网络流量,通常存储网络的流量会因为数据库节点规模增加变成瓶颈

OLTP和OLAP 通常部署在两套系统中主要原因是数据库系统追求的高TPS,OLTP追求的是高并发、随机读写,要保持交易十五的ACID 特性,维护强大的数据库日志,目前实现OLTP单点能力(主机平台+高端IO存储)。OLAP追求的是批量操作、高并发读操作,技术上主要解决很好的分配与管理各种资源(即资源的精细化管理)。 关于Join操作,跨表聚合操作,对于OLTP数据库需要大量的IO操作将表数据读取到内存进行操作;而MPP数据库本身就是根据某个键值对数据进行分布式存储,相当于提前为多表Join操作做了很多工作。OLTP通常是通过hash join进行优化,OLAP是通过分布式join。

阅读更多

纵横大数据主要观点

大数据时代企业数据特征

大数据时代企业大数据标为 “大、 广、联”特征,“大”指的是数据量大,“广”指的是数据涉及各类不同胸痛,不同类型大数据,例如:IoT数据、日志数据等,“联”指的是企业内外部数据关联、不同业务部门大数据关联。

数据处理大要求没有变化

大数据时代虽然数据量激增,但是企业对数据处理的要求没有变化,甚至要求更高。主要是要求高可靠、高负载、 低成本

阅读更多

在WSL2中安装Arch Linux

公司办公PC是Windows,日常又会使用到一些linux做一些实验性工作,今天无意间看到了在WSL安装Archlinux。记录了一下安装过程。

阅读更多

Manjaro安装vscode和edge

这个方法是从archlinux build源手工安装软件。首先需要安装基础的软件包,再下载源编译和安装。

阅读更多

使用pandoc生成PPT常用命令

使用markdown + marp或者markdown + revealjs可以写PPT。使文档写作过程只专注于写作本身而不是各种格式。其实第一次还是要将常用的格式做好调试(主要是写一些常用的css文件自定义样式),后续则可以在markdown->html/PDF/docx/pptx/ebook间随意转换了。

以下主要记录几个常用命令,完整的pandoc手册可以参考:https://pandoc.org/MANUAL.html

  • markdown 2 pptx pandoc mark.md -o mark.pptx --reference-doc=template.potx

  • mardown 2 revealjs pandoc -t revealjs mark.md -o mark.html --self-contained -V revealjs-url=./reveal.js/ --css=custom.css

-t 参数还可以设置成s5, slidy, slideous, dzslides; -V revealjs-url 可以制定本地目录reveal.js, 将https://github.com/hakimel/reveal.js下载本地即可; -css 可以制定css附件,通过定制css文件可以调整显示样式。

  • 对于revealjs可以在文件中设置width和height调整显示大小
    • markdown文件示例文件如下:
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    ---
    title: 使用pandoc生成PPT常用命令
    theme: white
    width: 1920
    height: 1280
    author:
    - author
    date: 2021-09-14
    ---

    # markdown2pptx

    `pandoc mark.md -o mark.pptx --reference-doc=template.potx`

    ---

    # markdown2revealjs

    `pandoc -t revealjs mark.md -o mark.html --self-contained -V revealjs-url=./reveal.js/ --css=custom.css`

    • css文件示例
    1
    2
    3
    .reveal h1{
    color:olivedrab
    }