数据治理到通用概念

华为云数据治理架构

华为云数据治理中心

数据集成

数据集成就是将不同到数据源到数据通过ETL工具集成到数据打数据管理系统中。一般由独立到数据集成数据集成工具完成。

  1. 数据集成工具数据集成集群管理,需要新建一个数据集成的集群,通常是一个ETL工具(数据加载的工具集合)。
  2. 数据链接是用数据集成集群集成数据是是需要建立源数据和目标数据之间的链接。新建连接(源数据链接和和目标数据链接);
  3. 新建作业选在源和目标数据链接以及、数据库和表名称以及字段映射关系以及数据集成任务的执行参数
  4. 启动任务执行
阅读更多

在linxu上搭建miniconda和pyspark环境

下载安装miniconda

  • 下载miniconda
    从清华大学镜像站中下载miniconda,下载地址https://mirrors.bfsu.edu.cn/anaconda/miniconda/,下载Miniconda3-latest-Linux-x86_64.sh

  • 安装miniconda
    执行bash Miniconda3-latest-Linux-x86_64.sh 按照指引完成安装。安装时可以完成一次conda初始化,初始化脚本会在用户.bashrc中增加初始化操作。安装成功以后需要重新打开一次console,即可进入conda默认环境中。使用conda list可以查询默认环境中已经安装的包。

阅读更多

关系型数据库和MapReduce的差异

关系型数据库和MapReduce的差异

  1. OLAP关系型数据库SQL语义对表达复杂BI报表与分析要方便很多,开发人员使用MapReduce来模拟表达同样的效果SQL语义往往比较复杂;
  2. 关系型数据库的执行引擎,对SQL的执行有很多优化机制,例如执行路径优化、关联算法等,对于BI的处理和分析比较方便,而采用MapReduce则需要大量的开发工作,以及较强编程技能;
  3. 很多在SQL体系不适合实现数据处理需求(如:预测、高级聚类算法),在MapReduce中则比较容易实现;
  4. MapReduce扩展性比OLAP关系型数据库扩展性强,更适合大规模数据处理分析与工作;
  5. 在数据处理结果展示方面,很对BI工具都是基于关系型数据库,即使采用MapReduce实现数据处理分析工作,最终还是会导入到数据库中做展示。
阅读更多

纵横大数据主要观点(四)

经典DBMS的挑战

  1. 数据量与处理压力带来的扩展性的挑战,主要体现在:
    1. 企业的核心业务系统,应付用户并发量与数据量增长的压力越来越严重;
    2. 企业的业务分析系统应付数据处理强度与数据量增长的压力也越来越严重。
  2. 对多种数据类型管理以及弱模式管理需求满足。
  3. 主流关系型数据库应对现代数据管理需求的挑战的主要策略,主要分两种(基于分布式与并行技术解决方案架构):
    1. Share Disk:从名字上可以判断,主要是扩展了数据库计算能力,但是磁盘、网络IO依旧是瓶颈;典型产品Oracle RAC,实际项目中超过4个RAC节点OLTP的集群很少,当增加第一个RAC节点时数据库性能可以显著提升性能,增加更多节点数据库性能则不能线性增加,甚至可能出现多节点的数据库性能还不如单机性能(数据库主要性能瓶颈时磁盘IO瓶颈,在OLTP和OLAP都有可能发生,OLAP场景更多一些;节点数量增加并没有解决硬盘IO瓶颈,且增加节点导致的协调、控制等损耗更大)。
    2. Share Nothing :通过分片技术让每个节点上存储的数据都不相同,这样即可解决水平扩展中磁盘IO问题,典型产品TeraData,GreenPlum;这种架构下由于数据分散在不同节点,这种架构天然就不适合OLTP的场景(例如:表关联操作不得不进行节点间数据迁移工作)。Share Nothing架构基本上都用于OLAP场景。
阅读更多

Hexo+Github优化小结

本文主要是对Hexo+Github部署个人Blog遇到小问题的一个汇总,涉及到主题,Pages服务及网站加速。

主题选择

目前比较流行的next主题和icarus主题,这两个主题都具备一定的定制性和插件。个人更喜欢icarus主题,以下以icarus主题为例进行说明。

安装主题

执行如下命令可以安装icarus主题

1
npm install -S hexo-theme-icarus hexo-renderer-inferno

主题配置

1
hexo config theme icarus

上述命令可以生产配置文件_config.icarus.yml文件及样例配置文件。此时就可以按照http://ppoffice.github.io/hexo-theme-icarus/自定义主题,对不需要样式或者插件可以在配置文件中直接注释;可以参考样例配置文件_config.icarus.yml.example进行配置。

阅读更多

空间分辨率和视场角及其计算方式

弧度和角度的关系

弧度是角的度量单位,单位缩写是rad。定义:弧长等于半径的弧,其所对的圆心角为1弧度。 根据定义可以知角度和弧度之间的关系。一周的弧度数为2πr/r = 2π,即弧度和角度关系是 2π rad= 360º

  • 1 rad = 360º/2π = 57.3º
  • 1º = 2π/360º = 0.01745 rad = 17.45 mrad
阅读更多

什么是白平衡

一些基本概念

  • 白平衡白平衡是通过对白色被摄物的颜色还原(产生纯白的色彩效果),进而达到其他物体色彩准确还原的一种数字图像色彩处理的计算方法。

  • 黑体黑体(Black body),是一个理想化的物体,它能够吸收外来的全部电磁辐射,并且不会有任何的反射与透射。换句话说,黑体对于任何波长的电磁波的吸收系数为1,透射系数为0。物理学家以此作为热辐射研究的标准物体。它能够完全吸收外来的全部电磁辐射,并且不会有任何的反射与透射,这种物体就是绝对黑体,简称黑体。在室温下,黑体辐射的能量集中在长波电磁辐射和远红外波段,当黑体温度到几百摄氏度之后,黑体开始发出可见光。
    黑体辐射出来的光线称为黑体辐射,黑体单位表面积的辐射功率P与其温度的四次方成正比,即:
    $$P=\delta T^4$$
    式中$\delta$称为斯特藩-玻尔兹曼常数,又称为斯特藩常数。

阅读更多

摄像机中的宽动态

什么是宽动态

宽动态是在非常强烈的对比下让摄像机看到影像特色而运用的一种技术。通常有强光源的场景下,强光照射的区域和阴影区域会有非常大的亮度区别,摄像机输出图像会出现明亮区(过曝导致的白色区域)和黑暗区(曝光不足导致的黑色区域);摄像机在同一场景下,能够支持的最亮和最暗局限就是“动态范围”。

阅读更多

光学系统景深和计算公式

景深、焦距和拍摄距离的关系

弥散圆

在焦点前后各有一个容许弥散圆,这两个弥散圆之间的距离就叫景深(depth of field),即:在被摄主体(对焦点)前后,其影像仍然有一段清晰范围的,就是景深。换言之,被摄体的前后纵深,呈现在底片面的影象模糊度,都在容许弥散圆的限定范围内。

通常情况下,肉眼分辨率为二千分之一至五千分之一。人眼在明视距离(眼睛正前方30厘米)能够分辨的最小的物体大约为0.125mm。所以,弥散圆放大在7寸照片(这是个常用尺寸)也只能是0.125mm以内,也就是图像对角线长度的1/1730左右。

弥散圆直径的计算

这个1/1730左右的容许弥散圆大小对于任何大小的底片或者CCD都适用,因为它们放大出来的7寸照片,都可以将弥散圆控制在0.125mm。所以蔡斯公司制定的标准就是弥散圆直径=1/1730底片对角线长度

$$c= m \times 16\times \frac{1}{1730} = \frac{16\times m}{1730}$$

m是CMOS芯片尺寸,由于历史原因1英寸底为16mm。例如:1/1.8" 的CMOS允许弥散圆直径是:$c = (1/1.8) \times 16 /1730 = 0.005138$ mm

阅读更多

分辨率和像素

像素

  • 屏幕像素
    • 屏幕上物理像素点大小(通常用英寸衡量)
  • 数码像素
    • 没有物理尺寸大小
    • 指的是数码图有多少像素(pixel)点
阅读更多