纵横大数据主要观点
大数据时代企业数据特征
大数据时代企业大数据标为 “大、 广、联”特征,“大”指的是数据量大,“广”指的是数据涉及各类不同胸痛,不同类型大数据,例如:IoT数据、日志数据等,“联”指的是企业内外部数据关联、不同业务部门大数据关联。
数据处理大要求没有变化
大数据时代虽然数据量激增,但是企业对数据处理的要求没有变化,甚至要求更高。主要是要求高可靠、高负载、 低成本。
解决单一系统处理问题
为了应对大数据大挑战,业界采用了而分布式+并行大处理方式,出现了分布式关系型数据库、NoSQL数据库、Hadoop等技术。此外,传统数据库厂商也推出了一体机数据产品。
解决多系统融合问题
大数据时代希望通过数据实现 “数据驱动业务和运营优化”,业务上需要打通不同大业务系统以及内外部数据;技术上要求关系型数据库和NoSQL数据库产品技术融合;对上提供统一API(或者SQL)简化应用开发,对下需要利用基于云IaaS基础设施实现高弹性和低成本。
大数据本质
- 大数据是云计算时代企业管理处理数据的方式,大数据的本质是云计算数据基础设施。研究大数据问题大实施是实现 “数据驱动业务”,研究包括业务和技术本身。
- 大数据系统包括关系型数据处理系统和NoSQL数据库处理系统。未来关系型和NoSQL两种技术会融合,同时企业的数据会整合(即构建统一的数据湖)。
现代企业数据处理面临的挑战
- 传统数据业务有两个特点
- 数据量可预估(如典型的及融合电信业务系统,客户和数据量是可预估的)
- 可以通过技术手段对高频、低频数据采取不同的策略(例如:将低频数据从在线系统中卸载)
- 企业新的业务是面向社会、交互式业务,会产生海量不可预估的数据(例如:传感器、日志数据等),原有业务系统不会产生或者丢弃的数据
- 关系型数据库要先设计模式(schema),一般遵循范式建模,NoSQL数据库不要求强制建模,可以根据业务发展调整数据模型,且不想要大规模修改数据库设计
为什么要引入NoSQL数据库
- 关系型数据库存储高价值数据,数据处理成本高、大规模分析效率低(数据模式和存储是隔离的);传统关系型解决数据库系统的瓶颈主要是通过scale up(通常只能临时解决问题),也可以通过有限的scale out解决问题,但规模受限(例如:Oracle RAC线性比不佳,TeraData最大的商用规模大约为600节点);厂商也通过一体机(通常是利用InfiniBand网络,NvME SSD等)解决性能问题。
- NoSQL数据库存储低价值的贴源数据(可根据业务需求重复分析),NoSQL数据库通常有如下优势:
- 低成本水平扩展
- 处理特定场景有优势(例如:图数据库、时空数据库、文档数据库)
- 不要求遵循强制模式(schema),可以灵活调整设计模式
- 存储性能高,部分数据库的设计可直接读取存储
扩展阅读
范式建模
- 1NF要求所有数据必须是不可再分的原子数据
- 2NF在1NF基础上要求所有属性必须依赖主键,实现了所有行数据不冗余
- 3NF在2NF基础上要求属性不能传递依赖主属性,实现列数据没有冗余。