postgresql,大数据成立于几几年

postgresql，大数据成立于几几年？

1.起源

起源 2008年9月，美国《自然》杂志，正式提出“大数据”概念。2011年2月1日，美国《科学》杂志，通过社会调查的方式，第一次分析了大数据对人们生活的影响。2011年5月，麦肯锡研究院分布报告。大数据是指其大小超出了常规数据库工具获取，存储，管理和分析能力的数据集。特征

4V特征（value，volume，velocity，variety）

Value：价值高。

Volume：体量大。（数据每个18月翻一番，而每年产生的数据量增长到44万亿GB）

Velocity：速度快。（数据生成，存储，分析，处理远远超过人们的想象力）

Variety：种类多。

大数据的来源按产生主体

（1）企业（关系型数据库，数据仓库）

（2）人（浏览信息，聊天，电子商务......）

（3）机器（服务器产生日志，视频监控数据）

数据来源的行业划分

（1）BAT三大公司为代表

（2）电信、金融、保险、电力、石化系统

（3）公共安全、医疗、交通领域

（4）气象、地理、政务等领域

（5）制造业和其他产业

按数据存储的形式划分

（1）结构化

（2）非结构化

二．大数据技术支撑

大数据运用场景

环境，教育，医疗，农业，智慧城市，零售业，金融业。

大数据的处理方法数据采集

数据抓取，数据导入，物联网设备自动抓取

数据预处理

数据清理，数据集成，数据转换，数据规约。

转换：过平滑聚集、数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。

规约：寻找依赖于发现目标的数据的有用特征，缩减数据规模，最大限度地精简数据量。

统计与分析

统计与分析主要是利用分布式数据库，或分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总，以满足大多数常见的分析需求，在这些方面需要使用不同的框架和方法。

Hadoop：大数据的核心，主要组成部分包括：mapreduce（处理）和HDFS（存储）和yarn（集群资源管理和调度）；

Hbase：常用数据库；spark：实时数据处理框架；sqoop：数据导入导出；flume：日志采集工具

Hive：数据仓库，必须有SQL基础，可以做离线的数据分析，把复杂的mapreduce代码转化为简单的sql语句，

而且可以处理的数据类型更加丰富，对接的工具也更多，是整个大数据学习中非常主要的一部分。

Scala语言主要用来开发spark代码，调用spark的相关API方法，还有spark SQL和spark streaming的开发，主要对接Kafka进行数据的消费，然后进行流数据处理。结果可以保存在本地数据库，也可以保存在大数据平台下。

在大数据的统计与分析过程中，主要面对的挑战是分析涉及的数据量太大，其对系统资源，特别是I/O会有极大的占用。

数据挖掘Hadoop和大数据的渊源什么是hadoop？Hadoop 是 Apache 旗下的一套开源软件平台。Hadoop 可以利用计算机集群，根据用户自定义的业务逻辑对海量数据进行分布式处理。通常我们说的 Hadoop 是指一个更广泛的概念--Hadoop 生态圈。

hadoop生态圈

技术介绍

（1）Ambari：Apache Ambari是一种基于Web的工具，支持Apache Hadoop集群的供应、管理和监控。

Ambari已支持大多数Hadoop组件，包括HDFS、MapReduce、Hive、Pig、 Hbase、Zookeeper，Sqoop，Hcatalog。

（2）Hdfs：Hadoop实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。

HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）来访问应用程序的数据，适合那些有着超大数据集（large data set）的应用程序。

HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streaming access）文件系统中的数据。大数据技术首要的要求就是先把数据存下来。HDFS（Hadoop Distributed FileSystem）的设计本质就是为了大量的数据能够横跨成千上万台机器存储，但是对于用户来说看到的是一个文件系统而不是许多文件系统。比如说你要获取 /hdfs/tmp/aaa 的数据，虽然使用的是一个路径，但找个文件的数据可能存放在很多台不同的机器上。作为用户来说不需要知道数据到底存储在哪儿，就像你在单机上并不关心文件到底存储在磁盘那个扇区一样。这些数据交由 HDFS 来存储。

---------------------

ii容错率是指在某个体系中能减小一些因素或选择对某个系统产生不稳定的概率。POSIX表示可移植操作系统接口（Portable Operating System Interface of UNIX，缩写为 POSIX ）

Yarn：Apache Hadoop YARN （Yet Another Resource Negotiator，另一种资源协调者）是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。

MapReduce：分布式离线计算

Hive：在使用了一段时间的 MapReduce 以后，程序员发现 MapReduce 的程序写起来太麻烦。希望能够封装出一种更简单的方式去完成 MapReduce 程序，于是就有了 Pig 和 Hive。

Pig 是以类似脚本的方式去描述 MapReduce，而 Hive 则是以 SQL 的方式。它们会自动把脚本或者 SQL 翻译成 MapReduce 程序，然后丢给计算引擎去计算处理。有了 Hive 以后人们发现 SQL 的优势太大了。一是容易写，一两行的 SQL 换成 MapReduce 可能要几十上百行。二是容易上手，即使非计算机背景的用户也可以很快的学会。三是易写易改，一看就懂，容易维护。所以自从 Hive 问世很快就成长为大数据仓库的核心技术。使用了一段时间的 Hive 后人们发现 Hive 运行在 MapReduce 上太慢了。于是有开发出了针对于 SQL 优化的技术 Impala，Drill 和 Presto 等。这些技术牺牲了系统的通用性和稳定性来提高 SQL 的效率，最终并没有流行起来。

Sqoop：Sqoop(发音：skup)是一款开源的工具，主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递，可以将一个关系型数据库（例如： MySQL ,Oracle ,Postgres等）中的数据导进到Hadoop的HDFS中，也可以将HDFS的数据导进到关系型数据库。

Storm:如果想要更快的计算速度，比如视频网站的热博榜，要求更新延迟在一分钟内，上面的任何一种手段都无法胜任。于是 Streaming（流）计算模型被开发出来了。Storm 是最流行的流计算平台。流处理的思路就是在数据进入系统的时候就进行处理，基本无延迟。缺点是不灵活，必须事先直到需要统计的数据，数据流过就没有了，没法进行补算。因此它是个好东西，但还是无法代替上述体系的。

HBase: 是一个构建与 HDFS 的分布式，面向列的存储系统。以 kv 对的方式存储数据并对存取操作做了优化，能够飞快的根据 key 获取绑定的数据。例如从几个 P 的数据中找身份证号只需要零点几秒。

除此之外还有需要定制的组件。比如：Mahout 是机器学习和推荐引擎，Nutch 是搜索引擎，Zookeeper 是集群管理工具，Sqoop 是 Hadoop 和数据库之间的导入导出工具，Flume 是日志提取 Oozie 作业调度。

________________________

i容错率是指在某个体系中能减小一些因素或选择对某个系统产生不稳定的概率。POSIX表示可移植操作系统接口（Portable Operating System Interface of UNIX，缩写为 POSIX ）

postgresql使用感受？

大数据量的时序表尽量不要去update、delete,此操作会产生大量死元组,若不及时清理,会大量占用硬盘空间及影响查询速度,导致数据库进程死锁,甚至业务崩溃建议:

若业务表更新、删除频繁(若只是插入,无需此操作),需要定期执行 vacuum full 操作,此操作会清除死元组, 但是会锁表,谨慎操作!执行时间根据数据量而定,建议在业务量较小时操作(比如凌晨)

定期备份、清理数据,建议直接备份分区表,然后删除数据。删除数据时不要用delete操作,建议直接drop分区表。

单个库的表数量建议不要超过5000个,1个分区表的子分区个数建议不要过个128个

PostgreSQL是个啥？

AnalyticDB是阿里云自主研发的一款实时分析数据库，可以毫秒级针对千亿级数据进行即时的多维分析透视。

AnalyticDB通过对数据进行在线统计和分析，帮助企业简单快速实时挖掘数据价值。

底层真正的关系型数据库一般是mysql 或postgres

所以有

AnalyticDB for mysql

AnalyticDB for postgresql

现在开始想自学Python语言？

来得及

我同样是一个开始学习Python相对较晚的人。

2015年7月本科毕业至9月研究生开学期间，我想找一份实习锻炼一下自己，当面试官问我，

“你会Python吗？”

“啊？Python是什么？你能给我拼写一下名称吗？”

结果可想而知，面试结果很差。

所以回到家中我就马上开始了解这么从未听说过的编程语言，然后疯狂的开始学习，这里，我就来介绍一下我对于学习Python的一些看法。

我认为，学习一门编程语言，应该分阶段进行，

入门

进阶

实战

下面分别从这3个阶段开始介绍。

1. 入门

如果有一点的C语言基础，对于学习Python会有很大的帮助。如果纯粹的零基础也没关系，需要花费一些时间去理解编程语言里面的一些通用概念。

我认为入门Python相对容易，因此我更加推荐网上免费的在线教程，非常多，而且非常好，当然如果喜欢纸质书籍的也可以购买书籍学习。

尤其的基础知识相对简单，如果有一点的编程基础一周或者更短的时间内即可对Python基本语法做一定的了解，如果购买在线课程，我认为会耗费很多时间。

关于入门阶段的在线教程我推荐两份：

Python菜鸟教程：www.runoob.com

廖雪峰Python：www.liaoxuefeng.com

关于入门书籍，我推荐一本不错的书籍，

《Python编程从入门到实践》

2. 进阶阶段

关于进阶，我推荐两本书籍：

第一本：《Python Cookbook》

我认为这是一本很适合有一点Python基础的开发者，这本书应该很多Python开发者都有所耳闻，它在基础语法的基础上进行了一些提升。

就如同上面这个例子，它会抛开入门的那些简单语法去讲解一些Python高级实用方法和技巧，例如抽象基类、单例模式、接口等。每一个知识点它会对应提出一个问题，然后给出相应的解决方案，并且告诉你这样用的意义何在、怎么样更加高效的使用Python，怎么设计更高效的软件模式。

第二本：《流畅的Python》

这是一本经得起考验的Python书籍。

举一个最简单的例子，在绝大多数教程都会讲到循环和条件语句，千篇一律的告诉你"if..else..", "for...while"，这个有一点编程语言的同学都知道，但是在Python里面循环和条件语句有什么特殊的地方吗？该怎么用好它？

在很多博客、教程中都不会深入介绍，但是这本书会详细的介绍Python深入的内容。

它和大多数书籍和在线教程蜻蜓点水式的讲解不同，它更加深入，深入而不冗余，在你看这本书的时候你会发现，它的每一段话都是有意义的，没有什么废话。

它分别从数据结构、字典集合、文本和字节序列、函数、设计、装饰器、闭包等讲起，然后对每一块知识进行展开，详细介绍里面最根本的原理，然后告诉你，该怎么用好它，高效的使用它。

3. 练手项目

学完基础语法并了解Python一下高阶方法之后该做些什么？

我认为首要的是先选择一个方向，

机器学习图像处理自然语言数据分析web......

这样才清楚自己该朝着哪个方向努力、该拿哪些项目练手，对编程能力进一步巩固，这样要比“无头苍蝇”式的漫无目的学习效率要高很多。

其次，可以找一些比较优秀的项目进行实战，扩展自己知识面的同时对编程能力进行巩固。

首先，以机器学习、深度学习框架为例，推荐几个github上热门的学习项目。

tensorflow_course

如果觉得官方文档不能够让你变成tensorflow熟手，那就试着用tensorflow完成几个机器学习算法的搭建，tensorflow_course是一个gihub资源，目前已经10k+个star，受欢迎程度可见一斑，上面有传统算法，例如线性回归、支持向量机，也有深度学习算法，例如卷积神经网络，能够让你在学习机器学习的过程中进一步熟练tensorflow。

nfmcclure/tensorflow_cookbookgithub.comtensorflow_cookbook

这也是一个github项目资源，虽然不如上面这个火热，但是目前也拥有4.2k+个star，和上面这个资源有些类似之处，包括传统算法和深度学习算法的实现，可以边学习机器学习知识、边学习深度学习平台。

nfmcclure/tensorflow_cookbookgithub.comAwesome-pytorch-list

如果觉得官方文档内容不够，可以看一下这个github资源，目前5.8k+个star，这个资源可以称得上是大合集，包括计算机视觉、自然语言处理、教程和示例、优秀文章的实现，非常全面。

bharathgs/Awesome-pytorch-listgithub.com

另外，推荐可以关注一下Github项目PyHubWeekly，这个项目每周会定期更新一些优质的Python项目，很多适合于用于学习，能够从中学到很多编程规范和设计模式，感兴趣的可以去Github搜索一下。