1、大数据部门:数据中心、数据平台、数据部……
2、每个部门都有:架构人员、数据分析人员、开发人员、运营人员……
3、团队:数据仓库组、BI组、架构组、数据专家组……
4、团队分的更细:需求组、推荐组、情报组、挖掘组、数据组、营销组……
5、大数据有哪些重要的项目:
1)数据仓库建设;
2)经营分析报表;
3)客户精准营销;
4)推荐系统;
5)移动端数据分析。
6、大数据有哪些重点方向:
1)流量数据;
2)交易数据;
3)会员与活动数据;
4)物流与配送数据;
5)内部财务数据。
7、代表产品:淘宝数据魔方、腾讯用户画像、京东数据罗盘
8、企业的需求:
1)实时监控企业的运转情况;
2)决策未来的发展战略;
3)预测哪些是值得发展的优质客户。
传统数据,分散、数据格式不一致不兼容、应用系统孤立。
BI诞生,集成实时与历史数据,将分析转化为执行力。关键效益:洞察力和协同一致。
9、源数据库 à ODS à ETL à DW à DM à OLAP à Client
10、注意:BI是不产生决策的,它是提供给用户的是报表或图视,但是它不同于传统的静态报表,它可以任意旋转组合报表或图视,是当场计算。
11、数据仓库:是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支撑管理决策。
主题:顾客、供应商等
集成:多个异种数据,统一集成在一起。
相对稳定:不更新,只添加。反应历史变化:数据仓库记录的是一段时间的信息,不是一点的信息。
12、SCD问题处理方法?
13、ODS是什么,在数据仓库中起的作用?
14、ETL加载策略与举例?
15、事实表:保存了大量业务度量数据的表,事实表的度量值一般称为事实。例如:订单金额、销量等可度量的。
粒度:
1)事务粒度事实表:比如股票按秒来变化;
2)周期快照:按天、按周、按月等;
3)累积快照事实表:记录确定周期的数据;
4)原子事实表:细粒度事实表;
5)聚集事实表:汇总事实表;
6)合并事实表;
7)旋转事实表;
8)预连接聚集表;
9)非事实型事实表:没有确定的事实,存的是外键;
10)切片事实表:把一张大表切成一段时间的;
11)蜈蚣事实表:维度很多;
12)一致性事实。
16、数据集市:小数据仓库,面向部门。它是数据仓库的子集,一般只面向某个主题,缓解访问数据仓库的瓶颈。DM一般存储经过汇总的数据,数据都是经过很多加工后的表。
17、元数据:是关于数据的数据,可以看作是数据仓库系统的“数据字典”,但是这个字典比传统意义上的数据字典强大。他可以帮助管理员和开发人员方便找到他们所关系的数据,并告诉用户数据仓库中有哪些数据,这些数据从哪里来。
分为技术元数据和业务/商业元数据。
18、ETL是将业务系统的数据经过抽取(Extract)清洗转换(Transform)之后加载(Load)到数据仓库的过程。
19、OLAP是联机分析处理,它可以满足决策支持或多维环境特定的查询和报表需求,它的技术核心是“维”,因此OLAP也可以说是多维数据分析工具的集合。
20、维:是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维。如:时间维、地理维等。
21、维度表:可以看作是用户分析数据的窗口,维度表包含事实数据表中事实记录的特性。
事实表与维表的关系如下图:
粒度:数据细化的级别,粒度越细,数据量越大,存储所需的空间越大,查询性能越慢。
层次:举例如:国家-省-市-县等;年-季-月-周-日。
三种模型:星形模型、雪花模型和多维模型。
星形模型如下图:它的维度表没有被新的表连接
22、建模的一般过程
1)确定业务过程每个事实表的粒度;
2)确定维度属性;
3)确定维度层次;
4)确定每个事实所需要关联的维度;
5)确定数字型事实,包括预先计算的;
6)确定缓慢变化维:一种是直接覆盖,另一种是保留历史产品的维度,即追加。
23、
24、数据抽取与装载策略
抽取:每天凌晨会把昨天的数据抽取一份放入数据仓库中,所以数据是T+1的。
1)抽取分为全量抽取和增量数据。小表全量,大表增量。
2)增量抽取可以通过时间戳来控制。
3)每次抽取近一个月有变更的数据,然后和目标表做全外关联得到最新的数据。
4)注意:不要用其它的表的时间戳来控制自己增量。
装载:将落地的文件装入到Hive数据表中。注意字段的顺序,极其重要。
抽取装载:一般使用sqoop来完成。