《2017年数据分析领域的黑马.pdf》由会员分享,可在线阅读,更多相关《2017年数据分析领域的黑马.pdf(111页珍藏版)》请在三个皮匠报告上搜索。
1、数据分析领域的黑马-ClickHousePower Your Data“世上无难事,只要有捷径”“工具选的好,下班回家早”目录自我介绍数据分析面临的问题ClickHouse原理、架构ClickHouse在新浪的实践与经验ClickHouse案例、生态我是谁?我是干啥的?关于我DBA关于我DADBA关于我Data Analyst Data Translator 致力于运维大数据 挖掘与分析 可视化、报警、数据分析 AI-OPS关于我们“表哥”“表姐”们我们需要什么样的工具?Excel?也用Hadoop Spark Hive?But,Hadoop这玩意,不是一天就能玩得转的啊Google用Hado
2、op多数人用Hadoop太重了一切以需求作为第一位一切以需求作为第一位快速 好用 体量够用一切以需求作为第一位快速 好用 体量够用好维护!对结构化的数据 快速给出聚合/过滤结果We NeedSQLFast SQLFast Complex SQL没有什么数据统计是一个SQL解决不了的。如果有,那就2个俄罗斯搜索巨头Yandex开源列式存储集群超高性能压缩驱动丰富SQL线性扩展PB级别OLAP统计函数updated in real time跨数据中心异步复制最终一致不支持事务 不支持update/delete 然鹅,查询巨快 超大容量 But,Lets Begin部署:单机1.官方提供Ubuntu
3、包 2.第三方rpm包 2.Docker镜像 需要注意:1.修改网络,默认监控IPv4/v6 2.自定义数据目录,修改官方启动脚本 3.Docker修改时区 部署部署:单机是不是很SQL部署:单机蚝,我们来压测一下USA civil flights data since 1987 till 2015 contains 166 millions rows 63 GB of uncompressed data数据源部署:单机https:/clickhouse.yandex/docs/en/getting_started/example_datasets/ontime.htmlUSA civil f
4、lights data since 1987 till 2015 contains 166 millions rows 63 GB of uncompressed data数据源部署:单机数据大小173MB文件行数436951插入耗时4.731 Sec平均速度9.3 W/Sec压缩率5倍https:/clickhouse.yandex/docs/en/getting_started/example_datasets/ontime.html部署:单机并发5个进程机器负载部署:单机响应时间峰值50W QPS部署:单机1.查询总量 2.简单group by查询类型https:/clickhouse.
5、yandex/docs/en/getting_started/example_datasets/ontime.html部署:单机条件查询,聚合,排序查询类型https:/clickhouse.yandex/docs/en/getting_started/example_datasets/ontime.html部署:单机复杂查询查询类型https:/clickhouse.yandex/docs/en/getting_started/example_datasets/ontime.html部署:单机优点:1.部署简单 2.全部CPU打满,查询效率极高 问题:1.性能依赖单机(scale up路线)
6、2.存在单点故障风险(宕机数据全丢)1.启动Server 2.use db,create table 3.尽情select 4.推荐引擎:MergeTree使用总结分区主键稀疏索引粒度MergeTree类似LSM Tree,但是没有内存表,不记录log 直接落磁盘,按照主键排序,分块写入 异步merge,与写不冲突,最大merge到月纬度 不支持删除、修改 primary.idx+*.bin+*.mrk+checksums.txt+columns.txt写如何写的快?是否可压缩?主键查询:eg:(x,y,z,date)最左原则 读如何快速查找?数据量大,如何适应内存?其他列查询:稀疏索引定位区