(相关资料图)

2023年第一届

青云杯IT技术挑战赛

竞赛邀请函

青云杯IT技术挑战赛由尚硅谷教育主办,目的是鼓励大学生和大数据开发人员发挥创造力和实践能力,构建实际有用的数据仓库,推广大数据科学技术,提高数据科学的知名度和影响力,加强学术和产业界之间的交流合作,促进数据科学的发展。面向广大大学生和大数据开发群体发布邀约,诚邀您的参加。

1

参赛对象

全日制普通高校在读的研究生、本科生,以及各互联网企业的大数据开发人员,要求参赛人员组队参加比赛,小组人数要求1至5人。

2

赛程安排

报名时间

2023年3月8日至4月1日。

截至2023年4月1日18:00停止接收参赛报名。

比赛时间

2023年3月8日至5月8日。

截至2023年5月8日18:00停止接收比赛作品提交。

评分时间

2023年5月8日至6月1日。

颁奖时间

2023年7月

3

比赛规则

比赛内容

参赛选手可以使用比赛组委会提供的多行业数据集中的其中一个,也可以自行收集脱敏数据集,以数据集为基准,构建一个功能完备的离线数据仓库,包括数据采集、数据清洗、数据建模、任务调度、可视化等多个环节。

比赛提交

参赛选手需要在比赛截止日期前提交一份内容详尽的报告文件,报告内容包括但不限于参赛作品各环节的安装说明文档、数仓搭建过程的说明文档、最终可视化页面截图、所有脚本文件、功能演示及全流程调度的视频等。详情参见评分标准。

比赛评估

比赛结果由专业评委根据比赛规则和评分标准进行评估,结果公布后不可更改。

4

评分标准

1. 数据采集(20%):数据源种类的多样性、数据采集的完整性、正确性等;

2. 数据清洗(10%):数据清洗考虑的全面性、数据归一化处理、去重和脱敏处理等方面;

3. 数据建模(45%):数据建模的创新性、准确性、稳定性等方面。

4. 可视化(5%):指标可视化完整、美观、全面。

5. 报告(20%):报告的完整性、清晰度、论证力、创新性和贡献度等方面。

6. 附加分(60%):使用自备的完整数据集、更加丰富的数据仓库功能设计、更加全面复杂的指标体系等可获得酌情加分。

在评估报告时,评委会将会关注参赛者对数据清洗、数据预处理和数据建模环节的详细说明,以及对分析结果的分析报告。同时,参赛者需要在报告中对他们所采用的方法和算法进行充分地解释和论证。评委会将根据参赛者在报告中的论证力、创新性和贡献度等方面进行评估,以确定最终得分。

详情见评分细则

5

奖项设置

一等奖1组,奖金5000元+尚硅谷大厂学苑全套课程+获奖证书

二等奖2组,奖金3000元+获奖证书

三等奖3组,奖金1000元+获奖证书

追求卓越奖若干组,尚硅谷课程学费减免500元优惠券+获奖证书

优秀团队奖若干组,尚硅谷课程学费减免500元优惠券+获奖证书

特殊贡献奖若干组,尚硅谷课程学费减免500元优惠券+获奖证书

6

报名方式

官方报名QQ群1:661827902

官方报名QQ群2:748100631

群2为备用群,请优先添加群1

QQ群内通知内容相同,请勿重复添加

7

联系赛方

组委会官方QQ:3578283292

联系电话/微信:18604506683(梁老师)

联系邮箱:3578283292@qq.com

8

评分细则

本次比赛采用百分制,完成各项基本要求可获得100分,完成各项附加要求,可获得加分,加分项共60分。

1. 数据采集(20分)

采集是数仓搭建的前提,采集得分为零则总分为零。

1)数据集(5分)

可选用比赛官方提供数据集,亦可自行搜集数据集。若选用官方数据集,此项得分为0。此外,组委会会提供电商数仓搭建的全套资料,若选择电商数据集,将失去一、二、三等奖评选资格。若自行收集数据集,可申请技术支持,辅助开发数据模拟器。

以下均为自备数据集的要求。

① 要求原始数据表结构完整,至少有20个字段的业务表不少于10张(3分)。

② 至少提供一天以上的数据,若涉及用户隐私、商业机密等,必须脱敏处理(2分)。

2)同步策略(2分)

为每张原始表选择合理的同步策略,并说明原因。

3)数据目的地(3分)

分布式文件系统目标路径可以看到数据,此项是搭建采集通道的前提(不满足此项采集部分得分为0)。须在验收视频中完整演示由数据源至分布式文件系统的数据流转过程,如采用flume-kafka-hdfs架构采集日志数据,需要满足:

(1)启动Kafka命令行消费者,消费目标主题数据,上游注入数据后可以消费到数据;

(2)通道打通后,HDFS目标路径、文件可以自动生成,且文件大小可随时间变化。

(3)文件系统必须为HDFS这样的高可靠分布式文件系统。

不满足上述三点,此项得分为零。

4)目录滚动规则要求(3分)

分布式文件系统可以按天自动生成数据目标路径,须在验收视频中展示跨天时目标路径的生成。

5)文件滚动规则要求(4分)

(1)目标路径文件可以按照大小滚动(2分)。

(2)目标路径文件可以按照时间滚动(2分)。

以上应在验收视频中展示效果。

6)压缩要求(3分)

采用合理的方式压缩,此处的合理是指用户不需要额外的操作即可直接读取压缩文件。

2. 数据清洗

1)脏数据处理(1分)

处理结构不完整、无法解析的数据。

2)空值处理(1分)

处理非空字段的空值。

3)重复数据处理(2分)

对于可能重复的数据做去重处理。

4)脱敏(3分)

对用户姓名、邮箱、手机号等脱敏处理,应选择合理的匹配规则。

5)数据格式校验(1分)

处理日期、币种等字段格式错误的数据。

6)非法值处理(2分)

检测并修正取值范围异常的字段,如取值小于零的金额字段。

3. 数仓搭建

1)业务总线矩阵构建及DIM、DWD层搭建(20分)

(1)业务总线矩阵构建(10分)

① 要求明确数据域,明确事实、维度对应的原始表名称,示例如下(4分)。

② 业务总线矩阵为业务驱动,自下而上构建,应涵盖数据集中的所有事实与维度(3分)。

③ 明确事实与维度的关联关系(通过√体现)(3分)。

(2)DIM层构建(5分)

① 应涵盖业务总线矩阵中的所有维度(从日志中提取的和退化的维度不必形成维表)(1分)。

② 维度表字段尽可能完善,应包含所有与该维度相关原始表的信息,还应剔除无法用于统计的字段如“问题内容(文本)”等(1分)。

③ 应做维度整合,明确主维表及相关维表(1分)。

④ 缓慢变化维应构建拉链表(1分)。

⑤ 提供首日装载和每日装载语句(1分)。

(3)DWD层构建(5分)

① 应对业务总线矩阵中列出的所有业务过程建立事实表,粒度为该业务过程的原子操作(1分)。

② 事实表应包含尽可能丰富的字段,并剔除无法用于统计的字段,如“评价内容(文本)”等(1分)。

③ 对于字段极少的维度,要做维度退化(1分)。

④ 对于特殊需求,特殊的业务场景,应按照实际情况构建周期型快照事实表或累积型快照事实表(1分)。

⑤ 提供首日装载和每日装载语句(1分)。

2)指标体系构建及DWS、ADS层搭建(20分)

(1)指标体系构建(10分)

① 提供思维导图(导出为PDF)和Excel版本的指标体系。指明指标类型(思维导图指明,Excel不必),(如果有)指明依赖的指标,示例如下(3分)。

② 指标不可少于20,仅统计周期不同的算作一个指标(如最近1/7/30日各省份下单金额算作一个指标)(3分)。

③ 最大化公共粒度汇总表的调用次数,尽可能减少重复计算(2分)。

④ 思维导图应明确所有指标的依赖关系,不可存在逻辑错误(2分)。

(2)DWS层搭建(5分)

① 汇总表的字段应足够丰富,须整合指标体系中列出的统计周期、统计粒度、业务过程相同的所有派生指标(2分)。

② SQL可执行,且没有逻辑错误(2分)。

③ 提供首日装载和每日装载语句(1分)。

(3)ADS层搭建(5分)

① 包含提交的指标说明文档中的所有指标(2分)。

② SQL可执行,且没有逻辑错误(2分)。

③ 提供首日装载和每日装载语句(1分)。

3)整体要求(5分)

(1)明确数仓上线首日,进而确定采集目标路径、装载语句及调度脚本的日期(2分)。

(2)数仓各层明确表名、字段名称命名规范(2分)。

(3)数仓建表语句应指明正确的存储、压缩格式,规范存储路径(1分)。

4. 可视化

使用任意工具完成数据可视化。

① 为所有ADS层指标选择合适的图表(2分)。

② 提供报表建表语句(如MySQL报表)(2分)。

③ 效果酷炫(1分)

5. 提交材料

1)资料(5分)

(1)提供数仓搭建需要的所有组件安装包及安装说明文档(1分)。

(2)EZDML或其它工具完成的业务库表关系模型(1分)。

(3)组件启停脚本、数仓各层调度脚本、采集脚本、报表数据导出脚本等(1分)。

(4)业务总线矩阵及指标体系(1分)。

(5)数仓各层数据装载语句、调度工具工作流执行成功截图及可视化大屏截图(1分)。

2)文档(15分)

(1)业务流程说明文档(3分)

详细介绍业务流程,对业务库建模,说明所有原始表之间的关系。

(2)需求说明文档(3分)

按照主题划分,阐明指标的统计思路。

(3)数仓文档(9分)

① 包含采集、各层建表、装载语句及说明、全流程调度及可视化模块(4分)。

② 行文流畅,思路清晰,用词严谨(3分)。

③ 排版规范(与模板一致),无错别字(2分)。

3)验收视频(不单独计分)

此项不计分,但会作为其它评判规则的参考。

录制10-15分钟的视频,要求完整演示从采集到可视化的数据流转过程。其中,要包含调度工作流上线、执行、完成的全过程,以及可视化工具数据源的配置、图表的选择等内容。视频可加速,总长压缩至指定范围即可。

6. 加分项

1)数据集(20分)

此项仅面向参赛团队自行收集的数据集。

(1)业务流程完善,数据集包含一个完整业务流程所涉及的所有事实和维度(5分)。

(2)业务丰满,原始表字段多,数量多。大于20个字段的原始表大于20张可获得附加分,至多10分,100张封顶(10分)。

(3)数据源多样性,至少提供一种数据源(如Mysql、Oracle、MongoDB、Excel、TXT等)的原始数据,每多一种加一分,上限5分(5分)。

2)指标(15分)

(1)阐明指标的经济价值(5分)。

(2)指标丰富,达到30可以获得附加分,至多10分,100个封顶(10分)。

3)数据质量监控(5分)

4)元数据管理(5分)

5)数据治理(5分)

6)权限管理(5分)

7)用户认证(5分)

9

资料下载

度盘链接

https://pan.baidu.com/s/1YJdbSlw3kXMlTp9FdC1boA?pwd=43sl

提取码

43sl

END