「PowerBI」从数据民工到数据白领蜕变之旅(一)-工具总览

Excel催化剂 2019/09/18 13:08

在人人都是数据分析师的时代,没有哪个人哪个岗位可以和数据脱钩。数据分析的前提是有干净完整规范的数据存在,为了这个前提,许多人活在数据民工的状态(天天搬砖干苦累活),将大量的时间耗费在一些无意义的、没价值的、产出低的数据处理中。本系列以非IT级别的视角,给大家指明一条进步之路,让更多人可以享受到数据白领的工作状态(轻松,多用脑,体面的)。

工具真的重要吗?

许多业务专业强的人,通常开口就说工具不是最重要,业务思维才是最重要,才能产生最大的价值。

如果能够攀升到有专门的下手帮忙处理他们口中的不重要的事,那是值得恭喜的,但也请这些高高在上的,多体贴一下下手的辛劳,在你们觉得不重要的事情上,他们在每天耗费着自己宝贵的生命。

在信息技术时代,工具的作用是不可忽视的,没有工具,只有脑袋,不懂得把非脑袋该做的脏累活分派给工具去完成,就如同现在算个数不用计算机,而用学生时代的纸和笔一样,完全是自讨苦吃。

我们要选择什么样的数据工具?

为了得到一个能够使用的数据源,需要有一个数据准备的过程,此过程专业一点来说,是数据ETL的过程(Extract 抽取,Transfrom转换、Load加载),在拿到最初的数据源用作数据分析时(甚至有时还要自己准备去做好模板去分发供生产数据环节使用),我们必须要用足够多的工具来应付我们不同的场景需求。

因不同的场景需求,不同的工具的适应匹配度也不同,没有哪个工具是万能的。所以千万不要抱死一个工具去做这些数据ETL的脏累活。

在笔者眼中,现有的工具是分为微软系工具和非微软系工具,因着笔者的认识的局限性,仅在微软系的领域给大家分享。但相信对于普通数据工作者,平衡成本和收益来说(学习成本、工具成本、使用场景范围等考虑),没有哪个非微软系的工具能够进入我们的关注视野。

小型数据场景最佳选择:OFFICE软件+第三方插件

若只是临时性的小型的数据ETL过程,最合适的工具莫过于我们每天都要面对的OFFICE软件(版本越高越好,越能带出更大的生产力效力,起码最低要OFFICE2010)。

有时我们自己能够完成的部分,还需要分享给其他人也能掌握完成,俗称我们做一个模板给其他人,让其他人能够更低门槛去完成,这个在日常工作中也是一个很常见的场景需要。自己会做了,还要让别人也能跟着做,最好能够将工作甩出去,让其他人轻松完成。

OFFICE软件毕竟是一个通用性的软件,而我们的工作场景是特定性的,使用起来必然没有定制化软件好用、易用。

所以出现了Excel催化剂这样的第三方插件,让其可以更加容易在特定场景上使用快速完成特定的任务,而同时又不需要定制化从零开始开发一个软件工具来操作(通常也是可行性非常低的,需求是无限的,预算是有限,并且很多定制化需求都是昂贵的。)

Excel催化剂现有的100+功能中,起码有90+的功能是为了服务数据ETL部分的,相信在Excel催化剂的这一系列辅助功能的支持下,数据民工的状态将得到非常大的改善。

无论是第三方插件亦或是OFFICE的原生功能,也都同样归属于可以满足我们工作中的需求,让我们工作更方便快捷,没有必要非要去纠结我不用插件来完成,就是要自己用原生功能去东凑西凑各种小技巧来实现。

同样地,OFFICE软件也在进化,不断地追加新的功能满足更多的工作场景,并且让工作更简单,所以很有必要对OFFICE软件追新,保持最新的版本最佳的方式就是安装OFFICE365了。

中小型数据场景最佳选择:PowerQuery+Excel催化剂

在自助式BI工具中,微软系的是PowerBI系列,其中支持数据ETL部分是PowerQuery,其在Excel、PowerBIDeskTop和Sqlserver的SSAS上都可使用。

此工具的学习成本不高,但产出还是很可观的。继承微软一贯的产品风格:图形化操作,并可在代码级别做更深入的扩展。最近一两年,社区的教程也是慢慢齐全起来,可以说是不错的低投入高产出的工具。

在Excel催化剂的众多功能中,也是站在一个资深数据分析师的视野,充分挖掘了数据ETL过程中的刚需功能,将复杂的共性的功能进行提炼,最终落实到插件层面供简单调用完成。同时在性能和处理效率上也是可以满足中型数据场景的需求。

在学习PowerQuery和Excel催化剂上可以做一些平衡,尽量用其最擅长的领域功能,不必非要对某个功能非要使用哪个工具完成,例如合并工作薄功能,在PowerQuery上,擅长规范化的数据源,在Excel催化剂上,擅长不规范的数据源。

每款工具都有其的优劣势的表现,某些发烧友极客将某个工具某些功能进行了太深入的扩展应用,并以此为傲。普通学习者来说需要懂得分辨,工具学习的二八原则下太深纠一些不太实用的功能,花费了大量的精力,反而可能产出是不高的。

中大型的企业级数据场景

企业级的应用,很多时候和个人的应用场景关注的点不一样,例如需要更关注:稳定性、性能、自动化、权限分配合理等。

在专业的数据ETL领域,微软系有Sqlserver提供的SSIS(数据集成服务),当然此处也略带分享下其他的专业工具,但一经对比,相信读者们还是会钟情于SSIS。

从网络文章上截取了其他人做的一些对比分析,最出名的是Informatica和datastage这两款,但价格也是很感人的,单买个工具就要将近100万。

新知图谱, 「PowerBI」从数据民工到数据白领蜕变之旅(一)-工具总览

细心读者可以看到有Kettle这一款免费的工具使用,但成本通常不止于软件成本,还有学习成本,反正笔者这样的水平是不太敢轻易去冒险一款开源免费,功能有限,学习成本高昂的工具。

而在SSIS方面,其实也算是免费的工具,购买Sqlsever附送免费使用,并且性能也非常出色,特别是对中小型企业的数据规模来说,已经非常能够胜任了。可要知道很多大厂的产品都是独立分开着一套套地单独销售的,并且价值昂贵。

许多读者可能会担心这些IT级别的产品学习成本也很高,很难驾驭。但工具的趋向是将复杂部分封装,对外是简单的输出使用,例如Excel催化剂,使用层面是非常简单的界面操作型,但内部的复杂是笔者给封装好,无需用户关注的。

SSIS的学习曲线其实并不算高,全程也是图形化操作,对数据库有一些认识,熟悉SQL语句,熟悉使用PowerQuery的群体,也一样可以玩得转。

在可扩展性方面,SSIS提供了dotNET脚本的接口,理论上再复杂的处理都可以驾驭得住,而无需类似PowerQuery那样是封闭性的,例如它不提供正则表达式的功能,就永远用不上,在SSIS上就不存在。

同样地论性能和功能的丰富性来说,若PowerQuery这种自助式的数据ETL不能满足现状需求,很建议再往前一步,走进SSIS的领域瞧一瞧。

云时代的选择-Azure Data Factory(数据工厂)

时代在发展,特别是数据领域,现在已经迈进了大数据时代,除了数据量大,还伴随着大量的非结构化数据如语音、长文本、视频、图片等,若使用传统的SSIS这样的工具,已经很难胜任了,所以微软给到我们的方案是Azure Data Factory,使用SAAS服务,让专业的人做专业的事,我们只需按需来使用即可。

微软给到我们的架构图如下,除了数据的抽取外,还可以使用到Azure的机器学习、认知服务AI等功能来对非结构化数据进行分析加工,转换为结构化的数据供下游的数据建模和分析工具使用。

新知图谱, 「PowerBI」从数据民工到数据白领蜕变之旅(一)-工具总览
新知图谱, 「PowerBI」从数据民工到数据白领蜕变之旅(一)-工具总览

结语

时代在进步,人的能力也被重新要求,在数据领域,数据ETL的本领的掌握,能够帮助我们从数据民工式的繁重工作中得以解脱出来,换来的是我们通过脑力的劳动,学习先进的工具,更轻松地完成数据加工、整理、处理等工作。

与笔者一起走一遍,从Excel基本操作、Excel催化剂的功能掌握、PowerQuery自助式ETL工具的学习,到专业ETL工具SSIS,再到云时代的ETL工具Azure Data Factory,按需学习,当前不满足时,可离开舒适区,再往前行,必然会有开阔天空在等着你。

笔者未来聚焦在数据领域的分享,不限于Excel,会分享更多Sqlserver、dotNET、Azure、PowerBI等话题,升级数据分析的能力,欢迎继续关注。


新知图谱, 「PowerBI」从数据民工到数据白领蜕变之旅(一)-工具总览
Excel催化剂
+ 关注

更多新知