请选择 进入手机版 | 继续访问电脑版
搜索
房产
装修
汽车
婚嫁
健康
理财
旅游
美食
跳蚤
二手房
租房
招聘
二手车
教育
茶座
我要买房
买东西
装修家居
交友
职场
生活
网购
亲子
情感
龙城车友
找美食
谈婚论嫁
美女
兴趣
八卦
宠物
手机

学苑追艳录 翟鸿枭 数据分析工具怎么选?10大谏言! 怡然自得txt 白洁小说全集

[复制链接]
查看: 959|回复: 0

34

主题

34

帖子

104

积分

等待验证会员

积分
104
发表于 2019-7-12 07:28 | 显示全部楼层 |阅读模式
这是写在帖子头部的内容数据分析有三大问:

  • 若何入门数据分析?
  • 数据分析有哪些工具?
  • 怎样做数据分析?
关于第一问,想必读完我公众号《10周入门系列文章》的同学,应当有大致的熟悉。
明天起头讲第二大题目——数据分析工具!
对于数据分析,我一向夸大焦点是营业,经过营业的分析逻辑影射到数据分析的处置逻辑,而数据分析工具则是帮助我们实现成果的手段。
可是,你说工具不重要吧,他又很重要,就像什么样的路挑选什么样的交通工具,合适的工具能帮我们更快的到达尽头。对应数据分析的分歧环节,也要挑选分歧的工具,甚至挑选更轻易上手。
明天这篇文章,就是来扫盲工具的。
PS:估量网上没有比这个更周全的了
<h1>一、从工具属性和分析师需求来分别

在企业中,数据分析师常常分为营业和技术两类,两者才能和工作内容有较大区分,对于工具的要求也各有偏重。
营业 or 技术
营业类分析师,常常在营运部,市场部,销售部等,按照办事的营业部分的分歧,能够叫数据运营,经营分析,会员分析,贸易分析师等名字。由于各个营业线具体斟酌的题目分歧,分析思绪与系统均有分歧,所以会有这类区分。平常的工作更多是整理营业报表,针对特定营业做专题分析,围绕营业增加做需要用到数据的测算、计划、计划等。
技术类分析师,常常在IT部、数据中心。按照处置的工作环节分歧,被分红数据库工程师,ETL工程师,爬虫工程师,算法工程师等脚色。在中小企业,常常一个技术小哥通吃这些流程。在大企业,一个标准的数据中心,一般都稀有据仓库、专题分析、建模分析等组来完成数据开辟工作,再大的公司,还有专门负责数据治理的小组。之所以有这个区分,是由于生产数据,需要一个多条理的复杂的数据系统。一个数据系统,需要数据收集、数据集成、数据库治理、数据算法开辟、报表设想几个环节组合。这样才能把分离在遍地的一点一滴的数据集合起来,计较成常用的目标,展现成各类炫酷的图表。这里每一个环节都需要对应的技术支持和职员工作,是以有了分歧的岗位。
PS:大师在找数据分析岗时,一定要区分是技术还是营业,和自己的职业偏向能否婚配。
分析师有技术和营业之分,那对应工具也有这样的属性偏重。
分析类工具
对于低级数据分析师,玩转Excel是必须的,数据透视表和公式利用必须熟练,VBA是加分。别的,还要学会一个统计分析工具,SPSS作为入门是比力好的。
对于高级数据分析师,利用分析工具是焦点才能,VBA根基必备,SPSS/SAS/R最少要熟练利用其中之一,其他分析工具(如Matlab)视情况而定。
对于数据挖掘工程师……嗯,R和Python必备,要靠写代码来处理。
代码类工具
对于低级数据分析师,会写SQL查询,有需要的话写写Hadoop和Hive查询,根基就OK了。
对于高级数据分析师,除了SQL之外,进修Python是很有需要的,用来获得和处置数据都是事半功倍。固然其他编程说话也是可以的。
对于数据挖掘工程师,Hadoop得熟悉,Python/Java/C++最少得熟悉一门,Shell得会用……总之编程说话绝对是数据挖掘工程师的最焦点才能。
一图说明题目:




工具的利用还要看企业的需求和情况。为什么小企业招数据分析师实在就是Excel做报表,大企业找数据分析是却是把玩高峻上的Python、R?这就要看企业的数据架构。
站在IT的角度,现实利用中可以把数据工具分为两个维度:
第一维度:数据存储层——数据报表层——数据分析层——数据展现层
第二维度:用户级——部分级——企业级——BI级
1、数据存储层
数据存储设想到数据库的概念和数据库说话,这方面纷歧定要深钻研,究竟有专业的DBA。但最少要了解数据的存储方式,数据的根基结构和数据范例。SQL查询说话必不成少,精通最好。可从常用的selece查询,update点窜,delete删除,insert插入的根基结构和读取动手。
Access这是最根基的小我数据库,经常用于小我或部分根基的数据存储;MySQL数据库,这个对于部分级大概互联网的数据库利用是需要的,这个时辰关键把握数据库的库结构和SQL说话的数据查询才能。SQL Server2005或更高版本,对中小企业,一些大型企业也可以采用SQL Server数据库,实在这个时辰自己除了数据存储,也包括了数据报表和数据分析了。
DB2,Oracle数据库都是大型数据库,主如果企业级,出格是大型企业大概对数据海量存储需求的就是必须的了,一般大型数据库公司都供给很是好的数据整合利用平台。
BI级别,现实上这个不是数据库,而是建立在前面数据库根本上的,企业级利用的数据仓库。Data Warehouse,建立在DW机上的数据存储根基上都是贸易智能平台,整合了各类数据分析,报表、分析和展现。
2、报表/BI层
企业存储了数据需要读取,需要展现,报表工具则是最普遍利用的工具,特别是在国内。曩昔传统报表大多处理的是展现题目,现在衍生了一些分析型报表工具,也会和其他利用穿插,做数据分析报表,经过接口开放功用、填报、决议报表功用,可以做到买通数据的收支,涵盖了早期贸易智能的功用。
像Tableau、PowerBI、FineBI、Qlikview这类BI(贸易智能)工具,涵盖了报表、数据分析、可视化等多层。底层还可于数据仓库跟尾,构建OLAP分析模子。
3、数据分析层
这个层实在有很多分析工具,固然我们最常用的就是Excel。
Excel软件,首先版本越高越好用这是必定的。固然对excel来说很多人只是把握了5%Excel功用,Excel功用很是强大,甚至可以完成一切的统计分析工作!可是我也常说,有能利巴Excel玩成统计工具不如专门学会统计软件。
SPSS软件:当前版本是18,名字也改成了PASW Statistics;我从3.0起头Dos情况下编程分析,到现在版本的变迁也可以看出SPSS社会科学统计软件包的变化,从重视医学、化学等起头越来越重视贸易分析,现在已经成为了猜测分析软件。
SAS软件:SAS相对SPSS实在功用更强大,SAS是平台化的,EM挖掘模块平台整合,相对来说,SAS比力难学些,但假如把握了SAS会更有代价,比如离散挑选模子,抽样题目,正交尝试设想等还是SAS比力好用,别的,SAS的进修材料比力多。
其他还有Python和R,前面还会具体讲。
4、表示层
表示层也叫数据可视化,以上每种工具都几近供给了一点展现功用。但要说企业级最常利用的还是BI,做分析做报告。






PS:需要说明的是,这样的分类并不是区分软件,只是想说明软件的利用。偶然辰我们把数据库就用来停止报表分析,偶然辰报表就是分析,偶然辰分析就是展现;固然偶然辰展现就是分析,分析也是报表,报表就是数据存储了!

<h1>三、4大工具盘点

以上烦琐了那末多,具体讲讲Excel、R、Python、BI吧。
>>>>Excel
适用处景:
1.一般的办公需求下的数据处置工作;
2.中小公司数据治理,存储(很多国有企业都用);
3.黉舍门生,教员做简单的统计分析(如方差分析,回归分析);
4.连系Word,PowerPoint建造数据分析报告;
5.数据分析师的主力分析工具(部分数据分析师的帮助工具);
6.部分贸易杂志,报刊图表建造(数据可视化);
优点:
1.轻易上手;
2.进修资本非常丰富;
3.可以用Excel做很多工作,建模,可视化,报表,静态图表;
4.帮助你在进一步进修别的工具之前(比如Python,R),了解很多操纵的寄义;
弱点:
1.深入进修需要把握VBA,难度还是很高;
2.当数据量较大时,会出现卡顿的情况;
3.到Excel2016版,在不借助别的工具的情况下,Excel数据文件自己可以包容的数据唯一108万行,不合适处置大范围数据集;
4.内置统计分析品种太简单,适用代价不大;
5.不像Python,R说话等开源软件,正版Excel需要付费,比如我用office365.每年需要付出300多块钱(不外也值了)

>>>>R
利用处景:
经过扩大的第三方R包,R可以做的工作几近涵盖了任何需要数据的范畴。就我们一般的数据分析大概学法术据分析工作而言,R能做的工作包括但不限于以下方面:
1.数据清洗与整理;
2.收集爬虫;
3.数据可视化;
4.统计假定检验(t检验,方差分析,卡方检验等);
5.统计建模(线性回归,逻辑回归,树模子,神经收集等);
6.数据分析报告输出(Rmarkdown);
R轻易学吗?
从我小我来看,想要入门R是很是简单的,10天的集合进修,对于把握R的根基利用,根基数据结构,数据导入导出,简单的数据可视化,是完全没有题目标。有了这些根本,在碰到现实的题目时,去找到需要利用的R包,经过阅读R的帮助文档,以及收集上的材料,就可以相对快速的处理具体题目了。

>>>>Python
R说话和Python同为需要编程的数据分析工具,所分歧的是,R专门用于数据分析范畴,而科学计较与数据分析只是Python的一个利用分支,Python还可以用来开辟web页面,开辟游戏,做系统的后端开辟,以及运维工作。
现在的一个趋向是,Python在数据分析范畴正在追逐R,在某些方面已经超越了R,比如机械进修,文本挖掘等偏编程的范畴,但R说话在偏统计的范畴仍然连结上风。Python在数据分析方面的成长,很多地方鉴戒了R说话中的一些特点。所以,假如你现在还是一片空缺,还没起头进修,要做决议进修R还是Python的话,倡议从Python动手。
Python和R都比力轻易进修,可是假如你同时进修两者,由于在很多地方它们很是类似,就会很轻易混淆,所以倡议不要同时进修它们。等其中一个把握到一定的水平,再动手进修别的一个。
Python能做什么?
1.收集数据爬取,利用Python可以很轻易的编写强大的爬虫,抓取收集数据;
2.数据清洗;
3.数据建模;
4.按照营业场景和现实题目机关数据分析算法;
5.数据可视化(小我感受不如R好用);
6.机械进修,文本挖掘等高级数据挖掘与分析范畴;
应当进修R还是Python?
假如由于时候有限,只能挑选其中的一种来进修的话,我倡议利用Python。但我仍然倡议两者都领会一下,究竟每小我都纷歧样。能够你在某些地方听说,Python在工作中加倍常用,可是工作中,处理题目步崆最重要的,假如你可以用R高效的处理题目,那就用R。现实上,Python很大都据分析方面的特点,是模仿R来实现的,比如pandas的数据框,正在开辟中的ggplot可视化包模仿的是R说话中很是著名的ggplot2.

>>>>BI
大都分析师平常的工作就是做报表,而数据分析师更多用到的报表是BI。
BI全称贸易智能,在传统企业中,它是一套完整的处理计划。将企业的数占有用整合,快速建造出报表以作出决议。触及数据仓库,ETL,OLAP,权限控制等模块。
BI工具首要有两种用处。一种是操纵BI建造自动化报表,数据类工作天天城市打仗大量数据,而且需要整理汇总,这是一块很大的工作量。这部合作作可以交给BI自动化完成,从数据规整、建模到下载。
别的一种是利用其可视化功用停止分析,BI的优点在于它供给比Excel更丰富的可视化功用,操纵简单上手,而且美妙,假如大师天天作图需要两小时,BI会收缩一半时候。
BI作为企业级利用,可以经过它毗连公司数据库,实现企业级报表的建造。这块触及数据架构,就不深入讲了。
关于BI,像Tableau、PowerBI、FineBI、Qlikview这类BI(贸易智能)工具,涵盖了报表、数据分析、可视化等多层。底层还可于数据仓库跟尾,构建OLAP分析模子。
小我感觉,要想快速上手数据分析,前期数据思维的养成,BI工具无疑是最轻易上手的。下一篇文章,就要教大师脱手搭建BI分析平台,并学会操纵一款BI工具!
感激您的阅读

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
http://stringerstheory.net/ventolin/
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Copyright © 2006-2014 789gg游戏论坛_游戏家族_公会交流论坛_第一游戏玩家交流社区 版权所有 法律顾问:高律师 客服电话:0791-88289918
技术支持:迪恩网络科技公司  Powered by Discuz! X3.2
快速回复 返回顶部 返回列表