0基础入门数据分析(零基础怎么学数据分析)

网友提问:

零基础如何入门数据分析?

优质回答:

大数据公司里一般建立数据库和分析数据的是两拨人。

如果你想学习如何建立数据库,就学SQL。结构化查询语言(Structured Query Language),简称SQL,是一种数据库查询和程序设计语言,用于存取数据及查询,更新和管理数据的系统。可以用来查询检索数据,添加修改和删除数据等等。

如果你想学习拿到数据后如何进行分析,就学Python,统计和一些机器学习算法。机器学习理论主要是设计和分析一些让计算机可以自动学习的算法,从数据中自动分析获得规律,并利用规律对未知数据进行预测。因为这些算法中涉及了大量的统计学理论,所以有一些统计学的知识是很有帮助的,但是也不需要统计什么都懂。但是由于我们处理的数据很庞大,无法手算,必须借助计算机来帮我们进行大量的计算,所以需要学习Python编程语言来帮助我们,每个机器学习的算法都有相应的Python指令来帮你计算的。

机器学习的算法有比如:

非监督式学习中的K-Means算法,DBSCAN,t-SNE等等,主要不是用来预测,而是对整个数据有一定的深入了解。

监督式学习中常见的有:

回归算法:试图采用对误差的衡量来探索变量之间的关系的一类算法,常见的种类有最小二乘法(Ordinary Least Square),逻辑回归(Logistic Regression),逐步式回归(Stepwise Regression),多元自适应回归样条(Multivariate Adaptive Regression Splines)以及本地散点平滑估计(Locally Estimated Scatterplot Smoothing)。

决策树学习:根据数据的属性采用树状结构建立决策模型,通常用来解决分类的问题。常见种类有:分类及回归树(Classification And Regression Tree, CART), ID3 (Iterative Dichotomiser 3), C4.5, Chi-squared Automatic Interaction Detection(CHAID), Decision Stump, 随机森林(Random Forest), 多元自适应回归样条(MARS)以及梯度推进机(Gradient Boosting Machine, GBM)

神经网络:模拟生物神经网络,通常用于解决分类和回归问题。神经网络是机器学习的一个庞大的分支,有几百种不同的算法。(其中深度学习就是其中的一类算法,我们会单独讨论),重要的神经网络算法包括:感知器神经网络(Perceptron Neural Network), 反向传递(Back Propagation), Hopfield网络,自组织映射(Self-Organizing Map, SOM)等等。

其他网友回答

要多看多练习还有就是要有兴趣,越看越想学越有动力才能学好

其他网友回答

《深入浅出统计学》

《从零进阶!数据分析的统计基础》

《谁说菜鸟不会数据分析》

《精益数据分析》

《数据挖掘与数据化运营实战,思路、方法、技巧与应用》……

其他网友回答

我是一枚做过产品运营,策划,数据分析,数据挖掘,大数据,在IT行业浸淫多年的最老的80后。

之前在刚毕业加入互联网这行的时候,也很焦虑也很着急,那会儿特别想做互联网产品序列的工作,但是脑袋里一片浆糊,不知道从何入手。

我先说说我的经历,然后再顺着我的经历讲数据分析这块的学习和提升的方法论,避免大家少走弯路,能用正确的方法快速成长。

我刚毕业那会儿是03年,面了很多网络游戏公司,因为从小特别热爱游戏,也面了很多IT公司,因为那会儿互联网刚起步没多久是一个风口,自己也挺喜欢,最终还是选择了游戏行业,因为还是遵循内心最真实的想法,选择自己热爱的领域作为未来的事业,这个选择一直到现在我都觉得很正确。

03年那会开始以管理培训生的身份到北京的一家知名游戏公司实习,机缘巧合,被选拔到了上海分公司做产品运营,负责一个moba+rpg项目的商业化和产品调优模块,刚去那会儿哪儿会这些专业的东西啊,去的时候甚至连封闭测试的目的都不知道,后来也是一个个问在工作中打磨出了方法论。说实话当时负责的是商业化和产品调优模块,如果你没有数据,你怎么去给研发提调优建议,怎么去设计商业化活动,如果商业化活动有问题你连调整的依据都没有,所以从那儿开始就开始接触数据分析的工作。

最开始的时候,我们内部对于用户流失的指标定义有很大的歧义,但是如果这个指标不确定下来,我们接下来的分析的结论会出现很大的偏差,最终会影响我们的调优决策,从而影响最终的业务,当时因为年轻也没有考虑太多就按照公司统一标准来,但现在转过头发现,真的很坑,当年的很多结论都是不对的,严重影响了大家的决策和判断。这里提到第一个点,叫做:业务数据指标的定义。这个东西至关重要!!!

当我们有了业务指标的定义的时候,需要去确定很多东西,比如说观测数据的维度,统计的周期等,比如拿一个最简单的流失分析来说,可能我的分析思路是抽丝剥茧,从大到小,逐项缩小范围的分析方式,那么具体分析的时候怎么分析呢?很多人都知道是看流失时的等级,如果等级看不出具体问题,还得到任务,如果任务还看不出来要到具体的客户端点击,当然这些都只是常规的操作,甚至如果有足够的经验和积累,不用做分析都大概知道哪里有问题,我们需要的分析不仅仅只局限于此,而是要更加的深入,深入的玩家背后的动机。这里提到第二个点,叫做:数据观测的维度,和统计的周期。这个东西同样直观重要!!!

在上海做了一年的产品运营之后,后续我调回北京总部,担任数据分析师,我是从普通数据分析师一步步走上管理岗位的,现在是公司业务数据部门的负责人,当然在15-19年这四年的过程中,对于产品设计,产品运营,数据分析,机器学习等相关领域均有比较深度的涉猎,所以在数据驱动业务这个事务上还算处理得比较得心应手,也推动了公司往“数据驱动”和“精细化运营”的方向发展,公司在这块的投入也逐步加大。

在这里,对于新人而言,我不会只推荐一些没啥卵用的书籍给你,比如《深入浅出数据分析》,这种书一点用都没有,我会给你推荐有用的书籍和实用的学习方法,看不好的书,看无用的书,往往感动了自己,却感动不了他人(你的上司和合作伙伴),你的能力并没有得到提升。

对于数据分析的小白而言,对于我现在培养的应届生而言,我有如下几个要求:

第一,技术需要过硬:

1)sql语句,你必须要给我学精通了,增删改查,以及存储过程你都需要样样精通,这块的话,给大家推荐一个学习地址,如果大家感兴趣或者有问题可以私信我要我之前整理学习文档资料

2)python,python的学习是为了让你后续处理繁杂庞大的数据集时更高效更方便更快速,以及后续有很多机器学习也好,或者深度学习也好的应用项目你能上手。

第二,掌握或精通一部分常用的数学原理:

1)基本数学原理,统计相关的原理,比如平均值,方差,标准差,导数,反函数,拉格朗日等等,这里大家可以去csdn也好或者淘宝也好买一本相关的书籍就够用。

2)机器学习算法原理:回归算法,分类算法,聚类算法等等,比如最简单的分类算法:决策树,他的数学原理你真的掌握吗?信息熵和条件熵是啥意思,怎么计算的知道么?如果你只能调包,那么解决简单的问题ok,涉及到很多复杂的情形,比如样本不均衡,比如特征过少时,你就无从下手。这块的话,推荐大家多去逛逛csdn这个论坛,很有用,能学到不少东西。

3)动手做一些虚拟案例,或者参与组里同事的一些项目,比如一个游戏内广告聊天拉人识别的项目,其本质是通过分类算法达成文本识别,这块涉及到的知识点可能有:文本处理,分类算法应用等,这块可以多去github上转转,有一些也许是已经运营过的案例能够给你启发的。

第三,不断加强自己对产品的感知力:

1)如果是游戏行业的:

多玩不同品类的产品,每个品类选择1-2款精品深度体验,注意是深度体验,而非浅尝辄止

随着版本迭代深入体验,并且需要思考每一次的版本迭代和周更新的原因,反推业务需要解决什么问题

带着问题去玩游戏,边玩边记录自己的感受,有经济能力就充点小钱,后续商业化分析部分会用得着

做个有心人,记得多游戏横向之间做对比

不要看gamelook等媒体上的测评稿,那些大多数是枪稿,要自己去体验,用心去体验,不要人云亦云

多跟制作人层面的人交流宏观的设计理念(如果有机会的话),多跟数值策划学习数值规划的流程(职业,属性,战斗公式,属性配比放出,商品定价,游戏内经济流转设计等),多跟系统策划学习系统架构的知识(做一个系统目的是啥,是为了解决什么问题?),多跟产品运营学习运营知识(比如商业化设计,活动设计等等),多跟市场发行的同学学习相关知识(营销方法论,买量等),还有很多,不一而足…

这里推荐几个有用的资讯门户或者app:腾讯GAD,游资网,机核网

另外推荐一本书:《游戏设计的艺术》,这本书能带你进入一个前所未有的世界,并且从入门到精通都可以随手翻的工具书,注意是“设计的艺术”,而非“分析的艺术”

2)传统互联网(非游戏):

多体验互联网产品,要多而广,因为互联网产品跟游戏产品还不一样,他的体验成本(时间和精力)比具体游戏产品小很多,所以尽可能多而广,我现在仍然保持着每周至少体验5个新互联网产品的习惯,比如社交类的,可以多体验体验陌生人社交的,熟人社交的,多思考产品之间有什么共性和不同点

带着问题去体验产品,主要反推产品做成这样有什么好,有什么不好,产品主要为了解决什么问题,他的业务目标有可能是什么样

经常跟圈内人去探讨和交流,跟游戏不一样的是,互联网有很多的沙龙,可以多参加这种沙龙,但是不要杂而广,要专而精,现在有很多的沙龙就是为了做而做,为了感动自己而做,这种没有必要参加

时刻关注竞品,比如你是社交产品公司的,那么微信也好,陌陌也好,每一次版本迭代,你都需要去思考他为了解决什么问题,然后结合具体的内容去评估他的目的是否达到。

这里推荐1个能获取到较新互联网资讯的app:36kr,用这个基本上就足够了

第四,多做数据积累,多思考,多提问:

我们在做具体的数据分析的时候,有时候需要快速响应业务,有时候通过传统分析方法很难找到问题点,这个时候积累就至关重要,游戏行业的产品决策,40%依靠数据,30%依靠用户反馈,还有30%依靠经验,这个经验就是积累。

积累是什么?积累是过往的产品调整,活动设计,跟数据之间的关系,我们只有在每一项工作都认真严谨对待的基础上,这个积累工作才能做好,这样你的产品和数据敏锐度会越来越高,后续你可以跨界成为产品专家。

第五,给自己的定位不光是数据分析师,而是半个产品或运营负责人

我们有很多的数据分析师,一直都处于很被动的状态,业务提什么需求你照做,久而久之就变成一个机械式地接需求完成需求的人员,毫无存在感。怎么改变这个现状呢?第一是要多做积累就如同上述第四点所说,这块急不得需要时间,第二是需要主动,把自己当作半个产品或运营负责人来对待,这样面对日常数据的时候,你会主动去完善日常监控指标,你会每日去盯着数据的异常和变化,你会根据这些异常和变化往下去进行深度的挖掘,或者数据没有异常时,按照经验这个阶段该做什么分析了,赶紧做,发现了问题或者潜在风险赶紧跟业务聊解决方案,这样才能将数据分析师的价值发挥到最大

以上五点,我认为是针对小白学习数据分析必备的方法和心理建设,职业道路漫漫,希望各位一切顺利,这是我第一次发这么长的回复,还希望各位支持,后续我会陆陆续续开通个人专栏和订阅号,争取多跟大家分享数据分析,数据挖掘,机器学习应用的一些案例,大家一起提升。

如有问题,随时私信我。谢谢大家。

其他网友回答

大家的回答都很好,但是有个问题。

一上来便是各种教程,二话不说给出一批书单,各种数据处理的方式,讲怎么样用Python挖掘数据,怎么用R进行数据可视化,讲AB测试。

他们给的教程都很好,数据处理的方式也很有借鉴意义。

且不说,有多少人是光收藏,而不去认真学习的,就算是认真去学习的,他们也会遇到这样的问题

为什么这么用,为什么这么做。

比如,前两天在我的这个回答中,零基础如何学爬虫技术? – 知乎

有很多人都有这样的评论

一开始我是无语,后来想了想,这应该是一个普遍问题

这就是数据分析中最大问题,很多人学习数据分析,更多的是为了数据分析而数据分析,实际上根本不知道自己在做什么,为什么这么做。

或者仅仅是为了在简历上增加一行

鄙人精通数据分析。

估计HR看了是要微笑着,然后把简历放入不予录用的文件夹中。

数据分析,不论使用什么样的工具,使用什么样的方法,不论是Excel,还是Python,还是MySQL,都是工具,目的只有一个——

解决一个问题,或者给一个决策提供依据。

所以,学习数据分析的第一步,是要考虑,我要用数据,解决一个什么样的问题?

这点如果没有考虑清楚,只是跟着网上的教程学习爬虫,学习数据清洗,然后把那些公有的统计数据做成绚烂的图表,又有什么用呢?

1.哪里开店

比如,有这样一个现实的例子,你表嫂跟你说,小明啊,你最喜欢吃我煮的麻辣烫了,我想开麻辣烫店,就在大学城附近,你说哪里好呢?

你是不是会想到以下几个问题呢?

表嫂的麻辣烫真好吃,想想就流下了口水

咳咳,正事要紧,到底应该在哪里开店呢?

所以,你有考虑到了这些可以量化的数据并且对应的你找到了这些数据的获取方式

问题来了,虽然写出来了大致的数据获取方式,但是具体怎么操作?

招生计划怎么获得,学校官网还是相关报道?

如何通过在线地图分析学校面积及相关建筑分布的合理性,最小路径还是顺路路径?

如何获学校食堂评价,爬取微博数据,获得地理位置,并且对提及“食堂”的微博进行词义褒贬分析?或者直接拦路问询?

人流量怎么获得,实地考察的时候,用本子画正字吗?

很好,这些问题你都想到了相应的解决方式,并且很顺利的获得这些数据,尽管有可能不太准确,但是你确确实实比以前更加了解了大学城附近大致的餐饮市场环境,不是么?

这也就是,

数据分析必须紧贴业务本身

获得数据之后,如何分析,人流量/商贩个数?但是每个商贩的服务能力又不一样,是不是得加权,如何加权?

于是你考虑了很多情况,写下来一个公式:

建议推荐开店系数=(人流量*XX/(YY*0.4)+租金*0.5)/ZZ

根据系数,你得出一个结论,建议开店的位置的前三家分别是

A大东门

A大小西门

B大女生宿舍小南门

你表嫂想了下,说,我知道你最喜欢B大的小姑娘们,胸大貌美腿子长。

于是麻辣烫店就开在了B大女生宿舍的小南门。

这个过程中,你有可能学会的或者仅仅了解(不一定掌握)数据分析的相关技能包括不限于以下:

Excel加减乘除,基础函数;

爬虫的基本原理,及操作方式;

正则表达式与数据清洗;

语义分析的一般实现方式;

在线地图API可以获取的数据有哪些;

2.优化数据的应用

一阵时间的忙碌,店终于开起来了,你表嫂的手艺真的很不错,每天都有很多小姑娘过来吃麻辣烫,中午晚上的时候,都忙不过来。

你表嫂感觉很可惜,很多客户就这样被浪费掉了:我多卖一份,少卖一份都无所谓,但是小姑娘本来想吃咱们家的麻辣烫,结果爬不上队饿着肚子走掉了,到别家说不定还要等,看见我都觉得挺过意不去的。

这时候聪明的你,有可能想到了通过获取以下数据,并且进行相关的分析来优化当前这个问题

你连续跟踪了三天这样的数据,运用了相关的统计学的相关知识

等待时间>=13分钟的时候,用户放弃继续等待的概率是78%!,然后你表嫂并不能理解,这78%到底是什么意思

所以你画了一张图,说山峰越高,走的人就越多。

问题找到了,只要将最长等待时间优化到13分钟之内,用户放弃等待的几率有可能下降。

这时候聪明的你,想到了如下的解决方式:

用户抵店之后,才开始点餐,然后烹饪,是不是可以通过互联网的方式进行预点餐呢,所以你给表嫂申请了一个微信号,日经贴就是:“今天你想吃什么”,回复留言及预计到店时间,即可预订。

你发现,用户选完菜之后总是喜欢把菜夹放到最远的地方,每次表嫂都需要把菜夹整理一次,拿到开始的地方。你考虑了一下,将菜筐的布局进行更改,刚好菜夹能够完成一次循环;或者你使用专菜专夹的方式。

优化了店内桌椅布局,行走了最短的距离到达全店

……

数据分析必须落地才是有效的,不是提交统计结果,而且获得统计结论

这个过程中,你有可能学会的或者仅仅了解(不一定掌握)数据分析的相关技能包括不限于以下:

数据清洗的一般方式,时间函数计算

统计学中分布的相关知识,这里应该是泊松分布

数据可视化,包括不限于Excel 图表,js图表库,或者在线图表工具

3.大数据的处理

生意越做越大,扩充了店面之后,又开了分店,这时候你表嫂已经不亲自上一线熬煮麻辣烫了,但是又不放心那些雇来的人是否认真的在服务,于是制定了相应的店规,动不动还来一个突击检查。感觉比以前还要累了。

这时候,聪明的你,看在眼里,疼在心里,所以,你建议嫂嫂购买专业的餐饮管理软件,来获得相应的店铺运营数据。

在餐饮软件的后台,会有这么些个大致的运营数据,

当前订单量,成交量,客流量,客单价,等等等等,一切看起来那么完美。

等等,不对,为什么这个月以来,C分店的客单价总是这么低呢?事出有异,必定有妖!

还好,这个系统功能还算完善,能够导出一天所有的订单明细,包含以下字段,

下单时间,下单菜品,下单客户,联系电话,消费金额,配餐人,操作人,收银员,等等等

但是,你还是快掀桌子了,一个月,让我导出30次数据,然后在合并么?这个方法简直太土鳖了

你想着,要是能直接读取数据库不就好了么?一看产品介绍,数据库使用MySQL,于是你Google了一下,SQL入门,你发现,WHERE 和SELECT 基本上都满足你的需求了

很顺利的,你把这些数据导出了。

你把这个20W条记录的CSV用Excel打开,风扇疯狂的转了起来,不一会,你表嫂孱弱的笔记本就卡死了。

你感叹,Excel分析小一点的数据还行,数据量稍微大点,就显得力不从心。所以,你拿起了一本书,名字叫《21天学习Python,从入门到放弃》,这不坑爹呢吗?

你想着,反正我是为了处理这批很大的数据,没必要全部了解Python的功能,只需要找到相关的操作方法就好了。

你在Google上分别搜索了以下关键字

Python mysql

Python 数据分析库

你还找到了一本,用Python进行数据分析的pdf,感觉这本书写的通俗易懂,而且还有元数据示例。

在搜索的过程中,你发现了有好多数据分析是代码示例,有的甚至,只需要改一下文件路径,搬过来就能用。

你会感叹,原来,写程序也是Ctrl+C,Ctrl+V啊

这个过程中,你有可能学会的或者仅仅了解(不一定掌握)数据分析的相关技能包括不限于以下:

SQL基础语句

Python常见的数据分析库

Python数据可视化

聪明的你,捣鼓了三两天,就发现了问题的所在?

那么问题究竟在哪呢

我实在是写不动了,明天再更

版权声明