我目前对工作和研究大数据分析和Web分析感兴趣,但是我不知道如何以及从哪里开始。我尝试在Internet上查找,但是对我来说有些进步。在走这条路线之前,我首先需要统计,数学方面的技能,知识吗?
我目前的计划是每个周末都参加在线课程,因为我目前在工作日担任助理软件工程师,并练习R等大数据所需的编程语言。我已经拥有计算机科学学位,因此对一些统计和数学知识非常熟悉。方法不是问题。任何建议和评论都非常感谢!
对于那些已经有经验的人,您的经验如何?与您合作最多的是什么?
我和你在同一条船上。我在Web开发部门工作,担任业务分析师。我进行了一些软件开发,数据挖掘和数据可视化,但是我一直在提高自己的技能,因为这对我来说很有趣,而且这使我成为了一名非常多才多艺的员工。
网络分析/大数据
假设您拥有公司的网站,请查看您是否可以对其公司的Google Analytics(分析)帐户进行读取访问。该API确实非常好,并且R中的预构建软件包非常容易取出大量数据。如果他们的网站足够大,您可以轻松创建自己的真实数据集。尽管这些可能不会像“大数据”中那样“大”,但是对于实践数据可视化来说,它们绝对是很棒的。我建议学习Shiny和R Markdown。您可以轻松创建可与公司共享的网络统计可视化。如果最终遇到要处理的数据量问题(即:如果他们拥有大量的Web站点),那么您可以考虑使用Spark处理大数据。Coursera专注于大数据-https://www.coursera。。如果您只是对它们进行“审核”,则可以免费参加所有课程。您将不会获得证书或其他任何东西,但可以访问所有课程材料。它们显然经过了Spark,Hadoop,Pig和Hive。我还没有参加,但是我参加的UCSD Coursera课程非常好。
显然,Coursera并非万事俱备...还请查看edx.org,Pluralsight,Udemy等...您可以免费获得一年的Pluralsight会员资格-只需使用Google即可。我是通过某种方式通过微软的。我最喜欢的Pluralsight课程是(与数据/分析无关)道德黑客。Udemy经常在巨大的课程上达成惊人的交易-例如21个小时的有关数据分析的Python讲座,诸如此类。只需注册该服务,您将在一两周内获得“特别优惠”。他们通常是10-20美元。https://www.brighttalk.com/还是与数据科学/分析相关的网络研讨会和讨论的好地方。
数据库
我的公司使用SQL Server(Microsoft),因此我还使用MVA(Microsoft Virtual Academy)上了一些数据库类。他们有很多课程,从完全入门到精通技能:MVA Database Stuff。
数据集
如果您发现自己需要大数据集,请加入Kaggle。它们通常具有用于机器学习的出色数据集,但是您可以自己使用它们来挖掘和进行可视化。我会特别寻找带标签的数据集。许多较大的集合完全是匿名的-没有标签,没有任何意义。但是,如果您只是四处闲逛,那并不是很有趣。此外,有人在这里编译了许多公共数据源:https : //github.com/caesar0301/awesome-public-datasets。最后,纽约市开放数据是我最喜欢的获取净数据集的地方之一。有些超级无聊,但对停车票等进行了一些很酷的分析。
更多...
如果您只是在寻找更多课程或阅读书籍,请查看https://www.metacademy.org/。他们提供了一些建议的途径来学习深度学习,机器学习,贝叶斯统计数据以及其他类似的东西。我认为机器学习是下一步的绝佳选择-一旦您精通软件开发,数据库管理/创建/查询和可视化。
甚至更多...
浸入自己。那里有大量的数据博客,播客,聚会小组,会议和新闻。尽一切可能进入那里,弄清楚正在发生的事情以及谁在做什么。无论如何,这是非常有趣的。我遵循的两个我最喜欢的东西:datatau(数据科学的黑客新闻)和I Quant NY(上面链接的,用于停车票)。
本文收集自互联网,转载请注明来源。
如有侵权,请联系[email protected] 删除。
我来说两句