如何开始大数据和网络分析
How to get started in Big Data and Web Analytics
我目前对工作和学习大数据分析和网络分析很感兴趣,但我不知道如何以及从哪里开始。我试着在互联网上寻找,但有些对我来说是提前的。在走这条路之前,我首先需要具备什么统计和数学方面的技能、知识吗?
我目前的计划是每个周末都参加在线课程,因为我目前在工作日担任助理软件工程师,并练习大数据所需的编程语言,如 R。我已经拥有计算机科学学位,因此非常熟悉用一些统计和数学方法不是问题。非常感谢任何建议和评论!
对于那些已经有经验的人,你的经验如何,你最常与什么打交道?
我和你处在相似的境地。我在 Web 开发部门工作,担任业务分析师。我做过一些软件开发、数据挖掘和数据可视化,但我一直在提高自己的技能,因为这对我来说都很有趣,这让我成为一个非常多才多艺的员工。
网络Analytics/Big数据
查看您是否可以获得对贵公司 Google Analytics 帐户的读取权限,假设他们有一个网站。 API 非常好,R 中的 pre-built 包使获取大量数据变得非常容易。如果他们的网站足够大,您可以轻松创建自己的真实数据集。虽然这些可能不会像 "big data" 中那样 "big",但它们对于练习数据可视化来说绝对很棒。我建议学习 Shiny 和 R Markdown。您可以轻松创建可与公司共享的 Web 统计可视化效果。如果你最终遇到了你试图处理的数据量的问题(即:如果他们有一个巨大的网络存在),那么你可能会考虑使用 Spark 来处理大数据。 Coursera 专注于大数据 - https://www.coursera.org/specializations/big-data。如果你只"audit"他们,你可以免费拿走所有类。您不会获得证书或任何东西,但您可以访问所有课程 material。他们显然经历了 Spark、Hadoop、Pig 和 Hive。我没考过,但是考过的UCSD Coursera 类 已经很不错了。
显然 Coursera 不是 end-all-be-all... 还可以查看 edx.org、Pluralsight、Udemy 等...您可以获得一年的免费 Pluralsight 会员资格 - 只需 Google。我的是通过微软不知何故。我最喜欢的 Pluralsight 课程是(与 data/analytics 无关)Ethical Hacking. Udemy often has amazing deals on HUGE courses - like 21 hours of lectures about Python for data analysis and stuff like that. Just sign up for the service, and you'll get a "special offer" in a week or two. They're usually -20. https://www.brighttalk.com/ 也是与数据相关的网络研讨会和讲座的好地方 science/analytics。
数据库
我公司使用 SQL Server (Microsoft),所以我也在 MVA (Microsoft Virtual Academy) 上拿了一些数据库 类。他们有一堆 类 从完全菜鸟到复习技能:MVA Database Stuff。
数据集
如果您发现自己需要大数据集,请加入 Kaggle。他们通常有很好的机器学习数据集,但你可以自己使用它们来挖掘和可视化。我会特别寻找带标签的数据集。许多更大的集合是完全匿名的——没有标签,什么都没有。但如果你只是四处挖掘,那并不是很有趣。此外,有人在这里编译了一堆 public 数据源:https://github.com/caesar0301/awesome-public-datasets. Finally, NYC Open Data is one of my favorite places to get net data sets. Some are super boring, but there have been some cool analyses done on parking tickets 等。
更多...
如果您只是想找更多 类 带走或想看书,请查看 https://www.metacademy.org/。他们有一些建议的途径来学习深度学习、机器学习、贝叶斯统计和其他类似的东西。我认为机器学习是一个很好的下一步 - 一旦您精通软件开发、数据库 management/creation/querying 和可视化。
还有更多...
让自己沉浸其中。那里有大量的数据博客、播客、聚会小组、会议和新闻。尽你所能进入那里并弄清楚发生了什么以及谁在做什么。总之超级有趣。我最喜欢关注的两件事:datatau(数据科学的黑客新闻)和 I Quant NY(上面的链接,停车罚单)。
我目前对工作和学习大数据分析和网络分析很感兴趣,但我不知道如何以及从哪里开始。我试着在互联网上寻找,但有些对我来说是提前的。在走这条路之前,我首先需要具备什么统计和数学方面的技能、知识吗?
我目前的计划是每个周末都参加在线课程,因为我目前在工作日担任助理软件工程师,并练习大数据所需的编程语言,如 R。我已经拥有计算机科学学位,因此非常熟悉用一些统计和数学方法不是问题。非常感谢任何建议和评论!
对于那些已经有经验的人,你的经验如何,你最常与什么打交道?
我和你处在相似的境地。我在 Web 开发部门工作,担任业务分析师。我做过一些软件开发、数据挖掘和数据可视化,但我一直在提高自己的技能,因为这对我来说都很有趣,这让我成为一个非常多才多艺的员工。
网络Analytics/Big数据
查看您是否可以获得对贵公司 Google Analytics 帐户的读取权限,假设他们有一个网站。 API 非常好,R 中的 pre-built 包使获取大量数据变得非常容易。如果他们的网站足够大,您可以轻松创建自己的真实数据集。虽然这些可能不会像 "big data" 中那样 "big",但它们对于练习数据可视化来说绝对很棒。我建议学习 Shiny 和 R Markdown。您可以轻松创建可与公司共享的 Web 统计可视化效果。如果你最终遇到了你试图处理的数据量的问题(即:如果他们有一个巨大的网络存在),那么你可能会考虑使用 Spark 来处理大数据。 Coursera 专注于大数据 - https://www.coursera.org/specializations/big-data。如果你只"audit"他们,你可以免费拿走所有类。您不会获得证书或任何东西,但您可以访问所有课程 material。他们显然经历了 Spark、Hadoop、Pig 和 Hive。我没考过,但是考过的UCSD Coursera 类 已经很不错了。
显然 Coursera 不是 end-all-be-all... 还可以查看 edx.org、Pluralsight、Udemy 等...您可以获得一年的免费 Pluralsight 会员资格 - 只需 Google。我的是通过微软不知何故。我最喜欢的 Pluralsight 课程是(与 data/analytics 无关)Ethical Hacking. Udemy often has amazing deals on HUGE courses - like 21 hours of lectures about Python for data analysis and stuff like that. Just sign up for the service, and you'll get a "special offer" in a week or two. They're usually -20. https://www.brighttalk.com/ 也是与数据相关的网络研讨会和讲座的好地方 science/analytics。
数据库
我公司使用 SQL Server (Microsoft),所以我也在 MVA (Microsoft Virtual Academy) 上拿了一些数据库 类。他们有一堆 类 从完全菜鸟到复习技能:MVA Database Stuff。
数据集
如果您发现自己需要大数据集,请加入 Kaggle。他们通常有很好的机器学习数据集,但你可以自己使用它们来挖掘和可视化。我会特别寻找带标签的数据集。许多更大的集合是完全匿名的——没有标签,什么都没有。但如果你只是四处挖掘,那并不是很有趣。此外,有人在这里编译了一堆 public 数据源:https://github.com/caesar0301/awesome-public-datasets. Finally, NYC Open Data is one of my favorite places to get net data sets. Some are super boring, but there have been some cool analyses done on parking tickets 等。
更多...
如果您只是想找更多 类 带走或想看书,请查看 https://www.metacademy.org/。他们有一些建议的途径来学习深度学习、机器学习、贝叶斯统计和其他类似的东西。我认为机器学习是一个很好的下一步 - 一旦您精通软件开发、数据库 management/creation/querying 和可视化。
还有更多...
让自己沉浸其中。那里有大量的数据博客、播客、聚会小组、会议和新闻。尽你所能进入那里并弄清楚发生了什么以及谁在做什么。总之超级有趣。我最喜欢关注的两件事:datatau(数据科学的黑客新闻)和 I Quant NY(上面的链接,停车罚单)。