数据分析的“下一件大事”,当然,它可以使一个强大数据提供高质量的爆炸情况。在入站的营销世界,我们已经获得很多反向链接和锚文本,流量和点击流数据,搜索量和点击率(CTR),社交媒体指标。如果我们能够解开它,此数据有巨大的价值。
但是,有一个问题:现实世界的数据是凌乱,并处理可能会非常棘手。我们怎么知道,我们的数据是准确的,或者如果我们能够信任我们的最终结论?如果我们希望使用这些数据来找到一个更好的方式做营销,我们必须要注意精度。
有没有硬性规定,当涉及到数据分析。有一些最佳做法,但即使是这些也有一点点阴暗。做最重要的事情就是把你的侦探帽潜入到数据。熟悉你的数据,让其容易发现的东西似乎很奇怪。更可能的是,你的发现将是质量问题,需要加以改进。
我们也把我们的关键字分析代码 Github上,这样你就可以运行我们的分析,对您自己的网站的数据。
这篇文章的其余部分讨论六个最佳实践和建议,以确保您的数据和结果是准确的。
1、单独的数据分析,并做出重复分析
最好的做法是分开数据和分析数据的过程。无论是由您或别人对不同的数据,可以重复进行分析。出于这个原因,大多数数据科学家不使用,因为它的数据与分析采用Excel,使得难以重复。相反,他们往往使用一个高层次的统计导向的脚本语言。在万盎司,数据科学团队使用Python。我们的大数据团队还采用了巨资,这使得它易于整合。
2、如果可能的话,请检查您的数据免受其他来源
在许多情况下,这一步可能是不可能的,但如果可以的话,是最好的方式,以确保您的数据是准确的。
3、获取和处理数据
我们可以玩的数据,并做一些探索性数据分析,这是最有趣的部分,是一个好地方,开始寻找原始数据,看看有什么跳出。在谷歌网站管理员工具数据的情况下,我注意到,他们并不总是给搜索量在长尾巴的情况下,只有少数的搜索。相反,数据有“<10”或“ - ”而不是数字,将需要谨慎处理,因为它们会导致缺失值。
4、单元测试的代码
这是一个软件开发最佳实践,但可以得到一点点粘在数据的科学世界,往往需要判断你的一部分。单元测试的一切是一个伟大的方式来捕捉许多问题,但它真的会减慢你的速度。使用单元测试代码,您认为会被再次使用,这是一个不错的主意,有一个通用的具体项目外,已经够复杂的逻辑,这将是很容易出错。它往往是不值得的测试代码的快速写入检查的想法。在谷歌网站管理员工具数据的情况下,我们决定测试读取数据并填充缺失值,因为逻辑是有点复杂的过程,但没有测试我们的代码生成的情节,因为它是相对简单的。我们用一个小的,合成的数据集,因为它是易于管理,编写测试。检查出一些我们的测试。
5、记录过程
这一步可以是恼人的,但你会感谢自己几个月后,当你需要重新审视它。文档也传达你的想法给别人谁可以检查和验证你的逻辑。
6、获取他人的反馈
同行评议的学术世界的基石之一,和其他人的见解几乎总是有利于改善您的分析。不要犹豫,问你的团队的反馈,大部分的时候,他们会很乐意给它!