像数据科学家一样思考:12步指南(上)
没有一种方法或一种工具可以实现使混乱数据清洁的目标。市面上有许多工具可以做很多事情,但没有一个工具能够处理任意格式数据。数据以如此多的形式存在,并且出于不同的目的,甚至目前没有一个应用程序能够以任意目的读取任意数据。简而言之,数据整理是一个不确定的事情,需要在特定情况下使用特定工具来完成工作。你可以尝试使用文件格式转换器或专有数据管理器并编写脚本来处理数据。 4-评估数据 在开发以数据为中心的产品之前,了解数据内容值得花费一点时间和精力。如果你对数据有更多了解,你将在整个数据科学项目的每一步做出更明智的决策,并在获益到最后。如果没有初步的评估,你可能会遇到异常值、偏差、精、特异性或数据其他固有的问题。为了更好地发掘这些数据并更好地了解数据,整理数据后的第一步应该是计算一些描述性统计数据。 描述性统计是定量描述信息集合的主要特征或定量描述本身的学科。考虑描述、最大值、最小值、平均值、数据集的摘要。如果不提及推论统计数据,通常很难讨论描述性统计数据。推论统计是指你在没有完全统计数据的情况下得出的结论。对于数据集,你可以说以下内容:
大多数统计学家都认为推论统计数据可以得到大部分很酷的结论:当世界人口达到峰值然后开始下降时,病毒流行病的传播速度有多快;当股市上涨时,人们是否会在Twitter上对一个主题有一般积极或消极的情绪等等。而描述性统计在使这些结论成为定论方面起了非常重要的作用。总之,了解你拥有的数据以及它可以为你做些什么是值得的。 使用描述性统计信息,你可以在数据集中找到与特定概念描述匹配的实体。如果你从事在线零售业务,你可能会将客户视为你的实体,并且你希望识别那些可能购买特定作者新书的。如果你在金融领域工作,你可能会在股票市场上寻找即将上涨的股票。如果可以对这些特征进行简单搜索,那么工作就很容易,你不需要数据科学或统计数据。但是,如果这些特征并不是所有数据固有的。 第二阶段-建设 在询问了一些问题并设定一些目标后,你调查了数据世界,整理了一些具体数据,并了解了这些数据。在每一步中,你都学到了一些东西,现在你应该能够回答在项目开始时提出的一些问题。现在让我们进入建设阶段。 5-制定计划 第五步是制定计划。与早期的规划阶段一样,不确定性和灵活路径应该是你的首要考虑因素。你现在对你的项目了解了更多,所以之前存在的一些不确定因素已不复存在,但某些新的不确定因素已经出现。把你的计划想象成一条通往城市的试验性路线,这条城市的街道正在不断建设中。你知道你想去哪里以及去往那里的几种方法,但是在每个十字路口都可能有道路封闭、交通不畅或人行道坍塌和破碎。当你遇到这些障碍时,你必须做出决定,但是现在只需要一两个备用计划就足够了。 如果给了新信息或新约束或其他原因,计划和目标可随时改变。你必须向与项目有关的每个人(包括客户)传达重大更改信息。该项目的客户对项目的最终产品具有既得利益,因此应该让客户了解目标的任何变化。客户可能也对进度报告感兴趣,包括你到目前为止的初步结果以及如何获得它们,但这些是最低优先级。 关注客户关心的事情:客户是整个项目的核心,它们希望我们实现什么,他们到底关心什么,知道这些很重要。如果他们的目标错误,及时的沟通很重要。在此阶段与客户会面的唯一必须结论是,你清楚地沟通新目标是什么以及他们批准这些目标。 你也可以考虑将你的基本计划传达给客户,特别是涉及使用他们的资源时,例如数据库、计算机和其他员工,他们会有兴趣了解你将如何以及使用它们的程度。 6-分析数据 第六步是数据的统计分析。统计方法通常被认为是进行良好数据科学所需技能和知识的近一半或三分之一,另一大部分是软件开发,剩下的较小部分是主题或领域专业知识。 统计学的一方面是数学,另一方面是数据。数学 ,尤其是应用数学,我们需要通过一组工具提供统计数据,以便进行分析和解释。无论如何,数学通常不会触及现实世界,它完全是基于逻辑并始终从一组假设开始,每个数学陈述都可以用if开头(如果假设是真的),这可以将语句及其结论提升为抽象性。这并不是说数学在现实世界中没用,恰恰相反数学而不是科学,更多的是我们可以用来描述事物的词汇。其中一些可能在现实世界中与词汇表包含的单词一样,但很少有描述完全正确。 然而,数学确实提供了统计使用的大量基础。统计分布通常由复杂的方程式描述,其根源在实际的科学意义上是有意义的。拟合统计模型通常是使用数学优化技术,即使假设项目数据所在的空间也必须用数学方法描述,描述可能仅仅是“N维欧几里德空间”。 (编辑:源码门户网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |