”工欲善其事,必先利其器。“—孔子《论语.录灵公》
首页 > 编程 > 了解您的数据:探索性数据分析的要点。

了解您的数据:探索性数据分析的要点。

发布于2024-08-16
浏览:816

介绍
根据您通过机器学习模型获得的数据的最终目标、可视化的开发和用户友好的应用程序的合并,在项目开始时培养数据的流畅性将有助于最终的成功。
EDA 精要
这是我们了解数据预处理的必要性如何对数据分析师有益的地方。
由于数量庞大且来源多样,今天的数据更有可能出现异常。数据预处理已成为数据科学领域的基础阶段,因为高质量的数据可以带来更稳健的模型和预测。
探索性数据分析是数据科学家的工具,用于查看哪些数据可以在正式建模或假设测试任务之外公开。
数据科学家必须始终执行 EDA 以确保结果可靠并适用于任何受影响的结果和目标。它还帮助科学家和分析师确认他们正走在实现预期结果的正确轨道上。
指导研究的一些研究问题示例是:
1.数据预处理是否有显着效果
分析方法——缺失值、聚合值、数据过滤、离群值、变量变换、变量约简——准确的数据分析结果?
2。研究中预处理数据分析的必要性达到什么程度?
探索性数据分析指标及其重要性
1.数据过滤
这是选择数据集的较小部分并使用该子集进行查看或分析的做法。保留完整的数据集,但仅使用其中的一个子集进行计算;过滤通常是一个临时过程。从研究中发现不准确、不正确或低于标准的观察结果,提取特定兴趣群体的数据,或寻找特定时期的信息都可以使用过滤器进行总结。数据科学家必须在过滤过程中指定规则或逻辑以提取研究案例。

2.数据聚合
数据聚合需要将未处理的数据收集到一个位置并将其汇总以进行分析。数据聚合增加了数据的信息价值、实用价值和可用价值。技术用户的观点经常被用来定义这个短语。数据聚合是分析师或工程师将来自多个数据库或数据源的未处理数据集成到集中式数据库中的过程。然后通过组合原始数据来创建汇总数字。总和或平均值是总值的直接说明。聚合数据用于分析、报告、仪表板和其他数据产品。数据聚合可以提高生产力、决策制定和洞察时间。

3.缺失数据
在数据分析中,缺失值是缺失
的另一个名称 数据。当特定变量或受访者被遗漏或跳过时,就会发生这种情况。由于数据输入不正确、文件丢失或技术损坏,可能会发生遗漏。缺失数据可能会间歇性地导致模型偏差,具体取决于数据的类型,这使得它们出现问题。缺失数据意味着,由于数据有时可能来自误导性样本,因此结果可能只能在研究参数范围内推​​广。为了确保整个数据集的一致性,有必要使用标签“N/A”(“不适用”的缩写)重新编码所有缺失值。

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.
4.数据转换
使用函数或其他数学方法重新调整数据
转换过程中对每个观察值的操作。我们
偶尔更改数据以使其更容易建模
非常明显地偏斜(正向或负向)。
换句话说,应该尝试进行数据转换以适应应用参数统计检验的假设 if
变量不符合正态分布。最流行的数据转换是对数(或自然对数),当所有观察结果均为正值并且大多数数据值集中在零附近(涉及数据集中更重要的值)时,经常使用它。

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.
示意图

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.

EDA 中的可视化技术
可视化技术在 EDA 中发挥着至关重要的作用,使我们能够直观地探索和理解复杂的数据结构和关系。 EDA 中使用的一些常见可视化技术有:
1.直方图:
直方图是显示数值变量分布的图形表示。它们通过可视化频率分布来帮助理解数据的集中趋势和传播。

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.
2.箱线图:箱线图是显示数值变量分布的图表。这种可视化技术有助于识别任何异常值并通过可视化其四分位数来了解数据的分布。

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.
3.热图:它们是数据的图形表示,其中颜色代表值。它们通常用于显示复杂的数据集,提供一种快速、简单的方法来可视化大量数据的模式和趋势。

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.

4.条形图:条形图是显示分类变量分布的图形。用于可视化数据的频率分布,有助于了解各个类别的相对频率。

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.
5.折线图:折线图是显示数值变量随时间变化趋势的图表。它用于可视化数据随时间的变化并识别任何模式或趋势。

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.
5.饼图:饼图是展示分类变量所占比例的图表。用于可视化每个类别的相对比例并了解数据分布。

UNDERSTANDING YOUR DATA:THE ESSENTIALS OF EXPLORATORY DATA ANALYSIS.

版本声明 本文转载于:https://dev.to/kiplimo_patrick_24/understanding-your-datathe-essentials-of-exploratory-data-analysis-4mhd?1如有侵犯,请联系[email protected]删除
最新教程 更多>
  • 编译器报错“usr/bin/ld: cannot find -l”解决方法
    编译器报错“usr/bin/ld: cannot find -l”解决方法
    错误:“ usr/bin/ld:找不到-l “ 此错误表明链接器在链接您的可执行文件时无法找到指定的库。为了解决此问题,我们将深入研究如何指定库路径并将链接引导到正确位置的详细信息。添加库搜索路径的一个可能的原因是,此错误是您的makefile中缺少库搜索路径。要解决它,您可以在链接器命令中添加...
    编程 发布于2025-05-31
  • 在JavaScript中如何并发运行异步操作并正确处理错误?
    在JavaScript中如何并发运行异步操作并正确处理错误?
    同意操作execution 在执行asynchronous操作时,相关的代码段落会遇到一个问题,当执行asynchronous操作:此实现在启动下一个操作之前依次等待每个操作的完成。要启用并发执行,需要进行修改的方法。 第一个解决方案试图通过获得每个操作的承诺来解决此问题,然后单独等待它们: co...
    编程 发布于2025-05-31
  • 如何避免Go语言切片时的内存泄漏?
    如何避免Go语言切片时的内存泄漏?
    ,a [j:] ...虽然通常有效,但如果使用指针,可能会导致内存泄漏。这是因为原始的备份阵列保持完整,这意味着新切片外部指针引用的任何对象仍然可能占据内存。 copy(a [i:] 对于k,n:= len(a)-j i,len(a); k
    编程 发布于2025-05-31
  • 如何使用Java.net.urlConnection和Multipart/form-data编码使用其他参数上传文件?
    如何使用Java.net.urlConnection和Multipart/form-data编码使用其他参数上传文件?
    使用http request 上传文件上传到http server,同时也提交其他参数,java.net.net.urlconnection and Multipart/form-data Encoding是普遍的。 Here's a breakdown of the process:Mu...
    编程 发布于2025-05-31
  • 如何有效地转换PHP中的时区?
    如何有效地转换PHP中的时区?
    在PHP 利用dateTime对象和functions DateTime对象及其相应的功能别名为时区转换提供方便的方法。例如: //定义用户的时区 date_default_timezone_set('欧洲/伦敦'); //创建DateTime对象 $ dateTime = ne...
    编程 发布于2025-05-31
  • 如何在其容器中为DIV创建平滑的左右CSS动画?
    如何在其容器中为DIV创建平滑的左右CSS动画?
    通用CSS动画,用于左右运动 ,我们将探索创建一个通用的CSS动画,以向左和右移动DIV,从而到达其容器的边缘。该动画可以应用于具有绝对定位的任何div,无论其未知长度如何。问题:使用左直接导致瞬时消失 更加流畅的解决方案:混合转换和左 [并实现平稳的,线性的运动,我们介绍了线性的转换。这...
    编程 发布于2025-05-31
  • 如何使用Python有效地以相反顺序读取大型文件?
    如何使用Python有效地以相反顺序读取大型文件?
    在python 反向行读取器生成器 == ord('\ n'): 缓冲区=缓冲区[:-1] 剩余_size- = buf_size lines = buffer.split('\ n'....
    编程 发布于2025-05-31
  • Python环境变量的访问与管理方法
    Python环境变量的访问与管理方法
    Accessing Environment Variables in PythonTo access environment variables in Python, utilize the os.environ object, which represents a mapping of envir...
    编程 发布于2025-05-31
  • 为什么Microsoft Visual C ++无法正确实现两台模板的实例?
    为什么Microsoft Visual C ++无法正确实现两台模板的实例?
    The Mystery of "Broken" Two-Phase Template Instantiation in Microsoft Visual C Problem Statement:Users commonly express concerns that Micro...
    编程 发布于2025-05-31
  • 如何在php中使用卷发发送原始帖子请求?
    如何在php中使用卷发发送原始帖子请求?
    如何使用php 创建请求来发送原始帖子请求,开始使用curl_init()开始初始化curl session。然后,配置以下选项: curlopt_url:请求 [要发送的原始数据指定内容类型,为原始的帖子请求指定身体的内容类型很重要。在这种情况下,它是文本/平原。要执行此操作,请使用包含以下标头...
    编程 发布于2025-05-31
  • 如何将MySQL数据库添加到Visual Studio 2012中的数据源对话框中?
    如何将MySQL数据库添加到Visual Studio 2012中的数据源对话框中?
    在Visual Studio 2012 尽管已安装了MySQL Connector v.6.5.4,但无法将MySQL数据库添加到实体框架的“ DataSource对话框”中。为了解决这一问题,至关重要的是要了解MySQL连接器v.6.5.5及以后的6.6.x版本将提供MySQL的官方Visual...
    编程 发布于2025-05-31
  • 如何使用Regex在PHP中有效地提取括号内的文本
    如何使用Regex在PHP中有效地提取括号内的文本
    php:在括号内提取文本在处理括号内的文本时,找到最有效的解决方案是必不可少的。一种方法是利用PHP的字符串操作函数,如下所示: 作为替代 $ text ='忽略除此之外的一切(text)'; preg_match('#((。 &&& [Regex使用模式来搜索特...
    编程 发布于2025-05-31
  • Java中如何使用观察者模式实现自定义事件?
    Java中如何使用观察者模式实现自定义事件?
    在Java 中创建自定义事件的自定义事件在许多编程场景中都是无关紧要的,使组件能够基于特定的触发器相互通信。本文旨在解决以下内容:问题语句我们如何在Java中实现自定义事件以促进基于特定事件的对象之间的交互,定义了管理订阅者的类界面。以下代码片段演示了如何使用观察者模式创建自定义事件: args)...
    编程 发布于2025-05-31
  • Java字符串非空且非null的有效检查方法
    Java字符串非空且非null的有效检查方法
    检查字符串是否不是null而不是空的 if(str!= null && str.isementy())二手: if(str!= null && str.length()== 0) option 3:trim()。isement(Isement() trim whitespace whitesp...
    编程 发布于2025-05-31
  • 在PHP中如何高效检测空数组?
    在PHP中如何高效检测空数组?
    在PHP 中检查一个空数组可以通过各种方法在PHP中确定一个空数组。如果需要验证任何数组元素的存在,则PHP的松散键入允许对数组本身进行直接评估:一种更严格的方法涉及使用count()函数: if(count(count($ playerList)=== 0){ //列表为空。 } 对...
    编程 发布于2025-05-31

免责声明: 提供的所有资源部分来自互联网,如果有侵犯您的版权或其他权益,请说明详细缘由并提供版权或权益证明然后发到邮箱:[email protected] 我们会第一时间内为您处理。

Copyright© 2022 湘ICP备2022001581号-3