汪峰比章子怡大几岁,别踩白块儿下载,名侦探柯南505
使用Python代码进行索求性内容阐发(EDA)的最简洁方法
EDA对于内容阐发或内容可视化非常紧张。 它给出了内容的简要摘要和主要特性。 根据一项调查,内容科学家将大部门时间用于执行EDA任务。
EDA涉及许多步调,包含一些统计测试,使用分歧类型图的内容可视化等等。 EDA的一些步调将在下面商议:
内容质量搜检:能够使用某些Pandas库函数
df.describe() , df.shape , df.info(), df.dtypes()
这些函数平日用于查找缺失值,重复值,特性,内容类型,内容摘要等。
统计查验:进行一些统计查验,即Pearson相关,Spearman相关,Kendall查验等,以获取特性之间的相关性。我对相关性的意思是一个功能如何依赖于另一功能。能够使用stats库在Python中完成。
定量测试:一些定量测试用于发现数字特性的扩散,分类特性的计数。能够使用pandas库的功能在Python中实现。
可视化:特性可视化对于懂得内容非常紧张。条形图,饼图等图形手艺用于认识分类特性,而散点图,直方图用于数字特性。
要执行上述任务,我们必要键入几行代码。在这里,熊猫阐发的开放源代码库发挥了作用,它仅需一行代码即可执行所有这些任务。
只需一行代码!
是的,您只阅读了一行精确的代码。在Python中能够使用它的pandas阐发开源库。使用熊猫阐发的EDA效果也能够表现在Jupyter条记本中,或者能够转换为HTML页面。
如今,不虚耗时间,让我们看看如何做到这一点
安装:
有很多方法能够安装Pandas阐发库,但我们将使用最简洁的一种pip:
pip install pandas-profiling
导入库
要将pandas阐发库用于EDA,我们必要导入一些必须的库:
import pandas as pdimport numpy as npfrom pandas_profiling import ProfileReport
如今,EDA使用一个行代码:
profile = ProfileReport(pd.read_csv(’titanic.csv’),title='Pandas Profiling Report',html={'style': {'full_width': True}}, sort="None"))
是的,便是这样,我们已经完成了索求性内容阐发。 能够在Jupyter条记本电脑或Google colab自己中察看效果,也能够将文件留存为HTML格式并在收集浏览器中使用。
#to view result in jupyter notebook or google colab
profile.to_widgets()
# to save results of pandas-profiling to a HTML file
profile.to_file("EDA.html")
条记:
如果您是内容科学的初学者,我不建议您使用pandas阐发执行EDA。 我更喜好使用几个Python库使用自界说函数进行EDA。
对于初学者来说,最好先使用pandas库进行EDA并编写Python代码,然后再尝试该库,因为控制根蒂知识和编程实践尤为紧张。
好了,本文到此竣事。如果对编程、较量机、法式员方面感兴趣的话,迎接私信接洽我,随时交换!点个存眷,是对我莫大的鼓励!
本文地址:http://www.wbwb.net/bianchengyuyan/206658.html 转载请注明出处!