Pandas Matplotlib Intro   2017-12-31


matplotlib 将数据可视化. 仅仅是用来 show 图片的, 即 plt.show()

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

创建一个Series

这是一个线性的数据,我们随机生成1000个数据,Series 默认的 index 就是从0开始的整数

# 随机生成1000个数据
data = pd.Series(np.random.randn(1000),index=np.arange(1000))

# pandas 数据可以直接观看其可视化形式
data.plot()

plt.show()

png

可以使用 plt.plot(x=, y=),把x,y的数据作为参数存进去,但是data本来就是一个数据,所以我们可以直接plot

Dataframe 可视化

我们生成一个 1000*4 的 DataFrame,并对他们累加

data = pd.DataFrame(
np.random.randn(1000,4),
index=np.arange(1000),
columns=list("ABCD")
)
#data.cumsum()
print(data)
data.plot()
plt.show()
            A         B         C         D
0    1.163604 -0.689103  1.958018  0.241444
1    0.595765  0.816026  1.573164 -0.443003
2   -0.101446  0.768321 -0.203069 -0.638841
3   -0.439233 -0.161273  0.398774  1.309622
4   -0.524647 -0.180073 -1.499978  0.628436
5   -0.305683  0.668840  0.243668 -1.386839
..        ...       ...       ...       ...
998 -0.243955 -0.190122 -0.299633  3.350200
999 -0.055184  0.936187  0.146156  0.604271

[1000 rows x 4 columns]

png

这个就是我们刚刚生成的4个column的数据,因为有4组数据,所以4组数据会分别plot出来。

plot 可以指定很多参数,具体参见官方文档

除了plot,我经常会用到还有scatter,这个会显示散点图,首先说一下在 pandas 中有多少种方法

  • bar
  • hist
  • box
  • kde
  • area
  • scatter
  • hexbin

主要说一下 plotscatter. 因为 scatter 只有 xy 两个属性,可以分别给 x, y 指定数据

ax = data.plot.scatter(x='A',y='B',color='DarkBlue',label='Class1')

然后我们在可以再画一个在同一个ax上面,选择不一样的数据列,不同的 colorlabel

# 将之下这个 data 画在上一个 ax 上面
data.plot.scatter(x='A',y='C',color='LightGreen',label='Class2',ax=ax)
plt.show()

png

两种呈现方式,一种是线性的方式,一种是散点图

Reference


分享到:


  如果您觉得这篇文章对您的学习很有帮助, 请您也分享它, 让它能再次帮助到更多的需要学习的人. 您的支持将鼓励我继续创作 !
本文基于署名4.0国际许可协议发布,转载请保留本文署名和文章链接。 如您有任何授权方面的协商,请邮件联系我。

Contents

  1. 创建一个Series
  2. Dataframe 可视化
  3. Reference