Pandas中DataFrame数据自增NaN问题的坑

陈华 • 2022年03月15日 • Python • 阅读 1552

最近在用 Pandas 处理数据的时候，遇到一个需要对某个 DataFrame 值，进行自增累加的操作，踩了一个 NaN 的坑，记录一下。

首先是创建一个空的 DataFrame，正常逻辑是要先赋值，然后再自增的，但是我为了偷懒，就没做判断，直接累加，这个地方肯定会报一个 KeyError，所以我捕获一个异常，命中的话就是第一次出现这个组合，直接赋值为1，后面再出现就累加了。

import pandas as pd

df = pd.DataFrame()
for l1 in ['a','b']:
   for l2 in ['a','c']:
       # 对df直接赋值会报错
       try:
           df.loc[l1, l2] += 1
       except KeyError:
           df.loc[l1,l2] = 1
print(df)

本以为这样就没问题了，但测试的时候发现，总有一些异常值。方便理解，我简化成了上面这个结构，df.loc['b', 'c'] 应该是1，但结果是NaN。

原因就是，当走完 a-b、a-c、b-a 之后，b-c的空间就已经被定义了，不过值是NaN，当程序运行到 try 结构的时候，df.loc['b', 'c'] 取到的就是NaN，而不会报错，所以 NaN+1 依然是NaN。

后面如果我们还有对NaN填充0的操作，那这个值就彻底错了。所以，在 try 里面还需要添加一个 NaN 的判断。

try:
   val = df.loc[l1, l2]
   if pd.isna(val):
       val = 0
   df.loc[l1, l2] = val + 1
except KeyError:
   df.loc[l1,l2] = 1

本文为陈华原创，欢迎转载，但请注明出处：http://www.ichenhua.cn/read/231

Pandas中DataFrame数据自增NaN问题的坑

陈华编程

关于我们

合作平台

相关网站

联系我们