CasRel项目 P14 统计关系数量并精简Duie数据集

作者：陈华 • 发布时间：2023-04-30 • 阅读 239

截止到上节课，整个课程内容其实已经结束了。但是同学们反馈了两个问题，一个是模型效果不太好，另一个是用Kaggle训练模型的时候，会出现超时的情况。所以，给大家补录几节课，来解决一下这两个问题。

首先，是模型效果不好的问题，算法界其实有一个共识，数据决定了模型的上限，算法只是去逼近这个上限。所以模型效果不好，我们首先应该去查一下，是不是数据的原因。

数据，又一般从数量、分布、质量三个方面来看。数量和分布一般是比较容易评估的，质量是需要去仔细分析的。数据最好是同一领域的，比如都是医疗的，就比较理想。质量评估的工作量比较大，我们就优先看一下数量和分布。

在关系抽取这个项目中，训练集是17万条，数量是够的，接下来就是看分布，需要去统计一下每一种关系对应的数量，看分布是否均匀。

1、统计关系数量

内容不可见，请联系管理员开通权限。

执行结果

内容不可见，请联系管理员开通权限。

从以上结果中，能很明显可以看出，分布是极不均匀的，多的上万，少的只有几十。所以在工业项目中，一般会先做分类合并，或者是补充数据，让分布相对均匀。

工作中处理数据的活，一般都是外包做的，所以在课上，就不花太多时间去处理数据了，直接用一份处理好的数据，来做后面的调试。

2、更换精简数据集

内容不可见，请联系管理员开通权限。

执行结果

内容不可见，请联系管理员开通权限。

这一份数据，分布就是相对均匀的，数量都是四位数，而且主题还是有一定关联的。下节课还需要对模型相关的代码做一点调整。

本课程为收费课程，购买后可查看！