实战项目

本专栏主要用于,发布 CV / NLP / 推荐算法等领域的实战项目讲义,目前是 Pytorch 实现,后续会加上 TensorFlow 相关的课程内容。

  • GCN项目 P3 PaddleOCR识别火车票信息

    从这节开始,就正式进入GCN项目的代码环节,我们先使用PaddleOCR,识别出火车票上的文字信息,并提取文字所位置,整理后另存为一个csv文件。项目的目的是要做信息抽取,所以对训练和测试数据,需要手动打上标签,供算法学习。

    实战项目 123 2022-06-24
  • GCN项目 P2 图卷积神经网络介绍

    深度学习一直都是被几大经典模型统治着,常见的有CNN、RNN网络,它们在CV和NLP领域都取得了优异的效果。但人们发现了很多CNN、RNN无法解决,或者效果不好的问题——图结构数据,所以就有了GNN网络。

    实战项目 127 2022-06-23
  • GCN项目 P1 Pytorch LSTM_GCN 火车票识别项目

    从本节开始,我将带大家完成一个深度学习项目:用图卷积神经网络(GCN),实现一个「火车票文字信息提取」的项目,由于火车票上每个节点文字不是等长的,所以还需要添加一个前置的 LSTM 来提取句子特征。

    实战项目 158 2022-06-22
  • NER项目 P9 模型测试及分类评估指标

    经过漫长的训练过程,我们会得到每个 EPOCH 运行完后,缓存下来的模型文件,测试阶段直接加载缓存文件即可。另外,为了解模型的整体效果,在最后我们需要统计一下,在整个测试集上模型的准确率。

    实战项目 58 2022-06-20
  • NER项目 P8 CRF维特比解码和模型训练

    前文已经定义好了 BiLSTM、Linear 层,最后还需要加一层 CRF,再结合维特比解码,输出目标值。另外一个重要的步骤,就是定义损失函数,CRF 解码后的损失计算,不同于分类任务的交叉熵损失,还需要考虑到顺序的问题。

    实战项目 90 2022-06-19
  • NER项目 P7 定义BiLSTM模型

    到上一节为止,我们已经处理好了模型需要的数据,本节就正式开始搭建模型了,模型的整体是 BiLSTM+CRF 结构,但 CRF 涉及到解码和特殊的损失值计算方法,所以本节先介绍 BiLSTM,下一小节再介绍 CRF 部分。

    实战项目 153 2022-06-18
  • NER项目 P6 DataLoader句子填充PAD和MASK

    经过上一步的处理,我们将长文本切分成了单句,但每个句子长度又不完全一样。在批处理时,要求每个batch的句子长度必须一致,所以我们需要填充 PAD,来保证句子每个batch的句子长度一样。

    实战项目 125 2022-06-17
  • NER项目 P5 定义Dataset数据集和文本等长切分

    经过前面的数据预处理操作,我们已经得到了训练样本、测试样本文件,以及词表和标签表的缓存文件,接下来就是定义Dataset类,来加载数据。另外在加载数据时,需要将文本切分为等长的句子。

    实战项目 178 2022-06-16
  • NER项目 P4 生成词表和标签表缓存文件

    拆分完训练集和测试集后,我们需要根据训练集,生成词表和标签表的缓存文件,供后面的流程调用。该表不仅要记录所有词和标签,还要对应一个不重复的ID,方便后续进行Embedding,即数字化。

    实战项目 118 2022-06-11
  • NER项目 P3 拆分训练集和测试集

    上一节已经生成了单个字和标注对应的文件,接下来就是将这些文件,拆分为训练集和测试集两部分。这里的拆分不单是文件选择的问题,还需要考虑后续加载数据集的问题。

    实战项目 106 2022-06-10
  • NER项目 P2 解析文字和实体标签对应关系

    主办方提供的数据是一些用brat标注的文件,.txt文件为原始文档,.ann文件为标注信息,标注实体以T开头,后接实体序号,实体类别,起始位置和实体对应的文档中的词。

    实战项目 179 2022-06-09
  • NER项目 P1 Pytorch BiLSTM_CRF医疗命名实体识别

    本项目是阿里天池大赛的一个经典赛题,《瑞金医院MMC人工智能辅助构建知识图谱大赛》,赛题要求选手在糖尿病相关的学术论文和临床指南的基础上,做实体的标注,也就是NLP领域常说的,命名实体识别(Named Entity Recognition, NER)任务。

    实战项目 485 2022-06-08