编程学院

编程学院分类,是在编程过程中,记录开发心得体会的板块。目前主要涉及PHP、Python、Linux、前端等内容。

  • TF-IDF项目 P3 计算TF-IDF值和提取topK关键词

    上节课给大家介绍了TF-IDF的计算公式,这节课方便大家理解,先用面向过程的方式,来实现这个算法。但是项目需求里面,还有动态装载语料库、维护停用词这样一些要求,后面还是需要封装成类。

    实战项目 44 2022-12-22
  • TF-IDF项目 P2 算法计算公式和关键词提取功能介绍

    TF-IDF是一种统计方法,用以评估某个词对于语料库中某一份文档的重要程度。某个词的重要性随着它在文档中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。

    实战项目 33 2022-12-22
  • TF-IDF项目 P1 基于关键词的文本排序检索系统介绍

    从本节课开始,我们将给大家介绍一个,文本处理的基础但是很有用的算法:TF-IDF算法。TF-IDF算法,全称:词频-逆文档频率(term frequency–inverse document frequency),本质是一种统计方法,并不属于深度学习的范畴。

    实战项目 33 2022-12-21
  • ABSA项目 P4 自定义Dataset类和Bert分词

    上一节课,我们重新整理了样本文件,接下来就可以定义Dataset类,来加载数据了。为了让模型也可以适用于,一个句子有多个实体的情况,我们把样本中相邻两个句子合并,用最小的代价,模拟出多个实体的场景。

    实战项目 634 2022-09-06
  • ABSA项目 P3 数据预处理与异常值剔除

    上节课给大家详细介绍了模型结构,这节课,我们就开始做数据预处理了。数据预处理阶段,我们需要完成两个任务,一个是将样本文件处理成一句一行的形式,方便读取,另一个是,剔除异常数据。

    实战项目 451 2022-09-06
  • ABSA项目 P2 LCF-ATEPC模型结构详解

    上节课当中,给大家介绍了任务目标,并且演示了项目的最终效果。因为这个模型是一个联合任务,相对复杂,我们还是花一节课时间,给大家详细介绍一下模型结构。另外,论文中模型的配图,不是很好理解,我给大家重新画了一个精简版本,帮助大家更好的理解代码流程。

    实战项目 477 2022-09-06
  • Pytorch Bert_LCF_ATEPC_ABSA P1 属性级情感分析项目

    从这节课开始,我们将一起来学习一个新的项目,叫做属性级情感分析。属性级情感分析(Aspect-based Sentiment Analysis, ABSA)是一类细粒度情感分析任务,常用于评论分析中,帮助商家深入理解用户偏好。

    实战项目 624 2022-09-06
  • NLP企业级项目系列课程(第一季)结课汇报

    从6月初开始,我就在着手录制一个系列的NLP项目课程,到今天已经全部录完了。下面,我就从4个方面,给大家做一个简短的汇报。

    实战项目 841 2022-08-30
  • CasRel项目 P4 构建Dataset数据集和BERT分词

    上节课当中,给大家介绍了这个项目需要用到的数据集,并且做了简单的数据预处理,缓存好了关系分类文件。接下来,我们可以定义Dataset类,来加载数据了。这节课,先完成文件加载和分词这两块内容。

    实战项目 1066 2022-08-26
  • CasRel项目 P3 DuIE2.0数据集分析与关系表生成

    前面介绍完 CasRel模型结构,接下来我们看一下数据集,然后做一个简单的预处理。因为是用 Bert 做分词,就省去了自己建词表的过程,只需要把关系解析出来,供后续流程使用,就可以了。

    实战项目 864 2022-08-25
  • CasRel项目 P2 模型结构详解与局限性分析

    上节课,给大家整体介绍了项目要做的事情,就是从一段文本当中,找到主体、客体、和关系的三元组组合,因为 CasRel 这个模型,设计思路不是很常规,示意图的细节也容易混淆,所以我们单独用一节课时间,来拆解一下这个模型。

    实战项目 672 2022-08-24
  • Pytorch BERT_CasRel_RE P1 实体关系抽取项目介绍

    关系抽取,是信息检索、智能问答、智能对话等人工智能应用的重要基础,一直受到业界的广泛关注。目前NLP领域的主流研究方向,也在向知识图谱偏移。因为多音字、多义词,加上语境变化,单个字或者词的表征一定是片面的,发现实体之间的联系,往往比自身特征更重要。

    实战项目 1059 2022-08-23
  • TextCNN项目 P3 自定义Dataset和BertTokenizer分词

    上节课,我们做了一个简单的数据预处理,通过观察直方图,定义好了文本的长度参数。现在,假设大家已经看了、并且掌握了前面 Huggingface 的内容,我们接着往下讲自定义 Dataset 和 Bert 分词的内容。

    实战项目 416 2022-07-26
  • TextCNN项目 P2 训练数据导入和句子长度统计

    上节课,给大家介绍了 TextCNN 的模型结构,这节课就正式进入代码部分。本节课有两个任务,一是导入数据集,二是要统计待分类的文本长度,因为 TextCNN 在卷积之后,要做批量最大池化操作,所以要求文本长度一致,不够的填充PAD,太长的要进行截取。

    实战项目 378 2022-07-26
  • Pytorch BERT_TextCNN P1 新闻文本分类项目介绍

    从本节课开始,我将带大家来完成一个《Bert+TextCNN新闻文本分类项目》。文本分类是自然语言处理最基础,也是最重要的任务之一,非常适合作为NLP入门的第一个项目。

    实战项目 469 2022-07-26
  • LeetCode刷题 NO.16 最接近的三数之和

    给你一个长度为 n 的整数数组 nums 和 一个目标值 target。请你从 nums 中选出三个整数,使它们的和与 target 最接近。返回这三个数的和。假定每组输入只存在恰好一个解。

    Python 390 2022-07-22
  • LeetCode刷题 NO.15 三数之和

    给你一个包含 n 个整数的数组 nums,判断 nums 中是否存在三个元素 a,b,c ,使得 a + b + c = 0 ?请你找出所有和为 0 且不重复的三元组。注意:答案中不可以包含重复的三元组。

    Python 337 2022-07-21
  • LeetCode刷题 NO.12 整数转罗马数字

    罗马数字包含以下七种字符: I, V, X, L,C,D 和 M。给你一个整数,将其转为罗马数字。

    Python 309 2022-07-20
  • LeetCode刷题 NO.11 盛最多水的容器

    给定一个长度为 n 的整数数组 height 。有 n 条垂线,第 i 条线的两个端点是 (i, 0) 和 (i, height[i]) 。找出其中的两条线,使得它们与 x 轴共同构成的容器可以容纳最多的水。

    Python 335 2022-07-19
  • LeetCode刷题 NO.8 字符串转换整数 (atoi)

    请你来实现一个 myAtoi(string s) 函数,使其能将字符串转换成一个 32 位有符号整数(类似 C/C++ 中的 atoi 函数)。

    Python 285 2022-07-18