TF-IDF项目 P1 基于关键词的文本排序检索系统介绍

作者：陈华 • 发布时间：2022-12-21 • 阅读 1224

从本节课开始，我们将给大家介绍一个，文本处理中很基础但是很有用的算法：TF-IDF算法。TF-IDF算法，全称：词频-逆文档频率（term frequency–inverse document frequency），本质是一种统计方法，并不属于深度学习的范畴。

那为什么还要花时间学习这个算法呢？因为他是文本处理中最基础的算法，而且它能够解决实际工作中特定场景的问题。

运用场景

1、最常见的运用，就是提取关键词，比如著名的jieba库，extract_tags方法，就是TD-IDF实现的。

2、用词的TD-IDF值，表征句子的特征，用于计算文本相似度。目前已经有更好的方案，比如Sentence-Bert这类预训练模型，后面找机会再给大家介绍。

3、基于关键词的模糊搜索，TF-IDF算法是中小型网站站内搜索的首选方案，我的网站改版后也会加入模糊搜索功能。

4、用TF-IDF的思想，实现股票特征提取，用于量化交易的因子构建。

课程内容

本课程的主线，是解决《题目B4：基于关键词的文本排序检索系统》这个题目。这个题目的出处我没有找到，有知道的同学麻烦告诉我一下，想看看这本书上的其他题目。

数据集和演示效果

数据集：清华大学的 THUCNews 新闻文本分类数据集（18w）

在本课程中，我将首先带大家按照题目要求，实现文本检索功能，然后使用 Flask 结合 TailwindCSS，将模型封装成一个可直接访问的 Web 网站，帮助大家理解模型在真实项目中的使用方法。同时，也为后续更复杂的项目做一个铺垫，让大家从简单模型开始，就尽早建立项目意识，了解模型与前后端的协作流程。

当然，本课程涉及内容比较杂，如果从来没有接触过 Web 前后端的同学，学习起来可能会有点吃力。但是没有关系，对于前后端的内容，在项目中只讲必须用到的内容，同时也会提供源码和素材，供大家直接套用，在这个项目中重点是了解调用的套路。更多的前后端知识，我会找合适的机会，给大家系统讲解。

依赖包

pip install pandas
pip install numpy
pip install jieba
pip install pickle
pip install flask

本文链接：http://www.ichenhua.cn/edu/note/550

TF-IDF项目 P1 基于关键词的文本排序检索系统介绍

TF-IDF项目 P1 基于关键词的文本排序检索系统介绍

运用场景

课程内容

数据集和演示效果

依赖包

陈华编程

关于我们

合作平台

相关网站

联系我们