从本节课开始,我们将给大家介绍一个,文本处理中很基础但是很有用的算法:TF-IDF算法。TF-IDF算法,全称:词频-逆文档频率(term frequency–inverse document frequency),本质是一种统计方法,并不属于深度学习的范畴。

那为什么还要花时间学习这个算法呢?因为他是文本处理中最基础的算法,而且它能够解决实际工作中特定场景的问题。

运用场景

1、最常见的运用,就是提取关键词,比如著名的jieba库,extract_tags方法,就是TD-IDF实现的。

2、用词的TD-IDF值,表征句子的特征,用于计算文本相似度。目前已经有更好的方案,比如Sentence-Bert这类预训练模型,后面找机会再给大家介绍。

3、基于关键词的模糊搜索,TF-IDF算法是中小型网站站内搜索的首选方案,我的网站改版后也会加入模糊搜索功能。

4、用TF-IDF的思想,实现股票特征提取,用于量化交易的因子构建。

课程内容

本课程的主线,是解决《题目B4:基于关键词的文本排序检索系统》这个题目。这个题目的出处我没有找到,有知道的同学麻烦告诉我一下,想看看这本书上的其他题目。

数据集和演示效果

数据集:清华大学的 THUCNews 新闻文本分类数据集(18w)

在本课程中,我将首先带大家按照题目要求,实现文本检索功能,然后使用 Flask 结合 TailwindCSS,将模型封装成一个可直接访问的 Web 网站,帮助大家理解模型在真实项目中的使用方法。同时,也为后续更复杂的项目做一个铺垫,让大家从简单模型开始,就尽早建立项目意识,了解模型与前后端的协作流程。

当然,本课程涉及内容比较杂,如果从来没有接触过 Web 前后端的同学,学习起来可能会有点吃力。但是没有关系,对于前后端的内容,在项目中只讲必须用到的内容,同时也会提供源码和素材,供大家直接套用,在这个项目中重点是了解调用的套路。更多的前后端知识,我会找合适的机会,给大家系统讲解。

依赖包

pip install pandas
pip install numpy
pip install jieba
pip install pickle
pip install flask

本文链接:http://www.ichenhua.cn/edu/note/550

版权声明:本文为「陈华编程」原创课程讲义,请给与知识创作者起码的尊重,未经许可不得传播或转售!