大模型实战 P50 对大文档进行分块Embedding向量化

作者：陈华 • 发布时间：2024-05-08 • 阅读 693

前面课程中，给大家讲解了多个 Embedding 模型的接入方法，解决了部分同学想全部国产化的要求。但是，还有一个比较大的问题，就是 Embedding 模型也有 Token 长度的限制。课上演示的文件比较小，所以这个没暴露出来。

1、列表分块

所谓的大文档分块，其实就是把拆分之后的片段列表进行分块，先来看一个抽象的简单例子。

内容不可见，请联系管理员开通权限。

2、分段向量化Documents

之前的逻辑，是把 documents 里所有的片段，一次性给到大模型，就有可能会出现超限的问题。解决方案也很简单，就是先把 documents 拆成很多块，多次调用大模型，用次数换个数。

这一块代码其实很简单，真正的难点在于文档里没有说明，需要看源码来自己想解决方案。

内容不可见，请联系管理员开通权限。

这节课的内容并不多，代码也不难，但我个人认为还是比较重要的，因为通过它可以看出一个程序员的级别。就是在没有文档和参考代码的情况下，通过查看源码的方式，去找到解决方案。大家在工作当中，不要怕看源码，这是一个初级程序员，向中级程序员进化的必经之路。

本课程为收费课程，购买后可查看！