大模型实战 P50 对大文档进行分块Embedding向量化
前面课程中,给大家讲解了多个 Embedding 模型的接入方法,解决了部分同学想全部国产化的要求。但是,还有一个比较大的问题,就是 Embedding 模型也有 Token 长度的限制。课上演示的文件比较小,所以这个没暴露出来。
代码示例
1、列表分块
所谓的大文档分块,其实就是把拆分之后的片段列表进行分块,先来看一个抽象的简单例子。
内容不可见,请联系管理员开通权限。
2、分段向量化Documents
之前的逻辑,是把 documents 里所有的片段,一次性给到大模型,就有可能会出现超限的问题。解决方案也很简单,就是先把 documents 拆成很多块,多次调用大模型,用次数换个数。
这一块代码其实很简单,真正的难点在于文档里没有说明,需要看源码来自己想解决方案。
内容不可见,请联系管理员开通权限。
这节课的内容并不多,代码也不难,但我个人认为还是比较重要的,因为通过它可以看出一个程序员的级别。就是在没有文档和参考代码的情况下,通过查看源码的方式,去找到解决方案。大家在工作当中,不要怕看源码,这是一个初级程序员,向中级程序员进化的必经之路。
本文链接:http://www.ichenhua.cn/edu/note/734
版权声明:本文为「陈华编程」原创课程讲义,请给与知识创作者起码的尊重,未经许可不得传播或转售!