大模型实战 P49 Word文档和百川Embedding模型接入
前面课程中,讲解了多个大模型的接入方法,但没有演示 Embedding 不分的模型替换。我以为大家学了这么久,应该可以触类旁通,但是很多同学还是反馈说搞不定,那作为一个保姆级的项目教程,还是给大家演示一下 Embedding 模型的替换方法。
另外,还有同学问到 word 文档的导入方法,都是向量化的内容,就一起给大家讲解一下。
代码示例
1、多类型文件加载
课上讲了csv、pdf、txt文件的加载,其他类型的文件如何加载。其实非常简单,要学会看代码或者文档,举一反三。
依赖包安装:pip install -U python-docx
内容不可见,请联系管理员开通权限。
2、国产Embedding模型接入
文档:https://python.langchain.com/docs/integrations/text_embedding/baichuan/。
注意,百川的向量维度为1024,跟openai不同,需要把原db数据删除之后再生成。另外,免费账号有限制,不能超过16个片段。
内容不可见,请联系管理员开通权限。
总体来说,关于工程化的一些结构,课上都已经带大家搭建好了。类似上面的问题,都是一些细节,可以多百度,多看文档,应该都能找到答案。
本文链接:http://www.ichenhua.cn/edu/note/733
版权声明:本文为「陈华编程」原创课程讲义,请给与知识创作者起码的尊重,未经许可不得传播或转售!