大模型实战 P49 Word文档和百川Embedding模型接入

作者：陈华 • 发布时间：2024-05-07 • 阅读 640

前面课程中，讲解了多个大模型的接入方法，但没有演示 Embedding 不分的模型替换。我以为大家学了这么久，应该可以触类旁通，但是很多同学还是反馈说搞不定，那作为一个保姆级的项目教程，还是给大家演示一下 Embedding 模型的替换方法。

另外，还有同学问到 word 文档的导入方法，都是向量化的内容，就一起给大家讲解一下。

1、多类型文件加载

课上讲了csv、pdf、txt文件的加载，其他类型的文件如何加载。其实非常简单，要学会看代码或者文档，举一反三。

依赖包安装：pip install -U python-docx

内容不可见，请联系管理员开通权限。

2、国产Embedding模型接入

文档：https://python.langchain.com/docs/integrations/text_embedding/baichuan/。

注意，百川的向量维度为1024，跟openai不同，需要把原db数据删除之后再生成。另外，免费账号有限制，不能超过16个片段。

内容不可见，请联系管理员开通权限。

总体来说，关于工程化的一些结构，课上都已经带大家搭建好了。类似上面的问题，都是一些细节，可以多百度，多看文档，应该都能找到答案。

本课程为收费课程，购买后可查看！