前面课程当中,给大家介绍了项目的数据来源,其中一个是关于公司的文档数据。因为文档是需要提前做分割和向量化的,这节课就来完成这个功能。

为了给大家演示多种类型文档的处理方法,给大家准备了常见的三种类型,txt、pdf、csv,文件也在素材文件夹,需要先拷贝到项目 /data/inputs 目录。

代码示例

1、创建文件

内容不可见,请联系管理员开通权限。

2、定义文本分割器

内容不可见,请联系管理员开通权限。

3、读取并分割文件

内容不可见,请联系管理员开通权限。

4、向量化并存储

基础部分向量数据库,给大家讲的是Faiss,但是Faiss只能存储句向量,不能存储元数据(原始文件信息)。这里用另一个叫ChromaDB,用法上跟Faiss是一模一样的。

内容不可见,请联系管理员开通权限。

好的,现在准备工作就基本上做完了,下节课,就可以开始处理Agent了。

本文链接:http://www.ichenhua.cn/edu/note/712

版权声明:本文为「陈华编程」原创课程讲义,请给与知识创作者起码的尊重,未经许可不得传播或转售!