文本向量化 Gensim.Word2Vec 用法详解

陈华 • 2022年06月03日 • 人工智能 • 阅读 2106

文本向量化（Word2Vec）自2013年被Google团队发明之后，就成了自然语言处理（NLP）的标配，只有将文本转化为向量之后，才能做进一步的探索。本文介绍使用Gensim中的Word2vec来实现文本向量化。

原理参考：https://zhuanlan.zhihu.com/p/120148300

代码示例

1、模型训练

from gensim.models import Word2Vec

sentences = [
    ['my', 'cat', 'sat', 'on', 'my', 'bed'],
    ['my', 'dog', 'sat', 'on', 'my', 'knees'],
    ['my', 'bird', 'was', 'shut', 'in', 'a', 'cage'],
]

model = Word2Vec(sentences, min_count=1, vector_size=2)
# 重要参数：
# sentences: list或者可迭代的对象
# vector_size: 词向量维度，默认100
# window: 窗口大小，即词向量上下文最大距离，默认5
# min_count: 需要计算词向量的最小词频，默认5，小语料需要调整

2、模型保存和加载

# 保存模型
model.save('./w2v.m')
# 加载模型
Word2Vec.load('./w2v.m')

# 单独保存词向量
wv = model.wv
wv.save("word2vec.wv")
# 加载词向量
from gensim.models import KeyedVectors
wv = KeyedVectors.load("word2vec.wv", mmap='r')
vector = wv['cat']

3、重要属性

# 词向量矩阵
print(model.wv.vectors)

# 查看所有词汇
print(model.wv.index_to_key)

# 查看词汇对应索引
print(model.wv.key_to_index)

# 查看所有词出现的次数
for word in model.wv.index_to_key:
    print(word, model.wv.get_vecattr(word, 'count'))

4、常用方法

# 根据词查词向量
print(model.wv['cat'])
print(model.wv.get_vector('cat')) # word or index
print(model.wv.get_vector(12))

# 查看某个词相近的词
print(model.wv.similar_by_word('cat')) #
print(model.wv.similar_by_key(12))
# 根据向量查询相近的词
vec = model.wv.get_vector(12)
print(model.wv.similar_by_key(vec))

# 根据给定的条件推断相似词
print(model.wv.most_similar(positive=['cat', 'dog'], negative=['bird']))

# 查看两个词相似度
print(model.wv.similarity('cat', 'dog'))

# 给定上下文词汇作为输入，可以获得中心词汇的概率分布
print(model.predict_output_word(['cat', 'bed'], topn=10))

# 寻找离群词
print(model.wv.doesnt_match(['cat','dog', 'bed','man']))

本文为陈华原创，欢迎转载，但请注明出处：http://www.ichenhua.cn/read/314

文本向量化 Gensim.Word2Vec 用法详解

代码示例

陈华编程

关于我们

合作平台

相关网站

联系我们