Embedding在推荐系统中的应用

embedding相当于one hot的平滑，one hot相当于embedding的max-pooling

embedding通常取神经网络倒数第二层的参数权重

embedding向量单独训练还是端到端训练？

单独训练的embedding训练样本大，参数学习充分；

端到端训练的embedding参数多，收敛速度慢，数据量少较难充分训练

embedding 静态表征

word2vec, fasttext, glove

embedding 动态表征

elmo 双向LSTM抽取特征

gpt 单向语言模型，transformer抽取特征，输入输出attention，不受长度限制易并行

bert 双向语言模型，transformer抽取特征，其他同上

i2i召回

tag2vec, 取文章的tag的fasttext生成的embeding等权重相加，faiss取相似，按相似度截断再利用热度，ctr等加权排序

item2vec，取文章id向量，取文章作者向量

loc2vec，地名对应向量

title2vec，lstm训练标题向量

doc2vec，bert计算文章文本向量

entity2vec，tranE生成实体向量

u2i召回

user2vec 用户tag向量和文章tag向量（多个tag的向量进行加权和，归一化）

对所有用户向量进行minibatch-kmeans聚为400簇（5k users per），簇内计算相似用户，写入天级redis，相似用户topn文章候选集去重计算相似度得分，根据相似度，热度，新鲜度，质量分，ctr加权形成倒排，写入天级redis

DSSM

crossTag，用户tag按类别统计，每个类别取k个tag，m组tag分别和用户tag向量计算相似度

分群召回

簇召回：所有用户的tag向量或用户行为lstm向量用聚类算法（如minibatch-kmeans）聚成若干个簇（比如500个，根据肘点法确定），然后簇内做实时CF
- 增量聚类，一段时间内保持聚类中心不变，新增数据点选择现有最近距离中心，业务低峰时期全量更新聚类中心
- 动态规则聚类，选择用户画像兴趣点组合作为兴趣标签，保留用户数超过阈值的兴趣标签作为聚类中心
RFM模型用户分群
多用户融合作为群画像

Embedding的问题和优化

总结