HI,下午好,欢迎来到微信公众号转让!
公众号转让,微信公众号交易平台,公众号出售购买卖价格 24小时服务热线: 4000-163-301

新闻动态

NEWS CENTER

今日头条已经充分利用用户发布的图像、文和用户标签数据等信息

2019-05-19

今日头条已经充分利用用户发布的图像、文章和用户标签数据等信息,找到了较为有效的用户兴趣表示方法。换言之,用户兴趣识别结果是基于图像、文章和用户标签融合的。

因此,首要任务是获取头条用户发布的图像、文章及用户兴趣标签数据,并对这些数据进行预处理;然后,提取图像语义特征、文章语义特征和用户标签特征,并通过以上三种特征的组合,得到多模态的用户兴趣表达;最后,通过计算不同用户之间兴趣表达的余弦相似度,选择最相似的Top-N个用户推荐给目标用户。

用户兴趣推荐表示和推荐方法:

用户兴趣推荐是为今日头条中的某个用户u∈ U 推荐与其兴趣相似的用户集合U’⊆ U 。

本文笔者LineLian将用户兴趣推荐转化为一个用户兴趣表示问题——即首先将任意用户u∈ U 转化为兴趣空间中的高维特征向量 v ,然后在高维特征空间中根据兴趣向量的余弦距离获得与用户 u 的兴趣特征向量最接近的 k 个特征向量,这些特征向量对应的用户则为推荐用户集合U’。

基于余弦相似度的用户兴趣推荐主要有两个核心步骤:

  1. 构建特征空间;
  2. 在特征空间中计算用户兴趣特征向量的相似度。

以下分别对这两个步骤进行详细说明:

(1) 构建特征空间本质上是寻找某个特征映射函数 f ,使得该函数能够将用户 u 映射为高维兴趣特征空间中的点v ——即 f ( u)→v ,v 也可以称为用户 u 在兴趣特征空间中的特征向量。

考虑到今日头条中存在三种不同模态的信息能够表征用户兴趣——即头条图像、文章和用户标签,因此得出一个头条基于多模数据的用户兴趣表征方法。

记用户 u=[Iimg, Itext, Itag] ,其中 Iimg、Itext、Itag分别对应图像、文章和用户标签三种信息。

  • 对于图像信息 Iimg,LineLian在ImageNet数据集上预训练好的ResNet模型提取图像中包含的语义作为图像特征向量——即 vimg=fResNet(Iimg) ;
  • 对于文本信息 Itext,LineLian利用在百度百科上预训练好的Word2Vec模型,通过计算文章中的词向量平均值作为文本特征向量——即 vtext=Avg(fWord2Vec( I)text) ;
  • 对于用户标签信息 Itag,可以利用向量空间模型将标签信息表示为特征向量,即 vtag=fVSM(Itag) 。

最终,用户的兴趣特征向量可以表示为多模向量的组合: