京东商品标题如何优化(技术贴)

2015-07-02|HiShop
导读:“标题为皇,内容为王”这句话大家应该都知道,京东商品标题如何优化,这里接下来要讲到的是京东文本权重的问题,这个问题和京东商品标题优化有直接的关系。...
京东商品标题如何优化(技术贴)

  “标题为皇,内容为王”这句话大家应该都知道,再任何一个地方都适用,京东商品标题如何优化,这里接下来要讲到的是京东文本权重的问题,这个问题和京东商品标题优化有直接的关系。

  首先解释一下什么是文本权重:文本权重主要是比较用户搜索词和您的商品相关文本信息(商品标题,商品分类,商品扩展属性...)的文本相关度。决定文本相关度的因素主要有以下三个:

  一: 词频 二:词的唯一性 三:文本长度

  那么何为文本相关度呢?为什么由这三项因素决定呢?我先解释一下各个因素的具体含义,然后再对一些喜欢深究原理的朋友(技术路线的朋友)贴出扩展阅读的算法帖子来解释目前用的比较多的两个文本相关度算法(bm25算法,和余弦夹角算法)的公式和具体解释。

  词频:搜索词在商品文本信息中出现的次数

  词的唯一性:词在商品文本信息中出现的次数 / 总商品数

  文本长度:就是商品文本信息的文本长度

  通俗的讲文本相关度就是指两段文本的含义是否相近。文本的含义是由基本的语义单元也就是 '词' 次序组合而成。举个比较简单的例子,比如说下面这段文本:"长江市长江大桥",如果切分方式不同,含义也就不同, 它可以有两种解释:1. 长江市 长江大桥 (代表一座桥) 2. 长江 市长 江大桥 (代表一个人)。 所以比较两段文本的相关度可以转换成比较两段文本所构成的词的组合的相关度。如果两段文章的中心词们大多都相同,且同一个中心词在两短文章的中心程度都差不多的话,可以判定两段文章的意思差不多一样。那么如何绝对中心词的中心程度呢?如果一个词在这篇文章中出现多次,且只在这篇文章中出现,而且这篇文章还不是特别长,那么这个词其实就可以认为他是这篇文中的中心词。他的中心程度可以用一个术语来表示叫做:term weight(词相对文章权重值),那么term weight的计算公式一般都是这样: tf(词出现的频率)/idf(词的唯一性)/dl(文章的文本长度) 当然这都是简写。搜索引擎把用户的查询词也当做一段文本,商品的文本信息也当做一段文本,那么文本相关度就成了用户查询词相对于商品文本信息中的相关度。对于计算机来说,必须把它转换成数学模型才能得以计算,目前有两种比较流行的算法,我在这不细阐述,但是我贴出了两个我认为写的比较好的博客,大家有时间可以阅读以下(对于对数学比较敢兴趣的),京东采用的是bm25算法,词频部分做了修改,因为不是我操手改的所以细节并不清楚。我估计就是设了个最大词频,避免叠词对文本产生过大影响。

  京东商品标题如何优化上述从技术方面给大家诠释了一些,从计算公式以及权重来解释标题的优化,希望这些对大家有帮助。

无法在这个位置找到: footer_2016.htm