网站内容的时候,没有一个正确的优化思路,关键词排名一直得不到一个好的提升,下面笔者就来讲讲如何理解百度分词技术。
一、什么是百度分词技术
百度分词技术就是百度针对用户提交查询的关键词串进行的查询处理后根据用户的关键词串用各种匹配方法进行的一种技术。所谓分词就是把字与字连在一起的汉语句子分成若干个相互独立、完整、正确的单词。词是最小的、能独立活动的、有意义的语言成分。分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词?哪些不是词?但如何让计算机也能理解?其处理过程就是分词算法。
计算机的所有语言知识都来自机器词典(给出词的各项信息)、句法规则(以词类的各种组合方式来描述词的聚合现象)以及有关词和句子的语义、语境、语用知识库,中文信息处理系统只要涉及句法、语义(如检索、翻译、文摘、校对等应用),就需要以词为基本单位,当汉字由句转化为词之后,才能使得句法分析、语句理解、自动文摘、自动分类和机器翻译等文本处理具有可行性,可以说,分词是机器语言学的基础。(百度百科)
二、如何理解百度分词技术
搜索引擎抓取到一个页面标题,那么会把这个标题进行拆分,中间就会使用到分词技术,然后判断这个标题的核心,再把经过判断之后的结果分门别类,就像把商品布置在货架上一样,不同的货架区放着不同类型的商品。
百度分词有三种技术:字符串匹配的分词法、词义分词法以及统计分词法。
这里概念就不介绍了,直接举例分析。我们以“广州网站建设”这个关键词为例,这个关键词用字符串匹配的分词法是“广州网站建设”,词义分词法是“广州网站”、“网站建设”,统计分词法是“广州”、“网站”、“建设”。一个词分成这么多个,百度还会按照这些分词词语的匹配、词义的匹配、词语出现的频率,最后决定根据哪些词语捕捉网页。
我们在百度输入“广州网站建设”,从搜索结果我们可以看到,除去付费广告排名,排名第一的网站红色的关键词大体都是“广州网站建设”以及其分词,如下图
说到这里可能有朋友会觉得奇怪,有些网站标题词义不太相近的位置也很靠前,比如:
这主要是因为除去标题意思相近,文章的被关注率,网站主题,网站的外链及权重也是决定其排名的因素。
然后我们再用百度快照来看一下:
你能看到“广州网站建设”被标黄,这是百度给的权重。其中黄色>蓝色>绿色,这里我们看到的全部是黄色,这也就是为什么该网站排名靠前的原因。
所以通过以上案例分析,我们最优先考虑的关键词应当是“广州网站”以及“广州”,然后再考虑“广州网站”,再考虑“网站建设”。因为“建设“这个内容太宽泛可能与行业无关,我们就不予考虑了。
总结:通过我们理解百度分词技术,再根据用户的搜索习惯,将更容易为我们的网站定位好关键词,有效稳定的提升网站关键词排名。