做SEO
我们是认真的!

「百度优化」TF-IDF算法在SEO优化中的应用

TF-IDF算法是什么?TF-IDF算法是一种统计算法,用于对检索的加权。简单的讲其作用是评估一字词对于一个文件的重要程度。

而在SEO的衍生应用中,可以这样去理解:在广州一个seo公司里,有10个SEO从业者,每个人都写了一篇关于广州SEO的文章,并且把这些文章都放在了一个文档集里。我们可以预料到的是,基本每篇文章中都会重复多次出现广州SEO这个词,意味着这十篇文章都与广州SEO有关。现在一个老板想要找一家在广州的seo公司做优化。那么他会在搜索引擎中输入“广州SEO公司”。

最终该老板找到两篇同时出现了这两个词的文章。现在的问题是:抛开作者的素质(网站整体权重)、文章质量(页面权重)、公司内专家的推荐(高质量外链)以及其他种种因素的影响后,谁的文章应该排在搜索结果的前面?

带着该问题,一起来看看TF-IDF算法以及TF-IDF算法在SEO中衍生的应用。
TF-idf算法其实是一种用户资讯检索与资讯探勘的常用加权技术,常常被SEOER们应用到,而很多人或许不太知道,其实最直观的运用就是“网站关键词密度”。

我们可以通过关键词密度查询工具来查询TF值:http://tool.chinaz.com/Tools/Density.aspx
但仅仅考虑词出现的次数是不行的,因为常常我们查询的都是两个以上的词,比如“AA BB”或者“XX YY ZZ”等形式。如果是这种形式的查询,哪个词出现的次数应该做为重要性的依据呢?那我们要先了解TF-idf算法的计算公式:

TF:词频
IDF:逆文本频率指数 IDF为IDF(t) = log(N / DF(t))。
TF-IDF=TF*IDF

其实有很多不同的数学公式可以用来计算TF-IDF。这边的例子以上述的数学公式来计算。词频 (TF) 是一词语出现的次数除以该文件的总词语数。假如刚刚说的广州seo公司两篇文章中的一篇的总词语数是100个,而词语“广州seo公司”出现了3次,那么“广州seo公司”一词在该文件中的词频就是3/100=0.03。一个计算文件频率 (IDF) 的方法是文件集里包含的文件总数除以测定有多少份文件出现过“广州seo公司”一词。所以,如果“广州seo公司”一词在1,000份文件出现过,而文件总数是10,000,000份的话,其逆向文件频率就是 lg(10,000,000 / 1,000)=4。最后该篇文章的TF-IDF的分数为0.03 * 4=0.12。

这细一点讲,广州seo公司可以分成(广州seo,公司)/(广州,seo,公司);然后分别计算TF-IDF值,所以如果想要计算刚刚首段提到的两篇文章就可以分别计算TF-IDF的值,哪个的分值高一些那么对应的排名页会高一些。

TF-IDF在SEO应用的总结

以上只是一个TF-IDF在SEO衍生应用中的一个例子。无论是TF-IDF的计算方式和本案例的假设条件,都是不严谨和准确的。但这不妨碍我们明白“关键词密度”这一SEO技术的原理。同时,也在关键词排名方面,跟竞争对手有了一个可以量化的参考。

无论百度还是谷歌又或者其他搜索引擎,TF-IDF只是其搜索排名算法中很小的一部分。同时为了打击关键词堆砌,各大搜索引擎又都会对TF值做一定的限制。广州SEO博客给的一个安全的词频数为每篇页面不重复15词关键词。而不是简单的用2%-8%的关键词密度。当然这个建议是基于国外的搜索引擎。

未经允许不得转载:小雨seo技术分享博客 » 「百度优化」TF-IDF算法在SEO优化中的应用
分享到: 更多 (0)

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址

小雨SEO 更专业 更高效

联系我们联系我们