当前位置:主页 > seo教程 > 正文

TF-IDF算法是什么?在seo中有什么应用?

01-15 seo教程

TF-IDF算法是什么?岂是TF-IDF算法是一种统计算法,用于对检索的加权。简单的讲其作用是评估一字词对于一个文件的重要程度。

而在SEO的衍生应用中,可以这样去理解:在杭州一个seo公司里,有10个SEO从业者,每个人都写了一篇关于杭州SEO的文章,并且把这些文章都放在了一个文档集里。我们可以预料到的是,基本每篇文章中都会重复多次出现杭州SEO这个词,意味着这十篇文章都与杭州SEO有关。现在一个老板想要找一家在杭州的seo公司做优化。那么他会在搜索引擎中输入“杭州SEO 公司”。

最终该老板找到两篇同时出现了这两个词的文章。现在的问题是:抛开作者的素质(网站整体权重)、文章质量(页面权重)、公司内专家的推荐(高质量外链)以及其他种种因素的影响后,谁的文章应该排在搜索结果的前面?

带着该问题,一起来看看TF-IDF算法以及TF-IDF算法在SEO中衍生的应用。
TF-idf算法其实是一种用户资讯检索与资讯探勘的常用加权技术,常常被SEOER们应用到,而很多人或许不太知道,其实最直观的运用就是“网站关键词密度”。

我们可以通过关键词密度查询工具来查询TF值:http://tool.chinaz.com/Tools/Density.aspx
但仅仅考虑词出现的次数是不行的,因为常常我们查询的都是两个以上的词,比如“AA BB”或者“XX YY ZZ”等形式。如果是这种形式的查询,哪个词出现的次数应该做为重要性的依据呢?那我们要先了解TF-idf算法的计算公式:

td-idf算法
TF:词频
IDF:逆文本频率指数 IDF为IDF(t) = log(N / DF(t))。
TF-IDF=TF*IDF
tf-idf算法

tf-idf算法

其实有很多不同的数学公式可以用来计算TF-IDF。这边的例子以上述的数学公式来计算。词频 (TF) 是一词语出现的次数除以该文件的总词语数。假如刚刚说的杭州seo公司两篇文章中的一篇的总词语数是100个,而词语“杭州seo公司”出现了3次,那么“杭州seo公司”一词在该文件中的词频就是3/100=0.03。一个计算文件频率 (IDF) 的方法是文件集里包含的文件总数除以测定有多少份文件出现过“杭州seo公司”一词。所以,如果“杭州seo公司”一词在1,000份文件出现过,而文件总数是10,000,000份的话,其逆向文件频率就是 lg(10,000,000 / 1,000)=4。最后该篇文章的TF-IDF的分数为0.03 * 4=0.12。

这细一点讲,杭州seo公司可以分成(杭州seo,公司)/(杭州,seo,公司);然后分别计算TF-IDF值,所以如果想要计算刚刚首段提到的两篇文章就可以分别计算TF-IDF的值,哪个的分值高一些那么对应的排名页会高一些。

TF-IDF在SEO应用的总结

以上只是一个TF-IDF在SEO衍生应用中的一个例子。无论是TF-IDF的计算方式和本案例的假设条件,都是不严谨和准确的。但这不妨碍我们明白“关键词密度”这一SEO技术的原理。同时,也在关键词排名方面,跟竞争对手有了一个可以量化的参考。

无论百度还是谷歌又或者其他搜索引擎,TF-IDF只是其搜索排名算法中很小的一部分。同时为了打击关键词堆砌,各大搜索引擎又都会对TF值做一定的限制。杭州SEO博客给的一个安全的词频数为每篇页面不重复15词关键词。而不是简单的用2%-8%的关键词密度。当然这个建议是基于国外的搜索引擎。

杭州seo建议:在学习SEO时,的确需要了解一些技术和理论的知识,这些知识有助于seoer更好的开展工作。但同时,站长们也无需纠结于一些纯理论和技术方面的问题,毕竟,在SEO这个行业中,实战和经验同样无比重要。

版权保护: 本文由杭州seo原创,转载请保留链接: http://www.seo1688.net/seojc/55.html

博客主人泽成SEO
【seo传闻】杭州泽成SEO英俊潇酒。七岁学文,九岁习武,12岁会泡妞,上知天文地理,下知鸡毛蒜皮,每外出行走,常引美女回头,帅哥跳楼,心地善良,乐于助人。小学时语文课老师讲解“帅哥”含义,他百思不得其解,同桌偷偷递过小镜子。他一照。哦。刹那间明白了。。。据说,杭州泽成SEO出生时,天空的北方,出现祥云一片,渐渐由远至近,飘到泽成SEO家房顶后,幻化成一个字:帅!