搜索引擎提交入口(重读《走进搜索引擎》)

搜索引擎提交入口
《走进搜索引擎》这本书最早来自于ZERO的知乎推荐，那会儿刚刚开始关注ZERO，在读到「搜索流量 = 搜索需求覆盖 × 收录 × 排名 × 点击」这样的公式时候，就已经认定了ZERO的SEO水平之高，是值得我深入学习的大佬。
所以他推荐的书，我第一时间就看了，并且做了笔记。但是当时的自己，其实对原理性的内容理解不深，只是在百度站长平台和谷歌SEO指南中看过一点点皮毛，也听说过各种PageRank算法、TF-IDF算法这些原理，但其实对其理解并不深刻，也不知道这些算法就是构建搜索引擎的基础之一。
慢慢的，随着实践经验的提升，操盘的流量规模达到几百上千万的规模后，回头再来看这些原理，才发现它们的价值，深刻理解这些原理，是衍生出SEO流量五花八门玩法的基础。
《走进搜索引擎》是2007年初版的一本书，对于专注于搜索引擎领域的工程师来说，段位太低，因为前5章都是在科普，第6章才切入算法程序这些领域，所以在豆瓣的评分并不高。
但是，对于SEOer来说，恰恰是前5章的科普，是最适合的入门搜索引擎原理的内容。全书按照搜索引擎的四大系统展开，分别是：
1 下载系统，负责从互联网上抓取各种类型的网页，并保持更新同步。2 分析系统，抽取下载的网页数据，进行PageRank和分词计算。3 索引系统，将分析后的网页对象索引入库。4 查询系统，负责分析用户提交的查询请求，然后从索引库中检索出相关网页并排序后，以查询结果形式返回给用户。

搜索引擎与其说是一个查询系统，不如说是一个用户定义的信息聚合系统。
而搜索引擎要解决的问题主要是给出快速、全面、准确、可靠的搜索结果，而作为网页来说，能帮助搜索引擎实现以上目标，自然就更容易获得搜索引擎的青睐。
具体来看，快速、全面主要是搜索引擎自身的抓取、索引效率问题，那么面对庞大的数据量，搜索引擎的爬虫资源必然是不够用的，那么主动给各大搜索引擎提交数据，就变成了一个好的解决方案，所以各种站长工具都提供了便捷的链接提交入口，比如sitemap、主动推送、自动推送、手动提交、ping方式等等。
而准确的要求，主要是对网页相关性的考量，数千万个网页，究竟选择哪10条作为搜索引擎的首页展现结果，其实主要是处于对相关性的考量，比如PageRank算法、TF-IDF算法都是主要解决这一问题，后续会详细说一下这两个算法的原理。
至于可靠性，在百度的搜索结果中，表现非常明显，那就是大站优先、百度系自有产品优先，为什么？因为大站的背书，大部分是企业，流量和品牌的双重保障下，更值得信赖。当然这不绝对代表小站失去机会，记住，相关性是最重要的。
下面就按照上面提到的下载、分析、索引、查询四大系统，来展开：1 下载系统其实就是爬虫的策略问题，互联网上数据如此庞大，爬虫资源如此有限，先抓哪些网页值得考量，那就需要对网页的重要度有个排序。
而重要性的度量，由链接欢迎度、链接重要度和平均链接深度这3个方面决定。
什么是链接欢迎度？其实就是外链，每一条外链代表了网页的一个投票，更多票选你，你就是受欢迎的，这也是早期SEO策略一度外链猖獗的原因之一。
链接重要度，是关于URL本身的一个函数，比如包含“.com”和“较少斜杠”的URL重要程度高。这也是我们为什么做网站要尽可能选择常见域名和减少URL长度的原因。
平均链接深度，其实说的是当前链接距离爬虫开始抓取的种子链接的点击距离。这个点击距离越近，说明你的重要性越高，这也是我们一直在大型网站中强调的，要减少每个页面距离首页的点击距离，其实就是为了提高重要性，从而增加被抓取的概率。
所以，通过以上原理的理解，我们就能制定出合理的SEO策略，比如：用常见域名、减少URL长度、做更多的外链、减少点击距离等等。2 分析系统分析系统主要完成信息抽取、网页去重、中文分词和PageRank计算等任务。
对于分析系统来说，基础和首要的工作，就是从网页中识别抽取出代表网页的属性，比如锚文本、标题、正文、链接模块、图片模块等等。而如果你采用了爬虫不太友好的技术架构，比如flash、frame、ajax等等，就会影响这一步的结果，从而被爬虫丢弃。当然，反之，以上不太友好的架构，往往是作弊和黑帽SEO的温床。
而网页去重过程，为了效率考虑，一般会遵循，谁先被爬虫发现，谁就是原创的原则，所以很多大站因为在抓取过程中更有优势，往往在网页去重的过程中占据优势。这一点，跟我们目前自媒体的原创逻辑，还是不一样的，需要注意。
最后一步PageRank计算，其实为了最终网页排序做准备，所以也是一种衡量网页重要性的工具。

说明如下：（1）PRn(A)：网页A的PageRank值。（2）PRn-1(Ti)：网页 Ti存在指向A的链接，并且网页 Ti在上一次迭代时的PageRank值。（3）C（Ti）：网页Ti的外链数量。（4）d：阻尼系数，03 索引系统索引的简单理解，就相当于一本书的目录。
而搜索引擎存在正排索引和倒排索引两类。所谓正排索引就是以唯一性的文档编号去映射对应搜索词，而倒排索引就是以搜索词去映射对应的一组文档。
所以，搜索引擎的索引库是分层级，只有进入更高级的索引库，才有机会在搜索结果中展现。
由此，衍生出索引和收录的区别：
搜狗站长平台给出这样的解释：搜狗对网站的收录量为搜狗爬虫对网站内页面的总成功抓取量。索引量为被收录的页面经过索引流程进入线上后的总网页数量。由此可见，索引是高于收录的。4 查询系统严格意义上，普通用户提交给查询系统的关键词称为“查询词”；经过查询系统分词，提交检索代理的称为“检索词”。
一般来说，查询的流程如下：
（1）对查询词进行分词，得到一个逻辑表达式。例如查询「走进搜索引擎」，将会被切分成「走进」，「搜索引擎」这两个词。并且转换为用AND逻辑表示的表达式，即「走进」AND「搜索引擎」。
（2）采用布尔模型的方法得到结果文档列表，例如从倒排索引中提取包含「走进」关键词的文档列表和包含「搜索引擎」关键词的文档列表。并将检索出的文档列表求交集，得到既包含「走进」，也包含「搜索引擎」的文档列表。
（3）将步骤（2）得到的文档列表中的全部文档和查询词分别向量化，并求向量间的相似度。
（4）按照相似度排序输出检索结果。
以上提到的相似度问题，就涉及到搜索引擎中最重要的算法之一：TF-IDF算法。TF = 关键词出现次数 / 文档总字数IDF = log( 搜索引擎文档总数 / 出现某个词的文档总数 )TF-IDF值 = TF * IDF
举个例子：以「SEO学习方法」为例，中文分词为「SEO」「学习方法」假设百度文档总数为10亿SEO收录数为7730万学习方法收录数为1亿可以看出SEO的IDF值更高，属于权重高的关键词词项，其重要性优先于学习方法
而搜索「SEO学习方法」排名第一的页面，SEO词频=0.06排名第二的页面，SEO词频=0.02可以大概验证出，TF-IDF算法的价值。
而百度专利中提到，百度会分开计算页面中不同模块的TF-IDF，所以相关推荐的关键词词频，就会尤为重要。
此外title，description，正文内容这些能反映关键词词频的位置，都有很大价值。
很明显，TF-IDF存在明显漏洞，只要堆砌IDF值高的词，就能大大提升相关性，从而提升网站排名，这也是早期搜索引擎中存在大量堆砌关键词这种作弊手段的根源。
现在，随着搜索引擎的升级，单纯堆砌关键词会招致惩罚，但是因为底层算法的原因，只要不超过红线，堆砌关键词依旧是非常有效的手段。
所以，SEO玩的就是细节，对算法理解越深，可以探索的细节就是越多，这也是为什么SEO的高手喜欢研究百度、Google这些搜索引擎专利的原因。通过专利可以看清搜索引擎的底层原理，由此探索出规则的底线，在规则上跳舞，也是符合增长黑客精神的一种做法。
早期入行SEO的我，也是被各种「外链」「快排」「站群」「黑帽」牛逼名词忽悠的晕头转向，幻想自己用这些牛逼技术就能一夜暴富。现在想想，站出来忽悠的专家都有自己的目的，能分享出来的赚钱技术就代表着已经落后，或者存在很高的技术门槛，普通人很难突破。
现在的我觉得，学习原理，才是入门的开始，任何领域都一样。至于本文提到的书，相信大家一定有能力可以自己搜索搞定。
本篇为「薄荷成长笔记」2020年20/52篇更新，感谢阅读。
相关文章：百度极光算法带来的一些思考
薄荷SEO：大型UGC网站SEO流量破百万的秘密【干货】

我的知识星球：流量之术，欢迎来玩。

扫一扫打开手机网站

搜索引擎提交入口(重读《走进搜索引擎》)

搜索引擎提交入口相关文章

您可能感兴趣