seo

seo

大型站点如何做seo

点石 发表了文章 • 0 个评论 • 48 次浏览 • 2017-07-27 21:30 • 来自相关话题

大型站点
 
从大型站点开始,核心任务是【资源合理高效整合&用户体验】,这里的重点,一个是合理,一个是高效。

合理

合理是指,通过大量的SEO测试,找出趋近于本网站(而非所有网站)真实的SEO规律。因为大网站数据量大,则测试的样本量越大,测试结果越能反应SEO的真实规律。

此阶段,应跳出之前简单粗暴怼资源的方式,转变为通过大量SEO测试结果反推SEO规则的科学方法。

此阶段,应该有一个“流量模型”。这个模型是指,比如撸了500万个词,这500万个词做成页面后,每个页面排到首页大体上需要多少资源支持?排到首页能够获得多少流量?

这个模型内的数据,肯定不是准确的,但是能够大概率的保证达到预想的结果。这是需要不断反复的测试,提取出仅适用于当前网站的规律。

高效

高效是指,除了需要编辑介入的页面,其他SEO页面的生成,是程序自动化、人工辅助,有一个页面生成机制:~每一个SEO流量页面的生成,从导词-上线-调优,是机器自动完成,当然中间包含很多过程、算法以及不断完善的数据,算法需要人工观察结果持续的改进迭代。~

整合

优先整合优质内容批量创造出更多页面。“优势”指的是内容的流量效率,即平均一个页面能够带来多少流量。一般原创内容 或 全网重复度不高的内容,流量效率都高于相互采集的内容。

找出站内流量效率高的内容(如果有),通过拆分、聚合等手段创造出新的页面,这些页面的流量效率也不会低到哪去。毕竟搜索引擎倾向的内容,怎么组合也还是好的内容;不倾向的内容,再怎么倒腾可能还那个德行。

用户体验

但如果行业是高竞争行业,或者行业中存在巨头型站点,那么以上过程或许在流量上增长不明显,或者没有增长。

因为真实用户使用量越大的网站,通常质量越好。所以对于大型站点,如果页面中存在用户使用特征的点,有可能会提高搜索优先级排序。具体请查找百度专利,我忘了叫啥了。

比如,涉及交易类的网站,在页面中能够反映用户使用特征的点如,商品页面流量分发的设计、C端购买商品的评价反馈、B端商品库存等等。

比如,涉及内容型的网站,在页面中能够反映用户使用特征的点如,精品内容的推送、TAG标签树、内容评论点赞站转载等等。
原文来自GOGO闯 查看全部
大型站点
 
从大型站点开始,核心任务是【资源合理高效整合&用户体验】,这里的重点,一个是合理,一个是高效。

合理

合理是指,通过大量的SEO测试,找出趋近于本网站(而非所有网站)真实的SEO规律。因为大网站数据量大,则测试的样本量越大,测试结果越能反应SEO的真实规律。

此阶段,应跳出之前简单粗暴怼资源的方式,转变为通过大量SEO测试结果反推SEO规则的科学方法。

此阶段,应该有一个“流量模型”。这个模型是指,比如撸了500万个词,这500万个词做成页面后,每个页面排到首页大体上需要多少资源支持?排到首页能够获得多少流量?

这个模型内的数据,肯定不是准确的,但是能够大概率的保证达到预想的结果。这是需要不断反复的测试,提取出仅适用于当前网站的规律。

高效

高效是指,除了需要编辑介入的页面,其他SEO页面的生成,是程序自动化、人工辅助,有一个页面生成机制:~每一个SEO流量页面的生成,从导词-上线-调优,是机器自动完成,当然中间包含很多过程、算法以及不断完善的数据,算法需要人工观察结果持续的改进迭代。~

整合

优先整合优质内容批量创造出更多页面。“优势”指的是内容的流量效率,即平均一个页面能够带来多少流量。一般原创内容 或 全网重复度不高的内容,流量效率都高于相互采集的内容。

找出站内流量效率高的内容(如果有),通过拆分、聚合等手段创造出新的页面,这些页面的流量效率也不会低到哪去。毕竟搜索引擎倾向的内容,怎么组合也还是好的内容;不倾向的内容,再怎么倒腾可能还那个德行。

用户体验

但如果行业是高竞争行业,或者行业中存在巨头型站点,那么以上过程或许在流量上增长不明显,或者没有增长。

因为真实用户使用量越大的网站,通常质量越好。所以对于大型站点,如果页面中存在用户使用特征的点,有可能会提高搜索优先级排序。具体请查找百度专利,我忘了叫啥了。

比如,涉及交易类的网站,在页面中能够反映用户使用特征的点如,商品页面流量分发的设计、C端购买商品的评价反馈、B端商品库存等等。

比如,涉及内容型的网站,在页面中能够反映用户使用特征的点如,精品内容的推送、TAG标签树、内容评论点赞站转载等等。
原文来自GOGO闯

中型站点如何做seo

点石 发表了文章 • 0 个评论 • 50 次浏览 • 2017-07-27 21:29 • 来自相关话题

中型站点
 从中型站点开始,核心任务是【资源稳定增长】,这里的重点,一个是增长,一个是稳定。

增长

小网站刚进阶到中型站点,行业的流量并没有完全覆盖到。部分用户搜索行为是没有对应页面承载的,没有对应页面承载,也就不会获取对应的SEO流量。所以需要继续增加网站体量,保持站点资源能够持续的、稳定的、较之前快速的增长。

这便需要结合实际情况,确定一套内容增长机制和链接增长机制

但伴随着网站体量变大,团队人员(如技术、产品人员)变动,可能出现各种各样的问题。比如:

某日发现网站出现一大批标题重复页面,一看日志,占了总抓取的70%,这页面是产品经理上3个月前上的

某日发现某个页面流量大掉,一看是其他页面给这批页面提供链接的板块不见了,这是技术2个月前删的

随着每日大量数据抓取,数据库没有合理优化,导致网站性能持续下降

……

随着网站内容、团队的变化,可能会出现之前无法预料的情况,而面对此情况,需要以最快的速度发现新问题,并以最快的速度及时解决,预防因自身原因导致的流量损失。

中型及以上站点的任何SEO,控制风险是第一位,其次是流量增长。这便需要建立一套及时止损机制:人工设定N个会影响SEO的特征,程序24小时监控这些特征,如出现符合特征的元素,则及时通知SEO,并提示相应建议,程序每次检查都做一次数据备份。

通过人为设定特征、机器监控特征、不断更新特征,使该系统不断完善,并且降低由于SEO人员变动产生SEO工作交接成本。
原文来自:GOGO闯 查看全部
中型站点
 从中型站点开始,核心任务是【资源稳定增长】,这里的重点,一个是增长,一个是稳定。

增长

小网站刚进阶到中型站点,行业的流量并没有完全覆盖到。部分用户搜索行为是没有对应页面承载的,没有对应页面承载,也就不会获取对应的SEO流量。所以需要继续增加网站体量,保持站点资源能够持续的、稳定的、较之前快速的增长。

这便需要结合实际情况,确定一套内容增长机制和链接增长机制

但伴随着网站体量变大,团队人员(如技术、产品人员)变动,可能出现各种各样的问题。比如:

某日发现网站出现一大批标题重复页面,一看日志,占了总抓取的70%,这页面是产品经理上3个月前上的

某日发现某个页面流量大掉,一看是其他页面给这批页面提供链接的板块不见了,这是技术2个月前删的

随着每日大量数据抓取,数据库没有合理优化,导致网站性能持续下降

……

随着网站内容、团队的变化,可能会出现之前无法预料的情况,而面对此情况,需要以最快的速度发现新问题,并以最快的速度及时解决,预防因自身原因导致的流量损失。

中型及以上站点的任何SEO,控制风险是第一位,其次是流量增长。这便需要建立一套及时止损机制:人工设定N个会影响SEO的特征,程序24小时监控这些特征,如出现符合特征的元素,则及时通知SEO,并提示相应建议,程序每次检查都做一次数据备份。

通过人为设定特征、机器监控特征、不断更新特征,使该系统不断完善,并且降低由于SEO人员变动产生SEO工作交接成本。
原文来自:GOGO闯

小型站点如何做seo

点石 发表了文章 • 0 个评论 • 41 次浏览 • 2017-07-27 21:28 • 来自相关话题

小型站点

从小型站点开始,核心任务是【基础设施搭建】,这个“基础设施”是促使小型站点流量能够提高,并进阶为中型站点的充分必要条件。

典型的小型站点的特点:

缺内容
缺链接
缺流量
缺知名度
缺钱
缺XXXX
然而国内SEO环境是个马太效应的世界,有数据量不一定有流量,但有流量的一定都有数据量。网站体量反应网站流量,生态环境不那么公平。当务之急,需要解决资源短缺的问题,这个解决不了,做其他事情都是效率不高的。

然而受限于行业、技术等问题,开始能够获取的资源数量不多,所以必然需要集中资源做值钱的词、做ROI高的词、利润大的词。


确定先做哪块、然后做哪块、之后做哪块、最后做哪块。

这种调研是挺耗费时间精力的,搞半个月也是挺正常的,而且很多大站点的SEO此步骤也没做过,也正常,毕竟大多SEO只对流量绝对值负责,商业价值不怎么关注。

初始资源有了,要做的词也定了,便需要保证网站代码、页面、链接对SEO友好,让搜索引擎能够顺畅抓取并分析页面内容,这是页面能够被索引和获得排名展现的前提。

这里的基础设施便是:整站SEO友好、关键词定位(该上哪些词)、资源获取机制(内容量 & 链接量 & 点击量)

以上三个基础设施,会促使小型站点进阶为中型站点,反之,中型站点之所以能够成为中型站点,也是因为具备上面三个基础设施,所以叫充分必要条件。
 
原文来自GOGO闯 查看全部
小型站点

从小型站点开始,核心任务是【基础设施搭建】,这个“基础设施”是促使小型站点流量能够提高,并进阶为中型站点的充分必要条件。

典型的小型站点的特点:

缺内容
缺链接
缺流量
缺知名度
缺钱
缺XXXX
然而国内SEO环境是个马太效应的世界,有数据量不一定有流量,但有流量的一定都有数据量。网站体量反应网站流量,生态环境不那么公平。当务之急,需要解决资源短缺的问题,这个解决不了,做其他事情都是效率不高的。

然而受限于行业、技术等问题,开始能够获取的资源数量不多,所以必然需要集中资源做值钱的词、做ROI高的词、利润大的词。


确定先做哪块、然后做哪块、之后做哪块、最后做哪块。

这种调研是挺耗费时间精力的,搞半个月也是挺正常的,而且很多大站点的SEO此步骤也没做过,也正常,毕竟大多SEO只对流量绝对值负责,商业价值不怎么关注。

初始资源有了,要做的词也定了,便需要保证网站代码、页面、链接对SEO友好,让搜索引擎能够顺畅抓取并分析页面内容,这是页面能够被索引和获得排名展现的前提。

这里的基础设施便是:整站SEO友好、关键词定位(该上哪些词)、资源获取机制(内容量 & 链接量 & 点击量)

以上三个基础设施,会促使小型站点进阶为中型站点,反之,中型站点之所以能够成为中型站点,也是因为具备上面三个基础设施,所以叫充分必要条件。
 
原文来自GOGO闯

依靠SEO,去打造一个成功的网站

点石 发表了文章 • 0 个评论 • 159 次浏览 • 2017-04-18 21:30 • 来自相关话题

说了很多SEO相关的东西,但是从来没有说说如何去对待SEO。我想这篇文章比很多篇讲如何去做SEO的文章都还对大家有用一些。
王通曾经写过一篇《阿里巴巴B2B必然走向衰落》,虽然这篇文章一塌糊涂,但是这篇文章当中说阿里巴巴依靠SEO成功的观点我觉得是对的,只是没有他说的那么简单。《SEO是如何依赖技术分析的》一文的结尾我也提到:“从某方面来说,是SEO成就了阿里巴巴”。为了让大家更明白一点,我可以说一些已经公开了的信息:阿里巴巴是先有英文站,才有中文站的。而在08年以前,阿里巴巴英文站的收入都是占到阿里巴巴整个收入的70%。可能有人会说,阿里巴巴英文站的收入都是来自于国内那些做外贸的中国人,但是,在早期,那些外贸企业之所以肯爽快的付费,是因为在阿里巴巴上确实有效果。而这种效果,来自于大量优质的国外买家的流量。
我看到有些人用alexa分析阿里巴巴的流量构成,说绝大部分流量都是中文的流量,其实是分析有误的。因为阿里巴巴中文站的域名是 china.alibaba.com ,和英文站 www .alibaba.com 是同一个主域名。所以alexa把中文站的流量也算进了英文站的流量里。而alexa上的数据本来也就不准的。(这个alexa其实可以抛弃不用了,可以用adplanner代替)
那么这些大量优质的买家流量如何来的呢? 大家可以想一想,一个中国人做的网站,不能去国外那么多国家的电视上做广告,不能搞一些类似“赢在中国”的活动。大家也不会听你一个明星般的企业主“忽悠”。那还能有什么办法?无非就只有在线营销。
而SEO不管是在一个网站的什么时期,都是最有效的在线营销手段。早期阿里巴巴大量优质的买家流量,就是通过SEO优化后,十个搜索结果当中有六个是阿里巴巴的页面这样的局面来实现的。
接下来再来看看一个网站一般是通过一种什么运作方式盈利的。说一说我觉得很多网站盈利的本质是什么。
我们可以想一想我们平常生活中很熟悉的超市,菜场,咖啡馆等等实体经济是通过什么方式盈利的。他们盈利的本质是什么呢?其实没有什么复杂的,无非就是低价买进某些商品,或者加工或者转手,然后高价卖出去,赚取中间的差价即可。而高价能高到什么程度,能卖出去多少,很大一部分原因来源于卖的东西质量怎么样。所以实体经济玩的那个游戏、它们的本质总结起来就是:“低买高卖,注意质量”。
其实网站也是在玩一个这样的游戏,而买卖的东西就是网站的流量。不管是新浪、百度、腾讯、阿里巴巴、google这样的平台性网站,还是卓越、当当、京东、凡客(VANCL)这样的电子商务网站,还是像一些SEOer的喜欢做的垃圾站。都是先通过一定的成本“买进”一些相关的流量,然后“卖出”这些流量具有的价值。本质上都是这么回事,而差别就是每个网站流量“买进”的方式不一样,“卖出”的方式也不一样。
如果以一个网站的营业额来计算,除去成本,各个网站在买卖流量这个生意上差别体现在:
1,你“买进”的价格有多低。2,你“买进”了多少。 3,你“卖出”的价格有多高。 4,你“卖出”了多少。
比如腾讯,因为有QQ这个客户端,可以在上面捆绑很多服务,加上知名度,流量“买进”的价格是很低的;“买进”的数量也很大;而流量的“卖出”,是通过它的一系列产品体现出来的,“卖出”的价格其实不高;但是它“卖出”的数量非常大。所以腾讯一个季度的营业额是4亿多美金。
腾讯这种平台性质的网站,买卖流量的痕迹还不那么明显。像凡客(VANCL)这种电子商务网站才非常明显的反应出了这种买卖流量的事实。只要价格合适,凡客(VANCL)在互联网一切能低价买流量的地方都购买流量,这是真金白银的直接买进,当然“买进”的价格还是要比腾讯高;买进的数量也不少;但是“卖出”的价格也比腾讯的高了很多;而“卖出”的数量不如腾讯。所以凡客的营业额比腾讯低,但是估计一年也有十几亿人民币以上了。
现在的互联网,各家推出的产品,其实已有越来越同质化的趋势,卖什么是不太重要的,怎么去卖才是竞争力所在。凡客(VANCL)以前卖衬衫很成功,现在卖鞋也非常成功,就是因为从另一个角度来说它卖的不是衬衫也不是鞋,是流量。
更多的其他经营性网站,都是在4个方面各有特点,所以才造就了各种不同的网站。比如很多SEOer做的垃圾站:“买入”的价格很低;数量比较多;但是靠挂adsense这样的“卖出”方式的话,“卖出”的价格奇低;“卖出”的数量其实不少的。但是一年的营业额也就是几万元而已。而当年盛极一时的PPG衬衫,倒是知道流量只要能“卖出”,通过一定的成本大量“买入”是很值得的。只是我一直不明白为什么PPG当年选择电视广告投入这么贵的买入方式。
而SEO在上面谈到的那4点里面的作用是什么呢? 好的SEO,能给你带来大量、免费、优质的流量。
早期的阿里巴巴英文站,因为有了SEO,流量“买进”的价格很低,甚至有时候可以忽略这个价格;“买进”的数量很多;还因为这些流量非常的优质,所以能“卖出”的价格也很高;也因为优质,“卖出”的数量也很大。 所以才有了今天大家看到的这个阿里巴巴。
很多SEOer都不明白自己掌握的是一种什么技能。更多的人浪费了自己拥有的这种技能。所以大家现在都换种思路去经营网站吧。利用SEO,其实可以做出更好的成绩的,甚至可以成就一番事业。
现在有很多的网站开始进军国际市场。但是他们首先要面临的问题,就是如何大量低价的“买入”优质的流量。在国内市场,SEO的重要性还不这么强烈,但是一旦你开始进入国际市场,就发现SEO是你海外推广的一个必要的选择。
当然,除了SEO,很多网站也不惜在其他“买入”流量这个方面投入很大的资金的。如国内某刚刚崛起的外贸B2C平台,投adwords广告,都是几十万词语的数量。因为到时他们“卖出”的价格会很高,所以这个投入其实是很划得来的。还有一个外贸B2C平台,除了adwords,甚至不惜用人肉在国外论坛发帖的方式去推广网站,而这种方式也占到他们第二大非直接流量的来源。
这些网站可能也尝试过SEO,但是应该是不理想的。因为现在国内的SEO理论水平真的是比国外落后很多。国外同行,不管是SEO意识在网站中的普及程度,还是竞争力远远要比国内的企业高得多。我现在通过 hitwise可以看到国内很多英文网站在海外的流量,一些国内很牛的英文网站,在国外拿到的SEO流量其实很少的。实际的关键词排名也不理想。(很多人在查排名的时候都没有用国外的IP去查,结果往往会查到自己网站的排名很好,而实际上,可能在国外的前几十页也找不到他们的网站。)
这也是促使我写博客的原因之一。其实很多人,只要有好的基础,再坚持实践多年,是一定能摸索出正确的方法的。但是阻碍他们的,还有很多误导人的言论。
真希望有更多的网站能依靠SEO成功。 查看全部
说了很多SEO相关的东西,但是从来没有说说如何去对待SEO。我想这篇文章比很多篇讲如何去做SEO的文章都还对大家有用一些。
王通曾经写过一篇《阿里巴巴B2B必然走向衰落》,虽然这篇文章一塌糊涂,但是这篇文章当中说阿里巴巴依靠SEO成功的观点我觉得是对的,只是没有他说的那么简单。《SEO是如何依赖技术分析的》一文的结尾我也提到:“从某方面来说,是SEO成就了阿里巴巴”。为了让大家更明白一点,我可以说一些已经公开了的信息:阿里巴巴是先有英文站,才有中文站的。而在08年以前,阿里巴巴英文站的收入都是占到阿里巴巴整个收入的70%。可能有人会说,阿里巴巴英文站的收入都是来自于国内那些做外贸的中国人,但是,在早期,那些外贸企业之所以肯爽快的付费,是因为在阿里巴巴上确实有效果。而这种效果,来自于大量优质的国外买家的流量。
我看到有些人用alexa分析阿里巴巴的流量构成,说绝大部分流量都是中文的流量,其实是分析有误的。因为阿里巴巴中文站的域名是 china.alibaba.com ,和英文站 www .alibaba.com 是同一个主域名。所以alexa把中文站的流量也算进了英文站的流量里。而alexa上的数据本来也就不准的。(这个alexa其实可以抛弃不用了,可以用adplanner代替)
那么这些大量优质的买家流量如何来的呢? 大家可以想一想,一个中国人做的网站,不能去国外那么多国家的电视上做广告,不能搞一些类似“赢在中国”的活动。大家也不会听你一个明星般的企业主“忽悠”。那还能有什么办法?无非就只有在线营销。
而SEO不管是在一个网站的什么时期,都是最有效的在线营销手段。早期阿里巴巴大量优质的买家流量,就是通过SEO优化后,十个搜索结果当中有六个是阿里巴巴的页面这样的局面来实现的。
接下来再来看看一个网站一般是通过一种什么运作方式盈利的。说一说我觉得很多网站盈利的本质是什么。
我们可以想一想我们平常生活中很熟悉的超市,菜场,咖啡馆等等实体经济是通过什么方式盈利的。他们盈利的本质是什么呢?其实没有什么复杂的,无非就是低价买进某些商品,或者加工或者转手,然后高价卖出去,赚取中间的差价即可。而高价能高到什么程度,能卖出去多少,很大一部分原因来源于卖的东西质量怎么样。所以实体经济玩的那个游戏、它们的本质总结起来就是:“低买高卖,注意质量”。
其实网站也是在玩一个这样的游戏,而买卖的东西就是网站的流量。不管是新浪、百度、腾讯、阿里巴巴、google这样的平台性网站,还是卓越、当当、京东、凡客(VANCL)这样的电子商务网站,还是像一些SEOer的喜欢做的垃圾站。都是先通过一定的成本“买进”一些相关的流量,然后“卖出”这些流量具有的价值。本质上都是这么回事,而差别就是每个网站流量“买进”的方式不一样,“卖出”的方式也不一样。
如果以一个网站的营业额来计算,除去成本,各个网站在买卖流量这个生意上差别体现在:
1,你“买进”的价格有多低。2,你“买进”了多少。 3,你“卖出”的价格有多高。 4,你“卖出”了多少。
比如腾讯,因为有QQ这个客户端,可以在上面捆绑很多服务,加上知名度,流量“买进”的价格是很低的;“买进”的数量也很大;而流量的“卖出”,是通过它的一系列产品体现出来的,“卖出”的价格其实不高;但是它“卖出”的数量非常大。所以腾讯一个季度的营业额是4亿多美金。
腾讯这种平台性质的网站,买卖流量的痕迹还不那么明显。像凡客(VANCL)这种电子商务网站才非常明显的反应出了这种买卖流量的事实。只要价格合适,凡客(VANCL)在互联网一切能低价买流量的地方都购买流量,这是真金白银的直接买进,当然“买进”的价格还是要比腾讯高;买进的数量也不少;但是“卖出”的价格也比腾讯的高了很多;而“卖出”的数量不如腾讯。所以凡客的营业额比腾讯低,但是估计一年也有十几亿人民币以上了。
现在的互联网,各家推出的产品,其实已有越来越同质化的趋势,卖什么是不太重要的,怎么去卖才是竞争力所在。凡客(VANCL)以前卖衬衫很成功,现在卖鞋也非常成功,就是因为从另一个角度来说它卖的不是衬衫也不是鞋,是流量。
更多的其他经营性网站,都是在4个方面各有特点,所以才造就了各种不同的网站。比如很多SEOer做的垃圾站:“买入”的价格很低;数量比较多;但是靠挂adsense这样的“卖出”方式的话,“卖出”的价格奇低;“卖出”的数量其实不少的。但是一年的营业额也就是几万元而已。而当年盛极一时的PPG衬衫,倒是知道流量只要能“卖出”,通过一定的成本大量“买入”是很值得的。只是我一直不明白为什么PPG当年选择电视广告投入这么贵的买入方式。
而SEO在上面谈到的那4点里面的作用是什么呢? 好的SEO,能给你带来大量、免费、优质的流量。
早期的阿里巴巴英文站,因为有了SEO,流量“买进”的价格很低,甚至有时候可以忽略这个价格;“买进”的数量很多;还因为这些流量非常的优质,所以能“卖出”的价格也很高;也因为优质,“卖出”的数量也很大。 所以才有了今天大家看到的这个阿里巴巴。
很多SEOer都不明白自己掌握的是一种什么技能。更多的人浪费了自己拥有的这种技能。所以大家现在都换种思路去经营网站吧。利用SEO,其实可以做出更好的成绩的,甚至可以成就一番事业。
现在有很多的网站开始进军国际市场。但是他们首先要面临的问题,就是如何大量低价的“买入”优质的流量。在国内市场,SEO的重要性还不这么强烈,但是一旦你开始进入国际市场,就发现SEO是你海外推广的一个必要的选择。
当然,除了SEO,很多网站也不惜在其他“买入”流量这个方面投入很大的资金的。如国内某刚刚崛起的外贸B2C平台,投adwords广告,都是几十万词语的数量。因为到时他们“卖出”的价格会很高,所以这个投入其实是很划得来的。还有一个外贸B2C平台,除了adwords,甚至不惜用人肉在国外论坛发帖的方式去推广网站,而这种方式也占到他们第二大非直接流量的来源。
这些网站可能也尝试过SEO,但是应该是不理想的。因为现在国内的SEO理论水平真的是比国外落后很多。国外同行,不管是SEO意识在网站中的普及程度,还是竞争力远远要比国内的企业高得多。我现在通过 hitwise可以看到国内很多英文网站在海外的流量,一些国内很牛的英文网站,在国外拿到的SEO流量其实很少的。实际的关键词排名也不理想。(很多人在查排名的时候都没有用国外的IP去查,结果往往会查到自己网站的排名很好,而实际上,可能在国外的前几十页也找不到他们的网站。)
这也是促使我写博客的原因之一。其实很多人,只要有好的基础,再坚持实践多年,是一定能摸索出正确的方法的。但是阻碍他们的,还有很多误导人的言论。
真希望有更多的网站能依靠SEO成功。

整体还是局部—如何制定好的SEO策略(1)

点石 发表了文章 • 0 个评论 • 142 次浏览 • 2017-04-18 21:23 • 来自相关话题

已经有好几个月没写点东西了,感觉还有很多东西可以写,而且现在经常有一些新的发现和感想。不过一直在忙着给一些大中型网站提供SEO顾问服务,时间都是优先花在给他们解决问题上。
已经给很多网站做过SEO顾问服务,其中有SEO流量才几千UV的中型网站,也有上百万UV的大型网站。发现有一个问题是非常突出的,就是很多网站都没有一个清晰的SEO策略,只是埋头做事,这导致了一些问题。
最明显的问题就是把手段当目标,把过程当结果。
现有的很多网站,他们常用的SEO做法是:搜集几十、上百个本行业里的热门词,把这些热门词加到一些网站中权重很高的网页上。然后不断的给这些页面增加外部链接,希望这些关键词能有不错的排名。这种典型的做法就是我说的把手段当目标,把过程当结果的做法。
让我们来看看一个网站为什么要做SEO吧。很多网站之所以要做SEO,是因为SEO是目前性价比最高、效果最好的网络营销手段。他们的目的是希望SEO给网站带来直接或间接的收益。要达到这个目的,就需要有大量相关的SEO流量。“带来大量相关的SEO流量”才是给一个网站做SEO的首要目标。而上述网站做SEO的目标是:给某一批关键词做排名。 做关键词排名只是SEO过程中的一个手段,但是很多网站把它当作了目的。更别说还只是给少数关键词做排名了。
以前在《热门还是长尾?大中型网站的关键词优化策略》这篇文章评论中,有人问道:难道SEO流量不是由关键词排名贡献的吗?
要说明这个问题,我最喜欢用的比喻是一个经营果园的例子。假设你有一个网站,有一万个有内容的页面,目标是带来大量相关的SEO流量。就好比你经营一个果园,果园里有一万棵果树,而你的目标是提高果园的产量。如果是给某一批关键词页面做排名,就好比是你把提高整个果园产量的目标,放在了希望少数几十棵大树的产量提升10倍、20倍的基础上。 这种做法是不容易达成目标的。因为一棵果树的产量,不是你投入资源加多少倍,它就能涨多少倍产量的。不管是一棵果树的产量,还是单独一个页面的SEO流量,如果去追踪他们的增长方式,会发现它们都是遵循“边际效益递减”的道理。 如:




边际效应递减

在C点之前,不停的投入资源是值得的,但是C点以后,投入资源的回报率显然不好了。 所以,少数几十棵大树的产量提升10倍、20倍是很难的,就算达到了,代价就是每一棵树消耗的资源远远超过D点对应的资源。而且这几十棵大树以后增加产量需要的资源呈几何倍数增加。结果整个果园大部分资源都被这几十棵树消耗掉了。消耗了这么多资源,他们能为整个果园提升多少收益呢? 可能是50%都不到,而且果园再大一点,那能不能有20%的增收都是问题;再大一点,10%也困难了……还有就是今年可能是有这么多产量,那明年、后年再用这种方式就越来越难增收了。

那我们换一种方法,关注点不要放在那几十棵大树上。而是我把果园看做一个整体,不管大树小树,都是我果园里能增加产量的来源。 我不要去给少数几十棵大树提升10倍、20倍的产量,我只要把平均每棵树的产量提升1到2倍就可以了。这样整个果园的收益就提升了100%到200%。用这样的方式去做以后,那我就会去平均的分配我的资源。有时候还会“劫富济贫”,对于那种不缺资源的果树,我就克扣和节省那些资源,分给那种很缺资源、但是给一点资源就能产生很大收益的果树上。

如果体现在上图中,就是我确保每棵果树的资源,都是在e 和 C之间。但是因为资源有限,果树太多,是不可能给每棵果树的资源都能达到 B和C之间的。 所以我就控制好资源的分配要在 e和A之间。资源的投放控制在e和A之间还有一个原因,就是果树的数量随着时间的推移开始增加了,有些树还没突破e点,也就是还没有产量。那我就定一个标准:在还有很多树没有产量之前,每棵树投入的资源都不要超过A点的资源。 e-A、A-B、B-C这个三个区域,把资源投在 e-A之间的投入产出比也是最好的。而且等果园整体的产量超过A点后,后面还有很大的成长空间。

这是一个果园的例子,但是大家可以对上面的文字重新看一遍。只要把“产量”看成“SEO流量”,“果园”看成“网站”,“果树”看成“网页”,“e点”看成“有收录并开始有流量”就可以了。

然后再回答那个问题:难道SEO流量不是由关键词排名贡献的吗? 首先SEO流量不光是由关键词排名贡献的,还是因为很多的网页被收录,才会有关键词的排名的。而且就算有了排名,也是需要有人点击才会有流量的。即使是关键词排名也绝不是少数页面、少数关键词的排名,是整个网站所有页面,所有关键词的排名。

前不久,有传言说google会停止PR值的更新。虽然我没看到google官方的声明,但是我觉得google停止PR值的更新没什么不可以,要真这么做就太好了。现在很多网站一做SEO就会提到PR值,经常关注自己的首页PR是多少,又把提高首页的PR值看成他们的目标了。我以前说过PR和排名关系不大,不过假使PR值跟排名的关系很大,为什么很多人又只喜欢看少数几个页面的PR值呢?

其实google一直都在强调整体考虑的重要性。如果用过老版本的webmaster tools的人,应该还记得这么一个数据。





pr的分布

这个数据就表明了整个网站所有的页面的PR值分布状况。因为PR值虽然和排名关系不大,但也是一个对SEO流量有利的因素之一。webmaster tools里面公布的这个数据是很想让大家注意网站整体的PR值分布。上图的这个数据看起来还算不错,至少大部分页面还有PR值。一个网站如果能达到这么一个状态,那PR值的分配就还很不错,对SEO流量的帮助也不小。我观察很多网站,都看到了PR值的正确分布对流量的正面影响。但是如果没有注意整体PR值提升的网站,“PR值尚未分配”的部分就越来越大,就造成了只有少数页面有高PR,那这几个高PR值的观赏作用就大于实际作用了。

Google的本意如此,但是把这个数据长久放在这里,造成不好的影响就是大家更加注意PR值了。 所以后来google撤掉这个数据的理由之一就是不想让大家太注意PR值。不过google从来都没放弃告诉大家注意整体资源的利用。

这个PR值分布的数据,在webmaster tools中后来演变成了两个数据:一个是内部链接数据,一个是站外链接数据。从PR值的计算公式里可以看到,PR值就是被内部链接和站外链接影响的,所以拆分后的数据更加有参考价值了。

不过这个时候,很多人还是没有意识到整体考虑的重要性。具体我们就来看一个例子。

这是某中型网站外部链接的数据:(大家也可以看看自己的数据)




站外链接分布

这是一个有近百万有效内容页面的网站,但是整个网站中,只有333个网页有站外的链接。 而且和绝大多数网站一样,网站首页的站外链接占到总链接数量的95%以上。站外链接是一种比较有价值的SEO资源,大家可以想象那个经营果园的例子。这就是只注意局部忽视整体的结果。

给一个网站做SEO,最重要的是SEO策略上的制定。只有策略才是统揽全局和整体的,而各种SEO的优化方法,只是局部和片面的。制定一个好的SEO策略,其实只要注意一个问题,就是:要整体的效果还是要局部的效果。 查看全部
已经有好几个月没写点东西了,感觉还有很多东西可以写,而且现在经常有一些新的发现和感想。不过一直在忙着给一些大中型网站提供SEO顾问服务,时间都是优先花在给他们解决问题上。
已经给很多网站做过SEO顾问服务,其中有SEO流量才几千UV的中型网站,也有上百万UV的大型网站。发现有一个问题是非常突出的,就是很多网站都没有一个清晰的SEO策略,只是埋头做事,这导致了一些问题。
最明显的问题就是把手段当目标,把过程当结果。
现有的很多网站,他们常用的SEO做法是:搜集几十、上百个本行业里的热门词,把这些热门词加到一些网站中权重很高的网页上。然后不断的给这些页面增加外部链接,希望这些关键词能有不错的排名。这种典型的做法就是我说的把手段当目标,把过程当结果的做法。
让我们来看看一个网站为什么要做SEO吧。很多网站之所以要做SEO,是因为SEO是目前性价比最高、效果最好的网络营销手段。他们的目的是希望SEO给网站带来直接或间接的收益。要达到这个目的,就需要有大量相关的SEO流量。“带来大量相关的SEO流量”才是给一个网站做SEO的首要目标。而上述网站做SEO的目标是:给某一批关键词做排名。 做关键词排名只是SEO过程中的一个手段,但是很多网站把它当作了目的。更别说还只是给少数关键词做排名了。
以前在《热门还是长尾?大中型网站的关键词优化策略》这篇文章评论中,有人问道:难道SEO流量不是由关键词排名贡献的吗?
要说明这个问题,我最喜欢用的比喻是一个经营果园的例子。假设你有一个网站,有一万个有内容的页面,目标是带来大量相关的SEO流量。就好比你经营一个果园,果园里有一万棵果树,而你的目标是提高果园的产量。如果是给某一批关键词页面做排名,就好比是你把提高整个果园产量的目标,放在了希望少数几十棵大树的产量提升10倍、20倍的基础上。 这种做法是不容易达成目标的。因为一棵果树的产量,不是你投入资源加多少倍,它就能涨多少倍产量的。不管是一棵果树的产量,还是单独一个页面的SEO流量,如果去追踪他们的增长方式,会发现它们都是遵循“边际效益递减”的道理。 如:
cd79748273d0dbd0c6436ace77938f27.gif

边际效应递减

在C点之前,不停的投入资源是值得的,但是C点以后,投入资源的回报率显然不好了。 所以,少数几十棵大树的产量提升10倍、20倍是很难的,就算达到了,代价就是每一棵树消耗的资源远远超过D点对应的资源。而且这几十棵大树以后增加产量需要的资源呈几何倍数增加。结果整个果园大部分资源都被这几十棵树消耗掉了。消耗了这么多资源,他们能为整个果园提升多少收益呢? 可能是50%都不到,而且果园再大一点,那能不能有20%的增收都是问题;再大一点,10%也困难了……还有就是今年可能是有这么多产量,那明年、后年再用这种方式就越来越难增收了。

那我们换一种方法,关注点不要放在那几十棵大树上。而是我把果园看做一个整体,不管大树小树,都是我果园里能增加产量的来源。 我不要去给少数几十棵大树提升10倍、20倍的产量,我只要把平均每棵树的产量提升1到2倍就可以了。这样整个果园的收益就提升了100%到200%。用这样的方式去做以后,那我就会去平均的分配我的资源。有时候还会“劫富济贫”,对于那种不缺资源的果树,我就克扣和节省那些资源,分给那种很缺资源、但是给一点资源就能产生很大收益的果树上。

如果体现在上图中,就是我确保每棵果树的资源,都是在e 和 C之间。但是因为资源有限,果树太多,是不可能给每棵果树的资源都能达到 B和C之间的。 所以我就控制好资源的分配要在 e和A之间。资源的投放控制在e和A之间还有一个原因,就是果树的数量随着时间的推移开始增加了,有些树还没突破e点,也就是还没有产量。那我就定一个标准:在还有很多树没有产量之前,每棵树投入的资源都不要超过A点的资源。 e-A、A-B、B-C这个三个区域,把资源投在 e-A之间的投入产出比也是最好的。而且等果园整体的产量超过A点后,后面还有很大的成长空间。

这是一个果园的例子,但是大家可以对上面的文字重新看一遍。只要把“产量”看成“SEO流量”,“果园”看成“网站”,“果树”看成“网页”,“e点”看成“有收录并开始有流量”就可以了。

然后再回答那个问题:难道SEO流量不是由关键词排名贡献的吗? 首先SEO流量不光是由关键词排名贡献的,还是因为很多的网页被收录,才会有关键词的排名的。而且就算有了排名,也是需要有人点击才会有流量的。即使是关键词排名也绝不是少数页面、少数关键词的排名,是整个网站所有页面,所有关键词的排名。

前不久,有传言说google会停止PR值的更新。虽然我没看到google官方的声明,但是我觉得google停止PR值的更新没什么不可以,要真这么做就太好了。现在很多网站一做SEO就会提到PR值,经常关注自己的首页PR是多少,又把提高首页的PR值看成他们的目标了。我以前说过PR和排名关系不大,不过假使PR值跟排名的关系很大,为什么很多人又只喜欢看少数几个页面的PR值呢?

其实google一直都在强调整体考虑的重要性。如果用过老版本的webmaster tools的人,应该还记得这么一个数据。

936bf4293f37f3a23421662055527f64.gif

pr的分布

这个数据就表明了整个网站所有的页面的PR值分布状况。因为PR值虽然和排名关系不大,但也是一个对SEO流量有利的因素之一。webmaster tools里面公布的这个数据是很想让大家注意网站整体的PR值分布。上图的这个数据看起来还算不错,至少大部分页面还有PR值。一个网站如果能达到这么一个状态,那PR值的分配就还很不错,对SEO流量的帮助也不小。我观察很多网站,都看到了PR值的正确分布对流量的正面影响。但是如果没有注意整体PR值提升的网站,“PR值尚未分配”的部分就越来越大,就造成了只有少数页面有高PR,那这几个高PR值的观赏作用就大于实际作用了。

Google的本意如此,但是把这个数据长久放在这里,造成不好的影响就是大家更加注意PR值了。 所以后来google撤掉这个数据的理由之一就是不想让大家太注意PR值。不过google从来都没放弃告诉大家注意整体资源的利用。

这个PR值分布的数据,在webmaster tools中后来演变成了两个数据:一个是内部链接数据,一个是站外链接数据。从PR值的计算公式里可以看到,PR值就是被内部链接和站外链接影响的,所以拆分后的数据更加有参考价值了。

不过这个时候,很多人还是没有意识到整体考虑的重要性。具体我们就来看一个例子。

这是某中型网站外部链接的数据:(大家也可以看看自己的数据)
07c56c9ed2583c182f360bd7a17f376b.gif

站外链接分布

这是一个有近百万有效内容页面的网站,但是整个网站中,只有333个网页有站外的链接。 而且和绝大多数网站一样,网站首页的站外链接占到总链接数量的95%以上。站外链接是一种比较有价值的SEO资源,大家可以想象那个经营果园的例子。这就是只注意局部忽视整体的结果。

给一个网站做SEO,最重要的是SEO策略上的制定。只有策略才是统揽全局和整体的,而各种SEO的优化方法,只是局部和片面的。制定一个好的SEO策略,其实只要注意一个问题,就是:要整体的效果还是要局部的效果。

网页加载速度是如何影响SEO效果的

点石 发表了文章 • 0 个评论 • 122 次浏览 • 2017-04-18 20:57 • 来自相关话题

“谷歌中文网站管理员博客”刚刚发表了一篇新文章,介绍了一下《google 网站管理员工具》中推出的新功能 -“网站性能”。这个工具是通过google工具栏记录了用户访问你网站的速度,并给出了很多加快你网站速度的建议。

http://www.googlechinawebmaste ... .html

而最近也传闻google将会把网页加载速度作为影响排名的一个因素。那么网页打开速度是不是能影响SEO效果?如果能影响,那是怎么影响的呢?

在揭示其中的道理之前,我希望大家能把上面那些传闻或“网站性能”的功能都忘掉。让我们追本溯源,来看看网页打开速度和SEO流量之间的关系。

做SEO有时候不需要听从别人给你的信息和意见,你只要专注于研究搜索引擎,同样也能成功的。这种关系的发现,也得益于早期我非常重视数据分析,所以我在《怎么样去学SEO(二)》中把数据分析能力列为SEOer应该具备的四大能力之一。由于有很多数据做支撑,现在我来给大家分析其中的联系,大家就容易看懂很多。

到了后期,连google也认识到了网页速度和SEO流量之间的关系,所以在这个“网站性能”以前就推出过相关的工具来帮助网站管理员。

要说明这种关系,就要从搜索引擎爬虫说起。不知道大家对于搜索引擎爬虫在一个网站上的行为有没有概念,我现在发一下某个网站(不是alibaba)的一些数据出来,大家就能意识到一些爬虫的特性了。下面是从服务器LOG日志中分析出的数据。




图1:爬虫访问次数




图2:爬虫停留时间
从上面图1中可以看到google访问这个网站206次,这206次里面是由很多个不同的爬虫访问的。图2显示:有的爬虫一天之内来了8次,一共停留了2小时左右,有的爬虫来了1次,停留了20多个小时以上。所以这个网站是被很多个爬虫在不间断的访问的。为了计算方便,可以把google所有的爬虫停留在这个网站的总时间加起来。虽然一天只有24个小时的,但是google的爬虫这一天花在这个网站上的时间可能是成百上千多个小时。这里真实的数据是:在这个网站中,google所有爬虫那天在这个网站上花费的实际总时间是721个小时。

而服务器LOG日志里同样可以分析出爬虫在一个网页上的停留时间。如:




图3:爬虫停留时间

得到了这两个数据以后,用所有爬虫总的停留时间除以单个页面的停留时间,就是搜索引擎爬虫这天所抓取的页面总量。

721 小时× 3600 秒 ÷ 35 秒 = 74160 页

那么得到这个搜索引擎爬虫这天所抓取的页面总量有什么用呢?

对于一般的小网站来说,一天能被抓取 74160页是一个很不错数据。但是我上面给出的是一个中型网站,它整个网站的页面总量有800多万有SEO价值的页面。那么,在最理想的情况下,这些页面被搜索引擎抓取完要花费的时间为:

800万 ÷ 74160 页 = 108 天

这是理论上最理想的情况,实际上真实的情况为:

由于有多个爬虫在抓取网站,有很多的页面在一天之内是会被爬虫重复抓取的。有的页面一天之内被抓取20多次,有的页面一天之内只被抓取1次。通过 “停留总时间 ÷ 单个页面停留时间” 得到的页面数量,是没有去除那些重复抓取的页面的。所以搜索引擎一天之内实际抓取的不重复页面没有74160页那么多,而是40000页的样子。还有一点,爬虫今天抓取的页面,到了明天还有很多会被重复抓取。所以爬虫不光在同一天内会重复抓取很多页面,而且到了下一天还是会重复抓取前一天抓取过的很多页面。

这样下来,爬虫平均每天抓取不重复的页面数量就只有10000页的样子了。那么,要爬虫把这个网站所有的页面抓取完需要的时间为:

800万 ÷ 1万页 = 800天

其实,这个800天抓取完整个网站还是太理想化了。实际的情况是很多网站由于结构的原因,有些网页创建后4-5年,都还没被爬虫抓取过。

上面的这个分析过程,都没用到什么惊天动地的计算方法。只要你有一点数据分析的意识,就能看清楚事实的。当一个网站收录量不理想,大家就应该去看看那些页面是不是被搜索引擎爬虫浏览过。如果一个页面都没有被搜索引擎爬虫浏览过,是不可能会被收录的。一个网站的收录量没有上去,那SEO流量的提升就会有很大的一个瓶颈。

根据我们刚才上面的那个分析过程,要提升网站的收录量,首先要解决的就是搜索引擎每天抓取网站的抓取量。而:

抓取量 = 爬虫总的停留时间 ÷ 单个页面的停留时间

一个网站,爬虫总的停留时间在某个期间是保持相对固定的。当然,有方法提高爬虫总的停留时间,不过这不是这篇文章要讲的内容。我们先通过减少个页面的停留时间也可以增加爬虫的抓取量。

减少爬虫单个页面的停留时间,可以简单的认为提高网页加载速度就可以了,虽然实际上这两个因素之间还存在着一个对应关系,但是这里先不讲。这个时候,网页的加载速度就和抓取量之间有了一个正比的关系,网页加载速度越快,爬虫整个的抓取量就越大。抓取量越大,有效收录量就会增加,从而促使SEO流量增加,因为给一个大中型网站带来流量的,90%以上都是长尾词。大中型网站,有时甚至是小网站,只要收录量增加一定的百分比,SEO流量也会增加一定的百分比。网页的加载速度,就和SEO流量之间建立了一个这样的关系。

其实,google也知道网页速度和SEO流量之间的关系,所以早在“网站性能”这个功能推出以前,就推出了另一个功能让大家去用,那个功能就是“google 网站管理员工具”里的“抓取统计信息”。那里把爬虫对你网站的抓取量,和你网页下载的平均时间都列了出来。

如果大家平常注意观察这里面的数据就会发现这样的规律:一旦网站下载时间减少了,那抓取量就会增大一点。

一般小网站,这样的规律还不是太明显。因为有其他影响这个规律的因素存在,而且小网站页面数太少了,爬虫随便多增加几百页的抓取量就影响了50%以上的抓取量。但是在大中型网站,这个规律是非常明显的。如:




抓取统计信息

当这个网站加快了网页加载速度,爬虫的抓取量就稳步增加了。这个图表能很有利的证明上面提到的理论。

这个图表也再次证明了我在《google 的良苦用心:网站管理员工具》里说的:“google网站管理员工具里的每个功能都是和SEO相关的”。
关于网页速度和排名,google否认曾经将网页速度列为提高排名的因素。而 Matt Cutts 最近也说:In a nutshell – while slow page load times won’t negatively impact your rankings, fast load times may have a positive effect. 有人把它翻译成:网页加载速度慢,不会影响Google排名,但是网页加载快却对排名有积极作用。 其实这样翻译是没有理解这句话,Matt Cutts的意思是:网页加载速度慢,不会影响Google排名,但是网页加载快却有积极作用。拿掉以前那个翻译中的“对排名”三个字即可。至于其中的原因,我想通过这篇文章大家都理解了吧。

这也是为什么我要在《内部链接还是外部链接》里强调一下的:有时候是因为“你没有掌握到他们那么多信息,所以你无法理解他们的话。也不会推测出他们的潜台词以及他们没有说全的话而已。” 我其实很少关注Matt Cutts说什么,但是我看到那篇翻译的文章,就断定Matt Cutts不会那么说。

另外,这个文章中的LOG日志分析工具,在我最近建立的“新基地论坛”上有下载。不过那里需要论坛金币才能下载的。获得论坛金币最快的方法就是把你所拥有的好资源也贡献出来。我希望能用这个方法创造一个“人人为我,我为人人”的环境,做一个高质量的论坛。
  查看全部

“谷歌中文网站管理员博客”刚刚发表了一篇新文章,介绍了一下《google 网站管理员工具》中推出的新功能 -“网站性能”。这个工具是通过google工具栏记录了用户访问你网站的速度,并给出了很多加快你网站速度的建议。

http://www.googlechinawebmaste ... .html

而最近也传闻google将会把网页加载速度作为影响排名的一个因素。那么网页打开速度是不是能影响SEO效果?如果能影响,那是怎么影响的呢?

在揭示其中的道理之前,我希望大家能把上面那些传闻或“网站性能”的功能都忘掉。让我们追本溯源,来看看网页打开速度和SEO流量之间的关系。

做SEO有时候不需要听从别人给你的信息和意见,你只要专注于研究搜索引擎,同样也能成功的。这种关系的发现,也得益于早期我非常重视数据分析,所以我在《怎么样去学SEO(二)》中把数据分析能力列为SEOer应该具备的四大能力之一。由于有很多数据做支撑,现在我来给大家分析其中的联系,大家就容易看懂很多。

到了后期,连google也认识到了网页速度和SEO流量之间的关系,所以在这个“网站性能”以前就推出过相关的工具来帮助网站管理员。

要说明这种关系,就要从搜索引擎爬虫说起。不知道大家对于搜索引擎爬虫在一个网站上的行为有没有概念,我现在发一下某个网站(不是alibaba)的一些数据出来,大家就能意识到一些爬虫的特性了。下面是从服务器LOG日志中分析出的数据。
0953550.gif

图1:爬虫访问次数
0953551.gif

图2:爬虫停留时间
从上面图1中可以看到google访问这个网站206次,这206次里面是由很多个不同的爬虫访问的。图2显示:有的爬虫一天之内来了8次,一共停留了2小时左右,有的爬虫来了1次,停留了20多个小时以上。所以这个网站是被很多个爬虫在不间断的访问的。为了计算方便,可以把google所有的爬虫停留在这个网站的总时间加起来。虽然一天只有24个小时的,但是google的爬虫这一天花在这个网站上的时间可能是成百上千多个小时。这里真实的数据是:在这个网站中,google所有爬虫那天在这个网站上花费的实际总时间是721个小时。

而服务器LOG日志里同样可以分析出爬虫在一个网页上的停留时间。如:
0953552.gif

图3:爬虫停留时间

得到了这两个数据以后,用所有爬虫总的停留时间除以单个页面的停留时间,就是搜索引擎爬虫这天所抓取的页面总量。

721 小时× 3600 秒 ÷ 35 秒 = 74160 页

那么得到这个搜索引擎爬虫这天所抓取的页面总量有什么用呢?

对于一般的小网站来说,一天能被抓取 74160页是一个很不错数据。但是我上面给出的是一个中型网站,它整个网站的页面总量有800多万有SEO价值的页面。那么,在最理想的情况下,这些页面被搜索引擎抓取完要花费的时间为:

800万 ÷ 74160 页 = 108 天

这是理论上最理想的情况,实际上真实的情况为:

由于有多个爬虫在抓取网站,有很多的页面在一天之内是会被爬虫重复抓取的。有的页面一天之内被抓取20多次,有的页面一天之内只被抓取1次。通过 “停留总时间 ÷ 单个页面停留时间” 得到的页面数量,是没有去除那些重复抓取的页面的。所以搜索引擎一天之内实际抓取的不重复页面没有74160页那么多,而是40000页的样子。还有一点,爬虫今天抓取的页面,到了明天还有很多会被重复抓取。所以爬虫不光在同一天内会重复抓取很多页面,而且到了下一天还是会重复抓取前一天抓取过的很多页面。

这样下来,爬虫平均每天抓取不重复的页面数量就只有10000页的样子了。那么,要爬虫把这个网站所有的页面抓取完需要的时间为:

800万 ÷ 1万页 = 800天

其实,这个800天抓取完整个网站还是太理想化了。实际的情况是很多网站由于结构的原因,有些网页创建后4-5年,都还没被爬虫抓取过。

上面的这个分析过程,都没用到什么惊天动地的计算方法。只要你有一点数据分析的意识,就能看清楚事实的。当一个网站收录量不理想,大家就应该去看看那些页面是不是被搜索引擎爬虫浏览过。如果一个页面都没有被搜索引擎爬虫浏览过,是不可能会被收录的。一个网站的收录量没有上去,那SEO流量的提升就会有很大的一个瓶颈。

根据我们刚才上面的那个分析过程,要提升网站的收录量,首先要解决的就是搜索引擎每天抓取网站的抓取量。而:

抓取量 = 爬虫总的停留时间 ÷ 单个页面的停留时间

一个网站,爬虫总的停留时间在某个期间是保持相对固定的。当然,有方法提高爬虫总的停留时间,不过这不是这篇文章要讲的内容。我们先通过减少个页面的停留时间也可以增加爬虫的抓取量。

减少爬虫单个页面的停留时间,可以简单的认为提高网页加载速度就可以了,虽然实际上这两个因素之间还存在着一个对应关系,但是这里先不讲。这个时候,网页的加载速度就和抓取量之间有了一个正比的关系,网页加载速度越快,爬虫整个的抓取量就越大。抓取量越大,有效收录量就会增加,从而促使SEO流量增加,因为给一个大中型网站带来流量的,90%以上都是长尾词。大中型网站,有时甚至是小网站,只要收录量增加一定的百分比,SEO流量也会增加一定的百分比。网页的加载速度,就和SEO流量之间建立了一个这样的关系。

其实,google也知道网页速度和SEO流量之间的关系,所以早在“网站性能”这个功能推出以前,就推出了另一个功能让大家去用,那个功能就是“google 网站管理员工具”里的“抓取统计信息”。那里把爬虫对你网站的抓取量,和你网页下载的平均时间都列了出来。

如果大家平常注意观察这里面的数据就会发现这样的规律:一旦网站下载时间减少了,那抓取量就会增大一点。

一般小网站,这样的规律还不是太明显。因为有其他影响这个规律的因素存在,而且小网站页面数太少了,爬虫随便多增加几百页的抓取量就影响了50%以上的抓取量。但是在大中型网站,这个规律是非常明显的。如:
0953553.gif

抓取统计信息

当这个网站加快了网页加载速度,爬虫的抓取量就稳步增加了。这个图表能很有利的证明上面提到的理论。

这个图表也再次证明了我在《google 的良苦用心:网站管理员工具》里说的:“google网站管理员工具里的每个功能都是和SEO相关的”。
关于网页速度和排名,google否认曾经将网页速度列为提高排名的因素。而 Matt Cutts 最近也说:In a nutshell – while slow page load times won’t negatively impact your rankings, fast load times may have a positive effect. 有人把它翻译成:网页加载速度慢,不会影响Google排名,但是网页加载快却对排名有积极作用。 其实这样翻译是没有理解这句话,Matt Cutts的意思是:网页加载速度慢,不会影响Google排名,但是网页加载快却有积极作用。拿掉以前那个翻译中的“对排名”三个字即可。至于其中的原因,我想通过这篇文章大家都理解了吧。

这也是为什么我要在《内部链接还是外部链接》里强调一下的:有时候是因为“你没有掌握到他们那么多信息,所以你无法理解他们的话。也不会推测出他们的潜台词以及他们没有说全的话而已。” 我其实很少关注Matt Cutts说什么,但是我看到那篇翻译的文章,就断定Matt Cutts不会那么说。

另外,这个文章中的LOG日志分析工具,在我最近建立的“新基地论坛”上有下载。不过那里需要论坛金币才能下载的。获得论坛金币最快的方法就是把你所拥有的好资源也贡献出来。我希望能用这个方法创造一个“人人为我,我为人人”的环境,做一个高质量的论坛。
 

怎样形成一套科学系统的SEO方法【国平】

点石 发表了文章 • 0 个评论 • 201 次浏览 • 2017-04-18 20:54 • 来自相关话题

尽管SEO在中国已经不陌生,甚至都有形成一个行业的趋势,但是至今业内都还没有一套非常科学系统的分析方法。原因恐怕要归结于搜索引擎优化这个行业的特殊性。搜索引擎严格保守他们的算法,只公布一些大家很难去知道原因的指南。所以很多SEOer都在玩一个永远也不知道具体规则的游戏,这是这个行业混乱的根源。

我多次强调《google网站质量指南》的重要性,还因为这是搜索引擎告诉网站主的仅有的一些正确的规则,如果连这点规则都不好好掌握,那我还不确定大家能从什么地方得到更权威的指导。但是在实战中,尽管你熟读这个《指南》已经比很多人更了解搜索引擎的规则,不过仅仅知道这点东西是不够的,一套科学系统的分析方法能让你走得更远。

我想SEO经过了这么多年的发展,已经不应该再出现那种靠感性分析去做SEO的分析方法了。这种分析方法常用的语句就是:我觉得搜索引擎会如何如何。如:我觉得搜索引擎不会那么笨,这点一定能处理好;我觉得搜索引擎会把这个因素当作排名的因素之一……。如果你是依靠感性分析去做SEO的,那你的SEO流量的变化曲线也是很感性的。当然更不能去无根据的臆测和道听途说。如:没有理论基础的去猜想搜索引擎会怎么样或者每逢搜索引擎的相关人员以及什么权威人士发表什么演说,就去盲目听从。

既然搜索引擎不告诉我们具体算法,那我们怎么才能建立这套科学系统的分析方法?答案是:从你知道的确信一定正确的理论开始,慢慢在实践中进化。

在上一篇《网页加载速度是如何影响SEO效果的》中的那个分析过程,就是从一个确切知道的理论去分析,然后得到了另一个确切的影响SEO流量的因素。在这个过程中,确信没有错的理论是:搜索引擎爬虫一定要抓取过那个页面以后,才会有机会收录这个网页的。根据文章中那个接下来的数据分析,可以得到:网页加载速度会在很大程度上影响SEO流量。

那接着分析,什么措施能影响网页加载速度呢? 网络环境、服务器硬件、CMS本身都能影响网页加载速度。优化其中的任何一项,都能提升网页加载速度。那马上又可以得出:网络环境影响SEO流量、服务器硬件影响SEO流量、CMS本身的速度影响SEO流量。

接着分析,CMS本身的优化可以做的事情有哪些呢? 启用Gzip压缩、合并CSS和JS文件、减少DNS查询、启用缓存等等都能优化CMS本身的速度。……这些东西,看起来是这么的眼熟,那是因为在《google网站管理员工具》里的“网站性能”里,已经把这些建议都告诉你了。但是根据我们上面的这个分析过程,可以知道, “网站性能”里提到的这些优化,都是CMS本身的优化,并没有提到网络环境和服务器硬件的优化。只不过你确定这两个因素是确实影响SEO流量的。如果哪一天《google 黑板报》或者 google的官方博客(需要翻墙)上出现一篇文章,告诉你如何挑选一个好的服务器托管商,千万不要惊讶,因为你早就知道为什么了。google一直以来都在用这种方式告诉你要如何去优化一些什么因素,只是站在他们的立场,不会详细向你解释为什么要这么做。

通过数据分析,还能知道谁影响的程度大一点,谁小一点。

很多的常识因素都可以这样一步步进化下去,这个分析过程,是非常科学的。不管是对你自己还是其他人,其中的原理你都可以解释得非常清楚。并且在这个进化的过程中,你会发现你越来越能控制好SEO流量了。每一步的进化,意味着你对搜索引擎的了解又多了一点、SEO的知识结构又完善了一点,同时,对SEO流量的控制能力又变强了一点。同时,你发现你和网页设计师以及工程师的矛盾也越来越少,因为好的SEO,是不会让SEO和网页设计师以及工程师的利益是矛盾的。





只要经历过非常多这样的分析过程,一定会颠覆很多人原有的SEO知识结构。因为以前很多流传的SEO方法,很多都是感性分析的居多,没有解释为什么要这么做,没有数据上的支撑,甚至没有理论上的支撑,所以没有抓住重点。我在《分词与索引库 》说过,可能你以为是细节的东西,其实是重点,你以为是重点的东西,其实都可以忽略。

那么,在日常的SEO工作中,是一些什么能力支撑着你去进行这样一个分析过程呢?

不知道大家还是不是记得我在《怎么样去学SEO 》提到的那四种能力,在这个分析过程中:

1,弄懂搜索引擎相关技术和原理:可以从根本上了解搜索引擎,确定很多一定正确的理论,并可以找到很多值得去分析的线索。

2,了解网站制作相关的技术:能让你清楚网站上有哪些因素能影响搜索引擎的哪些方面,并用什么方法来解决问题。

3,数据分析能力:可以了解各种现有的因素如何影响SEO流量,并依靠这种能力挖掘更多的因素。科学系统的SEO分析过程,从头到尾都离不开数据的支撑。

4,了解你要排名的那个搜索引擎:不管你怎么努力,还是会有一些数据上和理论上都无法理解的问题。每个搜索引擎就像和人一样,是有一定的秉性的。可以通过你对这个搜索引擎的了解来得到答案。同时了解这个搜索引擎,也能让你获得更多的可以分析的因素。

最后说一下,这种从常识出发来科学系统的进行SEO分析的方法比了解部分搜索引擎的算法还更能控制SEO流量。
可能很多人会反驳这个观点,比如前段时间我朋友就和我说某外贸B2C网站的创始人是从谷歌出来的,那他们一定能做好SEO,我说那是不可能的。只有那些自己做过搜索引擎的人才会理解为什么。比如:alibaba的B2B网站也算是一个搜索引擎,我是知道其中的排序规则的,但是如果给我一个商家的网站,要我在alibaba上获得流量,在没有一套科学系统的方法之前,我是肯定做不好的。因为搜索引擎的算法不是加减乘除,不是这个因素加那个因素做好了就可以获得好流量的。搜索引擎的设计者,知道这个或者那个因素的权重大小,以及可能产生的大致结果,但是具体的结果是自己也不能控制的。要不然百度的人,不会每天搜索上千个词语来查看搜索结果的准确度了。而google的成功,也有一部分原因是当初yahoo采用了它的搜索技术,google借此积累了大量数据,实践并改进了算法。

而且,在搜索引擎内部,只有极少数的人知道各个因素的权重大小,绝大部分设计搜索引擎的工程师,都是负责某个具体的任务,优化和解决某个具体的问题,如负责爬虫的工程师解决提高爬虫效率这一块的工作,负责内容消重的工程师就去减少索引重复内容。 连设计这个搜索引擎的工程师都如此,更别提一个远在其他国家的分公司的人员了。要不然,百度和google这么多离职的工程师不早就把算法泄漏了。

如果能自己用开源的程序做一个小规模的搜索引擎,就更能理解这个问题。即使这个搜索引擎的算法都是你自己调配的,你都不能预料到后来的搜索结果。而且做搜索引擎是一回事,在搜索引擎上拉流量又是另一回事了。不然google不会后知后觉的知道原来网页加载速度影响SEO流量。

文章出处:http://www.semyj.com/archives/1032 作者:国平 查看全部
尽管SEO在中国已经不陌生,甚至都有形成一个行业的趋势,但是至今业内都还没有一套非常科学系统的分析方法。原因恐怕要归结于搜索引擎优化这个行业的特殊性。搜索引擎严格保守他们的算法,只公布一些大家很难去知道原因的指南。所以很多SEOer都在玩一个永远也不知道具体规则的游戏,这是这个行业混乱的根源。

我多次强调《google网站质量指南》的重要性,还因为这是搜索引擎告诉网站主的仅有的一些正确的规则,如果连这点规则都不好好掌握,那我还不确定大家能从什么地方得到更权威的指导。但是在实战中,尽管你熟读这个《指南》已经比很多人更了解搜索引擎的规则,不过仅仅知道这点东西是不够的,一套科学系统的分析方法能让你走得更远。

我想SEO经过了这么多年的发展,已经不应该再出现那种靠感性分析去做SEO的分析方法了。这种分析方法常用的语句就是:我觉得搜索引擎会如何如何。如:我觉得搜索引擎不会那么笨,这点一定能处理好;我觉得搜索引擎会把这个因素当作排名的因素之一……。如果你是依靠感性分析去做SEO的,那你的SEO流量的变化曲线也是很感性的。当然更不能去无根据的臆测和道听途说。如:没有理论基础的去猜想搜索引擎会怎么样或者每逢搜索引擎的相关人员以及什么权威人士发表什么演说,就去盲目听从。

既然搜索引擎不告诉我们具体算法,那我们怎么才能建立这套科学系统的分析方法?答案是:从你知道的确信一定正确的理论开始,慢慢在实践中进化。

在上一篇《网页加载速度是如何影响SEO效果的》中的那个分析过程,就是从一个确切知道的理论去分析,然后得到了另一个确切的影响SEO流量的因素。在这个过程中,确信没有错的理论是:搜索引擎爬虫一定要抓取过那个页面以后,才会有机会收录这个网页的。根据文章中那个接下来的数据分析,可以得到:网页加载速度会在很大程度上影响SEO流量。

那接着分析,什么措施能影响网页加载速度呢? 网络环境、服务器硬件、CMS本身都能影响网页加载速度。优化其中的任何一项,都能提升网页加载速度。那马上又可以得出:网络环境影响SEO流量、服务器硬件影响SEO流量、CMS本身的速度影响SEO流量。

接着分析,CMS本身的优化可以做的事情有哪些呢? 启用Gzip压缩、合并CSS和JS文件、减少DNS查询、启用缓存等等都能优化CMS本身的速度。……这些东西,看起来是这么的眼熟,那是因为在《google网站管理员工具》里的“网站性能”里,已经把这些建议都告诉你了。但是根据我们上面的这个分析过程,可以知道, “网站性能”里提到的这些优化,都是CMS本身的优化,并没有提到网络环境和服务器硬件的优化。只不过你确定这两个因素是确实影响SEO流量的。如果哪一天《google 黑板报》或者 google的官方博客(需要翻墙)上出现一篇文章,告诉你如何挑选一个好的服务器托管商,千万不要惊讶,因为你早就知道为什么了。google一直以来都在用这种方式告诉你要如何去优化一些什么因素,只是站在他们的立场,不会详细向你解释为什么要这么做。

通过数据分析,还能知道谁影响的程度大一点,谁小一点。

很多的常识因素都可以这样一步步进化下去,这个分析过程,是非常科学的。不管是对你自己还是其他人,其中的原理你都可以解释得非常清楚。并且在这个进化的过程中,你会发现你越来越能控制好SEO流量了。每一步的进化,意味着你对搜索引擎的了解又多了一点、SEO的知识结构又完善了一点,同时,对SEO流量的控制能力又变强了一点。同时,你发现你和网页设计师以及工程师的矛盾也越来越少,因为好的SEO,是不会让SEO和网页设计师以及工程师的利益是矛盾的。

0910000.gif

只要经历过非常多这样的分析过程,一定会颠覆很多人原有的SEO知识结构。因为以前很多流传的SEO方法,很多都是感性分析的居多,没有解释为什么要这么做,没有数据上的支撑,甚至没有理论上的支撑,所以没有抓住重点。我在《分词与索引库 》说过,可能你以为是细节的东西,其实是重点,你以为是重点的东西,其实都可以忽略。

那么,在日常的SEO工作中,是一些什么能力支撑着你去进行这样一个分析过程呢?

不知道大家还是不是记得我在《怎么样去学SEO 》提到的那四种能力,在这个分析过程中:

1,弄懂搜索引擎相关技术和原理:可以从根本上了解搜索引擎,确定很多一定正确的理论,并可以找到很多值得去分析的线索。

2,了解网站制作相关的技术:能让你清楚网站上有哪些因素能影响搜索引擎的哪些方面,并用什么方法来解决问题。

3,数据分析能力:可以了解各种现有的因素如何影响SEO流量,并依靠这种能力挖掘更多的因素。科学系统的SEO分析过程,从头到尾都离不开数据的支撑。

4,了解你要排名的那个搜索引擎:不管你怎么努力,还是会有一些数据上和理论上都无法理解的问题。每个搜索引擎就像和人一样,是有一定的秉性的。可以通过你对这个搜索引擎的了解来得到答案。同时了解这个搜索引擎,也能让你获得更多的可以分析的因素。

最后说一下,这种从常识出发来科学系统的进行SEO分析的方法比了解部分搜索引擎的算法还更能控制SEO流量。
可能很多人会反驳这个观点,比如前段时间我朋友就和我说某外贸B2C网站的创始人是从谷歌出来的,那他们一定能做好SEO,我说那是不可能的。只有那些自己做过搜索引擎的人才会理解为什么。比如:alibaba的B2B网站也算是一个搜索引擎,我是知道其中的排序规则的,但是如果给我一个商家的网站,要我在alibaba上获得流量,在没有一套科学系统的方法之前,我是肯定做不好的。因为搜索引擎的算法不是加减乘除,不是这个因素加那个因素做好了就可以获得好流量的。搜索引擎的设计者,知道这个或者那个因素的权重大小,以及可能产生的大致结果,但是具体的结果是自己也不能控制的。要不然百度的人,不会每天搜索上千个词语来查看搜索结果的准确度了。而google的成功,也有一部分原因是当初yahoo采用了它的搜索技术,google借此积累了大量数据,实践并改进了算法。

而且,在搜索引擎内部,只有极少数的人知道各个因素的权重大小,绝大部分设计搜索引擎的工程师,都是负责某个具体的任务,优化和解决某个具体的问题,如负责爬虫的工程师解决提高爬虫效率这一块的工作,负责内容消重的工程师就去减少索引重复内容。 连设计这个搜索引擎的工程师都如此,更别提一个远在其他国家的分公司的人员了。要不然,百度和google这么多离职的工程师不早就把算法泄漏了。

如果能自己用开源的程序做一个小规模的搜索引擎,就更能理解这个问题。即使这个搜索引擎的算法都是你自己调配的,你都不能预料到后来的搜索结果。而且做搜索引擎是一回事,在搜索引擎上拉流量又是另一回事了。不然google不会后知后觉的知道原来网页加载速度影响SEO流量。

文章出处:http://www.semyj.com/archives/1032 作者:国平

实施网站A/B测试并兼顾SEO不受影响的解决方案

点石 发表了文章 • 0 个评论 • 145 次浏览 • 2017-02-14 21:08 • 来自相关话题

现在互联网公司越来越流行A/B测试来做网站用户体验的优化,像阿里巴巴英文站首页的改版就是A/B测试不断微调出来的,这也的确是个非常科学的方法。只是对于大中型网站而言,对SEO着陆页做大范围的A/B测试是一个有风险的行为,那么如何降低对SEO流量负面影响的风险,是本篇文章讨论的重点,除此以外我还会总结如何更好的做好AB页面的监控。

第一,我们得先构建详细需求并确认最终目标。在我所接触的项目当中,PM打算改占SEO流量总比达80%的产品页,对页面上的内容结构进行AB测试(同一个页面有AB两种版本,用户被分发AB页面上),希望能找到用户更喜欢的内容呈现顺序及界面还有就是优化用户体验指标(跳出率,平均停留时间等)。由于这个页面是命根子,所以马虎不得。现在了解了PM的想法之后,我就知道,由于涉及了内容变更,所以对SEO多少是有影响的,那么第一个需求确定下来,就是AB测试一定不能影响到SEO流量。第二个需求是,在PM最终看到的数据上,A页面及B页面的访问量数据一定得基本相同,这样才能保证其他的用户体验指标以及转化率指标有参考价值,如果A页面访问量远大于B页面,那么数据就可能存在偏差。除此以外,A,B两种页面的用户群体也得几乎是相同的,这么做同样是为了保证数据的参考价值。

第二,现在我们开始将核心需求细化,落到实处。保证SEO不受影响的根本方法是,保证搜索引擎爬取的页面URL不变,同时不会被分发到A页面以外的其他页面。这里需要用到的就是白帽cloaking,具体方法有两种:1,利用UA判断爬虫,对应返回页面;2,利用蜘蛛不接受cookie这个特点来做判断(类似于lynx -dump)。两者相较后者更适合AB测试,因为本身用户被分发页面时就会用到cookie(比如A页面的cookie值为A,B页面的cookie值为B)。所以我当时绘制的理想的路径如下图:
 







但实际上面的这个流程是走不通的,因为我犯了个低级失误,那就是cookie本身的工作机制没有搞清除——用户的cookie是在每次HTTP连接的request headers当中传递的(感兴趣的朋友可以去看报头),也就是说如果顺着我上面的流程走的话,在无cookie的情况下,生成了cookie之后我立马去获取cookie内容是肯定不会获取到的,因为用户的HTTP请求已经发过来了并且开始被程序处理了,这个时候尽管程序判断出来需要生成cookie,而且也的确把cookie保存到了用户电脑,但是除非有第二次HTTP请求,否则你就是获取不到cookie的值。

那么怎么办呢?那就索性不做二次获取了,而变为固定调用一个页面的模板。但是绝不能是A或者B页面,需要新建一个HTML模板,我称之为默认模板,实际上直接复制A页面模板即可,之所以新加一个模板一是为了保证爬虫的抓取URL及页面内容的不变;二是为了新访客的访问不被计入到A页面,而导致整体访问量上AB页面的失衡;三是为了划分用户群体,新增了这个默认模板后,所有参与AB测试的都是同一群体用户——PV/VISITS大于等于2。一石三鸟看似美好,但也损失了一些部分测试用户的访问量。其实如果要进一步优化的话,在随机生成cookie的步骤后面可以增加对蜘蛛UA的判断,如果UA为蜘蛛则调用默认页面模板,否则根据cookie值调用A或B页面的模板即可。这里稳妥起见,而且样本数量也足够了,所以没做。
 
最终流程如下下图所示:





 
 
 
第三,其他的一些注意点及辅助工具:

1,GA统计代码上需要小调整,主要是调整trackPageview属性,默认页面用_gaq.push(['_trackPageview']);。A页面改写一下_gaq.push(['_trackPageviwe','A页面']);,A页面这几个字随便改,比如可以改成测试页面的URL加个后斜杠然后加个A这种:“/product/123456/a”。B页面同样改就行了。

2,做完页面名称自定义后用正则即可匹配出AB页面,这时一定得在GA中新建两个自定义报告分别拆分AB两个页面的访问指标(高级细分很悲剧的不可以实现,否则对比数据起来就爽多了)

3,在AB页面上布置百度热力图或者cnzz的热力图。挑选这两个是因为GA的In-Page Analytics只能统计到用户点击的链接位置,而热力图除此以外还能提供用户在页面上的其他点击行为,比如用户滚屏了多少。从数据上来看,热力图更接近于用户的眼动轨迹,因此价值更高。缺点是貌似只能布置几个页面。。。

4,检查AB测试中蜘蛛访问是否正确的方法是禁用浏览器cookie。而如果是要检查AB是否正确就反复清空浏览器cookie访问吧。

总结:AB测试并不难做,而且再次证明SEO和用户体验完全不冲突,除非你不懂技术。aliued早在2010年就写过类似的文章,有兴趣的朋友也可以去看看http://www.aliued.cn/2010/09/2 ... .html

原文链接:http://www.seodug.com/ued/abtest-seo-tutorial/ 查看全部
现在互联网公司越来越流行A/B测试来做网站用户体验的优化,像阿里巴巴英文站首页的改版就是A/B测试不断微调出来的,这也的确是个非常科学的方法。只是对于大中型网站而言,对SEO着陆页做大范围的A/B测试是一个有风险的行为,那么如何降低对SEO流量负面影响的风险,是本篇文章讨论的重点,除此以外我还会总结如何更好的做好AB页面的监控。

第一,我们得先构建详细需求并确认最终目标。在我所接触的项目当中,PM打算改占SEO流量总比达80%的产品页,对页面上的内容结构进行AB测试(同一个页面有AB两种版本,用户被分发AB页面上),希望能找到用户更喜欢的内容呈现顺序及界面还有就是优化用户体验指标(跳出率,平均停留时间等)。由于这个页面是命根子,所以马虎不得。现在了解了PM的想法之后,我就知道,由于涉及了内容变更,所以对SEO多少是有影响的,那么第一个需求确定下来,就是AB测试一定不能影响到SEO流量。第二个需求是,在PM最终看到的数据上,A页面及B页面的访问量数据一定得基本相同,这样才能保证其他的用户体验指标以及转化率指标有参考价值,如果A页面访问量远大于B页面,那么数据就可能存在偏差。除此以外,A,B两种页面的用户群体也得几乎是相同的,这么做同样是为了保证数据的参考价值。

第二,现在我们开始将核心需求细化,落到实处。保证SEO不受影响的根本方法是,保证搜索引擎爬取的页面URL不变,同时不会被分发到A页面以外的其他页面。这里需要用到的就是白帽cloaking,具体方法有两种:1,利用UA判断爬虫,对应返回页面;2,利用蜘蛛不接受cookie这个特点来做判断(类似于lynx -dump)。两者相较后者更适合AB测试,因为本身用户被分发页面时就会用到cookie(比如A页面的cookie值为A,B页面的cookie值为B)。所以我当时绘制的理想的路径如下图:
 

ABtest.gif



但实际上面的这个流程是走不通的,因为我犯了个低级失误,那就是cookie本身的工作机制没有搞清除——用户的cookie是在每次HTTP连接的request headers当中传递的(感兴趣的朋友可以去看报头),也就是说如果顺着我上面的流程走的话,在无cookie的情况下,生成了cookie之后我立马去获取cookie内容是肯定不会获取到的,因为用户的HTTP请求已经发过来了并且开始被程序处理了,这个时候尽管程序判断出来需要生成cookie,而且也的确把cookie保存到了用户电脑,但是除非有第二次HTTP请求,否则你就是获取不到cookie的值。

那么怎么办呢?那就索性不做二次获取了,而变为固定调用一个页面的模板。但是绝不能是A或者B页面,需要新建一个HTML模板,我称之为默认模板,实际上直接复制A页面模板即可,之所以新加一个模板一是为了保证爬虫的抓取URL及页面内容的不变;二是为了新访客的访问不被计入到A页面,而导致整体访问量上AB页面的失衡;三是为了划分用户群体,新增了这个默认模板后,所有参与AB测试的都是同一群体用户——PV/VISITS大于等于2。一石三鸟看似美好,但也损失了一些部分测试用户的访问量。其实如果要进一步优化的话,在随机生成cookie的步骤后面可以增加对蜘蛛UA的判断,如果UA为蜘蛛则调用默认页面模板,否则根据cookie值调用A或B页面的模板即可。这里稳妥起见,而且样本数量也足够了,所以没做。
 
最终流程如下下图所示:

chanpin.gif

 
 
 
第三,其他的一些注意点及辅助工具:

1,GA统计代码上需要小调整,主要是调整trackPageview属性,默认页面用_gaq.push(['_trackPageview']);。A页面改写一下_gaq.push(['_trackPageviwe','A页面']);,A页面这几个字随便改,比如可以改成测试页面的URL加个后斜杠然后加个A这种:“/product/123456/a”。B页面同样改就行了。

2,做完页面名称自定义后用正则即可匹配出AB页面,这时一定得在GA中新建两个自定义报告分别拆分AB两个页面的访问指标(高级细分很悲剧的不可以实现,否则对比数据起来就爽多了)

3,在AB页面上布置百度热力图或者cnzz的热力图。挑选这两个是因为GA的In-Page Analytics只能统计到用户点击的链接位置,而热力图除此以外还能提供用户在页面上的其他点击行为,比如用户滚屏了多少。从数据上来看,热力图更接近于用户的眼动轨迹,因此价值更高。缺点是貌似只能布置几个页面。。。

4,检查AB测试中蜘蛛访问是否正确的方法是禁用浏览器cookie。而如果是要检查AB是否正确就反复清空浏览器cookie访问吧。

总结:AB测试并不难做,而且再次证明SEO和用户体验完全不冲突,除非你不懂技术。aliued早在2010年就写过类似的文章,有兴趣的朋友也可以去看看http://www.aliued.cn/2010/09/2 ... .html

原文链接:http://www.seodug.com/ued/abtest-seo-tutorial/

SEO如何处理采集内容(4)

点石 发表了文章 • 0 个评论 • 208 次浏览 • 2016-11-14 18:00 • 来自相关话题

两个问题

在准备采集前找词的时候,有个蛋疼的问题:

无论任何一种找词渠道,固定搜索词(如阿拉巴巴招聘)和个性搜索词(如阿里巴巴工程师级别怎么划分)总是杂糅到一块的,对于同一词根下的扩展词,如何将这两类词分开?
固定搜索词往往可以根据固定词缀的出现次数来预估关键词的流量,毕竟同一个词缀出现次数高,流量也会相对高。但个性化搜索词流量和竞争度怎么判断?

为什么非要把两类词找出来呢?因为这两类词的采集源往往是不同的……

如何将固定搜索词和个性化搜索词分开

因为固定搜索词都包含通用的词缀,比如:php工程师工资、java程序员工资、学php有前途吗、python程序员工资...这里面“工资”就是通用词缀,前面可以跟任何关于职位的变量。

程序搞定?

所以可以通过程序分词,把包含连续出现多次词缀的关键词单独提出来,这点可以通过python的jieba分词模块配合word2vec来搞,或者配合K-means也可以。

然而实际中,由于jieba默认词典的限制,导致在不同行业内分词不理想的情况,比如没有把通用词缀单独切出来,致使后面聚类的效果也不理想的情况。

要达到理想情况,就要不断优化jieba分词词典和聚类算法。

但本渣渣是伪技术,只会装逼。即便能搞定也得花挺长时间。

人肉搞定?

人肉搞定思路就很简单了

首先把全行业所有的固定搜索行为全部找出来,比如这是招聘行业的固定搜索行为,即便不全也可以覆盖大部分:

当把固定搜索行为找出后,就知道这个行业都有哪些通用词缀,剩下的事简单了,还是照常跑词,把跑出来的词包含通用词缀的全部拎出来,剩下的就都是个性化搜索词了。这完全是个力气活,拼体力。

全行业固定搜索词怎么找?之前本渣渣写过,详见:【SEO】关键词数据分析

个性化搜索词流量怎么判断

简单的就是跑指数了,爱站和战神软件都有这功能。但如果大部分都没有指数怎么办?

相对精准的搜索量本渣渣也不知道该怎么判断,但是可以从关键词来源渠道来评个优先级。

比如移动端跑出来的词一定比从pc端的优先级高。

百度相关搜索的词一定比凤巢的优先级高(凤巢的词都被做烂了,小站没机会)

如果要上的内容类型是问答类的,那百度知道相关搜索词一定比百度新闻相关搜索词优先级高



个性化搜索词竞争度怎么判断

本渣渣就粗暴的看百度搜索结果

搜索结果数越低,竞争度越低,而且title放别人做的少的词被收录的概率也会大
前10搜索结果中,关键词飘红的次数,次数越低,竞争度越低
{word} site:(domain1 | domain2 | domain3) ,看一下几个大网站有没有做,尤其是58赶集、1688这种流氓,因为这些超大型站点做的词,大中型站点也跟着做,超大中型站点都抢的词,就没小站什么事了。
来自gogo闯博客 查看全部
两个问题

在准备采集前找词的时候,有个蛋疼的问题:

无论任何一种找词渠道,固定搜索词(如阿拉巴巴招聘)和个性搜索词(如阿里巴巴工程师级别怎么划分)总是杂糅到一块的,对于同一词根下的扩展词,如何将这两类词分开?
固定搜索词往往可以根据固定词缀的出现次数来预估关键词的流量,毕竟同一个词缀出现次数高,流量也会相对高。但个性化搜索词流量和竞争度怎么判断?

为什么非要把两类词找出来呢?因为这两类词的采集源往往是不同的……

如何将固定搜索词和个性化搜索词分开

因为固定搜索词都包含通用的词缀,比如:php工程师工资、java程序员工资、学php有前途吗、python程序员工资...这里面“工资”就是通用词缀,前面可以跟任何关于职位的变量。

程序搞定?

所以可以通过程序分词,把包含连续出现多次词缀的关键词单独提出来,这点可以通过python的jieba分词模块配合word2vec来搞,或者配合K-means也可以。

然而实际中,由于jieba默认词典的限制,导致在不同行业内分词不理想的情况,比如没有把通用词缀单独切出来,致使后面聚类的效果也不理想的情况。

要达到理想情况,就要不断优化jieba分词词典和聚类算法。

但本渣渣是伪技术,只会装逼。即便能搞定也得花挺长时间。

人肉搞定?

人肉搞定思路就很简单了

首先把全行业所有的固定搜索行为全部找出来,比如这是招聘行业的固定搜索行为,即便不全也可以覆盖大部分:

当把固定搜索行为找出后,就知道这个行业都有哪些通用词缀,剩下的事简单了,还是照常跑词,把跑出来的词包含通用词缀的全部拎出来,剩下的就都是个性化搜索词了。这完全是个力气活,拼体力。

全行业固定搜索词怎么找?之前本渣渣写过,详见:【SEO】关键词数据分析

个性化搜索词流量怎么判断

简单的就是跑指数了,爱站和战神软件都有这功能。但如果大部分都没有指数怎么办?

相对精准的搜索量本渣渣也不知道该怎么判断,但是可以从关键词来源渠道来评个优先级。

比如移动端跑出来的词一定比从pc端的优先级高。

百度相关搜索的词一定比凤巢的优先级高(凤巢的词都被做烂了,小站没机会)

如果要上的内容类型是问答类的,那百度知道相关搜索词一定比百度新闻相关搜索词优先级高



个性化搜索词竞争度怎么判断

本渣渣就粗暴的看百度搜索结果

搜索结果数越低,竞争度越低,而且title放别人做的少的词被收录的概率也会大
前10搜索结果中,关键词飘红的次数,次数越低,竞争度越低
{word} site:(domain1 | domain2 | domain3) ,看一下几个大网站有没有做,尤其是58赶集、1688这种流氓,因为这些超大型站点做的词,大中型站点也跟着做,超大中型站点都抢的词,就没小站什么事了。
来自gogo闯博客

SEO如何处理采集内容(3)

点石 发表了文章 • 0 个评论 • 169 次浏览 • 2016-11-14 17:58 • 来自相关话题

采集内容上线逻辑

有基友问采集的内容怎么分类,抓取的词怎么分类。其实很简单,做个小网站就都明白了,本渣渣在此科普下

采集内容清洗后是要入库的,入库就得有逻辑,所以在采集一开始就得想到这点,并设计采集到上线的流程

每个站点情况都不一样,但最最基础的模式类似下面这种:


确定要做的主题,从这个主题里选几个词根,一个词根或几个词根就代表一个内容分类
用词跟去扩展,挖出要做的流量词
挖出来的词,依次去抓取对应的内容

如上图,比方说我设定1个词根,从这个词根挖出10个扩展词,每个扩展词分别抓20篇内容,那么在这个词根(内容主题)下,我有100篇内容可以上线。那要上线的页面一般分两个:

详情页面
聚合页面

那么,详情页面就是抓过来的100篇内容;聚合页面就是由词根挖出来的10个扩展词,每个扩展词生成一个列表页或其他形式的聚合页面,页面内容就是对应这个词采集的20篇内容。

数据表格式

所以,上线起码要有3个表,用mysql举例,要是用mongodb啥的非关系型数据库自己转化一下~~~

词根表

频道 频道ID
a 1
b 2
c 3
… …

扩展词表

关键词 关键词ID 所属频道ID 优先级 相关词
word1 1 1 s kw1,kw2,kw3..
word2 2 1 s kw1,kw2,kw3..
word3 3 2 a kw1,kw2,kw3..
word4 4 2 a kw1,kw2,kw3..
word5 5 2 a kw1,kw2,kw3..
word6 6 3 a kw1,kw2,kw3..
word7 7 3 a kw1,kw2,kw3..
word8 8 3 a kw1,kw2,kw3..
… … … … …

每个扩展词都标记所属频道的id,这样上线的时候就可以做同频道扩展词的相互推荐

另外可以对每个扩展词,通过竞争度、搜索量、挖词渠道质量、收录、排名等指标设定这个词的优先级,优先级高的词在站内给予更多的链接支持

这个字段可以弄成动态的,比方说上线后每周查一遍排名,凡是在第二页、第三页的关键词优先级都调整到最高,提供更多的链接支持冲到第一页去…

相关词就是这类词的同义词,或者干脆抓这个词的相关搜索,把这些词嵌入到页面中,万一被用户搜索命中就能跑到首页呢…

其他根据具体需求设置调整扩展词表的字段,全靠创新,没固定的套路

详情内容表

标题 正文 文章ID 所属扩展词ID 所属频道ID
title1 content1 1 1 1
title2 content2 1 1 1
title3 content3 1 1 1
title4 content4 2 1 1
title5 content5 2 1 1
title6 content6 2 1 1
title7 content7 3 2 1
title8 content8 3 2 1
title9 content9 3 2 1
… … … … …

每个文章都映射所属扩展词id和所属频道

举个实例

以上是个最简单的模式,可以用这个模式根据网站本身的情况去套,比方说我有个卖音乐设备的站,网站主要内容就是围绕产品或品牌的产品信息。

音乐设备行业固定搜索词不多,但深挖的话有能找到不少个性化的搜索词,比如“XX鼓简单曲子” “xxx和什么搭配好”…这种搜索行为只能基于某个产品或某个品牌才会产生这种搜索,不能像“XX价格”、“XX测评”适用于所有产品和品牌,可以批量上页面的。

但又想拿到这些个性化搜索词的流量怎么办?没办法通过改现有页面标题来覆盖,那就只能每个词生成新页面来覆盖了,而网站主要内容是产品信息,无法覆盖这种个性化搜索词,那就只能去采集喽

那么根据上图的套路,那么词根就是每个产品和品牌,用这些词去各种渠道找流量词,找到流量词再去大平台抓对应的内容。

到了上线阶段,理想情况下是每个扩展词采集20篇内容,这样生成的聚合页都有20条信息(Zero大神测试过,列表页信息条数在20条的时候,获得首页排名的概率比其他条数要高),但理想很美好,现实很残酷,并不可能所有的扩展词都能抓到20条内容,那么怎么办?

每个扩展词都有所属词根的,而每个所属词根在站内都是有产品信息内容的,所以一个词根下的扩展词,在数据库内除了有采集过来的内容,也有原先就有的产品信息内容,这些两类内容虽然说得不是一个词,但是都在同一个主题下,都是属于某个品牌或产品的。一个扩展词只采集到3条内容,生成新页面则是个空短页面,不会被收录,那么可以再调用这个扩展词所属词根的产品信息来补全,以此来提升页面质量

来自gogo闯博客 查看全部
采集内容上线逻辑

有基友问采集的内容怎么分类,抓取的词怎么分类。其实很简单,做个小网站就都明白了,本渣渣在此科普下

采集内容清洗后是要入库的,入库就得有逻辑,所以在采集一开始就得想到这点,并设计采集到上线的流程

每个站点情况都不一样,但最最基础的模式类似下面这种:


确定要做的主题,从这个主题里选几个词根,一个词根或几个词根就代表一个内容分类
用词跟去扩展,挖出要做的流量词
挖出来的词,依次去抓取对应的内容

如上图,比方说我设定1个词根,从这个词根挖出10个扩展词,每个扩展词分别抓20篇内容,那么在这个词根(内容主题)下,我有100篇内容可以上线。那要上线的页面一般分两个:

详情页面
聚合页面

那么,详情页面就是抓过来的100篇内容;聚合页面就是由词根挖出来的10个扩展词,每个扩展词生成一个列表页或其他形式的聚合页面,页面内容就是对应这个词采集的20篇内容。

数据表格式

所以,上线起码要有3个表,用mysql举例,要是用mongodb啥的非关系型数据库自己转化一下~~~

词根表

频道 频道ID
a 1
b 2
c 3
… …

扩展词表

关键词 关键词ID 所属频道ID 优先级 相关词
word1 1 1 s kw1,kw2,kw3..
word2 2 1 s kw1,kw2,kw3..
word3 3 2 a kw1,kw2,kw3..
word4 4 2 a kw1,kw2,kw3..
word5 5 2 a kw1,kw2,kw3..
word6 6 3 a kw1,kw2,kw3..
word7 7 3 a kw1,kw2,kw3..
word8 8 3 a kw1,kw2,kw3..
… … … … …

每个扩展词都标记所属频道的id,这样上线的时候就可以做同频道扩展词的相互推荐

另外可以对每个扩展词,通过竞争度、搜索量、挖词渠道质量、收录、排名等指标设定这个词的优先级,优先级高的词在站内给予更多的链接支持

这个字段可以弄成动态的,比方说上线后每周查一遍排名,凡是在第二页、第三页的关键词优先级都调整到最高,提供更多的链接支持冲到第一页去…

相关词就是这类词的同义词,或者干脆抓这个词的相关搜索,把这些词嵌入到页面中,万一被用户搜索命中就能跑到首页呢…

其他根据具体需求设置调整扩展词表的字段,全靠创新,没固定的套路

详情内容表

标题 正文 文章ID 所属扩展词ID 所属频道ID
title1 content1 1 1 1
title2 content2 1 1 1
title3 content3 1 1 1
title4 content4 2 1 1
title5 content5 2 1 1
title6 content6 2 1 1
title7 content7 3 2 1
title8 content8 3 2 1
title9 content9 3 2 1
… … … … …

每个文章都映射所属扩展词id和所属频道

举个实例

以上是个最简单的模式,可以用这个模式根据网站本身的情况去套,比方说我有个卖音乐设备的站,网站主要内容就是围绕产品或品牌的产品信息。

音乐设备行业固定搜索词不多,但深挖的话有能找到不少个性化的搜索词,比如“XX鼓简单曲子” “xxx和什么搭配好”…这种搜索行为只能基于某个产品或某个品牌才会产生这种搜索,不能像“XX价格”、“XX测评”适用于所有产品和品牌,可以批量上页面的。

但又想拿到这些个性化搜索词的流量怎么办?没办法通过改现有页面标题来覆盖,那就只能每个词生成新页面来覆盖了,而网站主要内容是产品信息,无法覆盖这种个性化搜索词,那就只能去采集喽

那么根据上图的套路,那么词根就是每个产品和品牌,用这些词去各种渠道找流量词,找到流量词再去大平台抓对应的内容。

到了上线阶段,理想情况下是每个扩展词采集20篇内容,这样生成的聚合页都有20条信息(Zero大神测试过,列表页信息条数在20条的时候,获得首页排名的概率比其他条数要高),但理想很美好,现实很残酷,并不可能所有的扩展词都能抓到20条内容,那么怎么办?

每个扩展词都有所属词根的,而每个所属词根在站内都是有产品信息内容的,所以一个词根下的扩展词,在数据库内除了有采集过来的内容,也有原先就有的产品信息内容,这些两类内容虽然说得不是一个词,但是都在同一个主题下,都是属于某个品牌或产品的。一个扩展词只采集到3条内容,生成新页面则是个空短页面,不会被收录,那么可以再调用这个扩展词所属词根的产品信息来补全,以此来提升页面质量

来自gogo闯博客

大型站点如何做seo

点石 发表了文章 • 0 个评论 • 48 次浏览 • 2017-07-27 21:30 • 来自相关话题

大型站点
 
从大型站点开始,核心任务是【资源合理高效整合&用户体验】,这里的重点,一个是合理,一个是高效。

合理

合理是指,通过大量的SEO测试,找出趋近于本网站(而非所有网站)真实的SEO规律。因为大网站数据量大,则测试的样本量越大,测试结果越能反应SEO的真实规律。

此阶段,应跳出之前简单粗暴怼资源的方式,转变为通过大量SEO测试结果反推SEO规则的科学方法。

此阶段,应该有一个“流量模型”。这个模型是指,比如撸了500万个词,这500万个词做成页面后,每个页面排到首页大体上需要多少资源支持?排到首页能够获得多少流量?

这个模型内的数据,肯定不是准确的,但是能够大概率的保证达到预想的结果。这是需要不断反复的测试,提取出仅适用于当前网站的规律。

高效

高效是指,除了需要编辑介入的页面,其他SEO页面的生成,是程序自动化、人工辅助,有一个页面生成机制:~每一个SEO流量页面的生成,从导词-上线-调优,是机器自动完成,当然中间包含很多过程、算法以及不断完善的数据,算法需要人工观察结果持续的改进迭代。~

整合

优先整合优质内容批量创造出更多页面。“优势”指的是内容的流量效率,即平均一个页面能够带来多少流量。一般原创内容 或 全网重复度不高的内容,流量效率都高于相互采集的内容。

找出站内流量效率高的内容(如果有),通过拆分、聚合等手段创造出新的页面,这些页面的流量效率也不会低到哪去。毕竟搜索引擎倾向的内容,怎么组合也还是好的内容;不倾向的内容,再怎么倒腾可能还那个德行。

用户体验

但如果行业是高竞争行业,或者行业中存在巨头型站点,那么以上过程或许在流量上增长不明显,或者没有增长。

因为真实用户使用量越大的网站,通常质量越好。所以对于大型站点,如果页面中存在用户使用特征的点,有可能会提高搜索优先级排序。具体请查找百度专利,我忘了叫啥了。

比如,涉及交易类的网站,在页面中能够反映用户使用特征的点如,商品页面流量分发的设计、C端购买商品的评价反馈、B端商品库存等等。

比如,涉及内容型的网站,在页面中能够反映用户使用特征的点如,精品内容的推送、TAG标签树、内容评论点赞站转载等等。
原文来自GOGO闯 查看全部
大型站点
 
从大型站点开始,核心任务是【资源合理高效整合&用户体验】,这里的重点,一个是合理,一个是高效。

合理

合理是指,通过大量的SEO测试,找出趋近于本网站(而非所有网站)真实的SEO规律。因为大网站数据量大,则测试的样本量越大,测试结果越能反应SEO的真实规律。

此阶段,应跳出之前简单粗暴怼资源的方式,转变为通过大量SEO测试结果反推SEO规则的科学方法。

此阶段,应该有一个“流量模型”。这个模型是指,比如撸了500万个词,这500万个词做成页面后,每个页面排到首页大体上需要多少资源支持?排到首页能够获得多少流量?

这个模型内的数据,肯定不是准确的,但是能够大概率的保证达到预想的结果。这是需要不断反复的测试,提取出仅适用于当前网站的规律。

高效

高效是指,除了需要编辑介入的页面,其他SEO页面的生成,是程序自动化、人工辅助,有一个页面生成机制:~每一个SEO流量页面的生成,从导词-上线-调优,是机器自动完成,当然中间包含很多过程、算法以及不断完善的数据,算法需要人工观察结果持续的改进迭代。~

整合

优先整合优质内容批量创造出更多页面。“优势”指的是内容的流量效率,即平均一个页面能够带来多少流量。一般原创内容 或 全网重复度不高的内容,流量效率都高于相互采集的内容。

找出站内流量效率高的内容(如果有),通过拆分、聚合等手段创造出新的页面,这些页面的流量效率也不会低到哪去。毕竟搜索引擎倾向的内容,怎么组合也还是好的内容;不倾向的内容,再怎么倒腾可能还那个德行。

用户体验

但如果行业是高竞争行业,或者行业中存在巨头型站点,那么以上过程或许在流量上增长不明显,或者没有增长。

因为真实用户使用量越大的网站,通常质量越好。所以对于大型站点,如果页面中存在用户使用特征的点,有可能会提高搜索优先级排序。具体请查找百度专利,我忘了叫啥了。

比如,涉及交易类的网站,在页面中能够反映用户使用特征的点如,商品页面流量分发的设计、C端购买商品的评价反馈、B端商品库存等等。

比如,涉及内容型的网站,在页面中能够反映用户使用特征的点如,精品内容的推送、TAG标签树、内容评论点赞站转载等等。
原文来自GOGO闯

中型站点如何做seo

点石 发表了文章 • 0 个评论 • 50 次浏览 • 2017-07-27 21:29 • 来自相关话题

中型站点
 从中型站点开始,核心任务是【资源稳定增长】,这里的重点,一个是增长,一个是稳定。

增长

小网站刚进阶到中型站点,行业的流量并没有完全覆盖到。部分用户搜索行为是没有对应页面承载的,没有对应页面承载,也就不会获取对应的SEO流量。所以需要继续增加网站体量,保持站点资源能够持续的、稳定的、较之前快速的增长。

这便需要结合实际情况,确定一套内容增长机制和链接增长机制

但伴随着网站体量变大,团队人员(如技术、产品人员)变动,可能出现各种各样的问题。比如:

某日发现网站出现一大批标题重复页面,一看日志,占了总抓取的70%,这页面是产品经理上3个月前上的

某日发现某个页面流量大掉,一看是其他页面给这批页面提供链接的板块不见了,这是技术2个月前删的

随着每日大量数据抓取,数据库没有合理优化,导致网站性能持续下降

……

随着网站内容、团队的变化,可能会出现之前无法预料的情况,而面对此情况,需要以最快的速度发现新问题,并以最快的速度及时解决,预防因自身原因导致的流量损失。

中型及以上站点的任何SEO,控制风险是第一位,其次是流量增长。这便需要建立一套及时止损机制:人工设定N个会影响SEO的特征,程序24小时监控这些特征,如出现符合特征的元素,则及时通知SEO,并提示相应建议,程序每次检查都做一次数据备份。

通过人为设定特征、机器监控特征、不断更新特征,使该系统不断完善,并且降低由于SEO人员变动产生SEO工作交接成本。
原文来自:GOGO闯 查看全部
中型站点
 从中型站点开始,核心任务是【资源稳定增长】,这里的重点,一个是增长,一个是稳定。

增长

小网站刚进阶到中型站点,行业的流量并没有完全覆盖到。部分用户搜索行为是没有对应页面承载的,没有对应页面承载,也就不会获取对应的SEO流量。所以需要继续增加网站体量,保持站点资源能够持续的、稳定的、较之前快速的增长。

这便需要结合实际情况,确定一套内容增长机制和链接增长机制

但伴随着网站体量变大,团队人员(如技术、产品人员)变动,可能出现各种各样的问题。比如:

某日发现网站出现一大批标题重复页面,一看日志,占了总抓取的70%,这页面是产品经理上3个月前上的

某日发现某个页面流量大掉,一看是其他页面给这批页面提供链接的板块不见了,这是技术2个月前删的

随着每日大量数据抓取,数据库没有合理优化,导致网站性能持续下降

……

随着网站内容、团队的变化,可能会出现之前无法预料的情况,而面对此情况,需要以最快的速度发现新问题,并以最快的速度及时解决,预防因自身原因导致的流量损失。

中型及以上站点的任何SEO,控制风险是第一位,其次是流量增长。这便需要建立一套及时止损机制:人工设定N个会影响SEO的特征,程序24小时监控这些特征,如出现符合特征的元素,则及时通知SEO,并提示相应建议,程序每次检查都做一次数据备份。

通过人为设定特征、机器监控特征、不断更新特征,使该系统不断完善,并且降低由于SEO人员变动产生SEO工作交接成本。
原文来自:GOGO闯

小型站点如何做seo

点石 发表了文章 • 0 个评论 • 41 次浏览 • 2017-07-27 21:28 • 来自相关话题

小型站点

从小型站点开始,核心任务是【基础设施搭建】,这个“基础设施”是促使小型站点流量能够提高,并进阶为中型站点的充分必要条件。

典型的小型站点的特点:

缺内容
缺链接
缺流量
缺知名度
缺钱
缺XXXX
然而国内SEO环境是个马太效应的世界,有数据量不一定有流量,但有流量的一定都有数据量。网站体量反应网站流量,生态环境不那么公平。当务之急,需要解决资源短缺的问题,这个解决不了,做其他事情都是效率不高的。

然而受限于行业、技术等问题,开始能够获取的资源数量不多,所以必然需要集中资源做值钱的词、做ROI高的词、利润大的词。


确定先做哪块、然后做哪块、之后做哪块、最后做哪块。

这种调研是挺耗费时间精力的,搞半个月也是挺正常的,而且很多大站点的SEO此步骤也没做过,也正常,毕竟大多SEO只对流量绝对值负责,商业价值不怎么关注。

初始资源有了,要做的词也定了,便需要保证网站代码、页面、链接对SEO友好,让搜索引擎能够顺畅抓取并分析页面内容,这是页面能够被索引和获得排名展现的前提。

这里的基础设施便是:整站SEO友好、关键词定位(该上哪些词)、资源获取机制(内容量 & 链接量 & 点击量)

以上三个基础设施,会促使小型站点进阶为中型站点,反之,中型站点之所以能够成为中型站点,也是因为具备上面三个基础设施,所以叫充分必要条件。
 
原文来自GOGO闯 查看全部
小型站点

从小型站点开始,核心任务是【基础设施搭建】,这个“基础设施”是促使小型站点流量能够提高,并进阶为中型站点的充分必要条件。

典型的小型站点的特点:

缺内容
缺链接
缺流量
缺知名度
缺钱
缺XXXX
然而国内SEO环境是个马太效应的世界,有数据量不一定有流量,但有流量的一定都有数据量。网站体量反应网站流量,生态环境不那么公平。当务之急,需要解决资源短缺的问题,这个解决不了,做其他事情都是效率不高的。

然而受限于行业、技术等问题,开始能够获取的资源数量不多,所以必然需要集中资源做值钱的词、做ROI高的词、利润大的词。


确定先做哪块、然后做哪块、之后做哪块、最后做哪块。

这种调研是挺耗费时间精力的,搞半个月也是挺正常的,而且很多大站点的SEO此步骤也没做过,也正常,毕竟大多SEO只对流量绝对值负责,商业价值不怎么关注。

初始资源有了,要做的词也定了,便需要保证网站代码、页面、链接对SEO友好,让搜索引擎能够顺畅抓取并分析页面内容,这是页面能够被索引和获得排名展现的前提。

这里的基础设施便是:整站SEO友好、关键词定位(该上哪些词)、资源获取机制(内容量 & 链接量 & 点击量)

以上三个基础设施,会促使小型站点进阶为中型站点,反之,中型站点之所以能够成为中型站点,也是因为具备上面三个基础设施,所以叫充分必要条件。
 
原文来自GOGO闯

依靠SEO,去打造一个成功的网站

点石 发表了文章 • 0 个评论 • 159 次浏览 • 2017-04-18 21:30 • 来自相关话题

说了很多SEO相关的东西,但是从来没有说说如何去对待SEO。我想这篇文章比很多篇讲如何去做SEO的文章都还对大家有用一些。
王通曾经写过一篇《阿里巴巴B2B必然走向衰落》,虽然这篇文章一塌糊涂,但是这篇文章当中说阿里巴巴依靠SEO成功的观点我觉得是对的,只是没有他说的那么简单。《SEO是如何依赖技术分析的》一文的结尾我也提到:“从某方面来说,是SEO成就了阿里巴巴”。为了让大家更明白一点,我可以说一些已经公开了的信息:阿里巴巴是先有英文站,才有中文站的。而在08年以前,阿里巴巴英文站的收入都是占到阿里巴巴整个收入的70%。可能有人会说,阿里巴巴英文站的收入都是来自于国内那些做外贸的中国人,但是,在早期,那些外贸企业之所以肯爽快的付费,是因为在阿里巴巴上确实有效果。而这种效果,来自于大量优质的国外买家的流量。
我看到有些人用alexa分析阿里巴巴的流量构成,说绝大部分流量都是中文的流量,其实是分析有误的。因为阿里巴巴中文站的域名是 china.alibaba.com ,和英文站 www .alibaba.com 是同一个主域名。所以alexa把中文站的流量也算进了英文站的流量里。而alexa上的数据本来也就不准的。(这个alexa其实可以抛弃不用了,可以用adplanner代替)
那么这些大量优质的买家流量如何来的呢? 大家可以想一想,一个中国人做的网站,不能去国外那么多国家的电视上做广告,不能搞一些类似“赢在中国”的活动。大家也不会听你一个明星般的企业主“忽悠”。那还能有什么办法?无非就只有在线营销。
而SEO不管是在一个网站的什么时期,都是最有效的在线营销手段。早期阿里巴巴大量优质的买家流量,就是通过SEO优化后,十个搜索结果当中有六个是阿里巴巴的页面这样的局面来实现的。
接下来再来看看一个网站一般是通过一种什么运作方式盈利的。说一说我觉得很多网站盈利的本质是什么。
我们可以想一想我们平常生活中很熟悉的超市,菜场,咖啡馆等等实体经济是通过什么方式盈利的。他们盈利的本质是什么呢?其实没有什么复杂的,无非就是低价买进某些商品,或者加工或者转手,然后高价卖出去,赚取中间的差价即可。而高价能高到什么程度,能卖出去多少,很大一部分原因来源于卖的东西质量怎么样。所以实体经济玩的那个游戏、它们的本质总结起来就是:“低买高卖,注意质量”。
其实网站也是在玩一个这样的游戏,而买卖的东西就是网站的流量。不管是新浪、百度、腾讯、阿里巴巴、google这样的平台性网站,还是卓越、当当、京东、凡客(VANCL)这样的电子商务网站,还是像一些SEOer的喜欢做的垃圾站。都是先通过一定的成本“买进”一些相关的流量,然后“卖出”这些流量具有的价值。本质上都是这么回事,而差别就是每个网站流量“买进”的方式不一样,“卖出”的方式也不一样。
如果以一个网站的营业额来计算,除去成本,各个网站在买卖流量这个生意上差别体现在:
1,你“买进”的价格有多低。2,你“买进”了多少。 3,你“卖出”的价格有多高。 4,你“卖出”了多少。
比如腾讯,因为有QQ这个客户端,可以在上面捆绑很多服务,加上知名度,流量“买进”的价格是很低的;“买进”的数量也很大;而流量的“卖出”,是通过它的一系列产品体现出来的,“卖出”的价格其实不高;但是它“卖出”的数量非常大。所以腾讯一个季度的营业额是4亿多美金。
腾讯这种平台性质的网站,买卖流量的痕迹还不那么明显。像凡客(VANCL)这种电子商务网站才非常明显的反应出了这种买卖流量的事实。只要价格合适,凡客(VANCL)在互联网一切能低价买流量的地方都购买流量,这是真金白银的直接买进,当然“买进”的价格还是要比腾讯高;买进的数量也不少;但是“卖出”的价格也比腾讯的高了很多;而“卖出”的数量不如腾讯。所以凡客的营业额比腾讯低,但是估计一年也有十几亿人民币以上了。
现在的互联网,各家推出的产品,其实已有越来越同质化的趋势,卖什么是不太重要的,怎么去卖才是竞争力所在。凡客(VANCL)以前卖衬衫很成功,现在卖鞋也非常成功,就是因为从另一个角度来说它卖的不是衬衫也不是鞋,是流量。
更多的其他经营性网站,都是在4个方面各有特点,所以才造就了各种不同的网站。比如很多SEOer做的垃圾站:“买入”的价格很低;数量比较多;但是靠挂adsense这样的“卖出”方式的话,“卖出”的价格奇低;“卖出”的数量其实不少的。但是一年的营业额也就是几万元而已。而当年盛极一时的PPG衬衫,倒是知道流量只要能“卖出”,通过一定的成本大量“买入”是很值得的。只是我一直不明白为什么PPG当年选择电视广告投入这么贵的买入方式。
而SEO在上面谈到的那4点里面的作用是什么呢? 好的SEO,能给你带来大量、免费、优质的流量。
早期的阿里巴巴英文站,因为有了SEO,流量“买进”的价格很低,甚至有时候可以忽略这个价格;“买进”的数量很多;还因为这些流量非常的优质,所以能“卖出”的价格也很高;也因为优质,“卖出”的数量也很大。 所以才有了今天大家看到的这个阿里巴巴。
很多SEOer都不明白自己掌握的是一种什么技能。更多的人浪费了自己拥有的这种技能。所以大家现在都换种思路去经营网站吧。利用SEO,其实可以做出更好的成绩的,甚至可以成就一番事业。
现在有很多的网站开始进军国际市场。但是他们首先要面临的问题,就是如何大量低价的“买入”优质的流量。在国内市场,SEO的重要性还不这么强烈,但是一旦你开始进入国际市场,就发现SEO是你海外推广的一个必要的选择。
当然,除了SEO,很多网站也不惜在其他“买入”流量这个方面投入很大的资金的。如国内某刚刚崛起的外贸B2C平台,投adwords广告,都是几十万词语的数量。因为到时他们“卖出”的价格会很高,所以这个投入其实是很划得来的。还有一个外贸B2C平台,除了adwords,甚至不惜用人肉在国外论坛发帖的方式去推广网站,而这种方式也占到他们第二大非直接流量的来源。
这些网站可能也尝试过SEO,但是应该是不理想的。因为现在国内的SEO理论水平真的是比国外落后很多。国外同行,不管是SEO意识在网站中的普及程度,还是竞争力远远要比国内的企业高得多。我现在通过 hitwise可以看到国内很多英文网站在海外的流量,一些国内很牛的英文网站,在国外拿到的SEO流量其实很少的。实际的关键词排名也不理想。(很多人在查排名的时候都没有用国外的IP去查,结果往往会查到自己网站的排名很好,而实际上,可能在国外的前几十页也找不到他们的网站。)
这也是促使我写博客的原因之一。其实很多人,只要有好的基础,再坚持实践多年,是一定能摸索出正确的方法的。但是阻碍他们的,还有很多误导人的言论。
真希望有更多的网站能依靠SEO成功。 查看全部
说了很多SEO相关的东西,但是从来没有说说如何去对待SEO。我想这篇文章比很多篇讲如何去做SEO的文章都还对大家有用一些。
王通曾经写过一篇《阿里巴巴B2B必然走向衰落》,虽然这篇文章一塌糊涂,但是这篇文章当中说阿里巴巴依靠SEO成功的观点我觉得是对的,只是没有他说的那么简单。《SEO是如何依赖技术分析的》一文的结尾我也提到:“从某方面来说,是SEO成就了阿里巴巴”。为了让大家更明白一点,我可以说一些已经公开了的信息:阿里巴巴是先有英文站,才有中文站的。而在08年以前,阿里巴巴英文站的收入都是占到阿里巴巴整个收入的70%。可能有人会说,阿里巴巴英文站的收入都是来自于国内那些做外贸的中国人,但是,在早期,那些外贸企业之所以肯爽快的付费,是因为在阿里巴巴上确实有效果。而这种效果,来自于大量优质的国外买家的流量。
我看到有些人用alexa分析阿里巴巴的流量构成,说绝大部分流量都是中文的流量,其实是分析有误的。因为阿里巴巴中文站的域名是 china.alibaba.com ,和英文站 www .alibaba.com 是同一个主域名。所以alexa把中文站的流量也算进了英文站的流量里。而alexa上的数据本来也就不准的。(这个alexa其实可以抛弃不用了,可以用adplanner代替)
那么这些大量优质的买家流量如何来的呢? 大家可以想一想,一个中国人做的网站,不能去国外那么多国家的电视上做广告,不能搞一些类似“赢在中国”的活动。大家也不会听你一个明星般的企业主“忽悠”。那还能有什么办法?无非就只有在线营销。
而SEO不管是在一个网站的什么时期,都是最有效的在线营销手段。早期阿里巴巴大量优质的买家流量,就是通过SEO优化后,十个搜索结果当中有六个是阿里巴巴的页面这样的局面来实现的。
接下来再来看看一个网站一般是通过一种什么运作方式盈利的。说一说我觉得很多网站盈利的本质是什么。
我们可以想一想我们平常生活中很熟悉的超市,菜场,咖啡馆等等实体经济是通过什么方式盈利的。他们盈利的本质是什么呢?其实没有什么复杂的,无非就是低价买进某些商品,或者加工或者转手,然后高价卖出去,赚取中间的差价即可。而高价能高到什么程度,能卖出去多少,很大一部分原因来源于卖的东西质量怎么样。所以实体经济玩的那个游戏、它们的本质总结起来就是:“低买高卖,注意质量”。
其实网站也是在玩一个这样的游戏,而买卖的东西就是网站的流量。不管是新浪、百度、腾讯、阿里巴巴、google这样的平台性网站,还是卓越、当当、京东、凡客(VANCL)这样的电子商务网站,还是像一些SEOer的喜欢做的垃圾站。都是先通过一定的成本“买进”一些相关的流量,然后“卖出”这些流量具有的价值。本质上都是这么回事,而差别就是每个网站流量“买进”的方式不一样,“卖出”的方式也不一样。
如果以一个网站的营业额来计算,除去成本,各个网站在买卖流量这个生意上差别体现在:
1,你“买进”的价格有多低。2,你“买进”了多少。 3,你“卖出”的价格有多高。 4,你“卖出”了多少。
比如腾讯,因为有QQ这个客户端,可以在上面捆绑很多服务,加上知名度,流量“买进”的价格是很低的;“买进”的数量也很大;而流量的“卖出”,是通过它的一系列产品体现出来的,“卖出”的价格其实不高;但是它“卖出”的数量非常大。所以腾讯一个季度的营业额是4亿多美金。
腾讯这种平台性质的网站,买卖流量的痕迹还不那么明显。像凡客(VANCL)这种电子商务网站才非常明显的反应出了这种买卖流量的事实。只要价格合适,凡客(VANCL)在互联网一切能低价买流量的地方都购买流量,这是真金白银的直接买进,当然“买进”的价格还是要比腾讯高;买进的数量也不少;但是“卖出”的价格也比腾讯的高了很多;而“卖出”的数量不如腾讯。所以凡客的营业额比腾讯低,但是估计一年也有十几亿人民币以上了。
现在的互联网,各家推出的产品,其实已有越来越同质化的趋势,卖什么是不太重要的,怎么去卖才是竞争力所在。凡客(VANCL)以前卖衬衫很成功,现在卖鞋也非常成功,就是因为从另一个角度来说它卖的不是衬衫也不是鞋,是流量。
更多的其他经营性网站,都是在4个方面各有特点,所以才造就了各种不同的网站。比如很多SEOer做的垃圾站:“买入”的价格很低;数量比较多;但是靠挂adsense这样的“卖出”方式的话,“卖出”的价格奇低;“卖出”的数量其实不少的。但是一年的营业额也就是几万元而已。而当年盛极一时的PPG衬衫,倒是知道流量只要能“卖出”,通过一定的成本大量“买入”是很值得的。只是我一直不明白为什么PPG当年选择电视广告投入这么贵的买入方式。
而SEO在上面谈到的那4点里面的作用是什么呢? 好的SEO,能给你带来大量、免费、优质的流量。
早期的阿里巴巴英文站,因为有了SEO,流量“买进”的价格很低,甚至有时候可以忽略这个价格;“买进”的数量很多;还因为这些流量非常的优质,所以能“卖出”的价格也很高;也因为优质,“卖出”的数量也很大。 所以才有了今天大家看到的这个阿里巴巴。
很多SEOer都不明白自己掌握的是一种什么技能。更多的人浪费了自己拥有的这种技能。所以大家现在都换种思路去经营网站吧。利用SEO,其实可以做出更好的成绩的,甚至可以成就一番事业。
现在有很多的网站开始进军国际市场。但是他们首先要面临的问题,就是如何大量低价的“买入”优质的流量。在国内市场,SEO的重要性还不这么强烈,但是一旦你开始进入国际市场,就发现SEO是你海外推广的一个必要的选择。
当然,除了SEO,很多网站也不惜在其他“买入”流量这个方面投入很大的资金的。如国内某刚刚崛起的外贸B2C平台,投adwords广告,都是几十万词语的数量。因为到时他们“卖出”的价格会很高,所以这个投入其实是很划得来的。还有一个外贸B2C平台,除了adwords,甚至不惜用人肉在国外论坛发帖的方式去推广网站,而这种方式也占到他们第二大非直接流量的来源。
这些网站可能也尝试过SEO,但是应该是不理想的。因为现在国内的SEO理论水平真的是比国外落后很多。国外同行,不管是SEO意识在网站中的普及程度,还是竞争力远远要比国内的企业高得多。我现在通过 hitwise可以看到国内很多英文网站在海外的流量,一些国内很牛的英文网站,在国外拿到的SEO流量其实很少的。实际的关键词排名也不理想。(很多人在查排名的时候都没有用国外的IP去查,结果往往会查到自己网站的排名很好,而实际上,可能在国外的前几十页也找不到他们的网站。)
这也是促使我写博客的原因之一。其实很多人,只要有好的基础,再坚持实践多年,是一定能摸索出正确的方法的。但是阻碍他们的,还有很多误导人的言论。
真希望有更多的网站能依靠SEO成功。

整体还是局部—如何制定好的SEO策略(1)

点石 发表了文章 • 0 个评论 • 142 次浏览 • 2017-04-18 21:23 • 来自相关话题

已经有好几个月没写点东西了,感觉还有很多东西可以写,而且现在经常有一些新的发现和感想。不过一直在忙着给一些大中型网站提供SEO顾问服务,时间都是优先花在给他们解决问题上。
已经给很多网站做过SEO顾问服务,其中有SEO流量才几千UV的中型网站,也有上百万UV的大型网站。发现有一个问题是非常突出的,就是很多网站都没有一个清晰的SEO策略,只是埋头做事,这导致了一些问题。
最明显的问题就是把手段当目标,把过程当结果。
现有的很多网站,他们常用的SEO做法是:搜集几十、上百个本行业里的热门词,把这些热门词加到一些网站中权重很高的网页上。然后不断的给这些页面增加外部链接,希望这些关键词能有不错的排名。这种典型的做法就是我说的把手段当目标,把过程当结果的做法。
让我们来看看一个网站为什么要做SEO吧。很多网站之所以要做SEO,是因为SEO是目前性价比最高、效果最好的网络营销手段。他们的目的是希望SEO给网站带来直接或间接的收益。要达到这个目的,就需要有大量相关的SEO流量。“带来大量相关的SEO流量”才是给一个网站做SEO的首要目标。而上述网站做SEO的目标是:给某一批关键词做排名。 做关键词排名只是SEO过程中的一个手段,但是很多网站把它当作了目的。更别说还只是给少数关键词做排名了。
以前在《热门还是长尾?大中型网站的关键词优化策略》这篇文章评论中,有人问道:难道SEO流量不是由关键词排名贡献的吗?
要说明这个问题,我最喜欢用的比喻是一个经营果园的例子。假设你有一个网站,有一万个有内容的页面,目标是带来大量相关的SEO流量。就好比你经营一个果园,果园里有一万棵果树,而你的目标是提高果园的产量。如果是给某一批关键词页面做排名,就好比是你把提高整个果园产量的目标,放在了希望少数几十棵大树的产量提升10倍、20倍的基础上。 这种做法是不容易达成目标的。因为一棵果树的产量,不是你投入资源加多少倍,它就能涨多少倍产量的。不管是一棵果树的产量,还是单独一个页面的SEO流量,如果去追踪他们的增长方式,会发现它们都是遵循“边际效益递减”的道理。 如:




边际效应递减

在C点之前,不停的投入资源是值得的,但是C点以后,投入资源的回报率显然不好了。 所以,少数几十棵大树的产量提升10倍、20倍是很难的,就算达到了,代价就是每一棵树消耗的资源远远超过D点对应的资源。而且这几十棵大树以后增加产量需要的资源呈几何倍数增加。结果整个果园大部分资源都被这几十棵树消耗掉了。消耗了这么多资源,他们能为整个果园提升多少收益呢? 可能是50%都不到,而且果园再大一点,那能不能有20%的增收都是问题;再大一点,10%也困难了……还有就是今年可能是有这么多产量,那明年、后年再用这种方式就越来越难增收了。

那我们换一种方法,关注点不要放在那几十棵大树上。而是我把果园看做一个整体,不管大树小树,都是我果园里能增加产量的来源。 我不要去给少数几十棵大树提升10倍、20倍的产量,我只要把平均每棵树的产量提升1到2倍就可以了。这样整个果园的收益就提升了100%到200%。用这样的方式去做以后,那我就会去平均的分配我的资源。有时候还会“劫富济贫”,对于那种不缺资源的果树,我就克扣和节省那些资源,分给那种很缺资源、但是给一点资源就能产生很大收益的果树上。

如果体现在上图中,就是我确保每棵果树的资源,都是在e 和 C之间。但是因为资源有限,果树太多,是不可能给每棵果树的资源都能达到 B和C之间的。 所以我就控制好资源的分配要在 e和A之间。资源的投放控制在e和A之间还有一个原因,就是果树的数量随着时间的推移开始增加了,有些树还没突破e点,也就是还没有产量。那我就定一个标准:在还有很多树没有产量之前,每棵树投入的资源都不要超过A点的资源。 e-A、A-B、B-C这个三个区域,把资源投在 e-A之间的投入产出比也是最好的。而且等果园整体的产量超过A点后,后面还有很大的成长空间。

这是一个果园的例子,但是大家可以对上面的文字重新看一遍。只要把“产量”看成“SEO流量”,“果园”看成“网站”,“果树”看成“网页”,“e点”看成“有收录并开始有流量”就可以了。

然后再回答那个问题:难道SEO流量不是由关键词排名贡献的吗? 首先SEO流量不光是由关键词排名贡献的,还是因为很多的网页被收录,才会有关键词的排名的。而且就算有了排名,也是需要有人点击才会有流量的。即使是关键词排名也绝不是少数页面、少数关键词的排名,是整个网站所有页面,所有关键词的排名。

前不久,有传言说google会停止PR值的更新。虽然我没看到google官方的声明,但是我觉得google停止PR值的更新没什么不可以,要真这么做就太好了。现在很多网站一做SEO就会提到PR值,经常关注自己的首页PR是多少,又把提高首页的PR值看成他们的目标了。我以前说过PR和排名关系不大,不过假使PR值跟排名的关系很大,为什么很多人又只喜欢看少数几个页面的PR值呢?

其实google一直都在强调整体考虑的重要性。如果用过老版本的webmaster tools的人,应该还记得这么一个数据。





pr的分布

这个数据就表明了整个网站所有的页面的PR值分布状况。因为PR值虽然和排名关系不大,但也是一个对SEO流量有利的因素之一。webmaster tools里面公布的这个数据是很想让大家注意网站整体的PR值分布。上图的这个数据看起来还算不错,至少大部分页面还有PR值。一个网站如果能达到这么一个状态,那PR值的分配就还很不错,对SEO流量的帮助也不小。我观察很多网站,都看到了PR值的正确分布对流量的正面影响。但是如果没有注意整体PR值提升的网站,“PR值尚未分配”的部分就越来越大,就造成了只有少数页面有高PR,那这几个高PR值的观赏作用就大于实际作用了。

Google的本意如此,但是把这个数据长久放在这里,造成不好的影响就是大家更加注意PR值了。 所以后来google撤掉这个数据的理由之一就是不想让大家太注意PR值。不过google从来都没放弃告诉大家注意整体资源的利用。

这个PR值分布的数据,在webmaster tools中后来演变成了两个数据:一个是内部链接数据,一个是站外链接数据。从PR值的计算公式里可以看到,PR值就是被内部链接和站外链接影响的,所以拆分后的数据更加有参考价值了。

不过这个时候,很多人还是没有意识到整体考虑的重要性。具体我们就来看一个例子。

这是某中型网站外部链接的数据:(大家也可以看看自己的数据)




站外链接分布

这是一个有近百万有效内容页面的网站,但是整个网站中,只有333个网页有站外的链接。 而且和绝大多数网站一样,网站首页的站外链接占到总链接数量的95%以上。站外链接是一种比较有价值的SEO资源,大家可以想象那个经营果园的例子。这就是只注意局部忽视整体的结果。

给一个网站做SEO,最重要的是SEO策略上的制定。只有策略才是统揽全局和整体的,而各种SEO的优化方法,只是局部和片面的。制定一个好的SEO策略,其实只要注意一个问题,就是:要整体的效果还是要局部的效果。 查看全部
已经有好几个月没写点东西了,感觉还有很多东西可以写,而且现在经常有一些新的发现和感想。不过一直在忙着给一些大中型网站提供SEO顾问服务,时间都是优先花在给他们解决问题上。
已经给很多网站做过SEO顾问服务,其中有SEO流量才几千UV的中型网站,也有上百万UV的大型网站。发现有一个问题是非常突出的,就是很多网站都没有一个清晰的SEO策略,只是埋头做事,这导致了一些问题。
最明显的问题就是把手段当目标,把过程当结果。
现有的很多网站,他们常用的SEO做法是:搜集几十、上百个本行业里的热门词,把这些热门词加到一些网站中权重很高的网页上。然后不断的给这些页面增加外部链接,希望这些关键词能有不错的排名。这种典型的做法就是我说的把手段当目标,把过程当结果的做法。
让我们来看看一个网站为什么要做SEO吧。很多网站之所以要做SEO,是因为SEO是目前性价比最高、效果最好的网络营销手段。他们的目的是希望SEO给网站带来直接或间接的收益。要达到这个目的,就需要有大量相关的SEO流量。“带来大量相关的SEO流量”才是给一个网站做SEO的首要目标。而上述网站做SEO的目标是:给某一批关键词做排名。 做关键词排名只是SEO过程中的一个手段,但是很多网站把它当作了目的。更别说还只是给少数关键词做排名了。
以前在《热门还是长尾?大中型网站的关键词优化策略》这篇文章评论中,有人问道:难道SEO流量不是由关键词排名贡献的吗?
要说明这个问题,我最喜欢用的比喻是一个经营果园的例子。假设你有一个网站,有一万个有内容的页面,目标是带来大量相关的SEO流量。就好比你经营一个果园,果园里有一万棵果树,而你的目标是提高果园的产量。如果是给某一批关键词页面做排名,就好比是你把提高整个果园产量的目标,放在了希望少数几十棵大树的产量提升10倍、20倍的基础上。 这种做法是不容易达成目标的。因为一棵果树的产量,不是你投入资源加多少倍,它就能涨多少倍产量的。不管是一棵果树的产量,还是单独一个页面的SEO流量,如果去追踪他们的增长方式,会发现它们都是遵循“边际效益递减”的道理。 如:
cd79748273d0dbd0c6436ace77938f27.gif

边际效应递减

在C点之前,不停的投入资源是值得的,但是C点以后,投入资源的回报率显然不好了。 所以,少数几十棵大树的产量提升10倍、20倍是很难的,就算达到了,代价就是每一棵树消耗的资源远远超过D点对应的资源。而且这几十棵大树以后增加产量需要的资源呈几何倍数增加。结果整个果园大部分资源都被这几十棵树消耗掉了。消耗了这么多资源,他们能为整个果园提升多少收益呢? 可能是50%都不到,而且果园再大一点,那能不能有20%的增收都是问题;再大一点,10%也困难了……还有就是今年可能是有这么多产量,那明年、后年再用这种方式就越来越难增收了。

那我们换一种方法,关注点不要放在那几十棵大树上。而是我把果园看做一个整体,不管大树小树,都是我果园里能增加产量的来源。 我不要去给少数几十棵大树提升10倍、20倍的产量,我只要把平均每棵树的产量提升1到2倍就可以了。这样整个果园的收益就提升了100%到200%。用这样的方式去做以后,那我就会去平均的分配我的资源。有时候还会“劫富济贫”,对于那种不缺资源的果树,我就克扣和节省那些资源,分给那种很缺资源、但是给一点资源就能产生很大收益的果树上。

如果体现在上图中,就是我确保每棵果树的资源,都是在e 和 C之间。但是因为资源有限,果树太多,是不可能给每棵果树的资源都能达到 B和C之间的。 所以我就控制好资源的分配要在 e和A之间。资源的投放控制在e和A之间还有一个原因,就是果树的数量随着时间的推移开始增加了,有些树还没突破e点,也就是还没有产量。那我就定一个标准:在还有很多树没有产量之前,每棵树投入的资源都不要超过A点的资源。 e-A、A-B、B-C这个三个区域,把资源投在 e-A之间的投入产出比也是最好的。而且等果园整体的产量超过A点后,后面还有很大的成长空间。

这是一个果园的例子,但是大家可以对上面的文字重新看一遍。只要把“产量”看成“SEO流量”,“果园”看成“网站”,“果树”看成“网页”,“e点”看成“有收录并开始有流量”就可以了。

然后再回答那个问题:难道SEO流量不是由关键词排名贡献的吗? 首先SEO流量不光是由关键词排名贡献的,还是因为很多的网页被收录,才会有关键词的排名的。而且就算有了排名,也是需要有人点击才会有流量的。即使是关键词排名也绝不是少数页面、少数关键词的排名,是整个网站所有页面,所有关键词的排名。

前不久,有传言说google会停止PR值的更新。虽然我没看到google官方的声明,但是我觉得google停止PR值的更新没什么不可以,要真这么做就太好了。现在很多网站一做SEO就会提到PR值,经常关注自己的首页PR是多少,又把提高首页的PR值看成他们的目标了。我以前说过PR和排名关系不大,不过假使PR值跟排名的关系很大,为什么很多人又只喜欢看少数几个页面的PR值呢?

其实google一直都在强调整体考虑的重要性。如果用过老版本的webmaster tools的人,应该还记得这么一个数据。

936bf4293f37f3a23421662055527f64.gif

pr的分布

这个数据就表明了整个网站所有的页面的PR值分布状况。因为PR值虽然和排名关系不大,但也是一个对SEO流量有利的因素之一。webmaster tools里面公布的这个数据是很想让大家注意网站整体的PR值分布。上图的这个数据看起来还算不错,至少大部分页面还有PR值。一个网站如果能达到这么一个状态,那PR值的分配就还很不错,对SEO流量的帮助也不小。我观察很多网站,都看到了PR值的正确分布对流量的正面影响。但是如果没有注意整体PR值提升的网站,“PR值尚未分配”的部分就越来越大,就造成了只有少数页面有高PR,那这几个高PR值的观赏作用就大于实际作用了。

Google的本意如此,但是把这个数据长久放在这里,造成不好的影响就是大家更加注意PR值了。 所以后来google撤掉这个数据的理由之一就是不想让大家太注意PR值。不过google从来都没放弃告诉大家注意整体资源的利用。

这个PR值分布的数据,在webmaster tools中后来演变成了两个数据:一个是内部链接数据,一个是站外链接数据。从PR值的计算公式里可以看到,PR值就是被内部链接和站外链接影响的,所以拆分后的数据更加有参考价值了。

不过这个时候,很多人还是没有意识到整体考虑的重要性。具体我们就来看一个例子。

这是某中型网站外部链接的数据:(大家也可以看看自己的数据)
07c56c9ed2583c182f360bd7a17f376b.gif

站外链接分布

这是一个有近百万有效内容页面的网站,但是整个网站中,只有333个网页有站外的链接。 而且和绝大多数网站一样,网站首页的站外链接占到总链接数量的95%以上。站外链接是一种比较有价值的SEO资源,大家可以想象那个经营果园的例子。这就是只注意局部忽视整体的结果。

给一个网站做SEO,最重要的是SEO策略上的制定。只有策略才是统揽全局和整体的,而各种SEO的优化方法,只是局部和片面的。制定一个好的SEO策略,其实只要注意一个问题,就是:要整体的效果还是要局部的效果。

网页加载速度是如何影响SEO效果的

点石 发表了文章 • 0 个评论 • 122 次浏览 • 2017-04-18 20:57 • 来自相关话题

“谷歌中文网站管理员博客”刚刚发表了一篇新文章,介绍了一下《google 网站管理员工具》中推出的新功能 -“网站性能”。这个工具是通过google工具栏记录了用户访问你网站的速度,并给出了很多加快你网站速度的建议。

http://www.googlechinawebmaste ... .html

而最近也传闻google将会把网页加载速度作为影响排名的一个因素。那么网页打开速度是不是能影响SEO效果?如果能影响,那是怎么影响的呢?

在揭示其中的道理之前,我希望大家能把上面那些传闻或“网站性能”的功能都忘掉。让我们追本溯源,来看看网页打开速度和SEO流量之间的关系。

做SEO有时候不需要听从别人给你的信息和意见,你只要专注于研究搜索引擎,同样也能成功的。这种关系的发现,也得益于早期我非常重视数据分析,所以我在《怎么样去学SEO(二)》中把数据分析能力列为SEOer应该具备的四大能力之一。由于有很多数据做支撑,现在我来给大家分析其中的联系,大家就容易看懂很多。

到了后期,连google也认识到了网页速度和SEO流量之间的关系,所以在这个“网站性能”以前就推出过相关的工具来帮助网站管理员。

要说明这种关系,就要从搜索引擎爬虫说起。不知道大家对于搜索引擎爬虫在一个网站上的行为有没有概念,我现在发一下某个网站(不是alibaba)的一些数据出来,大家就能意识到一些爬虫的特性了。下面是从服务器LOG日志中分析出的数据。




图1:爬虫访问次数




图2:爬虫停留时间
从上面图1中可以看到google访问这个网站206次,这206次里面是由很多个不同的爬虫访问的。图2显示:有的爬虫一天之内来了8次,一共停留了2小时左右,有的爬虫来了1次,停留了20多个小时以上。所以这个网站是被很多个爬虫在不间断的访问的。为了计算方便,可以把google所有的爬虫停留在这个网站的总时间加起来。虽然一天只有24个小时的,但是google的爬虫这一天花在这个网站上的时间可能是成百上千多个小时。这里真实的数据是:在这个网站中,google所有爬虫那天在这个网站上花费的实际总时间是721个小时。

而服务器LOG日志里同样可以分析出爬虫在一个网页上的停留时间。如:




图3:爬虫停留时间

得到了这两个数据以后,用所有爬虫总的停留时间除以单个页面的停留时间,就是搜索引擎爬虫这天所抓取的页面总量。

721 小时× 3600 秒 ÷ 35 秒 = 74160 页

那么得到这个搜索引擎爬虫这天所抓取的页面总量有什么用呢?

对于一般的小网站来说,一天能被抓取 74160页是一个很不错数据。但是我上面给出的是一个中型网站,它整个网站的页面总量有800多万有SEO价值的页面。那么,在最理想的情况下,这些页面被搜索引擎抓取完要花费的时间为:

800万 ÷ 74160 页 = 108 天

这是理论上最理想的情况,实际上真实的情况为:

由于有多个爬虫在抓取网站,有很多的页面在一天之内是会被爬虫重复抓取的。有的页面一天之内被抓取20多次,有的页面一天之内只被抓取1次。通过 “停留总时间 ÷ 单个页面停留时间” 得到的页面数量,是没有去除那些重复抓取的页面的。所以搜索引擎一天之内实际抓取的不重复页面没有74160页那么多,而是40000页的样子。还有一点,爬虫今天抓取的页面,到了明天还有很多会被重复抓取。所以爬虫不光在同一天内会重复抓取很多页面,而且到了下一天还是会重复抓取前一天抓取过的很多页面。

这样下来,爬虫平均每天抓取不重复的页面数量就只有10000页的样子了。那么,要爬虫把这个网站所有的页面抓取完需要的时间为:

800万 ÷ 1万页 = 800天

其实,这个800天抓取完整个网站还是太理想化了。实际的情况是很多网站由于结构的原因,有些网页创建后4-5年,都还没被爬虫抓取过。

上面的这个分析过程,都没用到什么惊天动地的计算方法。只要你有一点数据分析的意识,就能看清楚事实的。当一个网站收录量不理想,大家就应该去看看那些页面是不是被搜索引擎爬虫浏览过。如果一个页面都没有被搜索引擎爬虫浏览过,是不可能会被收录的。一个网站的收录量没有上去,那SEO流量的提升就会有很大的一个瓶颈。

根据我们刚才上面的那个分析过程,要提升网站的收录量,首先要解决的就是搜索引擎每天抓取网站的抓取量。而:

抓取量 = 爬虫总的停留时间 ÷ 单个页面的停留时间

一个网站,爬虫总的停留时间在某个期间是保持相对固定的。当然,有方法提高爬虫总的停留时间,不过这不是这篇文章要讲的内容。我们先通过减少个页面的停留时间也可以增加爬虫的抓取量。

减少爬虫单个页面的停留时间,可以简单的认为提高网页加载速度就可以了,虽然实际上这两个因素之间还存在着一个对应关系,但是这里先不讲。这个时候,网页的加载速度就和抓取量之间有了一个正比的关系,网页加载速度越快,爬虫整个的抓取量就越大。抓取量越大,有效收录量就会增加,从而促使SEO流量增加,因为给一个大中型网站带来流量的,90%以上都是长尾词。大中型网站,有时甚至是小网站,只要收录量增加一定的百分比,SEO流量也会增加一定的百分比。网页的加载速度,就和SEO流量之间建立了一个这样的关系。

其实,google也知道网页速度和SEO流量之间的关系,所以早在“网站性能”这个功能推出以前,就推出了另一个功能让大家去用,那个功能就是“google 网站管理员工具”里的“抓取统计信息”。那里把爬虫对你网站的抓取量,和你网页下载的平均时间都列了出来。

如果大家平常注意观察这里面的数据就会发现这样的规律:一旦网站下载时间减少了,那抓取量就会增大一点。

一般小网站,这样的规律还不是太明显。因为有其他影响这个规律的因素存在,而且小网站页面数太少了,爬虫随便多增加几百页的抓取量就影响了50%以上的抓取量。但是在大中型网站,这个规律是非常明显的。如:




抓取统计信息

当这个网站加快了网页加载速度,爬虫的抓取量就稳步增加了。这个图表能很有利的证明上面提到的理论。

这个图表也再次证明了我在《google 的良苦用心:网站管理员工具》里说的:“google网站管理员工具里的每个功能都是和SEO相关的”。
关于网页速度和排名,google否认曾经将网页速度列为提高排名的因素。而 Matt Cutts 最近也说:In a nutshell – while slow page load times won’t negatively impact your rankings, fast load times may have a positive effect. 有人把它翻译成:网页加载速度慢,不会影响Google排名,但是网页加载快却对排名有积极作用。 其实这样翻译是没有理解这句话,Matt Cutts的意思是:网页加载速度慢,不会影响Google排名,但是网页加载快却有积极作用。拿掉以前那个翻译中的“对排名”三个字即可。至于其中的原因,我想通过这篇文章大家都理解了吧。

这也是为什么我要在《内部链接还是外部链接》里强调一下的:有时候是因为“你没有掌握到他们那么多信息,所以你无法理解他们的话。也不会推测出他们的潜台词以及他们没有说全的话而已。” 我其实很少关注Matt Cutts说什么,但是我看到那篇翻译的文章,就断定Matt Cutts不会那么说。

另外,这个文章中的LOG日志分析工具,在我最近建立的“新基地论坛”上有下载。不过那里需要论坛金币才能下载的。获得论坛金币最快的方法就是把你所拥有的好资源也贡献出来。我希望能用这个方法创造一个“人人为我,我为人人”的环境,做一个高质量的论坛。
  查看全部

“谷歌中文网站管理员博客”刚刚发表了一篇新文章,介绍了一下《google 网站管理员工具》中推出的新功能 -“网站性能”。这个工具是通过google工具栏记录了用户访问你网站的速度,并给出了很多加快你网站速度的建议。

http://www.googlechinawebmaste ... .html

而最近也传闻google将会把网页加载速度作为影响排名的一个因素。那么网页打开速度是不是能影响SEO效果?如果能影响,那是怎么影响的呢?

在揭示其中的道理之前,我希望大家能把上面那些传闻或“网站性能”的功能都忘掉。让我们追本溯源,来看看网页打开速度和SEO流量之间的关系。

做SEO有时候不需要听从别人给你的信息和意见,你只要专注于研究搜索引擎,同样也能成功的。这种关系的发现,也得益于早期我非常重视数据分析,所以我在《怎么样去学SEO(二)》中把数据分析能力列为SEOer应该具备的四大能力之一。由于有很多数据做支撑,现在我来给大家分析其中的联系,大家就容易看懂很多。

到了后期,连google也认识到了网页速度和SEO流量之间的关系,所以在这个“网站性能”以前就推出过相关的工具来帮助网站管理员。

要说明这种关系,就要从搜索引擎爬虫说起。不知道大家对于搜索引擎爬虫在一个网站上的行为有没有概念,我现在发一下某个网站(不是alibaba)的一些数据出来,大家就能意识到一些爬虫的特性了。下面是从服务器LOG日志中分析出的数据。
0953550.gif

图1:爬虫访问次数
0953551.gif

图2:爬虫停留时间
从上面图1中可以看到google访问这个网站206次,这206次里面是由很多个不同的爬虫访问的。图2显示:有的爬虫一天之内来了8次,一共停留了2小时左右,有的爬虫来了1次,停留了20多个小时以上。所以这个网站是被很多个爬虫在不间断的访问的。为了计算方便,可以把google所有的爬虫停留在这个网站的总时间加起来。虽然一天只有24个小时的,但是google的爬虫这一天花在这个网站上的时间可能是成百上千多个小时。这里真实的数据是:在这个网站中,google所有爬虫那天在这个网站上花费的实际总时间是721个小时。

而服务器LOG日志里同样可以分析出爬虫在一个网页上的停留时间。如:
0953552.gif

图3:爬虫停留时间

得到了这两个数据以后,用所有爬虫总的停留时间除以单个页面的停留时间,就是搜索引擎爬虫这天所抓取的页面总量。

721 小时× 3600 秒 ÷ 35 秒 = 74160 页

那么得到这个搜索引擎爬虫这天所抓取的页面总量有什么用呢?

对于一般的小网站来说,一天能被抓取 74160页是一个很不错数据。但是我上面给出的是一个中型网站,它整个网站的页面总量有800多万有SEO价值的页面。那么,在最理想的情况下,这些页面被搜索引擎抓取完要花费的时间为:

800万 ÷ 74160 页 = 108 天

这是理论上最理想的情况,实际上真实的情况为:

由于有多个爬虫在抓取网站,有很多的页面在一天之内是会被爬虫重复抓取的。有的页面一天之内被抓取20多次,有的页面一天之内只被抓取1次。通过 “停留总时间 ÷ 单个页面停留时间” 得到的页面数量,是没有去除那些重复抓取的页面的。所以搜索引擎一天之内实际抓取的不重复页面没有74160页那么多,而是40000页的样子。还有一点,爬虫今天抓取的页面,到了明天还有很多会被重复抓取。所以爬虫不光在同一天内会重复抓取很多页面,而且到了下一天还是会重复抓取前一天抓取过的很多页面。

这样下来,爬虫平均每天抓取不重复的页面数量就只有10000页的样子了。那么,要爬虫把这个网站所有的页面抓取完需要的时间为:

800万 ÷ 1万页 = 800天

其实,这个800天抓取完整个网站还是太理想化了。实际的情况是很多网站由于结构的原因,有些网页创建后4-5年,都还没被爬虫抓取过。

上面的这个分析过程,都没用到什么惊天动地的计算方法。只要你有一点数据分析的意识,就能看清楚事实的。当一个网站收录量不理想,大家就应该去看看那些页面是不是被搜索引擎爬虫浏览过。如果一个页面都没有被搜索引擎爬虫浏览过,是不可能会被收录的。一个网站的收录量没有上去,那SEO流量的提升就会有很大的一个瓶颈。

根据我们刚才上面的那个分析过程,要提升网站的收录量,首先要解决的就是搜索引擎每天抓取网站的抓取量。而:

抓取量 = 爬虫总的停留时间 ÷ 单个页面的停留时间

一个网站,爬虫总的停留时间在某个期间是保持相对固定的。当然,有方法提高爬虫总的停留时间,不过这不是这篇文章要讲的内容。我们先通过减少个页面的停留时间也可以增加爬虫的抓取量。

减少爬虫单个页面的停留时间,可以简单的认为提高网页加载速度就可以了,虽然实际上这两个因素之间还存在着一个对应关系,但是这里先不讲。这个时候,网页的加载速度就和抓取量之间有了一个正比的关系,网页加载速度越快,爬虫整个的抓取量就越大。抓取量越大,有效收录量就会增加,从而促使SEO流量增加,因为给一个大中型网站带来流量的,90%以上都是长尾词。大中型网站,有时甚至是小网站,只要收录量增加一定的百分比,SEO流量也会增加一定的百分比。网页的加载速度,就和SEO流量之间建立了一个这样的关系。

其实,google也知道网页速度和SEO流量之间的关系,所以早在“网站性能”这个功能推出以前,就推出了另一个功能让大家去用,那个功能就是“google 网站管理员工具”里的“抓取统计信息”。那里把爬虫对你网站的抓取量,和你网页下载的平均时间都列了出来。

如果大家平常注意观察这里面的数据就会发现这样的规律:一旦网站下载时间减少了,那抓取量就会增大一点。

一般小网站,这样的规律还不是太明显。因为有其他影响这个规律的因素存在,而且小网站页面数太少了,爬虫随便多增加几百页的抓取量就影响了50%以上的抓取量。但是在大中型网站,这个规律是非常明显的。如:
0953553.gif

抓取统计信息

当这个网站加快了网页加载速度,爬虫的抓取量就稳步增加了。这个图表能很有利的证明上面提到的理论。

这个图表也再次证明了我在《google 的良苦用心:网站管理员工具》里说的:“google网站管理员工具里的每个功能都是和SEO相关的”。
关于网页速度和排名,google否认曾经将网页速度列为提高排名的因素。而 Matt Cutts 最近也说:In a nutshell – while slow page load times won’t negatively impact your rankings, fast load times may have a positive effect. 有人把它翻译成:网页加载速度慢,不会影响Google排名,但是网页加载快却对排名有积极作用。 其实这样翻译是没有理解这句话,Matt Cutts的意思是:网页加载速度慢,不会影响Google排名,但是网页加载快却有积极作用。拿掉以前那个翻译中的“对排名”三个字即可。至于其中的原因,我想通过这篇文章大家都理解了吧。

这也是为什么我要在《内部链接还是外部链接》里强调一下的:有时候是因为“你没有掌握到他们那么多信息,所以你无法理解他们的话。也不会推测出他们的潜台词以及他们没有说全的话而已。” 我其实很少关注Matt Cutts说什么,但是我看到那篇翻译的文章,就断定Matt Cutts不会那么说。

另外,这个文章中的LOG日志分析工具,在我最近建立的“新基地论坛”上有下载。不过那里需要论坛金币才能下载的。获得论坛金币最快的方法就是把你所拥有的好资源也贡献出来。我希望能用这个方法创造一个“人人为我,我为人人”的环境,做一个高质量的论坛。
 

怎样形成一套科学系统的SEO方法【国平】

点石 发表了文章 • 0 个评论 • 201 次浏览 • 2017-04-18 20:54 • 来自相关话题

尽管SEO在中国已经不陌生,甚至都有形成一个行业的趋势,但是至今业内都还没有一套非常科学系统的分析方法。原因恐怕要归结于搜索引擎优化这个行业的特殊性。搜索引擎严格保守他们的算法,只公布一些大家很难去知道原因的指南。所以很多SEOer都在玩一个永远也不知道具体规则的游戏,这是这个行业混乱的根源。

我多次强调《google网站质量指南》的重要性,还因为这是搜索引擎告诉网站主的仅有的一些正确的规则,如果连这点规则都不好好掌握,那我还不确定大家能从什么地方得到更权威的指导。但是在实战中,尽管你熟读这个《指南》已经比很多人更了解搜索引擎的规则,不过仅仅知道这点东西是不够的,一套科学系统的分析方法能让你走得更远。

我想SEO经过了这么多年的发展,已经不应该再出现那种靠感性分析去做SEO的分析方法了。这种分析方法常用的语句就是:我觉得搜索引擎会如何如何。如:我觉得搜索引擎不会那么笨,这点一定能处理好;我觉得搜索引擎会把这个因素当作排名的因素之一……。如果你是依靠感性分析去做SEO的,那你的SEO流量的变化曲线也是很感性的。当然更不能去无根据的臆测和道听途说。如:没有理论基础的去猜想搜索引擎会怎么样或者每逢搜索引擎的相关人员以及什么权威人士发表什么演说,就去盲目听从。

既然搜索引擎不告诉我们具体算法,那我们怎么才能建立这套科学系统的分析方法?答案是:从你知道的确信一定正确的理论开始,慢慢在实践中进化。

在上一篇《网页加载速度是如何影响SEO效果的》中的那个分析过程,就是从一个确切知道的理论去分析,然后得到了另一个确切的影响SEO流量的因素。在这个过程中,确信没有错的理论是:搜索引擎爬虫一定要抓取过那个页面以后,才会有机会收录这个网页的。根据文章中那个接下来的数据分析,可以得到:网页加载速度会在很大程度上影响SEO流量。

那接着分析,什么措施能影响网页加载速度呢? 网络环境、服务器硬件、CMS本身都能影响网页加载速度。优化其中的任何一项,都能提升网页加载速度。那马上又可以得出:网络环境影响SEO流量、服务器硬件影响SEO流量、CMS本身的速度影响SEO流量。

接着分析,CMS本身的优化可以做的事情有哪些呢? 启用Gzip压缩、合并CSS和JS文件、减少DNS查询、启用缓存等等都能优化CMS本身的速度。……这些东西,看起来是这么的眼熟,那是因为在《google网站管理员工具》里的“网站性能”里,已经把这些建议都告诉你了。但是根据我们上面的这个分析过程,可以知道, “网站性能”里提到的这些优化,都是CMS本身的优化,并没有提到网络环境和服务器硬件的优化。只不过你确定这两个因素是确实影响SEO流量的。如果哪一天《google 黑板报》或者 google的官方博客(需要翻墙)上出现一篇文章,告诉你如何挑选一个好的服务器托管商,千万不要惊讶,因为你早就知道为什么了。google一直以来都在用这种方式告诉你要如何去优化一些什么因素,只是站在他们的立场,不会详细向你解释为什么要这么做。

通过数据分析,还能知道谁影响的程度大一点,谁小一点。

很多的常识因素都可以这样一步步进化下去,这个分析过程,是非常科学的。不管是对你自己还是其他人,其中的原理你都可以解释得非常清楚。并且在这个进化的过程中,你会发现你越来越能控制好SEO流量了。每一步的进化,意味着你对搜索引擎的了解又多了一点、SEO的知识结构又完善了一点,同时,对SEO流量的控制能力又变强了一点。同时,你发现你和网页设计师以及工程师的矛盾也越来越少,因为好的SEO,是不会让SEO和网页设计师以及工程师的利益是矛盾的。





只要经历过非常多这样的分析过程,一定会颠覆很多人原有的SEO知识结构。因为以前很多流传的SEO方法,很多都是感性分析的居多,没有解释为什么要这么做,没有数据上的支撑,甚至没有理论上的支撑,所以没有抓住重点。我在《分词与索引库 》说过,可能你以为是细节的东西,其实是重点,你以为是重点的东西,其实都可以忽略。

那么,在日常的SEO工作中,是一些什么能力支撑着你去进行这样一个分析过程呢?

不知道大家还是不是记得我在《怎么样去学SEO 》提到的那四种能力,在这个分析过程中:

1,弄懂搜索引擎相关技术和原理:可以从根本上了解搜索引擎,确定很多一定正确的理论,并可以找到很多值得去分析的线索。

2,了解网站制作相关的技术:能让你清楚网站上有哪些因素能影响搜索引擎的哪些方面,并用什么方法来解决问题。

3,数据分析能力:可以了解各种现有的因素如何影响SEO流量,并依靠这种能力挖掘更多的因素。科学系统的SEO分析过程,从头到尾都离不开数据的支撑。

4,了解你要排名的那个搜索引擎:不管你怎么努力,还是会有一些数据上和理论上都无法理解的问题。每个搜索引擎就像和人一样,是有一定的秉性的。可以通过你对这个搜索引擎的了解来得到答案。同时了解这个搜索引擎,也能让你获得更多的可以分析的因素。

最后说一下,这种从常识出发来科学系统的进行SEO分析的方法比了解部分搜索引擎的算法还更能控制SEO流量。
可能很多人会反驳这个观点,比如前段时间我朋友就和我说某外贸B2C网站的创始人是从谷歌出来的,那他们一定能做好SEO,我说那是不可能的。只有那些自己做过搜索引擎的人才会理解为什么。比如:alibaba的B2B网站也算是一个搜索引擎,我是知道其中的排序规则的,但是如果给我一个商家的网站,要我在alibaba上获得流量,在没有一套科学系统的方法之前,我是肯定做不好的。因为搜索引擎的算法不是加减乘除,不是这个因素加那个因素做好了就可以获得好流量的。搜索引擎的设计者,知道这个或者那个因素的权重大小,以及可能产生的大致结果,但是具体的结果是自己也不能控制的。要不然百度的人,不会每天搜索上千个词语来查看搜索结果的准确度了。而google的成功,也有一部分原因是当初yahoo采用了它的搜索技术,google借此积累了大量数据,实践并改进了算法。

而且,在搜索引擎内部,只有极少数的人知道各个因素的权重大小,绝大部分设计搜索引擎的工程师,都是负责某个具体的任务,优化和解决某个具体的问题,如负责爬虫的工程师解决提高爬虫效率这一块的工作,负责内容消重的工程师就去减少索引重复内容。 连设计这个搜索引擎的工程师都如此,更别提一个远在其他国家的分公司的人员了。要不然,百度和google这么多离职的工程师不早就把算法泄漏了。

如果能自己用开源的程序做一个小规模的搜索引擎,就更能理解这个问题。即使这个搜索引擎的算法都是你自己调配的,你都不能预料到后来的搜索结果。而且做搜索引擎是一回事,在搜索引擎上拉流量又是另一回事了。不然google不会后知后觉的知道原来网页加载速度影响SEO流量。

文章出处:http://www.semyj.com/archives/1032 作者:国平 查看全部
尽管SEO在中国已经不陌生,甚至都有形成一个行业的趋势,但是至今业内都还没有一套非常科学系统的分析方法。原因恐怕要归结于搜索引擎优化这个行业的特殊性。搜索引擎严格保守他们的算法,只公布一些大家很难去知道原因的指南。所以很多SEOer都在玩一个永远也不知道具体规则的游戏,这是这个行业混乱的根源。

我多次强调《google网站质量指南》的重要性,还因为这是搜索引擎告诉网站主的仅有的一些正确的规则,如果连这点规则都不好好掌握,那我还不确定大家能从什么地方得到更权威的指导。但是在实战中,尽管你熟读这个《指南》已经比很多人更了解搜索引擎的规则,不过仅仅知道这点东西是不够的,一套科学系统的分析方法能让你走得更远。

我想SEO经过了这么多年的发展,已经不应该再出现那种靠感性分析去做SEO的分析方法了。这种分析方法常用的语句就是:我觉得搜索引擎会如何如何。如:我觉得搜索引擎不会那么笨,这点一定能处理好;我觉得搜索引擎会把这个因素当作排名的因素之一……。如果你是依靠感性分析去做SEO的,那你的SEO流量的变化曲线也是很感性的。当然更不能去无根据的臆测和道听途说。如:没有理论基础的去猜想搜索引擎会怎么样或者每逢搜索引擎的相关人员以及什么权威人士发表什么演说,就去盲目听从。

既然搜索引擎不告诉我们具体算法,那我们怎么才能建立这套科学系统的分析方法?答案是:从你知道的确信一定正确的理论开始,慢慢在实践中进化。

在上一篇《网页加载速度是如何影响SEO效果的》中的那个分析过程,就是从一个确切知道的理论去分析,然后得到了另一个确切的影响SEO流量的因素。在这个过程中,确信没有错的理论是:搜索引擎爬虫一定要抓取过那个页面以后,才会有机会收录这个网页的。根据文章中那个接下来的数据分析,可以得到:网页加载速度会在很大程度上影响SEO流量。

那接着分析,什么措施能影响网页加载速度呢? 网络环境、服务器硬件、CMS本身都能影响网页加载速度。优化其中的任何一项,都能提升网页加载速度。那马上又可以得出:网络环境影响SEO流量、服务器硬件影响SEO流量、CMS本身的速度影响SEO流量。

接着分析,CMS本身的优化可以做的事情有哪些呢? 启用Gzip压缩、合并CSS和JS文件、减少DNS查询、启用缓存等等都能优化CMS本身的速度。……这些东西,看起来是这么的眼熟,那是因为在《google网站管理员工具》里的“网站性能”里,已经把这些建议都告诉你了。但是根据我们上面的这个分析过程,可以知道, “网站性能”里提到的这些优化,都是CMS本身的优化,并没有提到网络环境和服务器硬件的优化。只不过你确定这两个因素是确实影响SEO流量的。如果哪一天《google 黑板报》或者 google的官方博客(需要翻墙)上出现一篇文章,告诉你如何挑选一个好的服务器托管商,千万不要惊讶,因为你早就知道为什么了。google一直以来都在用这种方式告诉你要如何去优化一些什么因素,只是站在他们的立场,不会详细向你解释为什么要这么做。

通过数据分析,还能知道谁影响的程度大一点,谁小一点。

很多的常识因素都可以这样一步步进化下去,这个分析过程,是非常科学的。不管是对你自己还是其他人,其中的原理你都可以解释得非常清楚。并且在这个进化的过程中,你会发现你越来越能控制好SEO流量了。每一步的进化,意味着你对搜索引擎的了解又多了一点、SEO的知识结构又完善了一点,同时,对SEO流量的控制能力又变强了一点。同时,你发现你和网页设计师以及工程师的矛盾也越来越少,因为好的SEO,是不会让SEO和网页设计师以及工程师的利益是矛盾的。

0910000.gif

只要经历过非常多这样的分析过程,一定会颠覆很多人原有的SEO知识结构。因为以前很多流传的SEO方法,很多都是感性分析的居多,没有解释为什么要这么做,没有数据上的支撑,甚至没有理论上的支撑,所以没有抓住重点。我在《分词与索引库 》说过,可能你以为是细节的东西,其实是重点,你以为是重点的东西,其实都可以忽略。

那么,在日常的SEO工作中,是一些什么能力支撑着你去进行这样一个分析过程呢?

不知道大家还是不是记得我在《怎么样去学SEO 》提到的那四种能力,在这个分析过程中:

1,弄懂搜索引擎相关技术和原理:可以从根本上了解搜索引擎,确定很多一定正确的理论,并可以找到很多值得去分析的线索。

2,了解网站制作相关的技术:能让你清楚网站上有哪些因素能影响搜索引擎的哪些方面,并用什么方法来解决问题。

3,数据分析能力:可以了解各种现有的因素如何影响SEO流量,并依靠这种能力挖掘更多的因素。科学系统的SEO分析过程,从头到尾都离不开数据的支撑。

4,了解你要排名的那个搜索引擎:不管你怎么努力,还是会有一些数据上和理论上都无法理解的问题。每个搜索引擎就像和人一样,是有一定的秉性的。可以通过你对这个搜索引擎的了解来得到答案。同时了解这个搜索引擎,也能让你获得更多的可以分析的因素。

最后说一下,这种从常识出发来科学系统的进行SEO分析的方法比了解部分搜索引擎的算法还更能控制SEO流量。
可能很多人会反驳这个观点,比如前段时间我朋友就和我说某外贸B2C网站的创始人是从谷歌出来的,那他们一定能做好SEO,我说那是不可能的。只有那些自己做过搜索引擎的人才会理解为什么。比如:alibaba的B2B网站也算是一个搜索引擎,我是知道其中的排序规则的,但是如果给我一个商家的网站,要我在alibaba上获得流量,在没有一套科学系统的方法之前,我是肯定做不好的。因为搜索引擎的算法不是加减乘除,不是这个因素加那个因素做好了就可以获得好流量的。搜索引擎的设计者,知道这个或者那个因素的权重大小,以及可能产生的大致结果,但是具体的结果是自己也不能控制的。要不然百度的人,不会每天搜索上千个词语来查看搜索结果的准确度了。而google的成功,也有一部分原因是当初yahoo采用了它的搜索技术,google借此积累了大量数据,实践并改进了算法。

而且,在搜索引擎内部,只有极少数的人知道各个因素的权重大小,绝大部分设计搜索引擎的工程师,都是负责某个具体的任务,优化和解决某个具体的问题,如负责爬虫的工程师解决提高爬虫效率这一块的工作,负责内容消重的工程师就去减少索引重复内容。 连设计这个搜索引擎的工程师都如此,更别提一个远在其他国家的分公司的人员了。要不然,百度和google这么多离职的工程师不早就把算法泄漏了。

如果能自己用开源的程序做一个小规模的搜索引擎,就更能理解这个问题。即使这个搜索引擎的算法都是你自己调配的,你都不能预料到后来的搜索结果。而且做搜索引擎是一回事,在搜索引擎上拉流量又是另一回事了。不然google不会后知后觉的知道原来网页加载速度影响SEO流量。

文章出处:http://www.semyj.com/archives/1032 作者:国平

实施网站A/B测试并兼顾SEO不受影响的解决方案

点石 发表了文章 • 0 个评论 • 145 次浏览 • 2017-02-14 21:08 • 来自相关话题

现在互联网公司越来越流行A/B测试来做网站用户体验的优化,像阿里巴巴英文站首页的改版就是A/B测试不断微调出来的,这也的确是个非常科学的方法。只是对于大中型网站而言,对SEO着陆页做大范围的A/B测试是一个有风险的行为,那么如何降低对SEO流量负面影响的风险,是本篇文章讨论的重点,除此以外我还会总结如何更好的做好AB页面的监控。

第一,我们得先构建详细需求并确认最终目标。在我所接触的项目当中,PM打算改占SEO流量总比达80%的产品页,对页面上的内容结构进行AB测试(同一个页面有AB两种版本,用户被分发AB页面上),希望能找到用户更喜欢的内容呈现顺序及界面还有就是优化用户体验指标(跳出率,平均停留时间等)。由于这个页面是命根子,所以马虎不得。现在了解了PM的想法之后,我就知道,由于涉及了内容变更,所以对SEO多少是有影响的,那么第一个需求确定下来,就是AB测试一定不能影响到SEO流量。第二个需求是,在PM最终看到的数据上,A页面及B页面的访问量数据一定得基本相同,这样才能保证其他的用户体验指标以及转化率指标有参考价值,如果A页面访问量远大于B页面,那么数据就可能存在偏差。除此以外,A,B两种页面的用户群体也得几乎是相同的,这么做同样是为了保证数据的参考价值。

第二,现在我们开始将核心需求细化,落到实处。保证SEO不受影响的根本方法是,保证搜索引擎爬取的页面URL不变,同时不会被分发到A页面以外的其他页面。这里需要用到的就是白帽cloaking,具体方法有两种:1,利用UA判断爬虫,对应返回页面;2,利用蜘蛛不接受cookie这个特点来做判断(类似于lynx -dump)。两者相较后者更适合AB测试,因为本身用户被分发页面时就会用到cookie(比如A页面的cookie值为A,B页面的cookie值为B)。所以我当时绘制的理想的路径如下图:
 







但实际上面的这个流程是走不通的,因为我犯了个低级失误,那就是cookie本身的工作机制没有搞清除——用户的cookie是在每次HTTP连接的request headers当中传递的(感兴趣的朋友可以去看报头),也就是说如果顺着我上面的流程走的话,在无cookie的情况下,生成了cookie之后我立马去获取cookie内容是肯定不会获取到的,因为用户的HTTP请求已经发过来了并且开始被程序处理了,这个时候尽管程序判断出来需要生成cookie,而且也的确把cookie保存到了用户电脑,但是除非有第二次HTTP请求,否则你就是获取不到cookie的值。

那么怎么办呢?那就索性不做二次获取了,而变为固定调用一个页面的模板。但是绝不能是A或者B页面,需要新建一个HTML模板,我称之为默认模板,实际上直接复制A页面模板即可,之所以新加一个模板一是为了保证爬虫的抓取URL及页面内容的不变;二是为了新访客的访问不被计入到A页面,而导致整体访问量上AB页面的失衡;三是为了划分用户群体,新增了这个默认模板后,所有参与AB测试的都是同一群体用户——PV/VISITS大于等于2。一石三鸟看似美好,但也损失了一些部分测试用户的访问量。其实如果要进一步优化的话,在随机生成cookie的步骤后面可以增加对蜘蛛UA的判断,如果UA为蜘蛛则调用默认页面模板,否则根据cookie值调用A或B页面的模板即可。这里稳妥起见,而且样本数量也足够了,所以没做。
 
最终流程如下下图所示:





 
 
 
第三,其他的一些注意点及辅助工具:

1,GA统计代码上需要小调整,主要是调整trackPageview属性,默认页面用_gaq.push(['_trackPageview']);。A页面改写一下_gaq.push(['_trackPageviwe','A页面']);,A页面这几个字随便改,比如可以改成测试页面的URL加个后斜杠然后加个A这种:“/product/123456/a”。B页面同样改就行了。

2,做完页面名称自定义后用正则即可匹配出AB页面,这时一定得在GA中新建两个自定义报告分别拆分AB两个页面的访问指标(高级细分很悲剧的不可以实现,否则对比数据起来就爽多了)

3,在AB页面上布置百度热力图或者cnzz的热力图。挑选这两个是因为GA的In-Page Analytics只能统计到用户点击的链接位置,而热力图除此以外还能提供用户在页面上的其他点击行为,比如用户滚屏了多少。从数据上来看,热力图更接近于用户的眼动轨迹,因此价值更高。缺点是貌似只能布置几个页面。。。

4,检查AB测试中蜘蛛访问是否正确的方法是禁用浏览器cookie。而如果是要检查AB是否正确就反复清空浏览器cookie访问吧。

总结:AB测试并不难做,而且再次证明SEO和用户体验完全不冲突,除非你不懂技术。aliued早在2010年就写过类似的文章,有兴趣的朋友也可以去看看http://www.aliued.cn/2010/09/2 ... .html

原文链接:http://www.seodug.com/ued/abtest-seo-tutorial/ 查看全部
现在互联网公司越来越流行A/B测试来做网站用户体验的优化,像阿里巴巴英文站首页的改版就是A/B测试不断微调出来的,这也的确是个非常科学的方法。只是对于大中型网站而言,对SEO着陆页做大范围的A/B测试是一个有风险的行为,那么如何降低对SEO流量负面影响的风险,是本篇文章讨论的重点,除此以外我还会总结如何更好的做好AB页面的监控。

第一,我们得先构建详细需求并确认最终目标。在我所接触的项目当中,PM打算改占SEO流量总比达80%的产品页,对页面上的内容结构进行AB测试(同一个页面有AB两种版本,用户被分发AB页面上),希望能找到用户更喜欢的内容呈现顺序及界面还有就是优化用户体验指标(跳出率,平均停留时间等)。由于这个页面是命根子,所以马虎不得。现在了解了PM的想法之后,我就知道,由于涉及了内容变更,所以对SEO多少是有影响的,那么第一个需求确定下来,就是AB测试一定不能影响到SEO流量。第二个需求是,在PM最终看到的数据上,A页面及B页面的访问量数据一定得基本相同,这样才能保证其他的用户体验指标以及转化率指标有参考价值,如果A页面访问量远大于B页面,那么数据就可能存在偏差。除此以外,A,B两种页面的用户群体也得几乎是相同的,这么做同样是为了保证数据的参考价值。

第二,现在我们开始将核心需求细化,落到实处。保证SEO不受影响的根本方法是,保证搜索引擎爬取的页面URL不变,同时不会被分发到A页面以外的其他页面。这里需要用到的就是白帽cloaking,具体方法有两种:1,利用UA判断爬虫,对应返回页面;2,利用蜘蛛不接受cookie这个特点来做判断(类似于lynx -dump)。两者相较后者更适合AB测试,因为本身用户被分发页面时就会用到cookie(比如A页面的cookie值为A,B页面的cookie值为B)。所以我当时绘制的理想的路径如下图:
 

ABtest.gif



但实际上面的这个流程是走不通的,因为我犯了个低级失误,那就是cookie本身的工作机制没有搞清除——用户的cookie是在每次HTTP连接的request headers当中传递的(感兴趣的朋友可以去看报头),也就是说如果顺着我上面的流程走的话,在无cookie的情况下,生成了cookie之后我立马去获取cookie内容是肯定不会获取到的,因为用户的HTTP请求已经发过来了并且开始被程序处理了,这个时候尽管程序判断出来需要生成cookie,而且也的确把cookie保存到了用户电脑,但是除非有第二次HTTP请求,否则你就是获取不到cookie的值。

那么怎么办呢?那就索性不做二次获取了,而变为固定调用一个页面的模板。但是绝不能是A或者B页面,需要新建一个HTML模板,我称之为默认模板,实际上直接复制A页面模板即可,之所以新加一个模板一是为了保证爬虫的抓取URL及页面内容的不变;二是为了新访客的访问不被计入到A页面,而导致整体访问量上AB页面的失衡;三是为了划分用户群体,新增了这个默认模板后,所有参与AB测试的都是同一群体用户——PV/VISITS大于等于2。一石三鸟看似美好,但也损失了一些部分测试用户的访问量。其实如果要进一步优化的话,在随机生成cookie的步骤后面可以增加对蜘蛛UA的判断,如果UA为蜘蛛则调用默认页面模板,否则根据cookie值调用A或B页面的模板即可。这里稳妥起见,而且样本数量也足够了,所以没做。
 
最终流程如下下图所示:

chanpin.gif

 
 
 
第三,其他的一些注意点及辅助工具:

1,GA统计代码上需要小调整,主要是调整trackPageview属性,默认页面用_gaq.push(['_trackPageview']);。A页面改写一下_gaq.push(['_trackPageviwe','A页面']);,A页面这几个字随便改,比如可以改成测试页面的URL加个后斜杠然后加个A这种:“/product/123456/a”。B页面同样改就行了。

2,做完页面名称自定义后用正则即可匹配出AB页面,这时一定得在GA中新建两个自定义报告分别拆分AB两个页面的访问指标(高级细分很悲剧的不可以实现,否则对比数据起来就爽多了)

3,在AB页面上布置百度热力图或者cnzz的热力图。挑选这两个是因为GA的In-Page Analytics只能统计到用户点击的链接位置,而热力图除此以外还能提供用户在页面上的其他点击行为,比如用户滚屏了多少。从数据上来看,热力图更接近于用户的眼动轨迹,因此价值更高。缺点是貌似只能布置几个页面。。。

4,检查AB测试中蜘蛛访问是否正确的方法是禁用浏览器cookie。而如果是要检查AB是否正确就反复清空浏览器cookie访问吧。

总结:AB测试并不难做,而且再次证明SEO和用户体验完全不冲突,除非你不懂技术。aliued早在2010年就写过类似的文章,有兴趣的朋友也可以去看看http://www.aliued.cn/2010/09/2 ... .html

原文链接:http://www.seodug.com/ued/abtest-seo-tutorial/

SEO如何处理采集内容(4)

点石 发表了文章 • 0 个评论 • 208 次浏览 • 2016-11-14 18:00 • 来自相关话题

两个问题

在准备采集前找词的时候,有个蛋疼的问题:

无论任何一种找词渠道,固定搜索词(如阿拉巴巴招聘)和个性搜索词(如阿里巴巴工程师级别怎么划分)总是杂糅到一块的,对于同一词根下的扩展词,如何将这两类词分开?
固定搜索词往往可以根据固定词缀的出现次数来预估关键词的流量,毕竟同一个词缀出现次数高,流量也会相对高。但个性化搜索词流量和竞争度怎么判断?

为什么非要把两类词找出来呢?因为这两类词的采集源往往是不同的……

如何将固定搜索词和个性化搜索词分开

因为固定搜索词都包含通用的词缀,比如:php工程师工资、java程序员工资、学php有前途吗、python程序员工资...这里面“工资”就是通用词缀,前面可以跟任何关于职位的变量。

程序搞定?

所以可以通过程序分词,把包含连续出现多次词缀的关键词单独提出来,这点可以通过python的jieba分词模块配合word2vec来搞,或者配合K-means也可以。

然而实际中,由于jieba默认词典的限制,导致在不同行业内分词不理想的情况,比如没有把通用词缀单独切出来,致使后面聚类的效果也不理想的情况。

要达到理想情况,就要不断优化jieba分词词典和聚类算法。

但本渣渣是伪技术,只会装逼。即便能搞定也得花挺长时间。

人肉搞定?

人肉搞定思路就很简单了

首先把全行业所有的固定搜索行为全部找出来,比如这是招聘行业的固定搜索行为,即便不全也可以覆盖大部分:

当把固定搜索行为找出后,就知道这个行业都有哪些通用词缀,剩下的事简单了,还是照常跑词,把跑出来的词包含通用词缀的全部拎出来,剩下的就都是个性化搜索词了。这完全是个力气活,拼体力。

全行业固定搜索词怎么找?之前本渣渣写过,详见:【SEO】关键词数据分析

个性化搜索词流量怎么判断

简单的就是跑指数了,爱站和战神软件都有这功能。但如果大部分都没有指数怎么办?

相对精准的搜索量本渣渣也不知道该怎么判断,但是可以从关键词来源渠道来评个优先级。

比如移动端跑出来的词一定比从pc端的优先级高。

百度相关搜索的词一定比凤巢的优先级高(凤巢的词都被做烂了,小站没机会)

如果要上的内容类型是问答类的,那百度知道相关搜索词一定比百度新闻相关搜索词优先级高



个性化搜索词竞争度怎么判断

本渣渣就粗暴的看百度搜索结果

搜索结果数越低,竞争度越低,而且title放别人做的少的词被收录的概率也会大
前10搜索结果中,关键词飘红的次数,次数越低,竞争度越低
{word} site:(domain1 | domain2 | domain3) ,看一下几个大网站有没有做,尤其是58赶集、1688这种流氓,因为这些超大型站点做的词,大中型站点也跟着做,超大中型站点都抢的词,就没小站什么事了。
来自gogo闯博客 查看全部
两个问题

在准备采集前找词的时候,有个蛋疼的问题:

无论任何一种找词渠道,固定搜索词(如阿拉巴巴招聘)和个性搜索词(如阿里巴巴工程师级别怎么划分)总是杂糅到一块的,对于同一词根下的扩展词,如何将这两类词分开?
固定搜索词往往可以根据固定词缀的出现次数来预估关键词的流量,毕竟同一个词缀出现次数高,流量也会相对高。但个性化搜索词流量和竞争度怎么判断?

为什么非要把两类词找出来呢?因为这两类词的采集源往往是不同的……

如何将固定搜索词和个性化搜索词分开

因为固定搜索词都包含通用的词缀,比如:php工程师工资、java程序员工资、学php有前途吗、python程序员工资...这里面“工资”就是通用词缀,前面可以跟任何关于职位的变量。

程序搞定?

所以可以通过程序分词,把包含连续出现多次词缀的关键词单独提出来,这点可以通过python的jieba分词模块配合word2vec来搞,或者配合K-means也可以。

然而实际中,由于jieba默认词典的限制,导致在不同行业内分词不理想的情况,比如没有把通用词缀单独切出来,致使后面聚类的效果也不理想的情况。

要达到理想情况,就要不断优化jieba分词词典和聚类算法。

但本渣渣是伪技术,只会装逼。即便能搞定也得花挺长时间。

人肉搞定?

人肉搞定思路就很简单了

首先把全行业所有的固定搜索行为全部找出来,比如这是招聘行业的固定搜索行为,即便不全也可以覆盖大部分:

当把固定搜索行为找出后,就知道这个行业都有哪些通用词缀,剩下的事简单了,还是照常跑词,把跑出来的词包含通用词缀的全部拎出来,剩下的就都是个性化搜索词了。这完全是个力气活,拼体力。

全行业固定搜索词怎么找?之前本渣渣写过,详见:【SEO】关键词数据分析

个性化搜索词流量怎么判断

简单的就是跑指数了,爱站和战神软件都有这功能。但如果大部分都没有指数怎么办?

相对精准的搜索量本渣渣也不知道该怎么判断,但是可以从关键词来源渠道来评个优先级。

比如移动端跑出来的词一定比从pc端的优先级高。

百度相关搜索的词一定比凤巢的优先级高(凤巢的词都被做烂了,小站没机会)

如果要上的内容类型是问答类的,那百度知道相关搜索词一定比百度新闻相关搜索词优先级高



个性化搜索词竞争度怎么判断

本渣渣就粗暴的看百度搜索结果

搜索结果数越低,竞争度越低,而且title放别人做的少的词被收录的概率也会大
前10搜索结果中,关键词飘红的次数,次数越低,竞争度越低
{word} site:(domain1 | domain2 | domain3) ,看一下几个大网站有没有做,尤其是58赶集、1688这种流氓,因为这些超大型站点做的词,大中型站点也跟着做,超大中型站点都抢的词,就没小站什么事了。
来自gogo闯博客

SEO如何处理采集内容(3)

点石 发表了文章 • 0 个评论 • 169 次浏览 • 2016-11-14 17:58 • 来自相关话题

采集内容上线逻辑

有基友问采集的内容怎么分类,抓取的词怎么分类。其实很简单,做个小网站就都明白了,本渣渣在此科普下

采集内容清洗后是要入库的,入库就得有逻辑,所以在采集一开始就得想到这点,并设计采集到上线的流程

每个站点情况都不一样,但最最基础的模式类似下面这种:


确定要做的主题,从这个主题里选几个词根,一个词根或几个词根就代表一个内容分类
用词跟去扩展,挖出要做的流量词
挖出来的词,依次去抓取对应的内容

如上图,比方说我设定1个词根,从这个词根挖出10个扩展词,每个扩展词分别抓20篇内容,那么在这个词根(内容主题)下,我有100篇内容可以上线。那要上线的页面一般分两个:

详情页面
聚合页面

那么,详情页面就是抓过来的100篇内容;聚合页面就是由词根挖出来的10个扩展词,每个扩展词生成一个列表页或其他形式的聚合页面,页面内容就是对应这个词采集的20篇内容。

数据表格式

所以,上线起码要有3个表,用mysql举例,要是用mongodb啥的非关系型数据库自己转化一下~~~

词根表

频道 频道ID
a 1
b 2
c 3
… …

扩展词表

关键词 关键词ID 所属频道ID 优先级 相关词
word1 1 1 s kw1,kw2,kw3..
word2 2 1 s kw1,kw2,kw3..
word3 3 2 a kw1,kw2,kw3..
word4 4 2 a kw1,kw2,kw3..
word5 5 2 a kw1,kw2,kw3..
word6 6 3 a kw1,kw2,kw3..
word7 7 3 a kw1,kw2,kw3..
word8 8 3 a kw1,kw2,kw3..
… … … … …

每个扩展词都标记所属频道的id,这样上线的时候就可以做同频道扩展词的相互推荐

另外可以对每个扩展词,通过竞争度、搜索量、挖词渠道质量、收录、排名等指标设定这个词的优先级,优先级高的词在站内给予更多的链接支持

这个字段可以弄成动态的,比方说上线后每周查一遍排名,凡是在第二页、第三页的关键词优先级都调整到最高,提供更多的链接支持冲到第一页去…

相关词就是这类词的同义词,或者干脆抓这个词的相关搜索,把这些词嵌入到页面中,万一被用户搜索命中就能跑到首页呢…

其他根据具体需求设置调整扩展词表的字段,全靠创新,没固定的套路

详情内容表

标题 正文 文章ID 所属扩展词ID 所属频道ID
title1 content1 1 1 1
title2 content2 1 1 1
title3 content3 1 1 1
title4 content4 2 1 1
title5 content5 2 1 1
title6 content6 2 1 1
title7 content7 3 2 1
title8 content8 3 2 1
title9 content9 3 2 1
… … … … …

每个文章都映射所属扩展词id和所属频道

举个实例

以上是个最简单的模式,可以用这个模式根据网站本身的情况去套,比方说我有个卖音乐设备的站,网站主要内容就是围绕产品或品牌的产品信息。

音乐设备行业固定搜索词不多,但深挖的话有能找到不少个性化的搜索词,比如“XX鼓简单曲子” “xxx和什么搭配好”…这种搜索行为只能基于某个产品或某个品牌才会产生这种搜索,不能像“XX价格”、“XX测评”适用于所有产品和品牌,可以批量上页面的。

但又想拿到这些个性化搜索词的流量怎么办?没办法通过改现有页面标题来覆盖,那就只能每个词生成新页面来覆盖了,而网站主要内容是产品信息,无法覆盖这种个性化搜索词,那就只能去采集喽

那么根据上图的套路,那么词根就是每个产品和品牌,用这些词去各种渠道找流量词,找到流量词再去大平台抓对应的内容。

到了上线阶段,理想情况下是每个扩展词采集20篇内容,这样生成的聚合页都有20条信息(Zero大神测试过,列表页信息条数在20条的时候,获得首页排名的概率比其他条数要高),但理想很美好,现实很残酷,并不可能所有的扩展词都能抓到20条内容,那么怎么办?

每个扩展词都有所属词根的,而每个所属词根在站内都是有产品信息内容的,所以一个词根下的扩展词,在数据库内除了有采集过来的内容,也有原先就有的产品信息内容,这些两类内容虽然说得不是一个词,但是都在同一个主题下,都是属于某个品牌或产品的。一个扩展词只采集到3条内容,生成新页面则是个空短页面,不会被收录,那么可以再调用这个扩展词所属词根的产品信息来补全,以此来提升页面质量

来自gogo闯博客 查看全部
采集内容上线逻辑

有基友问采集的内容怎么分类,抓取的词怎么分类。其实很简单,做个小网站就都明白了,本渣渣在此科普下

采集内容清洗后是要入库的,入库就得有逻辑,所以在采集一开始就得想到这点,并设计采集到上线的流程

每个站点情况都不一样,但最最基础的模式类似下面这种:


确定要做的主题,从这个主题里选几个词根,一个词根或几个词根就代表一个内容分类
用词跟去扩展,挖出要做的流量词
挖出来的词,依次去抓取对应的内容

如上图,比方说我设定1个词根,从这个词根挖出10个扩展词,每个扩展词分别抓20篇内容,那么在这个词根(内容主题)下,我有100篇内容可以上线。那要上线的页面一般分两个:

详情页面
聚合页面

那么,详情页面就是抓过来的100篇内容;聚合页面就是由词根挖出来的10个扩展词,每个扩展词生成一个列表页或其他形式的聚合页面,页面内容就是对应这个词采集的20篇内容。

数据表格式

所以,上线起码要有3个表,用mysql举例,要是用mongodb啥的非关系型数据库自己转化一下~~~

词根表

频道 频道ID
a 1
b 2
c 3
… …

扩展词表

关键词 关键词ID 所属频道ID 优先级 相关词
word1 1 1 s kw1,kw2,kw3..
word2 2 1 s kw1,kw2,kw3..
word3 3 2 a kw1,kw2,kw3..
word4 4 2 a kw1,kw2,kw3..
word5 5 2 a kw1,kw2,kw3..
word6 6 3 a kw1,kw2,kw3..
word7 7 3 a kw1,kw2,kw3..
word8 8 3 a kw1,kw2,kw3..
… … … … …

每个扩展词都标记所属频道的id,这样上线的时候就可以做同频道扩展词的相互推荐

另外可以对每个扩展词,通过竞争度、搜索量、挖词渠道质量、收录、排名等指标设定这个词的优先级,优先级高的词在站内给予更多的链接支持

这个字段可以弄成动态的,比方说上线后每周查一遍排名,凡是在第二页、第三页的关键词优先级都调整到最高,提供更多的链接支持冲到第一页去…

相关词就是这类词的同义词,或者干脆抓这个词的相关搜索,把这些词嵌入到页面中,万一被用户搜索命中就能跑到首页呢…

其他根据具体需求设置调整扩展词表的字段,全靠创新,没固定的套路

详情内容表

标题 正文 文章ID 所属扩展词ID 所属频道ID
title1 content1 1 1 1
title2 content2 1 1 1
title3 content3 1 1 1
title4 content4 2 1 1
title5 content5 2 1 1
title6 content6 2 1 1
title7 content7 3 2 1
title8 content8 3 2 1
title9 content9 3 2 1
… … … … …

每个文章都映射所属扩展词id和所属频道

举个实例

以上是个最简单的模式,可以用这个模式根据网站本身的情况去套,比方说我有个卖音乐设备的站,网站主要内容就是围绕产品或品牌的产品信息。

音乐设备行业固定搜索词不多,但深挖的话有能找到不少个性化的搜索词,比如“XX鼓简单曲子” “xxx和什么搭配好”…这种搜索行为只能基于某个产品或某个品牌才会产生这种搜索,不能像“XX价格”、“XX测评”适用于所有产品和品牌,可以批量上页面的。

但又想拿到这些个性化搜索词的流量怎么办?没办法通过改现有页面标题来覆盖,那就只能每个词生成新页面来覆盖了,而网站主要内容是产品信息,无法覆盖这种个性化搜索词,那就只能去采集喽

那么根据上图的套路,那么词根就是每个产品和品牌,用这些词去各种渠道找流量词,找到流量词再去大平台抓对应的内容。

到了上线阶段,理想情况下是每个扩展词采集20篇内容,这样生成的聚合页都有20条信息(Zero大神测试过,列表页信息条数在20条的时候,获得首页排名的概率比其他条数要高),但理想很美好,现实很残酷,并不可能所有的扩展词都能抓到20条内容,那么怎么办?

每个扩展词都有所属词根的,而每个所属词根在站内都是有产品信息内容的,所以一个词根下的扩展词,在数据库内除了有采集过来的内容,也有原先就有的产品信息内容,这些两类内容虽然说得不是一个词,但是都在同一个主题下,都是属于某个品牌或产品的。一个扩展词只采集到3条内容,生成新页面则是个空短页面,不会被收录,那么可以再调用这个扩展词所属词根的产品信息来补全,以此来提升页面质量

来自gogo闯博客
可控seo,包含seo数据分析方法,工具知识!