八月份有一家做五金出口的独立站,原本谷歌收录有4500个页面。到了九月中旬,收录量滑落到1200个。后台的谷歌站长工具里堆满了“已抓取-目前尚未编入索引”的标记。不少外贸外销员发现原本排在第二页的产品名次完全见不到了。线上店铺遇到了大范围的索引清理。过去依靠软件自动拼凑文章、堆砌50个同义词的方法失灵了。机房的服务器需要耗费大量电力,分给新站点的爬取额度正在缩减。过去抓取网页的习惯是先存进库里慢慢挑选,现在的做法是把不合格的页面丢弃在门外。
很多公司在做外贸推广时,以为页面数量多能拿到流量。老旧的想法在今年碰了壁。谷歌调整了服务器的资源分配,开支用在能够帮到用户的网页上。一个网站连续更新了30篇内容,每篇是从别处抄来的,爬虫会减少来访的频率。以前一星期来访500次,以后一星期只来3次。
有些企业主觉得每天在发新产品,收录数不应该掉。他们忽视了垃圾邮件过滤系统的威力。新出的SpamBrain系统在几秒钟内能算出一篇稿件的原创度。发现文中的句子结构同互联网上已有的1万篇文章重合度高达80%,该页面会被丢进待处理区。
很多技术员误以为给文字加粗或者增添一千个单词能提高收录。新规则只看页面能不能解决读者的疑问。
一篇文章如果全是通篇的套话,查重率高过35%,会被判定为无效页面。不少人在写产品介绍时,喜欢用很多华丽的长句,偏偏不写产品的使用寿命、具体规格。
文字质量的排查要点:
页面缺少个人操作过的实机图片,全是用图库里的免版权公用图。
文章里没有行业人员的署名,缺少能追溯的真实资历介绍。
段落全是搬运书本上的教条,没有写出自己在工厂里的发现。
文字长度低于400字,只有型号名称,没有讲清具体的使用办法。
标签堆满了毫无关联的买卖词组,意图欺骗抓取程序。
相同的一段话在不同的产品分类页里重复出现了10次以上。
写铝合金窗框的网页,只介绍窗框的材质,不写耐腐蚀测试的实测数字,会被丢进未索引区。统计显示,带有真实修理视频或者10个以上用户评测的页面,被收录的速度比普通文本快了将近4倍。读者停留在页面的时间少于15秒,算法判定该内容没有用处。
美国一家做电子元器件的B2B网站,撰写了一篇关于芯片焊接流程的5000字文。文中没有放入任何温度参数,缺乏具体的电烙铁品牌推荐,被判定为低质量文本。与之相对,另一家写了800字文的公司,列出了清晰的5个步骤,贴出了3张温度显示器的实拍照片,网页在上线48小时内通过了索引。
自动生成的文字带有极强的机械特征。新出的SpamBrain系统专门对每天生产20篇以上文章的站点进行定点排查。一个域名在三天内冒出了500个新网页,里面没有一句是行业专家说的话,主站的抓取额度会归零。
很多管理人员贪图省事,用机器批量写了大量新闻。那些文字读起来顺畅,其实没有一句有用的话。谷歌的识别系统算出词汇的出现概率,轻易辨别出是不是机器写的。
文本特征对比表:
| 文本项目 | 被清理的自动化文本 | 被留下的正常人文本 |
|---|---|---|
| 词汇重复率 | 100个词里有15个固定套话 | 词汇多变,口语化强 |
| 信息来源 | 模糊不清的说法 | 标明了行业报告第4页 |
| 链接分布 | 每隔50字塞入一个外链 | 只有2个真正有用的参考名 |
| 修饰词数量 | 充斥大量虚浮的赞美词 | 大多是动词、技术名词 |
全站有70%的内容是用机器拼凑的,已经入库的老页面会被分批剔除。他们宁可让索引库空着,不愿意把服务器的存储空间让给没有经过人工审核的内容。
页面的打开速度影响了爬虫的耐心。一台服务器在1.5秒内没有吐出内容,爬虫会转去爬取其他商户的站点。很多企业往网站上发图片,每张图有5MB大小,导致网页转了很久打不开。
延迟抓取的常见技术短板:
网站移动端加载时间高过3.8秒,用户没看完就关掉了。
页面里包含了15个以上的死链接,爬虫走到了死胡同。
图片大小超过了2MB,耗费了太多的服务器带宽。
代码里有大量的无效标签,阻挡了抓取工具的读取。
导航栏改动后造成了300个页面没有内部链接指向。
连续出现504网关超时报错,证明服务器配置太低。
网站没有配置合规的证书,浏览器弹出了安全警告。
页面在手机上显示时,按钮重叠在一起,无法正常点击。
那类使用了大量特效代码的页面,爬虫在读取时耗费原本3倍的计算量。你的网站在下午两点有50个蜘蛛访问,服务器主板占用率冲到了95%,机房会自动封锁爬虫。新品页面会连续三个月无法入库。
温州一家做塑料模具的公司,网站开通了多语言插件,自动生成了法语、德语、西班牙语等24个语种的子域名。每个语种下有3000个零碎页面。那类做法导致蜘蛛陷入了死循环。蜘蛛在两小时内抓取了4万个无意义的网址,耗尽了当月的配额。那之后的三个月里,该站长发现连原本收录好的中文主页也被剔除了。
清除掉不合格网页,收录量会慢慢回升。我们可以用以下五个步骤梳理网站的健康度:
导出一份最近90天内没有拿到过任何点击的网页名单。
将那些字数低于300字、内容过时的陈旧网页全部挑出来。
选出20个主打的产品页,把里面的文字通篇精简,删掉空话。
把每张图片的体积控制在150KB以内,给图片加上描述词。
在首页底部写上公司的真实电话、办公地址、营业执照号。
增加信任度不是靠吹嘘公司的规模,要靠提供查得出的实体信息。一家在纽约拥有实体办公室的外贸公司,在网页上写明了详细的街区门牌号,其页面的收录率在十天内提升了25%。隐藏了联系方式的匿名网站,新发出来的100个页面里往往只有3个能通过初审。
多去看看站长工具里的错误提示。发现有404报错,及时用301重定向导向正确的页面。保持网站的干净、整洁,比盲目去写一万字毫无用处的文章要明智得多。