分类目录归档:搜索引擎

搜索引擎

使用v8识别js重定向

一 重定向 爬虫抓取的过程中,遇到重定向时需要识别出重定向后的url。 总结下,主要有如下3类重定向: 1 http协议的3XX 301 永久移动 302 临时 305 必须通过指定定代理才能访问相应资源 307 临时

发表在 搜索引擎 | 标签为 , , | 留下评论

基于sitemap的链接收集

0 sitemap基础 sitemap反映了一个网站网页的整体结构示意图。通过该网页,站长会将需要被抓取的页面全部列出来。 sitemap允许级联。按照[1],sitemap允许三种格式:txt、xml、索引格式。 但实际上,大量网站使用普通的html网页作为sitemap链接,因此html网页也需要考虑。

发表在 搜索引擎 | 标签为 , , | 留下评论

网页spam相关论文了解

最近对网页spam有兴趣,找了些论文看看,部分还没看完,做个小结吧,后续再慢慢看,慢慢补充了。 主要内容都是参考里的论文里的。 1 spam基础 那些误导搜索引擎排名的行为或者从搜索引擎中获得不应有的利益的行为都可以称为spam,具体是否为spam取决于搜索引擎的判断标准。 简单来说,那些搜索引擎明文允许进行的或者即使搜索引擎不存在但仍存在的“优化”行为可以认为不是spam。比如一些针对特定client、终端的优化行为不能认为是spam。再比如垃圾网站里贴出的链接,这些链接不应该作为spam,因为这些链接的存在超出了链接目的地的owner的控制,惩罚的应该是垃圾网站本身而不是它指向的链接。

发表在 搜索引擎 | 标签为 , , | 评论关闭