标签归档:spider

[翻译]Web Scraping 201: finding the API

前言:之前,在帮同学获取百度城市百科内容时,每个城市页面下的内容是通过 js 动态生成的(Ajax?),不能直接通过爬取页面解析得到。最终通过浏览器查看网络请求,找到了请求地址和具体参数含义。整理收藏夹的时候,发现有这么一篇文章,鉴于Blog 已经长草,决定翻译一下留做以后备查吧。

有很多网站的 API 确实可以通过这样的方式获得,但是另一些网站(如 twitter、weibo),它们的 API 是有很多的限制,并且需要进行申请的。相比之下,如果能查到 API 的开发文档,则应当以开发文档为主。当然,本文通过审查工具来分析页面的加载流程,进而找到一些需要的内容还是很有必要的。

源地址:http://www.gregreda.com/2015/02/15/web-scraping-finding-the-api/ 继续阅读

爬取百度城市百科 by Python

同学拿到老师给布置的一个任务:

全国各地市的风俗习惯。具体到某个省的某个市。尽量用自动查询手段搜索百度百科,获取全国所有地市的简介和饮食、风俗习惯等。生成一张excel表格

感觉上像是要做一个爬虫,最后这个生成 excel 表格真的是无力吐槽了。。。之前虽然自己看过一些爬虫的教程文章,但是感觉这个事更多的时间是分析网页,解析 HTML ,然后将数据可视化的显示出来,于是一直没有动力去爬一个什么东西。这不,动力来了。

注:一不小心把这篇写成了记事文,而不像是个技术分享。。。 继续阅读