标签归档:web

支持upload文件的SimpleHTTPServer

作为 Python2 的标准库,SimpleHTTPServer 可以很方便的提供一个简单的页面服务器,很多文章已经进行了介绍。其默认的功能很简单——当前路径下如果有 index.html 或者 index.htm 文件,则直接解析显示;如果没有,则列出当前目录下的文件和文件夹目录。这个模块已知被我当做分享文件很快捷同时逼格又很高的方式,不过一直的问题就是,无法上传!于是耗费半个下午给它增加了上传文件的功能。下文是记录自己的处理问题的过程,最后对 SimpleHTTPServer 里的函数进行了简单介绍,不想看废话的可以直接去 gist 上获得文件源码:gist 地址

注:Python3版本中,SimpleHTTPServer 更名为 http.server,官方链接声明

The SimpleHTTPServer module has been merged into http.server in Python 3. The 2to3 tool will automatically adapt imports when converting your sources to Python 3.

继续阅读

[翻译]Web Scraping 201: finding the API

前言:之前,在帮同学获取百度城市百科内容时,每个城市页面下的内容是通过 js 动态生成的(Ajax?),不能直接通过爬取页面解析得到。最终通过浏览器查看网络请求,找到了请求地址和具体参数含义。整理收藏夹的时候,发现有这么一篇文章,鉴于Blog 已经长草,决定翻译一下留做以后备查吧。

有很多网站的 API 确实可以通过这样的方式获得,但是另一些网站(如 twitter、weibo),它们的 API 是有很多的限制,并且需要进行申请的。相比之下,如果能查到 API 的开发文档,则应当以开发文档为主。当然,本文通过审查工具来分析页面的加载流程,进而找到一些需要的内容还是很有必要的。

源地址:http://www.gregreda.com/2015/02/15/web-scraping-finding-the-api/ 继续阅读