分类目录归档:折腾

提取豆瓣电影短评关键词

昨天看到了一篇文章,利用这个 MonkeyLearn 提供的 API,创建情感分析模型。其数据源来自某网站的评论数据,恰好最近打算投豆瓣的实习,想到豆瓣电影的打分和短评也可以做类似的事情。不过目前还没有做到分类器,只是利用 TF-IDF 做了关键词提取。

昨天晚上找了一下豆瓣的 API,发现限制颇多,于是决定直接爬。今天下午完成了一个简单的模拟登录和抓取程序(没有用到什么代理和多线程),晚上搞定了用了一会尝试了用 sklearn 中的 TF-IDF 提取关键词,之后发现 jieba 分词直接带有关键词提取器,还有 TF-IDF 和 textrank 两种模式!(关于 textrank 也是在另一篇文章里知道的),不过最后发现最终的结果差别不大,甚至 TF-IDF 的一些词更加具有显著性。 继续阅读

[翻译]Web Scraping 201: finding the API

前言:之前,在帮同学获取百度城市百科内容时,每个城市页面下的内容是通过 js 动态生成的(Ajax?),不能直接通过爬取页面解析得到。最终通过浏览器查看网络请求,找到了请求地址和具体参数含义。整理收藏夹的时候,发现有这么一篇文章,鉴于Blog 已经长草,决定翻译一下留做以后备查吧。

有很多网站的 API 确实可以通过这样的方式获得,但是另一些网站(如 twitter、weibo),它们的 API 是有很多的限制,并且需要进行申请的。相比之下,如果能查到 API 的开发文档,则应当以开发文档为主。当然,本文通过审查工具来分析页面的加载流程,进而找到一些需要的内容还是很有必要的。

源地址:http://www.gregreda.com/2015/02/15/web-scraping-finding-the-api/ 继续阅读

Python中的else

很久不写代码,果然一上手就容易犯一些低级的错误。在写上一篇博客程序之后,开始做写一些异常处理的代码(毕竟网络连不上啦,页面不存在啦很常见),竟然写错了else的用法。顺手查了Python官方文档,发现相比其他语言,Python的 else 除了用在 if 里,还有 try、for、while等语言块里 继续阅读

VPS初体验

先扯淡:

月初买了域名 ,用了同学一个限制的要到期的vps,就开始更想把这么个事继续下去。刚买域名的时候还在犹豫要不要买个来用,结果等到同学的vps到期的时候,自己就开始搜寻各种vps评测了。 继续阅读

WP8–Lumia 820使用感受

因为家里人买的Lumia 820感觉用起来不舒服,又重新买了iPhone5,我有幸能折腾这款诺基亚Windows Phone 8 手机。Lumia 820相比Lumia 920的高端定位,降低了屏幕分辨率,减少了内置空间的大小,电池容量减小,作为一款中端手机,还是有一定的性价的。从最初的诺基亚5320 S60v3第一个手机,iPod Touch用了iOS高富帅系统,小米1 MIUI(Android)屌丝机,也算是几个常见的系统都玩过来了。没有资深的测评能力,仅根据自己的使用感受对WP8系统和我使用习惯差距较大的方面写一下,欢迎大家交流讨论

PS:手机已经使用一年多,有了一些新的感受,以及系统的两次大的更新,现在原文的基础上进行一些更新。似乎把文章改的面目全非了……

继续阅读