同学拿到老师给布置的一个任务:
全国各地市的风俗习惯。具体到某个省的某个市。尽量用自动查询手段搜索百度百科,获取全国所有地市的简介和饮食、风俗习惯等。生成一张excel表格
感觉上像是要做一个爬虫,最后这个生成 excel 表格真的是无力吐槽了。。。之前虽然自己看过一些爬虫的教程文章,但是感觉这个事更多的时间是分析网页,解析 HTML ,然后将数据可视化的显示出来,于是一直没有动力去爬一个什么东西。这不,动力来了。
注:一不小心把这篇写成了记事文,而不像是个技术分享。。。 继续阅读
同学拿到老师给布置的一个任务:
全国各地市的风俗习惯。具体到某个省的某个市。尽量用自动查询手段搜索百度百科,获取全国所有地市的简介和饮食、风俗习惯等。生成一张excel表格
感觉上像是要做一个爬虫,最后这个生成 excel 表格真的是无力吐槽了。。。之前虽然自己看过一些爬虫的教程文章,但是感觉这个事更多的时间是分析网页,解析 HTML ,然后将数据可视化的显示出来,于是一直没有动力去爬一个什么东西。这不,动力来了。
注:一不小心把这篇写成了记事文,而不像是个技术分享。。。 继续阅读
在最初阅读《数据挖掘:概念与技术》的时候,第一次注意到了这个词汇:PCA(Principal component analysis),主成分分析。最初对这部分内容并没有深入的了解,直到最近项目拿到数据开始分析了,才开始认真学习这部分内容。具体的原理,可以继续阅读参考链接中的内容,总结来说,PCA 就是通过寻找高维空间中,数据变化最快(方差最大)的方向,对空间的基进行变换,然后选取重要的空间基来对数据降维,以尽可能的保持数据特征的情况下对数据进行降维。
在很久很久以前,就听说了这三大文本处理工具,但是和bash shell脚本编程一样,我对它们的认识一直停留在知道这三个名字上面。在第二年复习考研的过程中,曾经在图书馆花一下午看了一遍相关的介绍,奈何当时的专注点不在这里,一直也没有实践,早已忘到脑后。今天重新查找了一些网页,回忆一下相关的用法,做一个小总结吧,方便以后查阅。 继续阅读
在微博上看到有人分享这个问题,自己看代码少,似乎没有主要到有这样写的。但看了回答,觉得这样写还是很有理由的。整理总结一下吧。原问题贴:segmentfault.com ,另一个参考链接:cnblogs.com 继续阅读
自从配置好blog后,就很少在VPS上进行操作了,除了偶尔上去看下有没有坏人。有时也会做些实验,其他时间真的闲置掉了。一次偶然的机会,注意到系统的python版本竟然是python2.6,虽然我不会python开发o(╯□╰)o,但是版本控怎么能容忍这种事情发生呢!果断升级,而且Debian 7也已经稳定很久了。 继续阅读
PS:2014年考研计算机综合408科目,增加了对字符串匹配算法的要求,当然也包括KMP。我只是理解了基本的next函数以及KMP算法的思想,再一次当了理论党。今天整理微博收藏的时候看到这篇博文,转载以加深记忆。讲解KMP的两篇博文:matrix67的和chaowork.com的。在淘宝搜索技术博客的这篇博文中有讲解除了KMP外的BM(后缀匹配)算法,不过只写了(一)没找到(二)呢。。。
原文地址:20 Linux Log Files that are Located under /var/log Directory
如果你多数时间都在使用Linux系统,那么你有必要知道系统的日志文件位于哪里,以及每个日志文件是关于哪些内容的。在系统正常的时候学习理解各种日志文件的内容,有助于在遇到紧急情况时通过日志文件定位问题所在。 继续阅读
作为悲剧的电子产品杀手,一周内摔了iPod Touch 4和Lumia 820两个设备,不过好在Touch4的屏还能用,而且裂纹不影响看屏幕。但是Lumia就悲剧掉了,屏幕直接横着裂缝,导致只有上半能够使用。 继续阅读
VPS买来之后,除了最初的一段时间配置Web Server、SSH等,之后我的懒惰就占据了上风。加上一定程度上的新鲜事物三分热度,自己对Linux使用不够熟悉,以及开发能力太弱,就一直闲置了。难道自己今天提前来了学校,就想静心做点事,写个东西更新下,也不要显得这个Blog跟死了一样。(写完发现我废话好多啊)
当初配置SSH之后,一贯作风就是默认配置,印象中是几乎什么都没有改。忘了因为什么事情,我看了一下系统的日志文件,/etc/auth.log文件中一把一把的记录了某几个ip尝试进行root登陆,着实把我吓了一跳。当时的第一件事是,赶紧把SSH的端口给改了,毕竟默认的端口太容易被一些自动化的黑客脚本检测到。然后装了DenyHosts,来防止被暴力破解。之后的一段时间相安无事(至少我认为……) 继续阅读
曾经的Win7与ArchLinux的共存一直不和谐。通常在Arch有内核or显卡驱动(最后也没搞清楚是哪里的问题)有更新时,会有一定概率造成Win系统无法启动,即使U盘启动WinPE系统也处在一种异常的缓慢运行状态。在五一前去广州的时候,忍无可忍,选择了重装Win7为Win8。 一直使用的还不错,但是最近发现了一个问题:自从使用Win8之后,在Linux下再也无法挂载NTFS的分区了。每次都遇到相同的错误
The disk contains an unclean file system (0, 0). Metadata kept in Windows cache, refused to mount. Failed to mount ‘/dev/sda3’: Operation not permitted The NTFS partition is in an unsafe state. Please resume and shutdown Windows fully (no hibernation or fast restarting), or mount the volume read-only with the ‘ro’ mount option. 继续阅读