分类目录归档:技术

爬取百度城市百科 by Python

同学拿到老师给布置的一个任务:

全国各地市的风俗习惯。具体到某个省的某个市。尽量用自动查询手段搜索百度百科,获取全国所有地市的简介和饮食、风俗习惯等。生成一张excel表格

感觉上像是要做一个爬虫,最后这个生成 excel 表格真的是无力吐槽了。。。之前虽然自己看过一些爬虫的教程文章,但是感觉这个事更多的时间是分析网页,解析 HTML ,然后将数据可视化的显示出来,于是一直没有动力去爬一个什么东西。这不,动力来了。

注:一不小心把这篇写成了记事文,而不像是个技术分享。。。 继续阅读

使用 PCA 进行降维处理——基于 sklearn 库

在最初阅读《数据挖掘:概念与技术》的时候,第一次注意到了这个词汇:PCA(Principal component analysis),主成分分析。最初对这部分内容并没有深入的了解,直到最近项目拿到数据开始分析了,才开始认真学习这部分内容。具体的原理,可以继续阅读参考链接中的内容,总结来说,PCA 就是通过寻找高维空间中,数据变化最快(方差最大)的方向,对空间的基进行变换,然后选取重要的空间基来对数据降维,以尽可能的保持数据特征的情况下对数据进行降维。

继续阅读

grep、awk、sed与正则表达式

在很久很久以前,就听说了这三大文本处理工具,但是和bash shell脚本编程一样,我对它们的认识一直停留在知道这三个名字上面。在第二年复习考研的过程中,曾经在图书馆花一下午看了一遍相关的介绍,奈何当时的专注点不在这里,一直也没有实践,早已忘到脑后。今天重新查找了一些网页,回忆一下相关的用法,做一个小总结吧,方便以后查阅。 继续阅读

Debian升级(从squeeze到wheezy)

自从配置好blog后,就很少在VPS上进行操作了,除了偶尔上去看下有没有坏人。有时也会做些实验,其他时间真的闲置掉了。一次偶然的机会,注意到系统的python版本竟然是python2.6,虽然我不会python开发o(╯□╰)o,但是版本控怎么能容忍这种事情发生呢!果断升级,而且Debian 7也已经稳定很久了。 继续阅读

[转载]Linux 内核中的 KMP 实现

PS:2014年考研计算机综合408科目,增加了对字符串匹配算法的要求,当然也包括KMP。我只是理解了基本的next函数以及KMP算法的思想,再一次当了理论党。今天整理微博收藏的时候看到这篇博文,转载以加深记忆。讲解KMP的两篇博文:matrix67的和chaowork.com的。在淘宝搜索技术博客的这篇博文中有讲解除了KMP外的BM(后缀匹配)算法,不过只写了(一)没找到(二)呢。。。

Linux 内核中使用到了字符串搜索,所以它也有 KMP 算法的实现,代码在 lib/ts_kmp.c 中。 继续阅读

位于/var/log目录下的20个Linux日志文件[译]

原文地址:20 Linux Log Files that are Located under /var/log Directory

如果你多数时间都在使用Linux系统,那么你有必要知道系统的日志文件位于哪里,以及每个日志文件是关于哪些内容的。在系统正常的时候学习理解各种日志文件的内容,有助于在遇到紧急情况时通过日志文件定位问题所在。 继续阅读

更改SSH登录方式为仅密钥登录

VPS买来之后,除了最初的一段时间配置Web Server、SSH等,之后我的懒惰就占据了上风。加上一定程度上的新鲜事物三分热度,自己对Linux使用不够熟悉,以及开发能力太弱,就一直闲置了。难道自己今天提前来了学校,就想静心做点事,写个东西更新下,也不要显得这个Blog跟死了一样。(写完发现我废话好多啊)

当初配置SSH之后,一贯作风就是默认配置,印象中是几乎什么都没有改。忘了因为什么事情,我看了一下系统的日志文件,/etc/auth.log文件中一把一把的记录了某几个ip尝试进行root登陆,着实把我吓了一跳。当时的第一件事是,赶紧把SSH的端口给改了,毕竟默认的端口太容易被一些自动化的黑客脚本检测到。然后装了DenyHosts,来防止被暴力破解。之后的一段时间相安无事(至少我认为……) 继续阅读

Win8&Linux双系统mount ntfg分区的问题

曾经的Win7与ArchLinux的共存一直不和谐。通常在Arch有内核or显卡驱动(最后也没搞清楚是哪里的问题)有更新时,会有一定概率造成Win系统无法启动,即使U盘启动WinPE系统也处在一种异常的缓慢运行状态。在五一前去广州的时候,忍无可忍,选择了重装Win7为Win8。 一直使用的还不错,但是最近发现了一个问题:自从使用Win8之后,在Linux下再也无法挂载NTFS的分区了。每次都遇到相同的错误

The disk contains an unclean file system (0, 0). Metadata kept in Windows cache, refused to mount. Failed to mount ‘/dev/sda3’: Operation not permitted The NTFS partition is in an unsafe state. Please resume and shutdown Windows fully (no hibernation or fast restarting), or mount the volume read-only with the ‘ro’ mount option. 继续阅读