scrapy入门爬取w3school 发表于 2015-07-19 | 分类于 爬虫 首先推荐一个系列教程http://blog.csdn.net/u012150179/article/category/2345511 此篇文章就是根据上边系列中的scrapy研究探索(二)——爬w3school.com.cn学习总结更改而来 1.前期准备 scapy的安装请自行百度,我最开始安装的 ... 阅读全文 »
利用正则和bs4爬取sec-wiki(多线程) 发表于 2015-07-18 | 分类于 爬虫 运行了上一篇单线程文件后你会觉得爬取的很慢,这是因为上一篇的过程是线性的,单线程: 拿到第一页url->爬取这页所有详情页链接->获取第一个详情页面代码->爬取信息->获取第二个详情页代码->获取信息….->拿到第二页url… 这样是顺序执行的,速度肯定慢,c ... 阅读全文 »
利用正则和bs4爬取sec-wiki.com(单线程) 发表于 2015-07-16 | 分类于 爬虫 首先来张图 此网站的url为http://www.sec-wiki.com/news/index如图所示,首页上是资讯列表,点击标题后会跳到详情页,然后详情页也有一个和首页相同的标题,这个标题中包含着真正的文章地址,所以我们要做的就是先获取第一页中的标题链接,根据这个链接进入到详情页面,然后从详情页 ... 阅读全文 »
利用bs4爬取电影天堂电影下载地址 发表于 2015-07-14 | 分类于 爬虫 首先来张图: 将就看吧,我都有点不好意思,但至少表现出来要表达的意思了,我们最终要获得的信息不是在第一个页面中,而是从第一个页面中进入第二个页面,需要的信息在第二个页面中,虽然电影列表有很多页,但是现阶段都不考虑只获取第一页中的所有电影的下载连接。这个爬虫分三步 先从第一页中将所有第二页的url取 ... 阅读全文 »
django博客程序 发表于 2015-07-12 | 分类于 django 下面是我将这个程序放在了新浪sea上,没有实名认证,所以上面有个提示http://tenshine.sinaapp.com 支持markdown语法 安装了bootstrap_admin后台,后台地址http://127.0.0.1:8000/admin/,账号密码都是nick 添加多说评论 添 ... 阅读全文 »
利用urllib2和bs4爬取豆瓣北京热播电影 发表于 2015-07-10 | 分类于 爬虫 在正式爬虫之前还有一些入门需要了解的知识点,以下是我入门时看的一点东西: Python爬虫入门一之综述 Python爬虫入门二之爬虫基础了解 Python爬虫入门三之Urllib库的基本使用 Python爬虫入门四之Urllib库的高级用法 Python爬虫入门五之URLError异常处理 Pyt ... 阅读全文 »