scrapy入门爬取w3school

发表于 2015-07-19 | 分类于爬虫

首先推荐一个系列教程http://blog.csdn.net/u012150179/article/category/2345511 此篇文章就是根据上边系列中的scrapy研究探索（二）——爬w3school.com.cn学习总结更改而来 1.前期准备　　scapy的安装请自行百度，我最开始安装的 ...

阅读全文 »

利用正则和bs4爬取sec-wiki(多线程)

发表于 2015-07-18 | 分类于爬虫

运行了上一篇单线程文件后你会觉得爬取的很慢，这是因为上一篇的过程是线性的,单线程：拿到第一页url->爬取这页所有详情页链接->获取第一个详情页面代码->爬取信息->获取第二个详情页代码->获取信息….->拿到第二页url… 这样是顺序执行的，速度肯定慢，c ...

阅读全文 »

利用正则和bs4爬取sec-wiki.com(单线程)

发表于 2015-07-16 | 分类于爬虫

首先来张图此网站的url为http://www.sec-wiki.com/news/index如图所示，首页上是资讯列表，点击标题后会跳到详情页，然后详情页也有一个和首页相同的标题，这个标题中包含着真正的文章地址，所以我们要做的就是先获取第一页中的标题链接，根据这个链接进入到详情页面，然后从详情页 ...

阅读全文 »

利用bs4爬取电影天堂电影下载地址

发表于 2015-07-14 | 分类于爬虫

首先来张图：将就看吧，我都有点不好意思，但至少表现出来要表达的意思了，我们最终要获得的信息不是在第一个页面中，而是从第一个页面中进入第二个页面，需要的信息在第二个页面中，虽然电影列表有很多页，但是现阶段都不考虑只获取第一页中的所有电影的下载连接。这个爬虫分三步先从第一页中将所有第二页的url取 ...

阅读全文 »

django博客程序

发表于 2015-07-12 | 分类于 django

下面是我将这个程序放在了新浪sea上，没有实名认证，所以上面有个提示http://tenshine.sinaapp.com 支持markdown语法安装了bootstrap_admin后台，后台地址http://127.0.0.1:8000/admin/，账号密码都是nick 添加多说评论添 ...

阅读全文 »

利用urllib2和bs4爬取豆瓣北京热播电影

发表于 2015-07-10 | 分类于爬虫

在正式爬虫之前还有一些入门需要了解的知识点，以下是我入门时看的一点东西： Python爬虫入门一之综述 Python爬虫入门二之爬虫基础了解 Python爬虫入门三之Urllib库的基本使用 Python爬虫入门四之Urllib库的高级用法 Python爬虫入门五之URLError异常处理 Pyt ...

阅读全文 »

tenshine

喜欢就买,不行就分,多喝热水,重启试试