Python爬虫(12):Scrapy组件的用法

大家好,点开文章大家应该可以听到一曲大气恢弘的音乐,仿佛置身于江湖中,而自己是一名行侠仗义的侠客。见多了江湖的纷扰,你早已经累了,功名利禄对你来说不如一壶好酒。你骑马田间,而这时已是傍晚时分,起风了,你看这远方的夕阳,心生感慨。如果当初能够多一点勇气,那么这数十年来就不会是孤身一人了。你叹了口气,猛地抽了自己一巴掌,乱想什么呢,赶紧学习了。 ...

Python爬虫(11):Scrapy框架的安装和基本使用

大家好,本篇文章我们来看一下强大的Python爬虫框架Scrapy。Scrapy是一个使用简单,功能强大的异步爬虫框架,我们先来看看他的安装。 Scrapy的安装 Scrapy的安装是很麻烦的,对于一些想使用Scrapy的人来说,它的安装常常就让很多人死在半路。在此我将我的安装过程和网络上整理的安装方法,分享给大家,希望大家能够安装顺利。 Windows安装 开始之前,我们要确定自己安装了Python,本篇文章我们以Python3.5为例。Scrapy有很多依赖的包,我们来一一安装。 ...

Python爬虫(10):Selenium+PhantomJS基本操作

大家好,这篇文章我们来看一下Selenium库结合PhantomJs,Chrome等一些浏览器的操作。那么我们在之前的文章中,有提到过Selenium库和PhantomJ,说他们结合使用是万能的利器。那么,他们真的那么厉害吗,我们一起来看看Selenium库的用法吧。 什么是Selenium Selenium是一个自动化测试工具,支持包括Chrome,Firefox,Safari,PhantomJs等一些浏览器。如果用于爬虫中,我们主要用来解决一些JavaScript渲染的问题。 ...

Python爬虫(9):Cookie介绍和模拟登录

大家好,这篇文章我们来看一下Cookie是什么,和他的一些用法。 什么是Cookie? 在计算机术语中是指一种能够让网站服务器把少量数据储存到客户端的硬盘或内存,或是从客户端的硬盘读取数据的一种技术。 先看看Cookie长什么样子,我们以知乎为例。打开Chrome的开发者工具(F12),点开Network,点击一个请求url,就可以看到请求头(Request ...

Python爬虫(8):分析Ajax请求爬取果壳网

本篇文章我们来研究一下怎么分析网页的Ajax请求。 我们在平时爬取网页的时候,可能都遇到过有些网页直接请求得到的 HTML 代码里面,并没有我们需要的数据,也就是我们在浏览器中看到的内容。 这就是因为这些信息是通过Ajax加载的,并且通过js渲染生成的。这个时候我们就需要分析这个网页的请求了。 什么是Ajax AJAX即“Asynchronous Javascript And XML”(异步JavaScript和XML),是指一种创建交互式网页应用的网页开发技术。 AJAX = 异步 ...

一切都会好的

博客好久没更新了,但是最近真的有很多话想说,但是又不知如何表达才显得自然。虽然有时候会想反正也没有几个人看,但是话到键盘上,又不知该说什么。这种只可让人意会,而不可言传的感觉真是憋人。 我的大三在十天前结束,转眼就要大四。三年来一事无成,现在想想都觉得后背发凉。这个后背发凉是真实的感受,毕竟气温30多度,感觉到凉是我对自己迷雾般的未来的担忧。 今天早晨163muc给我推荐了一首歌,听着觉得音乐很是伤感,但是没人歌唱,想着是纯音乐就点进去看看什么名字。但是空空的歌词面板却有一句歌词。 ...

忙忙碌碌

临近学期末,各项考试也陆陆续续开始了。忙完这门课的作业,接着忙那门课的复习。可是忙不单行,科目二考试就定在6月19日,两边都很是考试,只忙一边,另一边肯定会生变故。如果两边一起忙,那是必然不可能的。 因为驾校离学校有40分钟的公交路程(最快最方便),如果骑ofo单车大约35分钟,如果步行的话,时间待实践。 ...

返老还童

昨天晚上在知乎上看到 你听过最有力量的歌词有哪些? 看了第一条回答,就很喜欢这句台词,于是找了这部电影,静静的看了一下午。影片名《本杰明.巴顿奇事》,又叫《返老还童》。 ...

Python爬虫(7):多进程抓取拉钩网十万数据

由于拉钩网页面做了一些更新,之前的程序无法正常工作,本篇文章做一次更新。只更新一些程序和一些程序的实现方法。由于没有仔细修改,可能前后语言不通顺,大家谅解。 大家好,几天没有更新了。相信大家经过前两篇的练手爬虫,大家已经知道如何抓取一个简单网站。 这篇文章我们来抓取 拉钩网 的招聘信息。全部抓取大概十几万条全国招聘信息,并且保存数据库。 准备 安装Mongodb数据库 ...

Python爬虫(6):煎蛋网全站妹子图爬虫

上一篇文章中我们抓取了豆瓣图书的数据,如果大家运行成功,并且看到文件夹下的 txt 文件了。是不是有一种刚接触编程,第一次输出Hello world!时的欣喜。和上一篇实践不同,我们这一次来爬取 煎蛋网 全站妹子图,并且保存到指定文件夹下。 爬取流程 从煎蛋网妹子图第一页开始抓取; 爬取分页标签获得最后一页数字; 根据最后一页页数,获得所有页URL; 迭代所有页,对页面所有妹子图片url进行抓取;访问图片URL并且保存图片到文件夹。 开始 ...