Python爬虫(5):豆瓣读书练手爬虫

我们在之前的文章中基本上掌握了Python爬虫的原理和方法,不知道大家有没有练习呢。今天我就来找一个简单的网页进行爬取,就当是给之前的兵书做一个实践。不然不就是纸上谈兵的赵括了吗。 好了,我们这次的目标是豆瓣图书Top250,地址是:https://book.douban.com/top250?start=0 准备 爬一个网页我们至少要知道自己需要什么信息,大家看截图: ...

行走世间都是妖怪

热的时候喊热是无济于事的。顶着火红的太阳,看着姗姗来迟的 138 路公交,无奈的翻翻白眼。 南京的天气一如既往的热,由于科目二考试将至,连安静呆在宿舍的想法都无法满足。不过年轻人就是应该多出来走走,不然就无法看到外面美丽的姑娘们了。钱钟书说暴露的姑娘是局部的真理,我觉得这再合适不过了,真理总是赤裸的。正值躁动青春期的室友,掩饰不住自己对真理渴望的心,时不时露出莫名其妙的笑。 ...

Python爬虫(4):Beautiful Soup的常用方法

Requests库的用法大家肯定已经熟练掌握了,但是当我们使用Requests获取到网页的 HTML 代码信息后,我们要怎样才能抓取到我们想要的信息呢?我相信大家肯定尝试过很多办法,比如字符串的 find 方法,还有高级点的正则表达式。虽然正则可以匹配到我们需要的信息,但是我相信大家在匹配某个字符串一次一次尝试着正则匹配的规则时,一定很郁闷。 ...

Python爬虫(3):Requests的高级用法

上一篇文章我们整理了Requests库的基本用法,相信大家已经经过爬取一些简单网页的练习,已经很熟练了。 这一篇文章我们来 看一下Requests库的高级操作。 高级操作 1.文件上传 import requests files = {'file' : open('logo.gif','rb')} resp = requests.post('http://httpbin.org/post', files=files) print(resp.text) ...

Python爬虫(2):Requests的基本用法

虽然Python有内置的urllib库,可以实现网络的请求,但是我并不推荐。因为urllib在很多时候使用起来不方便,比如加一个代理,处理Cookie时API都很繁琐,再比如发送一个POST请求也很麻烦。 而Requests就相当于urllib的升级版本,简化了urllib的使用方法。有了Requests,我们可以用几句代码实现代理的设置,Cookie的设置,非常方便。下面我就给大家整理了Requests库的使用方法和细节。详细可以参考Requests官方文档。 什么是Requests? ...

Python爬虫(1):基本原理

大家好,今天周末,希望大家周末愉快。 这篇文章我来梳理一下爬虫的基本原理。用过Python的伙伴都知道Python用来写爬虫是件很简单很爽的事情。但是有些伙伴不了解爬虫到底是什么,会纳闷为什么爬虫要设置什么请求头、请求体啊,到底要怎么样去发送这个请求啊。当然有的伙伴使用过很多爬虫的请求库,解析库,写过很多爬虫,但是可能他们的思路脉络也不是太清晰。那么,这篇文章就来帮大家理清爬虫原理的脉络。 什么是爬虫? 爬虫即网络爬虫,英文是Web ...

五月的事

之前无聊的时候写过很多博客,但是那时候这个网站还没有上线,大多博客都写在知乎上。但是一些牢骚话自然不会发在知乎的,都是保存了草稿,然后自己删掉,发布的都是 Python 的分享。毕竟申请的是 Python 专栏,专栏地址。其实这种感觉其实特别难受,好比打了一半的嗝又被咽回去了。 ...