Python爬虫(4):Beautiful Soup的常用方法

Requests库的用法大家肯定已经熟练掌握了,但是当我们使用Requests获取到网页的 HTML 代码信息后,我们要怎样才能抓取到我们想要的信息呢?我相信大家肯定尝试过很多办法,比如字符串的 find 方法,还有高级点的正则表达式。虽然正则可以匹配到我们需要的信息,但是我相信大家在匹配某个字符串一次一次尝试着正则匹配的规则时,一定很郁闷。 ...

Python爬虫(3):Requests的高级用法

上一篇文章我们整理了Requests库的基本用法,相信大家已经经过爬取一些简单网页的练习,已经很熟练了。 这一篇文章我们来 看一下Requests库的高级操作。 高级操作 1.文件上传 import requests files = {'file' : open('logo.gif','rb')} resp = requests.post('http://httpbin.org/post', files=files) print(resp.text) ...

Python爬虫(2):Requests的基本用法

虽然Python有内置的urllib库,可以实现网络的请求,但是我并不推荐。因为urllib在很多时候使用起来不方便,比如加一个代理,处理Cookie时API都很繁琐,再比如发送一个POST请求也很麻烦。 而Requests就相当于urllib的升级版本,简化了urllib的使用方法。有了Requests,我们可以用几句代码实现代理的设置,Cookie的设置,非常方便。下面我就给大家整理了Requests库的使用方法和细节。详细可以参考Requests官方文档。 什么是Requests? ...

Python爬虫(1):基本原理

大家好,今天周末,希望大家周末愉快。 这篇文章我来梳理一下爬虫的基本原理。用过Python的伙伴都知道Python用来写爬虫是件很简单很爽的事情。但是有些伙伴不了解爬虫到底是什么,会纳闷为什么爬虫要设置什么请求头、请求体啊,到底要怎么样去发送这个请求啊。当然有的伙伴使用过很多爬虫的请求库,解析库,写过很多爬虫,但是可能他们的思路脉络也不是太清晰。那么,这篇文章就来帮大家理清爬虫原理的脉络。 什么是爬虫? 爬虫即网络爬虫,英文是Web ...

五月的事

之前无聊的时候写过很多博客,但是那时候这个网站还没有上线,大多博客都写在知乎上。但是一些牢骚话自然不会发在知乎的,都是保存了草稿,然后自己删掉,发布的都是 Python 的分享。毕竟申请的是 Python 专栏,专栏地址。其实这种感觉其实特别难受,好比打了一半的嗝又被咽回去了。 ...