本文主要介绍Python网络爬虫中requests模块的使用,通过详细讲解函数、函数细节、用法参数以及附带对应的代码案例,帮助小白快速入门。
requests模块是Python中用于向网站发送请求、获取网站响应的第三方库。它比Python自带的urllib库更加简洁易用,可以更好地满足爬虫需求。
requests模块的安装非常简单,只需要在命令行中输入以下命令即可:
1 | pip install requests |
在Python代码中引用requests模块的方法如下:
1 | import requests |
requests.get()函数用于向网站发送GET请求,并返回网站的响应。
函数的语法如下:
1 | requests.get(url, params = None , * * kwargs) |
其中,url为请求的网址,params为请求参数,kwargs为其他参数。
以下是一个简单的例子:
1 2 3 | import requests response = requests.get( 'https://www.baidu.com/' ) print (response.text) |
运行结果会输出百度首页的HTML代码。
requests.post()函数用于向网站发送POST请求,并返回网站的响应。
函数的语法如下:
1 | requests.post(url, data = None , json = None , * * kwargs) |
其中,url为请求的网址,data为POST请求的数据,json为POST请求的JSON数据,kwargs为其他参数。
以下是一个简单的例子:
1 2 3 4 5 | import requests url = 'http://httpbin.org/post' data = { 'name' : 'Alice' , 'age' : 18 } response = requests.post(url, data = data) print (response.text) |
运行结果会输出请求的POST数据。
headers参数用于向请求中添加HTTP头信息,可以模拟浏览器的请求。
以下是一个简单的例子:
1 2 3 4 5 | import requests url = 'https://www.baidu.com/' headers = { 'user-agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3' } response = requests.get(url, headers = headers) print (response.text) |
运行结果会输出百度首页的HTML代码。
cookies参数用于向请求中添加HTTP Cookies信息,可以模拟登录请求。
以下是一个简单的例子:
1 2 3 4 5 | import requests url = 'https://www.baidu.com/' cookies = { 'name' : 'value' } response = requests.get(url, cookies = cookies) print (response.text) |
运行结果会输出百度首页的HTML代码。
以下是一个简单的爬取网页标题的案例:
1 2 3 4 5 6 7 | import requests from bs4 import BeautifulSoup url = 'https://www.baidu.com/' response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser' ) title = soup.title.string print (title) |
运行结果会输出百度首页的标题。
通过本文的讲解,相信大家已经掌握了Python网络爬虫中requests模块的基本使用方法,可以愉快地开始爬取自己喜欢的网站了!
本文为翻滚的胖子原创文章,转载无需和我联系,但请注明来自猿教程iskeys.com