Python网络爬虫：requests模块使用详解

翻滚的胖子
2023-05-25 14:37:54
后端技术
Python Java

本文主要介绍Python网络爬虫中requests模块的使用，通过详细讲解函数、函数细节、用法参数以及附带对应的代码案例，帮助小白快速入门。

一、requests模块简介

requests模块是Python中用于向网站发送请求、获取网站响应的第三方库。它比Python自带的urllib库更加简洁易用，可以更好地满足爬虫需求。

1.1 requests模块的安装

requests模块的安装非常简单，只需要在命令行中输入以下命令即可：

pip install requests

1.2 requests模块的引用

在Python代码中引用requests模块的方法如下：

import requests

二、requests模块函数讲解

2.1 requests.get()

requests.get()函数用于向网站发送GET请求，并返回网站的响应。

函数的语法如下：

requests.get(url, params=None, **kwargs)

其中，url为请求的网址，params为请求参数，kwargs为其他参数。

以下是一个简单的例子：

import requests
response = requests.get('https://www.baidu.com/')
print(response.text)

运行结果会输出百度首页的HTML代码。

2.2 requests.post()

requests.post()函数用于向网站发送POST请求，并返回网站的响应。

函数的语法如下：

requests.post(url, data=None, json=None, **kwargs)

其中，url为请求的网址，data为POST请求的数据，json为POST请求的JSON数据，kwargs为其他参数。

以下是一个简单的例子：

import requests
url = 'http://httpbin.org/post'
data = {'name': 'Alice', 'age': 18}
response = requests.post(url, data=data)
print(response.text)

运行结果会输出请求的POST数据。

三、requests模块函数细节用法

3.1 headers参数

headers参数用于向请求中添加HTTP头信息，可以模拟浏览器的请求。

以下是一个简单的例子：

import requests
url = 'https://www.baidu.com/'
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, headers=headers)
print(response.text)

运行结果会输出百度首页的HTML代码。

3.2 cookies参数

cookies参数用于向请求中添加HTTP Cookies信息，可以模拟登录请求。

以下是一个简单的例子：

import requests
url = 'https://www.baidu.com/'
cookies = {'name': 'value'}
response = requests.get(url, cookies=cookies)
print(response.text)

运行结果会输出百度首页的HTML代码。

四、代码案例

以下是一个简单的爬取网页标题的案例：

import requests
from bs4 import BeautifulSoup
url = 'https://www.baidu.com/'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
title = soup.title.string
print(title)

运行结果会输出百度首页的标题。

通过本文的讲解，相信大家已经掌握了Python网络爬虫中requests模块的基本使用方法，可以愉快地开始爬取自己喜欢的网站了！

本文为翻滚的胖子原创文章,转载无需和我联系,但请注明来自猿教程iskeys.com