爬虫原理是什么(图片爬虫原理)

爬虫原理是什么，图片爬虫原理。小编来告诉你更多相关信息。

目录： 爬虫是什么？ 爬虫基本流程。

http协议请求与响应。

request。

响应Response。 总结。

爬虫是什么？

向网站发起请求，获取资源后分析并提取有用数据的程序；

通过程序模拟浏览器请求站点的行为，把站点返回的HTML代码/JSON数据/二进制数据（图片、视频）爬到本地，进而提取自己需要的数据，存放起来使用；

百度图 爬虫基本流程。

方式1：浏览器提交请求->下载网页代码->解析成页面

方式2：模拟浏览器发送请求(获取网页代码)->提取有用的数据->存放于数据库或文件中

百度图 发起请求

使用http库向目标站点发起请求，即发送一个Request

Request包含：请求头、请求体等

Request模块缺陷：不能执行JS 和CSS 代码

获取响应内容

如果服务器能正常响应，则会得到一个Response

Response包含：html，json，图片，视频等

解析内容

解析html数据：正则表达式（RE模块），第三方解析库如Beautifulsoup，pyquery等

解析json数据：json模块

解析二进制数据:以wb的方式写入文件

保存数据

数据库（MySQL，Mongdb、Redis）

Request：用户将自己的信息通过浏览器（socket client）发送给服务器（socket server）

Response：服务器接收请求，分析用户发来的请求信息，然后返回数据（返回的数据中可能包含其他链接，如：图片，js，css等）

本文内容由互联网用户自发贡献，该文观点仅代表作者本人。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至 203304862@qq.com

本文链接：https://www.jinnalai.com/fenxiang/208619.html