严长生爬虫学习路线

2022-11-28 19:22:26   第一文档网     [ 字体: ] [ 阅读: ] [ 文档下载 ]

#第一文档网# 导语】以下是®第一文档网的小编为您整理的《严长生爬虫学习路线》,欢迎阅读!
长生,爬虫,路线,学习
严长生爬虫学习路线



Python爬虫需要哪些知识?

要学会使用Python爬取网页信息无外乎以下几点内容: 1、要会Python

2、知道网页信息如何呈现 3、了解网页信息如何产生 4、学会如何提取网页信息

第一步Python是工具,所以你必须熟练掌握它,要掌握到什么程度呢?如果你只想写一写简单的爬虫,不要炫技不考虑爬虫效率,你只需要掌握:

Ø 数据类型和变量 Ø 字符串和编码 Ø 使用listtuple Ø 条件判断、循环 Ø 使用dictset

你甚至不需要掌握函数、异步、多线程、多进程,当然如果想要提高自己小爬虫的爬虫效率,提高数据的精确性,那么记住最好的方式是去系统的学习一遍Python,去哪儿学习Python教程


假设已经熟悉了最基础的Python知识,那么进入第二步:知道网页信息如何呈现?你首先要知道所需要抓取的数据是怎样的呈现的,就像是你要学做一幅画,在开始之前你要知道这幅画是用什么画出来的,铅笔还是水彩笔...可能种类是多样的,但是放到网页信息来说这儿只有两种呈现方式:

1HTML HTML 简介)

2JSON JSON 简介)HTML是用来描述网页的一种语言JSON一种轻量级的数据交换格式

假设你现在知道了数据是由HTMLJSON呈现出来的,那么我们紧接着第三步:数据怎么来?数据当然是从服务器反馈给你的,为什么要反馈给你?因为你发出了请求。

“Hi~ ,服务器我要这个资源”“正在传输中...”“已经收到HTML或者JSON格式的数据”

这个请求是什么请求?要搞清楚这一点你需要了解一下http的基础知识,更加精确来说你需要去了解GETPOST是什么,区别是什么。也许你可以看看这个:浅谈HTTPGetPost的区别 - hyddd - 博客园

很高兴你使用的是Python,那么你只需要去掌握好快速上手 - Requests 2.10.0 文档,requests可以帮你模拟发出GETPOST请求,这真是太棒了。


本文来源:https://www.dy1993.cn/n0aG.html

相关推荐