后端 python 爬虫练习

huoxu_meng · September 13, 2019 · 1 hits

再开一篇

依处理方式可分成 get、post,

如果是 get 就照正常的处理方式以 findall() 直接取得。

1-指定要爬的网页

2-用 findall()、find() 指定要取得的元素名称

3-印出想要的内容

4-将内容保存

如果是 post,

多一步,以 submet 的方式传入指定网页,

再取得 post 后回传的数据,

接着跟 get 一样,用 findall() 取得内容。

1-设定要传入 (登入) 的值,以 json 放入 params

2-用 request.post(),指定网页跟传入参数

3-取回 post 后的内文

4-用 findall()、find() 指定要取得的元素名称

5-印出想要的内容

6-将内容保存

如果不通就检查是否要有 cookies、session 的数据。

最后可以用 selenium 来模拟开启网页,

效率慢,但是可以假装人工浏漤网页。

自我 LV~

No Reply at the moment.
You need to Sign in before reply, if you don't have an account, please Sign up first.