python 爬虫练习-V2

再开一篇

依处理方式可分成get、post,

如果是get就照正常的处理方式以findall()直接取得。

1-指定要爬的网页

2-用findall()、find()指定要取得的元素名称

3-印出想要的内容

4-将内容保存

如果是post,

多一步,以submet的方式传入指定网页,

再取得post后回传的数据,

接着跟get一样,用findall()取得内容。

1-设定要传入(登入)的值,以json放入params

2-用request.post(),指定网页跟传入参数

3-取回post后的内文

4-用findall()、find()指定要取得的元素名称

5-印出想要的内容

6-将内容保存

如果不通就检查是否要有cookies、session的数据。

最后可以用selenium 来模拟开启网页,

效率慢,但是可以假装人工浏漤网页。

自我LV~