注意1: 本文中的所有程序都基于Python3.6,因此早于Python3.6的Python版本可能无法运行。
重要说明2:抓取的网站显示内容随时可能发生变化,程序应及时跟进。
重要说明3: 该程序仅用于教育目的,不得用于恶意目的。
开始使用1. 安装Python 3.6。
2.安装以下库:
整个程序的主要思想就是遵循下面的:个步骤。
1. 获取要抓取的页面的URL地址(这可以是分页地址,也可以通过编程模拟分页)。
2、通过request(封装了urllib3的网络库,简化了很多网络请求)将上述URL地址的内容下载到内存中(之前的方法是保存一个临时文件)。
3、使用BeautifulSoup(一个HTML解析的库)读取第二步中存储在内存中的内容,解析出需要的主要内容。
4. 在数据库中保存或显示(免责声明: 本示例程序不包含数据库部分)。程序最终会输出几个json数据(已经包含源网站(自定义)、创建时间等)。 )
如果您在代码中反映上述部分,它将如下所示:
首先,在Main.py 中定义:
用于格式化布姐检索到的数据。下面,我们还需要定义Qsyk来处理尴尬百科:的数据。
代码中还有看趣网的抓取过程,这里就不记录了。它们之间的唯一区别是: 调用common.formatContent 时传递的第二个参数。内容(HTML) 类。
CommonGrab 依赖于UserUtils.py 中的代码。
下面是CommonGrab 的定义。 CommonGrab : 主要做两件事。
捕获网页内容,将其存储在内存中,解析HTML内容(使用BeautifulSoup),并将数据添加到数据库(不将数据添加到数据库)。这是代码:
剩下的就是组装上面的部件了。
执行部分的代码如下,主要调用了上面部分中的代码:
下载源码CSDN:
https://download.csdn.net/download/dcxy0/9835268
编码.net:
https://coding.net/u/pruidong/p/Python3GetQsbkBdj/git
文件:
运行main.py:
UserUtils.py:工具
本文来自Async社区,作者:dcxy,作品《Python3抓取糗百、不得姐》,未经许可不得转载。
本文和图片来自网络,不代表火豚游戏立场,如若侵权请联系我们删除:https://www.huotun.com/game/672295.html