det365官网(中国)官方网站

工程实践案例交流坊第二课《Python爬虫从入门到实践》顺利举行

工程实践案例交流坊第二课于2021年6月7日下午两点半在学院415开课。主讲人为det365官网优秀博士生李伯钊。李伯钊博士从爬虫技术原理、技术与实战案例等方面为大家带来一场精彩的讲座。

讲座伊始，李伯钊博士向我们介绍了爬虫的两种基本方法：第一种为通过解析网页爬取数据，此部分又分为从静态网页与动态网页获取数据，静态网页获取数据是数据固定在HTML文件当中，进而从中获取数据，从动态网页获得数据是数据通过请求加载到网页当中，而请求通常无法监测或存在加密或参数无法推断数据。第二种为通过官方API接口或拦截请求获取数据。随后主讲人又向同学们介绍了如何分析爬虫的请求地址的两种方法：一种是在网页端用谷歌浏览器按F12键后可以看到发送的请求，安卓手机端的抓包工具使用PacketCapture，手机端APP发送的请求都可以拦截到。

在第二部分，李伯钊博士向我们介绍了爬虫所需要的基本技能。首先是前端技术，主要包括控制整个页面的样式的CSS技术、控制网页结构框架与数据的HTML技术、管理网页逻辑的JavaScript技术三项技术。在此部分，主讲人提到可以利用样式选择器、XPath快速从网页中定位标签，获得我们所需数据的位置。另外，主讲人提到爬虫还需了解Json数据格式，这是请求返回的数据格式。在网络技术部分，主讲人则主要讲解了常见网络请求方式：Post与Get的区别，这对之后的获取页面与反爬十分重要。然后，李伯钊博士提到了数据库技术、数据结构及数据容器，这两项技术对我们存储、管理、可视化数据，提高数据管理效率至关重要。最后一项技术为Python代码基础与逻辑，主讲人向我们推荐了菜鸟教程网站的Python教程，并着重提示大家多线程可以明显提高爬虫效率。

课程第三部分为爬虫框架介绍。在此部分主讲人向同学们介绍了request、BeautifulSoup4、Selenium三种方法。Request主要通过header与proxies参数限制请求与登录IP。BeautifulSoup4为从HTML或XML文件中提取数据的Python库，可以帮助解析标签与获取数据。Selenium可以模拟人的点击与滚动事件，是爬取动态页面的重要方法。

在实战案例部分，李伯钊博士为同学们展示了爬取高德地图的POI数据、国家统计局网页爬取区划代码数据、安居客与房天下房产数据与知乎动态网页数据。最后，李伯钊博士为同学们介绍了加上headers（user-agent），随机延时，构建IP代理池、账号池，模拟浏览器与图像识别技术破解验证码五种反爬虫方法。

课程资源获取方式：扫描下方二维码或点击链接。

链接：https://pan.baidu.com/s/1Lm0mR2RgyEPOrD9h6QHeWg

提取码：4vit

文本：李莹

供图：段芷薏

学术科研

工程实践案例交流坊第二课《Python爬虫从入门到实践》顺利举行