零基础想做一个python爬虫,怎么操作比较好,能快速入门

python 投稿 3800 0 评论

零基础学习python爬虫的话,可以学习一下requests+BeautifulSoup组合,非常简单,其中requests用于请求页面,BeautifulSoup用于解析页面,下面我简单介绍一下这个组合的安装和使用,实验环境win7+python3.6+pycharm5.0,主要内容如下:

1.首先,安装requests和BeautifulSoup,这个直接在cmd窗口输入命令“pip install requests bs4”就行,如下,很快就能安装成功,BeautifulSoup是bs4模块的一个类:

2.安装完成后,我们就可以直接编写代码来实现网页数据的爬取了,这里以糗事百科非常简单的静态网页为例,主要步骤及截图如下:

这里假设我们要爬去的数据包含3个字段的内容,如下,分别是昵称、年龄和内容:

接着打开网页源码,如下,就可以直接找到我们需要的数据,嵌套在对应的标签中,后面就是对这些数据进行提取:

然后就是根据上面的网页结构,编写对应代码请求页面,对返回的数据进行解析,提取出我们需要的数据就行,测试代码如下,非常简单:

点击运行程序,就会获取到我们需要的数据,截图如下:

3.熟悉基本爬虫后,就可以学习一下python爬虫框架scrapy了,在业界非常流行,功能非常强大,可以快速爬取网站结构化数据,广泛应用于数据挖掘,信息处理之中:

至此,我们就完成了requests+BeautifulSoup组合的简单安装和使用。总的来说,整个过程非常简单,也就是入门级的python爬虫教程,只要你有一定的python基础,熟悉一下上面的代码,多调试几遍程序,很快就能掌握的,网上也有相关教程和资料,介绍的非常丰富详细,感兴趣的话,可以搜一下,希望以上分享的内容能对你有所帮助吧,也欢迎大家留言、评论。

python3如何读写mysql数据库?都有哪些方式呢?

这里简单总结一下,有3种方式,一种是原生的pymysql,一种是ORM框架SQLAlchemy,一种是pandas,这3种方法操作mysql数据库都很简单,下面我结合相关实例介绍一下实现过程,实验环境win10+python3.6+pycharm5.0,主要内容如下:

为了更好地说明问题,我这里新建了一个student数据表,主要内容如下,包含6个字段信息:

pymysql:这个是原生的专门用于操作mysql数据的一个库,是最基本的方式,使用简单,方便快捷,下面我简单介绍一下这个库:1.安装pymysql,这个直接在cmd窗口输入命令“pip install pymysql”就行,如下:

2.安装成功后,我们就可以进行正常的测试了,主要代码及截图如下:

查询mysql数据库,代码很简单,设置一下对应的host,user,passwd,db,chartset就行:

程序运行截图如下,成功获取数据:

更新数据库(包括更新、插入和删除操作,只要sql语句不同就行),代码与上面类似,唯一的区别就是,更新后需要commit提交一下数据库,不然数据库不会发生改变:

程序运行截图如下,已经成功插入数据:

SQLAlchemy:这是一个ORM框架,对象关系映射模型,支持MySQL,SQL Server,Oracle等主流关系型数据库,基于pymysql库,封装了大量的内置函数,可以直接对数据库进行增删改查操作,使用起来非常方便,下面我简单介绍一下这个库:1.安装SQLAlchemy,这个与上面类似,直接在cmd窗口输入命令“pip install sqlalchemy”就行,如下:

2.安装完成后,我们就可以来操作mysql数据了,主要代码及截图如下:

首先,连接数据库,这个与上面类似,需要指定用户名,密码等,创建session会话和base基类:

定义Student类,对应student数据表,这个根据字段信息直接定义就行:

查询数据,主要代码如下:

程序运行截图:

插入数据,需要commit提交,代码如下:

程序运行截图,已成功插入数据:

更新数据,需要commit提交,代码如下:

程序截图如下,已成功修改数据:

删除数据,需要commit提交,代码如下:

已删除数据:

pandas:这是一个专门用于数据处理的库,可以快速处理csv,excel等数据,当然,也可以快速的读取和插入mysql数据库(需要结合sqlalchemy一起使用),下面我简单介绍一下这个库的使用:1.安装pandas,这个直接在cmd窗口输入命令“pip install pandas”就行,如下:

2.查询数据,主要代码如下,很简单,主要用到read_sql_query这个函数:

程序运行截图如下,已经成功查询到结果:

3.插入数据表,这个直接构建DataFrame对象,调用to_sql函数就行,如下:

插入到新表的数据:

至此,我们就完成了mysql数据的增删改查。总的来说,这3种方法使用起来都非常方便,只要你有一定的python和mysql基础,熟悉一下相关示例和代码,很快就能掌握的,网上相关教程和资料也很多,感兴趣的可以搜一下,希望以上分享的内容能对你有所帮助吧,也欢迎大家评论、留言。

当然是通过pymysql包建立数据库连接,为加强多线程并行读写数据库性能,还必须使用DButiles包建立数据库连接池

编程学习分享 » 零基础想做一个python爬虫,怎么操作比较好,能快速入门

赞 (0) or 分享 (0)
游客 发表我的评论   换个身份
取消评论

表情
(0)个小伙伴在吐槽

高效,专业,符合SEO

联系我们