您现在的位置是： > app安装用户数据

python 网页爬虫实践（附完整代码）

2024-05-14 02:52:01【app安装用户数据】4人已围观

简介PS: 封面照片由大师姐拍摄，版权归大师姐所有本文将介绍如何从简书页面抓取全部超链接，以及如何从简书抓取页面文章标题和正文内容，并且将抓取到这些信息存入txt文档中本文仅作为python爬虫技术学习交

分开保存92个文件，网页以及如何使用colab。爬虫

如果是实践sdk数据，精准营销连续执行1、

1.抓取简书页面所有的附完超链接from bs4 import BeautifulSoup import urllib.request url = "https://www.jianshu.com/p/deb8002bbba6" # define a header to address the error: HTTP Error 403: Forbidden user_agent = Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.7) Gecko/2009021910 Firefox/3.0.7 headers={ User-Agent:user_agent,} request=urllib.request.Request(url,None,headers) #The assembled request response = urllib.request.urlopen(request) html =response.read() # 解析网页内容 soup = BeautifulSoup(html, html.parser) usefulurls=[] pageurls = soup.find_all(a) for link in pageurls: url = link.get(href) if url[0:5]!=https: pass # 排除不符合要求的网址 elif len(url)<36: pass # 排除不符合要求的网址 else: usefulurls.append(url)

大家可以分步骤执行，4的整代话，

记得在colab中mount一下。网页可见，爬虫

因此对应的实践解析代码为： #获取文章正文内容 body = soup.find(article, class_ =_2rhmJa) for p in body.find_all([p,h1]): sen=p.text.replace(u\xa0, u)# delete all \xa0 sen=sen.replace(u\n, u) # delete all \n if len(sen)>1: #delete 空行和只有一个字符的无用行 body_list.append(sen) 其中下面这几句是根据p.text的返回结果对文本做了一点处理来删除对于的空白格和空行 sen=p.text.replace(u\xa0, u)# delete all \xa0 sen=sen.replace(u\n, u) # delete all \n if len(sen)>1: #delete 空行和只有一个字符的无用行 body_list.append(sen)

4.保存抓取的文章标题和正文内容# save the contend of all urls into a txt file filename=./data/英语流利说_懂你英语_level1_8.txt fileObject = open(filename, w) for text in body_list: fileObject.write(text) fileObject.write(\n) fileObject.close()

注意事项：1.上面的代码是将所有92个页面的内容保存在同一个文件中，

欢迎看我之前的附完帖子，直接就能用。整代2中抓取出这些有用的网页笔记链接。可以看见：

因此，爬虫懂你英语level1-level8全部笔记链接的实践sdk数据，精准营销汇总页面。需要的附完92个url都已经在该列表里面了。在弹出菜单中点击inspect，整代2 这一步可以省略3.抓取1中超链接对应页面的文章标题和正文内容因为一共有92个页面需要抓取，并且将抓取到这些信息存入txt文档中本文仅作为python爬虫技术学习交流，在右边的源代码框里就会高亮对应的位置。

PS: 封面照片由大师姐拍摄，并抓取所有的标题、以及如何从简书抓取页面文章标题和正文内容，我们用一个大循环来实现标题和正文一句一句的解析出来之后，打印usefulurls的值如下所示，在左边需要解析的内容上点击右键，我们可以查看正文都在article._2rhmJa中，包含h1和p两种标签。所有的包都已经按照好了，按F12进入开发者模式，代码执行结束之后，并保存。依次放入一个名为body_list的列表中。

执行结果：

2.我是用google colab实现的，不对抓取到的文章做其他用途。具体看下面的教程。对应的python 爬虫代码为：title = soup.find(h1, class_ =_1RuRku).text同样，用浏览器进入 L1-U1-P1 英语流利说 1-1-1 懂你英语 Level1 Unit1 Part1 ，正文，讲如何不翻墙用colab，版权归大师姐所有本文将介绍如何从简书页面抓取全部超链接，大师姐：不翻墙，4部分将循环进入所有的笔记页面，如果想用文章标题做文件名，完全不用配环境，所以，下图是其中一个详情页面的例子。尊重作者著作权，

在3、

2.保存所有的超链接url我们用pickle保存列表数据usefulurls# save urls import pickle pickle.dump( usefulurls, open( "./data/usefulurls.p", "wb" ) )

之后可以用下面的代码再导入usefulurls的数据import pickle # load urls usefulurls = pickle.load( open( "./data/usefulurls.p", "rb" ) )。3、可以用下面这段代码import requests from bs4 import BeautifulSoup from urllib. parse import urljoin for url in usefulurls: user_agent = Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.7) Gecko/2009021910 Firefox/3.0.7 headers={ User-Agent:user_agent,} content = requests.get(url, headers=headers).text #获取文章标题和正文 content = requests. get(url, headers=headers). text soup = BeautifulSoup(content, lxml) #标题 title = soup.find(h1, class_ =_1RuRku).text #获取文章正文内容 body = soup.find(article, class_ =_2rhmJa) body_list = [] for p in body.find_all([p,h1]): sen=p.text.replace(u\xa0, u)# delete all \xa0 sen=sen.replace(u\n, u) # delete all \n if len(sen)>1: #delete 空行和只有一个字符的无用行 body_list.append(sen) # save the contend of each url into a txt file title=title.replace(-,_) # 将标题中的-替换为_ title=title.replace( ,_) # 将标题题中的空格替换为_ filename=./data/EnglishText/+title+.txt fileObject = open(filename, w) for text in body_list: fileObject.write(text) fileObject.write(\n) fileObject.close()。一步一步查看执行效果，下面是我在google drive中的文件和文件夹设置。使用google搜索和colab236 赞同 · 18 评论文章

大师姐：如何愉快的薅google colab的羊毛37 赞同 · 2 评论文章完整代码from bs4 import BeautifulSoup import urllib.request url = "https://www.jianshu.com/p/deb8002bbba6" # define a header to address the error: HTTP Error 403: Forbidden user_agent = Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.7) Gecko/2009021910 Firefox/3.0.7 headers={ User-Agent:user_agent,} request=urllib.request.Request(url,None,headers) #The assembled request response = urllib.request.urlopen(request) html =response.read() # 解析网页内容 soup = BeautifulSoup(html, html.parser) usefulurls=[] pageurls = soup.find_all(a) for link in pageurls: url = link.get(href) if url[0:5]!=https: pass # 排除不符合要求的网址 elif len(url)1: #delete 空行和只有一个字符的无用行 body_list.append(sen) # save the contend of all urls into a txt file filename=./data/英语流利说_懂你英语_level1_8.txt fileObject = open(filename, w) for text in body_list: fileObject.write(text) fileObject.write(\n) fileObject.close()

以及对应变量的值来理解上面的代码。我们将在1、

以标题为例，

import requests from bs4 import BeautifulSoup from urllib. parse import urljoin body_list = [] # hold all texts for url in usefulurls: user_agent = Mozilla/5.0 (Windows; U; Windows NT 5.1; en-US; rv:1.9.0.7) Gecko/2009021910 Firefox/3.0.7 headers={ User-Agent:user_agent,} content = requests.get(url, headers=headers).text #获取文章标题 content = requests. get(url, headers=headers). text soup = BeautifulSoup(content, lxml) #标题 title = soup.find(h1, class_ =_1RuRku).text body_list.append(title) #获取文章正文内容 body = soup.find(article, class_ =_2rhmJa) for p in body.find_all([p,h1]): sen=p.text.replace(u\xa0, u)# delete all \xa0 sen=sen.replace(u\n, u) # delete all \n if len(sen)>1: #delete 空行和只有一个字符的无用行 body_list.append(sen)

下面对部分代码进行讲解：以第一个正文页面为例，

目录0. 要抓取的页面介绍1.抓取简书页面所有的超链接2.保存所有的超链接3.抓取1中超链接对应页面的文章标题和正文内容4.保存抓取的文章标题和正文内容文章最后附完整代码0. 要抓取的页面介绍本文将以抓取如下页面为例进行展开：

快速链接（详）：懂你英语笔记目录www.jianshu.com/p/deb8002bbba6