博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
1)④爬取新浪军事新闻,并把内容存放到相应的文件夹中
阅读量:7218 次
发布时间:2019-06-29

本文共 1800 字,大约阅读时间需要 6 分钟。

1 __author__ = 'minmin' 2 #coding:utf-8 3 import re,urllib,sgmllib,os 4  5 #根据当前的url获取html 6 def getHtml(url): 7     page = urllib.urlopen(url) 8     html = page.read() 9     page.close()10     return html11 12 #根据html获取想要的文章内容13 def func(str):14      result= re.findall(r"

([^<>]*)

",getHtml(url),re.M)15 artical =''16 for j in result:17 if len(j)<>0:18 j = j.replace(" ","")19 j = j.replace(""," ")#去掉,换成" "20 j = j.replace(""," ")#去掉换成" "21 artical = artical + j + '\n'22 return artical23 24 #html链接的标签是“a”,链接的属性是“href”,也就是要获得html中所有tag=a,attrs=href 值。25 class URLPaser(sgmllib.SGMLParser):26 def reset(self):27 sgmllib.SGMLParser.reset(self)28 self.urls = []29 30 def start_a(self,attrs):31 href = [v for k,v in attrs if k == 'href']32 if href:33 self.urls.extend(href)34 35 IParser = URLPaser()36 socket = urllib.urlopen("http://mil.news.sina.com.cn/")#打开这个网页37 38 #fout = file('qq_art_urls.txt','w')#要把这个链接写到这个文件中39 IParser.feed(socket.read())#分析啦40 41 reg = 'http://mil.news.sina.com.cn/.*'#这个是用来匹配符合条件的链接,使用正则表达式匹配42 43 pattern = re.compile(reg)44 45 46 os.getcwd()#获得当前文件夹路径47 os.path.sep#当前系统路径分隔符48 49 #判断文件是否存在50 if os.path.exists('sina_military')==False:51 os.makedirs('sina_military')52 53 i = 054 url2 = []55 for url in IParser.urls:#链接都存在urls里56 57 if pattern.match(url):58 if url not in url2:59 url2.append(url)60 artical = func(url)61 print artical62 if len(artical)<>0:63 i = i + 164 f = open("sina_military/"+ str(i) + '.txt','a+')65 f.write(artical)66 f.close()

 

转载于:https://www.cnblogs.com/minmsy/p/4962731.html

你可能感兴趣的文章
hdu 3804 Query on a tree (树链剖分+线段树)
查看>>
定位、指南针、地理编码
查看>>
Kafka 简介
查看>>
MySQL 用户连接与用户线程
查看>>
RabbitMq、ActiveMq、Kafka和Redis做Mq对比
查看>>
C# 图片处理(压缩、剪裁,转换,优化)
查看>>
Linux bridge-utils tunctl 使用
查看>>
Leetcode Pascal&#39;s Triangle II
查看>>
运行shell脚本报错 &#39;\357\273\277&#39;: command not found 解决的方法
查看>>
android studio 0.8.1使用和遇到问题解决
查看>>
云服务器ECS选购集锦之六区域选择帮助
查看>>
云虚机选购指南之二云虚拟主机试用帮助文档
查看>>
女友眼中的IT男
查看>>
Excel连接
查看>>
java基础-多线程学习
查看>>
WPF打印原理,自定义打印
查看>>
HTML5 5
查看>>
箭头css
查看>>
Python入门,以及简单爬取网页文本内容
查看>>
顺丰科技笔试回忆
查看>>