先要找到提供这个地方天气信息的网站
然后用firefox之类的浏览器分析
之后用python按分析的结果来提取所需要的数据
bs4是可以提取的,因为你这一段里面出现的文字都是你要的,不存在剔除的考虑。
网页解析:要么使用bs4、要么使用bs4+re(正则),或者你可以使用以下PyQuery,这个也是用在网页爬虫解析页面的模块。
如果还是琢磨不出来,你把你这整个的html源码发上来,我搞搞,现在只看一段很难帮你
# 获取温度、湿度、风力等
WEATHER_URL_A = ""
# 获取天气状况、更大/小温度等
WEATHER_URL_B = ""
# 获取未来7天天气数据
WEATHER_URL_C = ""
URL里%s指城市对应的代码。详细参考:
不过这篇文章里有的接口已经不能用了。
上面我给的三个URL里,前两个直接返回json格式数据;第三个返回是一个页面,需要自己从页面里提取想要的信息。
使用到了urllib库和bs4。bs4提供了专门针对html的解析功能,比用RE方便许多。
# coding : UTF-8import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )from bs4 import BeautifulSoupimport csvimport urllibdef get_html(url):
html = urllib.urlopen(url) return html.read()def get_data(html_text):
final = []
bs = BeautifulSoup(html_text, "html.parser")
body = bs.body
data = body.find('div', {'id': '7d'})
ul = data.find('ul')
li = ul.find_all('li') for day in li:
temp = []
date = day.find('h1').string
temp.append(date)
inf = day.find_all('p')
temp.append(inf[0].string,) if inf[1].find('span') is None:
temperature_highest = None
else:
temperature_highest = inf[1].find('span').string
temperature_highest = temperature_highest.replace('C', '')
temperature_lowest = inf[1].find('i').string
temperature_lowest = temperature_lowest.replace('C', '')
temp.append(temperature_highest)
temp.append(temperature_lowest)
final.append(temp) return finaldef write_data(data, name):
file_name = name with open(file_name, 'a') as f:
f_csv = csv.writer(f)
f_csv.writerows(data)if __name__ == '__main__':
html_doc = get_html('')
result = get_data(html_doc)
write_data(result, 'weather.csv') print result12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152
运行结果保存在csv文件中,如下:
28日(今天),小雨,,13℃29日(明天),小雨转阴,15℃,12℃30日(后天),多云,19℃,14℃31日(周一),小雨,16℃,14℃1日(周二),阴转多云,16℃,10℃2日(周三),多云转晴,17℃,10℃3日(周四),多云转晴,18℃,11℃1234567
分两步走: 从天气网站上抓取所要的天气数据 调用第三方提供的短信接口发送所抓取的天气数据
俄乌冲突进入第 3 周,一些非常规行为者继续针对俄罗斯国家支持的企业发起攻击,进行一连串的黑客攻击和数据泄露。而由俄罗斯国家控制的石油管道巨头 Transneft 无疑成为了重点攻击对象。 本周四,泄密托管网站 Distributed Denial of Secrets 发布了一个 79GB 的电子...
近日,据Reddit上的帖子和Cyber Kendra上的一份报告显示,LAPSUS$ (Lapsus) 组织入侵了微软的DevOps帐户,该组织此前入侵了NVIDIA和三星。 下面的截图由Lapsus发布,但很快被删除,由Cyber Kendra保存了下来。该组织声称可以访问微软的一些DevOps...
近期,网络安全公司Binarly研究人员发现16个影响惠普企业设备的统一可扩展固件接口高危漏洞。攻击者可以利用这些漏洞植入固件,使其能够在操作系统更新后继续存在并绕过 UEFI安全启动、Intel Boot Guard和基于虚拟化的安全性。受影响的设备包括多个惠普企业设备,如笔记本电脑、...
Hackernews 编译,转载请注明出处: 从2021年6月,一个可能来自巴基斯坦的攻击者与一个针对感兴趣目标的后门攻击有关,该攻击使用了一种基于 windows 的远程访问木马,名为 CrimsonRAT。 Cisco Talos公司的研究人员在与The Hacker New...
根据区块链数据公司Chainalysis的一份报告,在2021年底,网络犯罪分子拥有超过110亿美元与非法活动有关的加密货币,比2020年底的30亿美元有了飞速的增长。最有利可图的犯罪行为是盗窃。据该公司称,犯罪分子、加密货币钱包中93%的资金是由价值98亿美元的被盗币构成。 为了找到这些数字,Ch...
早在 5 月,微软就认定有俄罗斯背景的 NOBELIUM 黑客组织要对持续数月的 SolarWinds 网络攻击事件负责,并同企业、政府和执法机构达成了合作,以遏制此类网络攻击的负面影响。早些时候,微软更进一步地剖析了 NOBELIUM 使用的一套更加复杂的恶意软件传送方法。可知其用于造成破坏,并获...