新足迹

 找回密码
 注册

精华好帖回顾

· Safe Schools Coalition和华裔青少年们的声音【华裔青少年致:新足迹,教育版,所有华人家长】 (2016-6-21) 奇思 · 主流社会是个什么东西? (2007-12-20) coffeecorner
· 路考考前复习提纲 (2005-1-16) 文文 · 五一长假:广西中越边境—德天大瀑布、北海银滩之行 (2005-5-8) voicar
Advertisement
Advertisement
查看: 4488|回复: 16

Python爬虫如何发送实时信息 ? [复制链接]

头像被屏蔽

禁止发言

发表于 2018-8-24 01:41 来自手机 |显示全部楼层
此文章由 天朝屁民 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 天朝屁民 所有!转贴必须注明作者、出处和本声明,并保持内容完整
编程小白最近开始学python爬虫,爬一个信息实时更新的道路情况网站,网站不定时更新。现在已经实现的程序是每隔5分钟抓取一次,然后发送到邮件。

发现这样会造成许多重复的邮件,没有效率。。。想修改程序实现:一旦网站更新信息才抓取然后发送,然后爬虫监测直到下一个更新信息出现再抓取发送,如此循环。

我是入门小白,能想到的办法就是把抓取的内容放到txt文档里,然后不断比对新抓取的内容,如果不一致才发送邮件。

请各位高手提点,感谢。
Advertisement
Advertisement

发表于 2018-8-24 05:59 |显示全部楼层
此文章由 woshidajiangyou 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 woshidajiangyou 所有!转贴必须注明作者、出处和本声明,并保持内容完整
只要能达到你的目的就可以了
想要具体的,你给出网站,可以看看有无更好的办法

评分

参与人数 1积分 +3 收起 理由
天朝屁民 + 3 感谢分享

查看全部评分

发表于 2018-8-24 07:35 来自手机 |显示全部楼层
此文章由 perfectstock 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 perfectstock 所有!转贴必须注明作者、出处和本声明,并保持内容完整
这种网站应该有订阅服务,主动推送更新的吧

发表于 2018-8-24 10:02 来自手机 |显示全部楼层
此文章由 htv 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 htv 所有!转贴必须注明作者、出处和本声明,并保持内容完整
保存上一次的数据,再爬的时候对比一下再决定要不要发新邮件

评分

参与人数 1积分 +3 收起 理由
天朝屁民 + 3 感谢分享

查看全部评分

头像被屏蔽

禁止发言

发表于 2018-8-24 10:20 |显示全部楼层
此文章由 天朝屁民 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 天朝屁民 所有!转贴必须注明作者、出处和本声明,并保持内容完整
htv 发表于 2018-8-24 10:02
保存上一次的数据,再爬的时候对比一下再决定要不要发新邮件

我现在是保存到txt,然后再爬的时候读文件进行对比,但我觉得这样有点傻。。。

有没有更好保存数据的方法呢?
头像被屏蔽

禁止发言

发表于 2018-8-24 10:21 |显示全部楼层
此文章由 天朝屁民 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 天朝屁民 所有!转贴必须注明作者、出处和本声明,并保持内容完整
perfectstock 发表于 2018-8-24 07:35
这种网站应该有订阅服务,主动推送更新的吧

就是为了锻炼爬虫技能啊 哈哈
Advertisement
Advertisement

发表于 2018-8-24 10:25 来自手机 |显示全部楼层
此文章由 htv 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 htv 所有!转贴必须注明作者、出处和本声明,并保持内容完整
天朝屁民 发表于 2018-8-24 10:20
我现在是保存到txt,然后再爬的时候读文件进行对比,但我觉得这样有点傻。。。

有没有更好保存数据的方 ...

干嘛需要更好的呢
果粉和米粉
头像被屏蔽

禁止发言

发表于 2018-8-24 10:30 来自手机 |显示全部楼层
此文章由 天朝屁民 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 天朝屁民 所有!转贴必须注明作者、出处和本声明,并保持内容完整
htv 发表于 2018-8-24 10:25
干嘛需要更好的呢

觉得我自己的这方法没啥效率 因为初学嘛 不能自己闭门造车哈哈

发表于 2018-8-24 13:31 |显示全部楼层
此文章由 mzbac 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 mzbac 所有!转贴必须注明作者、出处和本声明,并保持内容完整
md5 算一下 值变量在抓

评分

参与人数 1积分 +3 收起 理由
天朝屁民 + 3 感谢分享

查看全部评分

头像被屏蔽

禁止发言

发表于 2018-8-24 13:39 |显示全部楼层
此文章由 天朝屁民 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 天朝屁民 所有!转贴必须注明作者、出处和本声明,并保持内容完整
mzbac 发表于 2018-8-24 13:31
md5 算一下 值变量在抓

之前的MD5值存放在哪里以便进行比对呢?

发表于 2018-8-24 13:59 |显示全部楼层
此文章由 APSTNDP 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 APSTNDP 所有!转贴必须注明作者、出处和本声明,并保持内容完整
天朝屁民 发表于 2018-8-24 13:39
之前的MD5值存放在哪里以便进行比对呢?

放在一个python变量里不行吗?

评分

参与人数 1积分 +3 收起 理由
天朝屁民 + 3 感谢分享

查看全部评分

Advertisement
Advertisement
头像被屏蔽

禁止发言

发表于 2018-8-24 14:05 |显示全部楼层
此文章由 天朝屁民 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 天朝屁民 所有!转贴必须注明作者、出处和本声明,并保持内容完整
APSTNDP 发表于 2018-8-24 13:59
放在一个python变量里不行吗?

嗯 放到变量里进行比对,如果有新值就替换然后发邮件,不然就保存,好办法。

发表于 2018-8-24 14:09 |显示全部楼层
此文章由 APSTNDP 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 APSTNDP 所有!转贴必须注明作者、出处和本声明,并保持内容完整
天朝屁民 发表于 2018-8-24 14:05
嗯 放到变量里进行比对,如果有新值就替换然后发邮件,不然就保存,好办法。 ...

  这不就是python最简单的条件判断么......

发表于 2018-10-17 08:18 来自手机 |显示全部楼层
此文章由 nathan0000 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 nathan0000 所有!转贴必须注明作者、出处和本声明,并保持内容完整
建议不够营养

发表于 2018-10-17 09:52 来自手机 |显示全部楼层
此文章由 gzrain 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 gzrain 所有!转贴必须注明作者、出处和本声明,并保持内容完整
check if the server support http response 304 ‘Not Modified’

发表于 2018-10-17 10:25 |显示全部楼层
此文章由 ironcool 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 ironcool 所有!转贴必须注明作者、出处和本声明,并保持内容完整
一些网站通过 long polling 或者更先进的 websocket 来推送更新, 如果你要做到有了通知才去抓,那么你的爬虫得能够理解和执行 javascript 或者处理 websocket 连接。这毫无必要,无端增加复杂度。

简单粗暴的解决问题就行了,就对比你抓下来的 txt, 没什么不好。
Advertisement
Advertisement

发表于 2018-10-17 10:55 |显示全部楼层
此文章由 tghj01 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 tghj01 所有!转贴必须注明作者、出处和本声明,并保持内容完整
初级做法:
每次爬了页面把你关心的数据存到文件或者数据库,下次再抓回来就做一次对比。然后发邮件


进阶做法:
爬虫只管爬页面,另外写个后台接受爬虫拿到的数据。 后台收到数据后和数据库对比,然后trigger 自定义的action (发邮件,发短信 or whatever)



唬人做法:
爬虫放docker, 做集群,拉了数据回来喂aws Kinesis, 什么hadoop,zooke,机器学习,能加的都加上。再上链发个币, 融资,上市,走上人生巅峰。

评分

参与人数 1积分 +4 收起 理由
epoxboy + 4 偶对你的景仰如滔滔江水

查看全部评分

发表回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Advertisement
Advertisement
返回顶部