新足迹

 找回密码
 注册

精华好帖回顾

· 孩子的教育观 (2013-1-3) blackbird · 椰蓉面包 (2007-8-23) 紫雪花
· 在澳洲第一次坐上警车 (2014-10-13) kikixy1983 · 悉尼港SAILING ----- AF-S NIKKOR 17-55/1: 2.8 G ED 试镜 (2013-4-16) autrant
Advertisement
Advertisement
查看: 4202|回复: 9

求推荐数据抓取的framework [复制链接]

发表于 2015-4-19 16:16 |显示全部楼层
此文章由 nuptwg 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 nuptwg 所有!转贴必须注明作者、出处和本声明,并保持内容完整
想要找一个成熟一点的数据抓取framework, python 或者ruby 最好。
Advertisement
Advertisement

发表于 2015-4-19 16:38 |显示全部楼层
此文章由 waynepublic 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 waynepublic 所有!转贴必须注明作者、出处和本声明,并保持内容完整
你指的是screen scraping?

发表于 2015-4-19 22:45 |显示全部楼层
此文章由 rse43 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 rse43 所有!转贴必须注明作者、出处和本声明,并保持内容完整
http://scrapy.org/

评分

参与人数 3积分 +4 收起 理由
gzrain + 2 感谢分享
nuptwg + 1 谢谢推荐
stanlivss + 1 感谢分享

查看全部评分

发表于 2015-4-20 10:03 |显示全部楼层
此文章由 findcaiyzh 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 findcaiyzh 所有!转贴必须注明作者、出处和本声明,并保持内容完整
Selenium IDE  firefox下的类似于脚本的工具,也有各种语言的接口:
https://addons.mozilla.org/en-us ... xpert-selenium-ide/

发表于 2015-4-20 22:03 |显示全部楼层
此文章由 nuptwg 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 nuptwg 所有!转贴必须注明作者、出处和本声明,并保持内容完整
waynepublic 发表于 2015-4-19 16:38
你指的是screen scraping?

差不多,不过是api层次的数据抓取

发表于 2015-4-22 00:20 |显示全部楼层
此文章由 gzrain 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 gzrain 所有!转贴必须注明作者、出处和本声明,并保持内容完整
rse43 发表于 2015-4-19 22:45
http://scrapy.org/

这个是python的吧,不知道对js支持怎么样? 我们也有类似需求,现在用casperJS

Advertisement
Advertisement

发表于 2015-4-22 13:02 |显示全部楼层
此文章由 rse43 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 rse43 所有!转贴必须注明作者、出处和本声明,并保持内容完整
gzrain 发表于 2015-4-22 00:20
这个是python的吧,不知道对js支持怎么样? 我们也有类似需求,现在用casperJS

...

scrapy侧重于高并发下的HTML抓取,并不真正渲染页面。

类似casperJS,phantomJS这种需要把HTML和Javascript丢到webkit引擎里渲染,效率不会太高,更多用于测试用途。

发表于 2015-4-22 17:40 |显示全部楼层
此文章由 nuptwg 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 nuptwg 所有!转贴必须注明作者、出处和本声明,并保持内容完整
rse43 发表于 2015-4-22 13:02
scrapy侧重于高并发下的HTML抓取,并不真正渲染页面。

类似casperJS,phantomJS这种需要把HTML和Javascr ...

不要去渲染页面,只是用于数据聚合和再利用。

发表于 2015-4-22 23:58 |显示全部楼层
此文章由 gzrain 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 gzrain 所有!转贴必须注明作者、出处和本声明,并保持内容完整
rse43 发表于 2015-4-22 13:02
scrapy侧重于高并发下的HTML抓取,并不真正渲染页面。

类似casperJS,phantomJS这种需要把HTML和Javascr ...

我们的页面,要点击/输入好几个step才能达到,同时可能要等待ajax request返回动态页面,所以我们才选用casperJS, 用js promises 的sucess/failure 结果 进行下一个step的操作 ;

这个scrapy 看主页似乎 直接调取html,不知道对动态页面支持如何?

发表于 2015-5-3 23:12 |显示全部楼层
此文章由 audreamer 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 audreamer 所有!转贴必须注明作者、出处和本声明,并保持内容完整
直接用WinHttp.WinHttpRequest.5.1吧,灵活点,就是要自己manipulate raw data而已

发表回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Advertisement
Advertisement
返回顶部