新足迹

 找回密码
 注册

精华好帖回顾

· Preview:Australian Open (2009-1-15) joaquin · 【露珠放梳妆台了!】全面开八各国超热门彩妆/护肤/洁面产品(妆效图) (2016-12-11) bella_92
· (旅游经验)带14个月宝宝游Gold Coast(大量照片全部9楼文字更新完毕) (2008-2-10) 蓝月亮 · [虎妞家的双人饭桌] 11月29日 更新:豆干炒蒜薹,干煸西葫芦,大包子 P4 (2008-9-13) Tiger_Karen
Advertisement
Advertisement
12
返回列表 发新帖
楼主:gooderic1977

请高人指教设计思路,加分啊! [复制链接]

发表于 2013-5-14 14:34 |显示全部楼层
此文章由 Fernando 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 Fernando 所有!转贴必须注明作者、出处和本声明,并保持内容完整
本帖最后由 Fernando 于 2013-5-14 13:35 编辑

你没写清楚,关键词全都filter出来了,怎么处理?存什么,存哪儿?
Advertisement
Advertisement

发表于 2013-5-14 14:38 |显示全部楼层
此文章由 gooderic1977 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 gooderic1977 所有!转贴必须注明作者、出处和本声明,并保持内容完整
Fernando 发表于 2013-5-14 13:34
你没写清楚,关键词全都filter出来了,怎么处理?

怎样处理是另外一个故事了。。。。

目前的需求概括起来就是,给一段文字,再给一本词典,在词典里找出文中出现过的词,并以数组形式返回

发表于 2013-5-14 14:42 |显示全部楼层
此文章由 很明显 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 很明显 所有!转贴必须注明作者、出处和本声明,并保持内容完整
gooderic1977 发表于 2013-5-14 13:38
怎样处理是另外一个故事了。。。。

目前的需求概括起来就是,给一段文字,再给一本词典,在词典里找出文 ...

不提数据库的话

这种在算法上,是用一个prefix tree来储存词典的,比hashmap更小,更快,Olog(n)


比如google搜索框,你每输入一个字母,就列出来多个以该所有字母开头的单词

发表于 2013-5-14 14:43 |显示全部楼层
此文章由 garyyang 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 garyyang 所有!转贴必须注明作者、出处和本声明,并保持内容完整
gooderic1977 发表于 2013-5-14 13:38
怎样处理是另外一个故事了。。。。

目前的需求概括起来就是,给一段文字,再给一本词典,在词典里找出文 ...

我估计你需要highlight那些符合要求的关键字吧?

如果对的话, 你仅仅需要一个plugin
var processed_message = StrFunction(message, "keyword1, keyword2....")

如果是web application, jquery有很多这样的插件。
88足迹, 一个无聊多于乐趣的地方。

发表于 2013-5-14 14:45 |显示全部楼层
此文章由 很明显 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 很明显 所有!转贴必须注明作者、出处和本声明,并保持内容完整
garyyang 发表于 2013-5-14 13:43
我估计你需要highlight那些符合要求的关键字吧?

如果对的话, 你仅仅需要一个plugin

。。。 这要在stackoverflow上,会被扣很多分的

发表于 2013-5-14 14:45 |显示全部楼层
此文章由 gooderic1977 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 gooderic1977 所有!转贴必须注明作者、出处和本声明,并保持内容完整
很明显 发表于 2013-5-14 13:42
不提数据库的话

这种在算法上,是用一个prefix tree来储存词典的,比hashmap更小,更快,Olog(n)

哦,我研究下,谢指教。
Advertisement
Advertisement

发表于 2013-5-14 14:48 |显示全部楼层
此文章由 garyyang 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 garyyang 所有!转贴必须注明作者、出处和本声明,并保持内容完整
很明显 发表于 2013-5-14 13:45
。。。 这要在stackoverflow上,会被扣很多分的

呵呵。 用现成的比较适合LZ
88足迹, 一个无聊多于乐趣的地方。

发表于 2013-5-14 14:56 |显示全部楼层
此文章由 很明显 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 很明显 所有!转贴必须注明作者、出处和本声明,并保持内容完整
garyyang 发表于 2013-5-14 13:48
呵呵。 用现成的比较适合LZ

这是属于不相信楼主的表现

问啥答啥,不要问楼主到底想干什么,不要帮楼主想捷径

发表于 2013-5-14 14:59 |显示全部楼层
此文章由 gooderic1977 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 gooderic1977 所有!转贴必须注明作者、出处和本声明,并保持内容完整
garyyang 发表于 2013-5-14 13:43
我估计你需要highlight那些符合要求的关键字吧?

如果对的话, 你仅仅需要一个plugin

这个filter完全是后台运行的,不涉及UI.

发表于 2013-5-14 15:02 |显示全部楼层
此文章由 garyyang 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 garyyang 所有!转贴必须注明作者、出处和本声明,并保持内容完整
gooderic1977 发表于 2013-5-14 13:59
这个filter完全是后台运行的,不涉及UI.

恩。 那就只能自己码一个了, 听很明显的少不了loop和hashtable.
88足迹, 一个无聊多于乐趣的地方。

2012年度奖章获得者 2011年度奖章获得者

发表于 2013-5-14 18:28 |显示全部楼层
此文章由 交易人生 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 交易人生 所有!转贴必须注明作者、出处和本声明,并保持内容完整
本帖最后由 交易人生 于 2013-5-14 17:31 编辑

关键词在树形结构里,然后 Stream In & Out ,滤出 关键词

public class Node
{

public char Key {get;set;}
public bool IsWord {get; set;}
public Node[] SortedNodes{get;set;}

}

如果是 buy , buyer, book的三个关键词

就是

{
'b', false, { {'u',false {'y', true, {'e', false, {'r', true, null} } } } {'o', false, {'o', false, {'k'} } } }
}

别用递归,速度应当相当快,也适合 Streaming ,并且适合多线程。
0  to 1
Advertisement
Advertisement

发表于 2013-5-14 22:59 |显示全部楼层
此文章由 wil 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 wil 所有!转贴必须注明作者、出处和本声明,并保持内容完整

发表于 2013-5-15 10:29 |显示全部楼层
此文章由 IsDonIsGood 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 IsDonIsGood 所有!转贴必须注明作者、出处和本声明,并保持内容完整
学习ing~~~

发表于 2013-5-15 11:39 来自手机 |显示全部楼层
此文章由 juvenMPG 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 juvenMPG 所有!转贴必须注明作者、出处和本声明,并保持内容完整
可以尝试用stored proc with xml as a input
把邮件内容转成set后,在parse成你pre-defined xml 格式,作为参数传到sp
不同的数据库应该有不同的pre-defined的方法处理xml,不过应该都可以去join你的keyword表

我没有用过,不过应该可行

评分

参与人数 1积分 +2 收起 理由
gooderic1977 + 2 感谢分享

查看全部评分

发表于 2013-5-15 11:55 来自手机 |显示全部楼层
此文章由 juvenMPG 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 juvenMPG 所有!转贴必须注明作者、出处和本声明,并保持内容完整
或者就纯程序来做,
把邮件内容转成set1
把数据库keyword表load到 set2
然后很多语言都提供类似 retainAll 的方法把

retainAll对几千条数据的对比应该不会有perfomance问题

发表于 2013-5-15 18:06 |显示全部楼层
此文章由 很明显 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 很明显 所有!转贴必须注明作者、出处和本声明,并保持内容完整
不考虑performance,做法千千万

考虑performance, 就不是 用哪个格式套用哪个API的问题,
Advertisement
Advertisement

发表于 2013-5-16 10:18 |显示全部楼层
此文章由 bgg 原创或转贴,不代表本站立场和观点,版权归 oursteps.com.au 和作者 bgg 所有!转贴必须注明作者、出处和本声明,并保持内容完整
你这是作业还是实际的项目。

而且“高效”的具体要求是什么?

简单说输入是一本牛津字典, 数据库里有关键词有100万个,多长时间出结果?

如果是实际工作项目,肯定不能自己写,用框架把, 比如Apache Lucene.

如果是作业,google 一下吧,肯定有相应的算法

发表回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Advertisement
Advertisement
返回顶部