七大自然语言处理领域的世界一流公司
七⼤⾃然语⾔处理领域的世界⼀流公司
  在⾃然语⾔处理(NLP)技术上处于领先地位的公司Teragram 被商业智能和分析软件供应商SAS收购(08年3⽉17⽇),宣称使⽤⾃然语⾔处理搜索技术的Powerset被微软收购(08年7⽉1⽇),在⽂本分析⽅⾯领先的Inxight被法国商业智能软件公司Business Objects(BO)收购(07年5⽉31⽇),⽽BO随后⼜被德国软件⼤鳄SAP收购(07年10⽉7⽇),Metaweb被Google收购。
  在这个软件企业兼并潮的年代⾥,这些以⾃然语⾔处理相关技术起家的企业选择了“寄⼈篱下”,但是还有⼀些与⾃然语⾔处理技术相关的企业依然在坚持着,譬如机器翻译⾏业⽼⼤Systran,基于语义计算技术的并飞速发展的企业搜索⼚商Autonomy,以及国内的华建,汉王等公司,让我们看到了⾃然语⾔处理技术的前景与未来!
  ⽆论从哪个⾓度来看,⾃然语⾔处理是最能体现“智能”⼆字的领域,⽽“智能”⼜恰恰是技术追求的最⾼境界!因此我乐观的相信:未来的应⽤领域到处都会有⾃然语⾔处理相关技术的影⼦,⽽现在,仅仅是开始!
Teragram = Tera + gram
  Teragram是⼀家美国公司,中⽂名为泰码,是⼀家领先的⾃然语⾔、知识信息、⽂字处理技术和服务
软件提供商。公司总部设在马萨诸塞州剑桥市,拥有40名员⼯,创⽴于1997年,和很多美国科技公司⼀样,创始⼈是两位⾃然语⾔处理研究⽅⾯的博⼠:Yves Schabes与Emmanuel Roche。
  关于Teragram这个名字,在其中⽂官⽅主页上有这样的解释:
  “Teragram”⼀词的词源反映了泰码公司的使命。
  “Tera”源于古希腊⽂,意为“怪物”。“Tera”这个前缀的使⽤,⼜回归到这个古⽼的意义上。
  “Tera-” ⽤于计算机科学中是⼀个⽤于计量单位名称的词缀,相当于2的40次⽅,即1,099,511,627,776,也等于10的12次⽅。
  “-gram”源于拉丁⽂,法⽂和古希腊⽂。除了是⼀种重量的单位,“-gram”也是有表⽰所写的,所画的,所记载的等意义的名词的词缀。  这⾥不得不让⼈联想到了Google公司名字的含义,⽽事实上Google⽐Teragram创⽴的时间还迟,但是当时他们都认识到了海量数据和信息处理的意义!
  Teragram公司所独有的NLP技术已经很成熟,并且拥有⼀定的客户,其中包括:CNN、 Forbes、NYTimes Digital、Sony、AltaVista、WashingtonPost、Wolters Kluwer、the World Bank和Yahoo!等公司。
  Teragram在以下⼏个NLP应⽤领域具有雄厚的技术:
  ⾃然语⾔处理:Teragram公司的⾃然语⾔处理(NLP)技术将把多种语⾔和多种来源的⽂本内容转化为有⽤的信息,在⽂字、语⾔关系和字意层⾯上实现更加丰富的数据处理功能。Teragram公司已经开发并维护着含有注解的巨⼤词库,⾥⾯包含了数以亿计的词汇,语种多达30多个。
  ⾃动分类:Teragram公司先进的分类技术能够依据在企业内部⼴泛采⽤的客户标准对⽂件提供快捷和先进的分类功能,这就使得不论原始⽂件存放在何处,⽤户随时能够根据特定的主题更加快速和准确地获得需要的⽂件,满⾜特定⽤户的需求。
  ⾃然语⾔企业搜索:针对企业级的搜索需求,Teragram的NLP技术可以对结构性的企业数据以及⾮结构性的数据源进⾏扫描,包括基于⽂本的报表和⽹页,以便从这些不同的信息源中获取综合性的答案。
  移动搜索:Teragram所提供的下⼀代移动搜索功能,帮助个⼈实现远程信息的扫描,更加快速地获得答案。采⽤Teragram的移动搜索技术,⼈们能够存储和检索信息、连接到诸如BI系统的外部应⽤、来⾃BlackBerry的搜索数据库、职能电话或其他移动设备。
  2008年3⽉17⽇,SAS宣布收购Teragram,以加强SAS公司⾃⾝的⽂本挖掘和分析型BI产品线,并将范围扩展到企业和移动搜索领域。这对Teragram是福是祸,我们拭⽬以待! 
Powerset:⾃然语⾔搜索不是新的“概念股”
  在数学中,Powerset的意思是幂集的意思,⼀个集合S的幂集指的是S的所有⼦集。这是Powerset主页中给出的这个名字的数学解释,但是这⼜预⽰着什么呢?
  ⽆论在Google还是百度,搜索“Powerset”所得到的反馈远⽐Teragram多得多,但这些信息⽆⾮可总结为⼏条吸引⼈眼球的内容:
  1、 Powerset独家获得⾃然语⾔处理搜索技术使⽤权将挑战Google——对于搜索引擎⽼⼤Google发起挑战⽆论如何都是爆炸性的新闻,⽆怪乎那么多⽹站转载,也不管⾥⾯的内容是真是假!⽽这条新闻发布的时候Powerset还是⼀个“概念股”!
  2、基于⾃然语⾔搜索技术的新型搜索引擎Powerset正式启动——这条信息的发布是在08年5⽉12号,这说明Powerset还不是“概念股”,还是实实在在做了些东西,⽆论是骡⼦是马,终于拉出来溜了!
  3、微软1亿美元收购Powerset——在Powerset推出不到两个⽉,微软来了,“狼⼦野⼼,路⼈皆知”,⽤Powerset的技术来与Google对抗,不过这也从另⼀个⽅⾯说明⾃然语⾔处理搜索引擎的是被看重的!
  我⽐较关注Powerset到底真正使⽤了哪些⾃然语⾔处理技术,抛去⽹络上真真假假的消息,在Powerset的官⽅⽹站上,可以看到关于Powerset的⽬标介绍:
  Powerset’s goal is to change the way people interact with technology by enabling computers to understand our language. While this is a difficult challenge, we believe that now is the right time to begin the journey. Powerset is first applying its natural language processing to search, aiming to improve the way we find information by unlocking the meaning encoded in ordinary human language.
  Powerset的⽬标是通过使计算机理解⼈类语⾔的技术(⾃然语⾔理解?)改变⼈机交互的⽅式。虽然这是⼀个困难的挑战,但是是开启这个旅程的时候了!Powerset⾸先将⾃然语⾔处理应⽤到搜索之中,⽬标是在我们寻信息的过程中将⼈类语⾔中隐藏的意义展现出来!
  “Powerset is first applying its natural language processing to search”,这⾥是Powerset在宣称⾃⼰是第⼀个⾃然语⾔处理搜索引擎的公司吗?我对这句话的翻译把握不准,但是如果从“Powerset独家获得⾃然语⾔处理搜索技术使⽤权将挑战Google”这条新闻来看,这⾥翻译为第⼀应该可以接受。
  但果真如此吗?因为在众多的搜索结果中,我也看到了把Powerset称为语义搜索引擎的消息,⽽语义搜索似乎已经作为下⼀代搜索技术的代名词炒作了⼀段时间了。⽽关于语义搜索引擎,在Powerset之前,已经有Hakia,Cognition等的存在了,最近也有⼀个来⾃印度的语义搜索引擎Sagoon刚刚发布!另外Hakia在很多⽂章也被称为⾃然语⾔搜索引擎。更有甚者,写了⼀段这样的⽂字:
  “上个世纪 90 年代初,在很多⽤户为繁杂的不相关信息⽽头痛时,AskJeeves 诞⽣了。然⽽度过了惨
淡的⽹络泡沫,该公司转⽽使⽤关键词搜索并且放弃了名为 Jeeves 的卡通吉祥物,来区别它曾经依赖⾃然语⾔算法的时代,这就是现在的Ask⽹站。”
  可见,“⾃然语⾔搜索”并不是什么新的概念股,关键问题是如何做出与这个概念股相匹配的搜索引擎。⽽⽬前⽆论是Powerset,亦或Hakia,还仅仅处于起步阶段,但是他们所推出的概念股,却恰恰是我们所期待的智能搜索引擎,因此⽆法轻视!
Inxight:⾼贵的出⾝,同样的结局
  搜索Inxight,中⽂信息量较之Powerset⾮常之⼩,主要是关于它被BO收购的消息,⽐较“可怜”的是,Inxight的官⽅⽹站已不存在,被指向到了SAP的⼦站点了。
  Inxight诞⽣在著名施乐帕洛阿图研究中⼼(Xerox PARC research center),这⾥同样是Powerset技术孵化的地⽅。
  从上到Inxight的⼀些介绍,整理如下:
  Inxight是⼀家专注于数据可视化,信息检索及⾃然语⾔处理的软件公司。2007年被BO收购;BO于2008年⼜被SAP收购。建⽴于1997年,总部位于加州的萨内维尔。它最初由Xerox PARC分离出来的(注:2005年)。
  Inxight Software, Inc. is a software company specializing in visualization, information retrieval and natural language processing. It was bought by Business Objects in 2007; Business Objects was in turn acquired by SAP AG in 2008. Founded in 1997, Inxight is headquartered in Sunnyvale, California. It was originally spun out of Xerox PARC.
  Inxigh提供的产品包括(Inxight offers a number of products including):
  * The LinguistX text analysis API(⽂本分析API)
  * StarTree, a hierarchichal visualization/navigation tool(可视化/导航⼯具)
  * Summarizer, a tool for generating text abstracts and summaries(⽂本摘要⽣成及总结)
  * ThingFinder, a natural language entity extractor(⾃然语⾔实体抽取)
  * TableLens, trend visualization tool for large data sets(⼤型数据集的可视化趋势⼯具)
  * TimeWall, an event/timeline visualization tool(事件/时间线可视化⼯具)
  Inxight 从Xerox PARC公司分离出来之后,被公认为是⾮结构化信息发现领域中具有创新⽅案的领先
提供商,产品能应⽤于32种语⾔。Inxight的客户包括Air Products、AOL、Merrill Lynch、Morgan Stanley、Novartis和Thomson以及多家美国和他国的政府机构,如:美国国防部、国防情报局、国⼟安全局以及联邦秘书署。此外,该公司还与包括IBM、Microsoft、Oracle、SAP和SAS在内的300多家公司签署了软件OEM协议。Inxight还是Business Objects Technology Partner Program的会员。
  与Powerset⼀样,Inxight最终没有逃脱被收购的结局!由于Powerset与Inxight师出同门,不得不说Powerset与Inxight的⾎统⾼贵,结局相同!
  关于Xerox PARC:
  1970年10⽉,美国施乐(Xerox)公司在今天硅⾕的帕洛阿托成⽴了Palo Alto Research Center(PARC)研究中⼼,更为重要的是施乐并没有为来到这⾥的科学家制定任何的研究计划,⽽是让他们⾃由得发挥。在此后的⼏年中,PARC诞⽣了以太⽹、⿏标、⾯向对象、图标、菜单、视窗等等⼀系列改变今后计算机发展⽅向的全新概念,并间接孵化了Windows、Office、 Macintosh等划时代的软件作品,从其间⾛出的科学家还创⽴了Adobe、3Com、Novell等等改变IT世界格局的企业。
Systran:机器翻译⾏业的拓荒者
  每⼀个⾏业都有⼀个或屈指可数的⼏个巨头在引领潮流,⽐如操作系统领域是微软,搜索引擎领域是⾕歌,视频领域是Youtube,⽽机器翻译领域的⽼⼤⽆疑是Systran!
  作为机器翻译⾏业最早的开发者和软件提供商,Systran于1968由Dr. Peter Toma创办。Peter Toma是⼀位科学家,当时恰好在美国乔治敦⼤学为美国政府的⼀个机器翻译项⽬⼯作,这个项⽬主要是为冷战时期(Cold war)美国空军将⼤量俄语的科技⽂档翻译成英语的需要服务的,之后他以美国乔治敦⼤学机器翻译系统研发⼩组为班底由创办Systran机器翻译公司。在“臭名昭著”的ALPAC报告公布后,来⾃于政府资助的机器翻译研究经费锐减,Systran是这个时候存活下来的为数不多的⼏个机器翻译系统之⼀!1986年,Systran被出售给法国巴黎的Gachot家族,并于2000年在法国证券交易所上市。
  Systran是⽬前应⽤最⼴泛﹑所开发的语种最丰富的翻译软件,可进⾏英语,繁体中⽂,简体中⽂,⽇语,韩语,西班⽛语,法语,德语,意⼤利语,葡萄⽛语,荷兰语,俄罗斯语,瑞典语,阿拉伯等13种语⾔的互译。它不但提供翻译技术给Yahoo!、AltaVista等⼤型搜寻引擎,更提供给美国空军(US Airforce)及欧洲联盟委员会(European Commission)使⽤。
企业信息搜索软件
  2002年,Systran在30多年积淀的基础上发布了⼀套完全重新设计的机器翻译技术架构。新的Systran技术包括:模块化(Modularity),有限状态技术(Finite State Technology),词典访问(Dictionary Access),声明化(Declarativity), 隐式转换(Implicit Transfer),交换格式(Exchange Format), ⾃然语⾔处理组件(NLP Components)。
  Google在07年10⽉之前也使⽤Systran的技术,但是07年下半年开始采⽤⾃⼰的技术,这与Google
挖来统计机器翻译领域的天才⼈物Franz Josef Och不⽆关系。Systran是⽼⼀代基于规则的机器翻译技术的商业化代表,⽽Google的机器翻译技术则将当前主流的语料库驱动的统计机器翻译推上前台,似乎预⽰着⼀个新的时代的开始!
Autonomy:企业级搜索的巨⽆霸
  两年前我关注Autonomy创始⼈麦克•林奇这个名字的时候,主要是因为他说了⼀句“Google不是我的对⼿”以及“英国的⽐尔•盖茨”这个名号!也因为此,我才知道在Google这样的互联⽹搜索之外,还有更庞⼤的企业级搜索这样的市场!
  因为看到了Autonomy的搜索技术是基于语义计算技术的,所以我把它算做了⼀家⾃然语⾔处理公司。但仔细看了⼀下Autonomy官⽅主页,发现这稍有点牵强,但是Autonomy所宣称的采⽤的贝叶斯概率论和⾹农信息论倒是统计⾃然语⾔处理的核⼼之⼀!
  麦克•林奇(Mike Lynch )原是剑桥⼤学的教授。1991年,林奇教授创⽴了Autonomy的前⾝Nurodynamic公司,后者是林奇从⼀个乐队⽼板融资3000多英镑创建的,该公司主要致⼒于剑桥⼤学模式识别研究成果的产业化⼯作。到1996年时,林奇教授已经积累了⾜够多的客户资源。于是,他向风险投资商借贷了1500万美元,创⽴了Autonomy。同年,Autonomy推出了世界上第⼀套智能个性化信息系统,同时发布了它的拳头产品DRE(Dynamic Reasoning Engine,动态推理引擎)和Portal产
品系列。
  Autonomy产品的核⼼算法是两种数学理论的独特结合:贝叶斯概率理论和⾹农信息论。
  贝叶斯概率论是中世纪⼀位叫托马斯•贝叶斯的牧师所创⽴的,这位古怪的牧师试图通过⾃⼰的数学推理来验证上帝之存在。这个理论在他去世后才被发表,沉寂了百年之后才被麦克•林奇发掘出来再利⽤,后者认为,贝叶斯的理论更加接近⼈的⼤脑思维逻辑。
  ⾹农信息论则认为,出现频率越⼩的信息单元,代表的信息量越⼤。这也可以解释这样的现象:在⼀个嘈杂的房⼦中,我们尽管不能完全听清楚对⽅所有的话,但我们还是能听懂对⽅说话的意思。也就是说,每个信息载体会包含⼤量重复的冗余信息,在对这些信息的处理过程中,冗余信息的权重要低得多,甚⾄可以忽略。⽽在关键词搜索中,则相反,⼀个单词出现的频率越⾼,则该词的重要程度越⾼。
  正是基于这两个基本理论,Autonomy在海量信息处理中取得了巨⼤成功。
  Autonomy是名副其实的企业级搜索巨⽆霸!尤其是在2005年收购紧随其后的Verity之后,企业级搜索市场⽼⼤的地位进⼀步加
强!Autonomy这⼏年发展的势头之猛,让⼈刮⽬想看,09年2⽉,Autonomy便获得国内最⼤的企业级
搜索引擎项⽬国家电⽹SG186⼯程,其竞争对⼿包括IBM,Oracle, Fast, TRS等国内外企业,这进⼀步证实了其在当今企业级搜索领域⾸屈⼀指的业内地位。Autonomy的客户包括17000多家全球性公司和机构,包括荷兰银⾏、美国在线、BAE系统公司、英国⼴播公司、美国彭博公司 (Bloomberg)、波⾳公司、花旗集团、可⼝可乐公司、德国戴姆勒-克莱斯勒公司等知名企业!
  ⽬前第三代搜索引擎的概念众说纷纭,但真正实实在在赚钱的是企业级搜索,并且这个市场对于互联⽹搜索⽼⼤Google似乎也很难撼动!很多⼈认为企业级搜索是会窜出第⼆个Google,那么最可能的也许就是Autonomy!
Metaweb:创建最⼤的语义知识库Freebase
  在⾃然语⾔处理公司Powerset的介绍中,Powerset使⽤的知识来源除了外,另⼀个主要来源就是Freebase,⽽Freebase的幕后则是“野⼼勃勃”的Metaweb.
  Metaweb是从事语义⽹(Semantic Web)技术开发的风险企业,⽬标是开发⽤于Web的语义数据存储的基础结构,是曾就职于原美国⽹景(Netscape)、英特尔以及AlexaInternet等公司的⼈才聚集在⼀起,于2005年7⽉成⽴,总部设在美国旧⾦⼭。Metaweb分别在06年3⽉和08年1⽉分别获得1500万美元和4250万美元的融资。
  ⽬前所开发和维护的第⼀个产品是Freebase,Freebase被描述为“开放、共享的世界知识数据库”,07年3⽉发布。Freebase是⼀个巨⼤的,合作编辑的交联(cross-linked)数据知识库。其背后的想法是为语义⽹建造⼀个像系统的产品。Freebase允许任何⼈提供,组织,查询,复制及利⽤其数据。这听起来很像,但是不同与维基按作品安排结构,它的结构更像⼀个⼈和软件均能读取的数据库。  Freebase⽬前包含数百个类别及数百万个主题的结构化信息。这些信息主要从公开的数据集(如,MusicBrainz,美国证券交易委员会和美国中央,美国中央情报局资料)采集及社区⽤户的贡献。Freebase与其他数据库的主要不同是它允许⼀个主题属于多个信息类别,也称为域。在⼀个典型的电影数据库中,例如,你想寻有关施⽡⾟格作为电影演员的主题。如果你还想他作为健美运动员的信息,你不得不创建⼀个新主题或者⼀个全新的数据库。
  ⽽Freebase使⽤了⼀种不同的底层结构(从技术上讲Freebase是⼀种图结构数据库),这样在同⼀主题下施⽡⾟格可以被“贴”上演员、政治家、奥地利公民及健美运动员的“标签”。由于Freebase主题的作⽤是作为信息传输的中枢,⽽不是其他数据库中作为信息收集的容器,因此⽤户可以轻易的将多样的信息放在同⼀个主题下。
  08年7⽉,Freebase 宣布其⽂章总数即将超过400万篇,⽐英⽂的 240万篇超过60%,接近全语种(250种语⾔)1000万篇的⼀半。
  很多 Web2.0 公司使⽤ Freebase 的数据库,对某个领域的知识进⾏归纳,获得有价值的资料,如:
  * Taught or Not – ⼀个⾮常可爱的⼩游戏,⽤来测试你对历史上那些思想家之间的相互影响关系的了解。
  * Shot or Not – 另⼀个有趣的游戏,测试你对有些历史著名⼈物死因的了解。
  * Random Walk Through Influences – ⼀个⼩程序,输⼊某个艺术家的名字,你就可以知道他受哪个流派影响。
  * Pull Quotes – 如果你对政治感兴趣,这个⽹站值得⼀看。
  * Powerset – 也使⽤ Freebase 作知识来源。
  最后,让我们来看看Metaweb创建Freebase的远景⽬标:通过这种⽅式重构世界数据,Freebase社区正在建⽴⼀个全球资源,总有⼀天它将允许世界各地的⼈们和机器⽐现在更⽅便和更快捷的获取信息。
  如果这⼀天真的来临,Metaweb所钟爱的Freebase被称为“The Stem Of A Global Brain”也算得上实⾄名归了!Metaweb已经被Google收购。
Language Weaver:⾼举统计机器翻译⼤旗
  这⾥曾经谈过机器翻译的⾏业⽼⼤Systran,今天再谈谈机器翻译⾏业的后起之秀Language Weaver!这两家公司相似的地⽅在于都源⾃于⼤学的实验室,Systran 是Peter Toma以美国乔治敦⼤学机器翻译系统研发⼩组为班底创办的,⽽Language Weaver背后则是统计机器机器翻译⼤⽜Kevin Knight领导的美国南加州⼤学信息科学研究所(ISI/USC);不同的地⽅在于Systran的技术以基于规则的机器翻译⽅法为根基,⽽Language Weaver则在诞⽣之初就⾼举统计机器翻译⼤旗。
  先来看⼀下“Language Weaver”这个名字,国内有的翻译⼯作者将它译为“语⾔编织公司”,这个翻译应该是译者直译的。不过了解统计机器翻译历史的⼈⼤概都知道这个“Weaver”应该与1949年最早提出统计机器翻译思想的Weaver有关:
  “早在1949年,美国洛克菲勒基⾦会⾃然科学部门的负责⼈Warren Weaver发表了⼀份以《翻译》为题的备忘录,建议将机器翻译的问题⽤统计⽅法及信息论的思想解决,这事实上就是基于信源信道思想的统计机器翻译⽅法的雏形。但是由于当时计算机性能的有限以及后来乔姆斯基转换⽣成语法为代表的理性主义⽅法兴起后,统计机器翻译的思想⼏乎不再被⼈使⽤。”
  这个名字本⾝就蕴涵着Language Weaver公司对统计机器翻译的信仰与执着!
  Language Weaver创办于2002年1⽉,是世界上第⼀个把统计机器翻译软件商品化的公司,Franz Josef Och,Philipp Koehn等都曾经在这⾥⼯作和学习过。以下是这⽅⾯的⼀点简介:
  Language Weaver, Inc. was incorporated in January 2002 to commercialize a statistical approach to automated language translation and natural language processing. This breakthrough technology overcomes the weaknesses that have limited commercial success for automated translation in the past.
  Language Weaver主要提供是企业级的⽤户服务,和Google免费的在线翻译服务有很⼤区别。翻译的市场很⼤,尤其全球化这个浪潮对翻译的需求更加旺盛,因此即使在⾦融危机的⼤环境下,Language Weaver的发展势头仍很迅猛,在其官⽅博客上,有⼀篇⽂章宣布其08年的收⼊增长了70%。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。