捌渫喙菊莆樟苏飧鍪澜绲男枨螅杂腥ㄍ牟棵呕岫运遣ê竦男巳ぃ挥凶员D芰Φ母鋈嗽虬阉鞘游病?探鳪oogle15万台服务器芯片中的很可能是下面这些东西罹患爱滋病的同性恋男子痛苦的宣泄;试图制造炸弹的恐怖分子的无声的阴谋;也可能是连环杀手遗漏于数字空间的蛛丝马迹。Google这样的公司和他们提供的服务使个人的数字身份永不磨灭,并且,在有请求出现时还可以调用它们。目前,Google的创办人之一谢尔盖·布林向我保证,从未有人提出这样的请求,更没有这样的请求被满足过。但是搜索的威力如此巨大,这种情况还能坚持多久呢?
即使现在还没有出现这样的事,总有一天,这样的请求会浮出水面。搜索工具拥有令人难以置信的强大力量,用它来达到不正当目的的危险是实实在在的。9·11事件之后,布什政府很快就启动了一个立法程序,重新定义国家对公民的监视权。在当时情况下,国会很快被说服;不经辩论就通过了美国爱国法案7。根据这部法案,美国政府可以迫使Google这样的公司根据政府机构的要求为他们提供信息,而且是秘密的。
斯图尔特·贝克尔是原美国国土安全局(NSA)顾问,他指出搜索牵连的社会问题是非常广泛的。他告诉纽约时报的记者,根据爱国法案,政府可以要求如下信息:〃你所发送的每封电子邮件的收件人是谁?你是在何时发送的?谁回复了你的邮件?邮件篇幅多长?是否添加了附件?还有,你是在哪里上网发送的邮件?〃联邦调查局(FBI),国土安全局以及国防部(DepartmentofDefense),所有的部门都决心加强对因特网的监控,决不会放过像美国在线,Google,或者雅虎这些网站所拥有的内容丰富的数据库。这些公司在法律上应负有的保密责任,它们却有可能应政府要求而交出本应保密的那些信息。因此,他们的数百万用户的利益同政府的利益存在着不可调和的矛盾。当我谈到这个话题的时候,Google的一名管理人员告诉我:只要一个不体面的故事,我们就会被看作专制国家的爪牙。
这样的事实在隐私、安全以及我们同政府和公司的关系这些方面提出许多有趣的问题。当我们的数据储存在我们的台式机里的时候,我们确信它们是属于我们自己的。这是Entourage邮件工具管理着的我的地址簿,这是我的电子邮件附件,这是我的苹果PowerBook笔记本电脑硬盘。当我在自己的本地目录里查找文档或是某一条电邮信息的时候(也就是我在本地磁盘中搜索的时候),我认为,无论他是出于善意或者恶意,第三方决不会以任何理由监控和分析我搜索、查找和使用数据时移动和点击鼠标的行为。(在很多工作的场合,情况已经不再是这样了,不过我们现在先把这个问题放在一边)
当计算机产业的中心转移到网络上之后,因为它显然具备了诸如社会关系网络、搜索和电子商务之类的第二代功能,法律变得更加模棱两可。比如,在使用这些功能时,互动过程中会发生数据产出和存储行为。那么,谁拥有这些数据的所有权呢?我们用户对这些数据有什么样的权力?事实上,目前我们还无法回答这些问题。
当我们把我们的数据放到亚马逊,Hotmail,雅虎和Gmail的服务器上的时候,我们都同服务商做了一个没有明确说出来的协定。大部分的民众要么满足于这个协定,要么根本就没怎么注意到这一点,而且,后者可能性更大8。
这个协定是:我们相信你们不会用这些信息来做坏事。我们相信你们能够保证这些信息的安全,使它们免受来自政府和个人的非法搜查和攫取并且保证它们随时处于我们的完全控制之下。我们可以理解你们需要集合我们的数据以便能够为我们提供更优质更有用的服务,但是我们相信你们不会通过我们的数据来确认我们的个人身份和相关信息,相信你们不会利用我们的私人数据来做出使我们感觉自己的隐私和自由受到侵犯的举动。
各个公司应我们的要求把这些条款纳入公司运作的准则,会有助于建立彼此之间的互相信任。无论是对他们还是我们,在面临这样一个转变可能带来的一系列后果时,都无法保证自己完全确定该怎么办。只是想一下搜索可能导致的后果,就会使一个理智的人觉得很伤脑筋。
不过,要是你感觉到搜索拥有了自我意识,并且可以在你同它互动的时候监视你的时候,迷惘的感觉会更加强烈吧?
第7节:搜索成为人工智能?
作者:'美'约翰·巴特利
搜索成为人工智能?
Google公司的第一位雇员克雷格·希尔维斯通(CraigSilverstein)俏皮地说:〃我希望看到搜索引擎变成《星球大战》里那些计算机。你跟它们讲话,它们就明白你问的是什么。〃
希尔维斯通是Google另类文化的代表人物,说话慢声细语,不过,他可不是在开玩笑。几乎在每一场关于搜索的前景的讨论中,都能够听到搜索有朝一日会变得像人一样聪明这样的论调。当被问起他将如何描述他们公司的搜索服务时,AskJeeves公司的总经理保罗·加迪(PaulGardi)回答道:〃《星球大战》里的机器人形象Data。我们知道你一切可能的需求。〃
但是我们要如何实现它呢?只有能够像作为读者的你理解目前这个句子那样理解一个请求的搜索工具才能够被称为智能化搜索。(至少人们期待如此)。〃现在正在经营咨询事业曾获得麦克阿瑟奖(MacArthurFoudation)的天才电脑工程师丹内·希利斯(DannyHillis)说道:〃我的问题并非找到一样东西,而是理解它。〃他接着说,只有当搜索引擎能够像指导学生的专家一样理解一个人真正想找什么,并且引导他理解这个东西的时候,才真正解决了搜索理解问题。他总结道:〃搜索显然是孕育智能的温床,而智能正在这温床中发芽。〃
希利斯认为搜索的前景更多地同理解联系在一起,而不再是单纯找到什么。但是,一台机器真的可以了解你想要找什么吗?解答这个问题的一个方法是通过图林(Turing)测试,这也许就是计算机处理的最高理想。
何为图林测试?它是英国数学家艾伦·图林(AlanTuring)于1950年在一篇开创性的论文中提出的。这篇文章中,图林提出了一个模型,用于测试一台机器是否是智能的。学术界对这种测试本身及其具体的操作规程一直争论不休,不过我们可以了解一下它大致的工作原理。我们先将一台问答器与一台机器和一个人分别连接起来。提问者并不知道哪端连着机器,哪端连着人。这名提问者要通过向两者提问来判断哪个是机器,哪个是人。如果一台机器可以骗过提问者,使其相信自己是人类,那么它就通过了图林测试,可以被认为是具有智能的。
图林预言,到2000年,计算机就能变得足够聪明,具备严肃挑战图林测试的实力。人们确实在认真和努力地尝试通过图林测试了,但是迄今为止,即使是计算机领域最优秀最聪明的人们也都没有能成功的通过这个测试。1990年,一位有钱的怪人休·罗纳(HughLoebner)出资一百万美元来奖励第一个通过这项测试的计算机。每一年,人工智能公司争先恐后地来争夺这笔奖金,然而,哪一年也没有人能把这笔钱带回家。
出现这种情况的原因非常多,不过一个非常大的可能性是,人们分析这个问题的思路是错误的。目前,参赛者们的重点都放在个体机器人研究上,他们将数百万种可能的问题回答序列编入这台机器人的程序中,希望它可以为每个可能的问题提供一个合理的答案。9这类尝试中最负盛名的成果是〃Cyc〃(源于〃encyclopedia〃发音很像psych)。它是人工智能先驱道格·莱纳特(DougLenat)毕生努力的结晶。Cyc将成千上万条常识性的原则编入程序,这些原则包括山脉先上升后下降,山谷位于山头或山脉之间等等常识。然后,它在这些简单的原则基础之上构建一个坚固的模型。Cyc试图通过这种方式来解决人工智能技术领域最致命性的问题。丝毫不令人惊讶,Cyc设计的参与者,斯里尼贾·斯里尼瓦桑(SrinijaSrinivasan)成为了雅虎最早的雇员之一,并几乎从一开始就管理雅虎的以网页目录为基础的搜索产品。
目前所有单个组织的蛮干都失败了,而且它们将来成功的希望也非常渺茫。而搜索更有可能被智能化。通过巧妙地利用各种算法,开发和整合网络上业已存在的智能,也就是由数以百万计的程序处理,话语,行为以及链接这个构成网络的基石汇聚而成的人类意图数据库。归根结底,这是Google起步的方式。如果真有一家公司能够宣称自己发明了智能化的搜索引擎,这家公司就是Google。
希尔维斯通告诉我:〃Google同其它各家搜索企业的目标就是为人们提供有价值的信息。开篇第一个问题就是,要实现这个目标的话,搜索引擎是否必须达到人类的理解水平。我的答案是肯定的。〃
这个世界需要什么?建立一家全方位解答这个问题的公司,你就能够揭开市场营销,商业运作甚至是人类文明领域(尽管对此人们还存有疑义)的众多未解之谜。过去几年中间,Google似乎就建立起了这样一家公司。
第8节:早期的搜索1
作者:'美'约翰·巴特利
第三章
前Google时代搜索
AltaVista不是第一个搜索引擎,可是,它处理搜索问题的方式却显著地改进了这项艺术。
微软公司著名工程师加里·弗雷克(GaryFlake)博士
早期的搜索
一般认为,第一个网络搜索引擎的荣耀属于Archie。这个前网络时代用户搜索程序是由麦吉尔(McGill)大学的一名叫做艾伦·埃姆塔基(AlanEmtage)的学生在1990年发明的。1990年以前,搞学术和科研的人经常使用因特网来存储论文、技术规范和计算机上其他文件,以便他人可以通过公共途径获得这些文件。可是,除非你知道计算机的确切地址和文件名,否则根本不可能找到这些档案文件。Archie所做的就是,捕获因特网上的所有档案文件(英语单词拼写是Archive,因此程序叫做Archie)然后为每个被找到的文件建立一个索引。
根据因特网的普通文件传输协议(FTP)标准,Archie的体系结构同大部分的现代搜索引擎类似捕获网络资源,建立索引,再提供一个搜索界面。不过,前网络时代不是一个用户界面友好的时代。只有真正的技术人员和搞学问的人在使用Archie,不过在这些人中间它确实很受欢迎。一个典型的用户通过一个命令控制端口直接同Archie服务器连接起来,然后向引擎发出查询请求。如果他们认为某些关键词在匹配的文件名中,就向Archie发出包含这些关键词的查询请求,然后,会收到一张地址列表,说明某个匹配的文件可能被保存在这些地址。然后,他们再同这台机器建立连接,在上面查找自己想要找的文件。并不是非常好用,但总比什么都没有强。
Archie这个名字里有奇异的吸引力,非常适合年轻的因特网。1993年,内华达大学的学生发明了Veronica。这个名字是对漫画书上这对夫妇名字玩笑式的模仿。Veronica的工作方式同Archie大致相同,但是它采用的是Gopher协议,而不是FTP。Gopher协议是一个比FTP更成熟的,且被普遍使用的因特网文件共享标准。Veronica使搜索更进一步接近我们目前对搜索的期待,因为Gopher协议使搜索用户可以直接同他查询的文件建立连接,而不是仅仅同保存这个文件的计算机连接。步子不大,不过毕竟是进步。
第9节:早期的搜索2
作者:'美'约翰·巴特利
Archie和Veronica都缺乏语义功能,也就是说它们不能够索引文件全文,而只是索引文件名。这意味着,搜索用户必须知道或者推测出待查文件的文件名。如果你要找一个〃日程表〃,而文件的文件名是〃今天的任务〃,那么你肯定找不到这个文件,即使实际上这个文件的第一个词就是〃日程表〃。随着网络的兴起,人们很快就不再使用Archie和Veronica了。
网络一出现,搜索这个基本问题就随之出现。当因特网的用户仅限于学术和技术工作者的时候,找东西的问题还只是局限在一定范围内。但是1993~1996年期间,网络上的网站数目从130激增到600000。马萨诸塞(Massachusetts)技术学院的研究人员马修·格雷(MatthewGray)一直在观察因特网的成长。作为一位先行者,他发明了最早的网络搜索引擎万维网Wanderer。
格雷发现,人类的认识远远跟不上网络发展的步伐,Wanderer就是用来解决这个问题的。后来格雷在一篇文章中写道:〃我编写Wanderer的目的是让他系统性地在网络中来回移动,收集所有网站。鉴于网络成长迅速,我的重心很快转移到以图表记录网络的成长过程。
Wanderer是自动捕获网站并生成网站索引的机器人。格雷还编写程序,制作了一个方便用户查找所有这些索引的界面。格雷的Wanderer程序还有一个之前人们没想到的作用。网络形成之初,频带宽度是一种稀缺资源。许多网站管理员都认为Wanderer在做网站索引的时候吃掉了太多处理和带宽资源。为了解决这个问题,后来格雷对这个网页捕获器做了一些细微的改进,采用一种宽度算法,使它在进行索引步骤之前先加宽网站的频带宽度。这种方法现在还因其高效率而被广泛采用。格雷说:〃这并非最好的搜索引擎,却是最早的。〃
Wanderer很快就被许多性能更优良的引擎取代了。其中之一就是由华盛顿大学的研究人员布赖恩·平克顿(BrainPinkerton)开发的WebCrawler。平克顿是1994年在为史蒂夫·乔布(SteveJob)的公司Next工作时无意中发明WebCrawler的。(像大多数先驱计算机公司一样,乔布公司的Next机器及其开发的NextStep软件都领先市场水平五年左右。这家公司开发的许多项技术,包括内置以太网,高质量色彩等现在还是几乎每一台台式个人电脑都采用的技术。)当时,平克顿要同时应付学术研究任务和工作。他学术研究的课题是分子生物科技同计算机科学,而他的工作任务是为Nextstep操作系统开发新一代的网络浏览器,包括其内置的搜索功能。
平克顿渐渐对搜索技术,尤其是其中对网页进行索引的技术着了迷。这一步并不太难,就是让网页捕获器像网络浏览器那样提取URL。平克顿创造出一个还处于雏形阶段的网页捕获器WebCrawler,并开始用它索引网站。
当时,Google的PageRank算法还未问世,不过,平克顿已经注意到了链接的重要性。他采用下面的检验方法来测试自己于1994年3月新建成的这个数据库。他想知道哪些站点被其他站点引用的次数最多,或者说,在其他站点上拥有最多的指向该站点的链接(用今天的话讲,就是最Googlejuice)。排名第一的是CERN的一个万维网项目的主页。GERN是设在瑞士日内瓦的一所重要的原子物理实验室。
WebCrawler在搜索引擎发展史上占据重要地位,因为是它开创了对网络文件进行全文索引的先河。1994年4月,平克顿把自己的这个课外发明上传到了网上。截至当年11月份,它