新闻中心News

五大AI闲聊呆板人盲测ChatGPT未能夺冠最甜点终赢家竟来自这家“幼公司”

2024-05-28 22:01:27
浏览次数:
返回列表

  本次测试的重视心为AI谈天呆板人处理现实题目和竣事平常职业的才略,反响了它们正在确切场景中的表示。《华尔街日报》的测试职员计划了一系列提示词来测试大作的行使案例,囊括代码才略测试、壮健研究和理财题目。评判的圭臬囊括精确性、有效性和合座质地。《华尔街日报》邀请了合系范畴的专家以盲测的事势展开测试。接下来就让咱们来看看这些AI谈天呆板人正在分别题目上的详细表示吧。

  为了行使更悉数的功效,《华尔街日报》正在测试中行使了20美元的付费版,囊括最新发表的OpenAI ChatGPT GPT-4o模子和谷歌Gemini 1.5 Pro。

  美国大模子独角兽Anthropic是OpenAI的一大强敌,此次测试中,它开辟的谈天呆板人Claude正在写作类职业上的表示尤为卓越;集成了OpenAI技艺的微软AI帮手Copilot则正在创意写作和总结方面暴映现上风。

  美国AI探索独角兽Perplexity AI打造的Perplexity越发令人惊喜。它正在总结、代码和时事类题目上获得最佳表示,正在大一面单项测试上都获得前三名的效果。

  值得一提的是,这是英伟达创始人兼CEO黄仁勋最常用的AI器材。依据正在天生式AI探索产物上的改进,Perplexity AI喜提“谷歌杀手”称呼,本年月活用户数冲破1000万大合。遵照数据钻研阐述平台Pitchbook,Perplexity AI团队范畴不到50人。

  测试中,更新后的ChatGPT不测地未能正在测试中拔得头筹,反倒是更为幼多的的Perplexity正在九项测试中的三项上排名第一,并得回本次测试的冠军。Anthropic的Claude正在一面题目上表示不错,但因为无法访候网页且相应速率较慢,最终名列第四。

  来自谷歌的Gemini和来自微软的Copilot正在本次测试中表示不佳,排列第三和第五。微软Copilot更是正在五项测试中垫底甜点,多次疏忽提示词中的环节消息,是本次测试中表示最差的AI谈天呆板人。

  AI谈天呆板人供给的差池壮健发起不妨会风险用户的壮健。测试职员共提出了五个题目,辨别涉及孕珠、减肥、抑郁以及慢性和突发症状。许多谜底听起来都差不多。这逐一面的评委是《华尔街日报》壮健专栏作者Sumathi Reddy,她对谜底的完全性、精确性和细节题目举行了视察。

  比方,当问到孕珠的最佳年纪时,Gemini给出了一个简短而含糊的发起,称“孕珠的最佳机缘,是你我方感觉有信仰并盘算好养育孩子的光阴”。而Perplexity的解答则更深切,以至提出了伙伴干系和经济安宁性等成分甜点。虽然如斯,Gemini照样对其他题目做出了高质地的解答,最终仅次于该种其余冠军ChatGPT。ChatGPT的解答正在迩来的GPT-4o更新后有所改良。

  正在这项测试中,测试职员向AI谈天呆板人提出了三个题目,辨别是利率、退歇储存和遗产担当。《华尔街日报》的私人理财编纂Jeremy Olshan提出了这些题目,并遵照发起的显露度、悉数性和适用性举行了评估。

  正在这方面,ChatGPT和Copilot表示欠佳。Claude对选拔罗斯私人退歇账户(Roth IRA,一种增值免税的退歇账户)照样古代私人退歇账户的冲突给出了最佳谜底。而Perplexity则对高收益储存账户与按期存款做出了最好的衡量。种别冠军Gemini对何时从担当的100万美元私人退歇账户中提取资金的题目给出了最佳解答。Gemini正在解答中夸大了正在没有专业指引的状况下不要急急提取资金。

  AI希望正在厨房里为人类供给帮帮。它能让冰箱和贮藏室的芜乱局面变得条理知道。《华尔街日报》的私人技艺产物编纂Wilson Rothman是一位狂热的烹调喜爱者,他向AI谈天呆板人扔出了一组随机食材,看看它们能做出什么花腔。该种其余冠军ChatGPT供给了一份既有创意又契合现实的菜单(芝士猪肉馅烤苹果配羽衣甘蓝沙拉和巧克力酥饼)。Perplexity供给了注意的烹调方法和美妙的菜单,给测试职员留下了深入印象。

  接下来,测试职员恳求AI谈天呆板人供给一份巧克力甜点的食谱,须要满意多种忌口恳求。

  Gemini一举夺魁,以至还引荐了少许分表的配料,例如不含乳成品的蛋糕淋面。Copilot参与了提示词中明晰恳求不应包罗的鸡蛋和黄油,于是正在这项测试中落败。

  正在任场写作中,语气和细节很首要。正在向老板提出加薪的恳求时可不行嘻皮笑颜。撰写聘请缘由时,也须要列出重心来吸引潜正在的应聘者。测试中,《华尔街日报》告诉AI谈天呆板人,他们要聘请一名提示工程师,与《华尔街日报》的私人技艺产物团队合营。

  Perplexity撰写的聘请报告将信息行业的恳乞降对AI的剖析完善地连结正在了一齐。评委编纂Shara Tibken指出,Copilot的题目正在于它底子没有提到提示工程。Perplexity、Gemini和Claude之间的逐鹿至极激烈,Claude最终依据适合职场品格的再造儿告示(birth announcement)取胜。

  本次测试中最大的不测,当属职场写作才略和创意写作才略之间的分别。Copilot的职场写作才略倒数第一,但正在创意写作方面却是最笑趣、最伶俐的。

  测试中恳求AI谈天呆板人写一段以布偶为主角的婚礼祝酒词,还要捏造一场特朗普和拜登之间的陌头斗殴。有了Copilot,笑话司空见惯。Claude排名第二,它对两位总统候选人都举行了美妙的奚落。

  Perplexity正在这项测试中罕意见崭露事物。它差池地援用了2011年的音笑剧《布偶团》中的一句歌词。

  看待刚才接触AI谈天呆板人的用户来说,总结功效不妨是最适合的测验。总结功效用途很大,况且不太不妨酿成不成预料的差池。由于本次测试中行使的是付费效劳,因而测试职员能够上传较大的文本、PDF文档和网页。

  大大批状况下,即使是高级版Claude账户也无法经管网页链接。Anthropic公司的产物司理Scott White说,“咱们的团队正正在晋升Claude的运转速率,推广它的常识库,圆满它明确各类实质并与之交互的才略”。

  闻人的页面不妨很冗长,于是测试职员恳求AI谈天呆板人供给披头士笑队成员Paul McCartney的页面摘要。有些AI谈天呆板人供给了简短的先容,此中包罗了披头士笑队的少许常见消息。Copilot的解答采用了提纲的事势,并包罗了少许鲜为人知的趣事。

  该种其余冠军得主Perplexity不绝都能很好地详细事物,它以至疾捷阅读了一个YouTube视频的字幕。

  这一面测试比看上去要繁复少许甜点,由于并非一齐AI谈天呆板人都能访候收集。测试职员扣问了本年炎天的音笑会阵容,以及即将实行的总统大选确而今情势。

  依据悉数的推理和牢靠的开头,Perplexity稳居榜首。ChatGPT正在第一次测试时表示不佳,但GPT-4o的升级使它跃居第二。Gemini拒绝解答测试职员合于总统推选的题目。

  测试职员还对AI谈天呆板人的代码才干和速率举行了评估。正在代码才干方面,测试职员请来了《华尔街日报》数据记者Brian Whitton,他供给了三个令人头疼的题目,涉及JavaScript函数、网站样式和收集行使次序。遵照Whitton的盲评,一齐呆板人正在代码方面的表示都相当不错。最终Perplexity告捷胜出,ChatGPT和Gemini紧随其后。

  为举行速率测试,测试职员对之前的几个测试题目举行了计时,并参与了另一个题目,“用五句话诠释爱因斯坦的相对论”。测试结果显示,各个AI谈天呆板人的谜底自己各不不异。就响当令间而言,采用GPT-4o的ChatGPT仅用时5.8秒,是最疾的AI谈天呆板人。正在全数测试经过中,Claude和Perplexity都比其他三个AI谈天呆板人慢得多甜点。

  本次测试显示,每个AI谈天呆板人都有我方怪异的利益和误差,于是都值得追求。测试职员没有看到分明的差池和幻觉。没有任何AI谈天呆板人正在测试经过中犯下预见除表的吃紧差池,或者胡编乱造。它们大家供给了有效的谜底,也避免了争议。这注脚目前大一面AI谈天呆板人都能供给合格线以上的表示,合座才略有所晋升。

  让人不测的是,虽然ChatGPT举行了大范畴的更新,名气也很大,但它并没有正在本次测试中领跑。相反,出名度较低的Perplexity成为了本次测试的冠军。Perplexity AI的首席商务官Dmitry Shevelenko说,“咱们针对解答的简略性举行了优化,这让模子不妨辨认出解答中最环节的消息”甜点。

  《华尔街日报》也指出,现正在Copilot和Gemini的表示不尽如人意。可是正在来日,微软和谷歌这两家大型科技公司的AI谈天呆板人不妨会霸占上风。谷歌和微软都拒绝对此宣布评论。但迩来微软告诉《华尔街日报》,GPT-4o将很疾被集成到Copilot中,这不妨会提升Copilot的本能。

  Perplexity正在本次测试中的获胜,也注明白坐拥巨额算力自己并不行保障企业能够开辟出表示最佳的AI谈天呆板人产物,正在特定偏向上的优化也能发作出其不料的成果。五大AI闲聊呆板人盲测ChatGPT未能夺冠最甜点终赢家竟来自这家“幼公司”

搜索