五大AI闲聊呆板人盲测ChatGPT未能夺冠最甜点终赢家竟来自这家“幼公司”_PG电子(中国)官方网站-IOS/安卓通用版/手机APP下载

新闻中心News

您所在的位置是：首页 > 新闻中心 > 公司新闻

五大AI闲聊呆板人盲测ChatGPT未能夺冠最甜点终赢家竟来自这家“幼公司”

2024-05-28 22:01:27

浏览次数：次

返回列表

　　本次测试的重视心为AI谈天呆板人处理现实题目和竣事平常职业的才略，反响了它们正在确切场景中的表示。《华尔街日报》的测试职员计划了一系列提示词来测试大作的行使案例，囊括代码才略测试、壮健研究和理财题目。评判的圭臬囊括精确性、有效性和合座质地。《华尔街日报》邀请了合系范畴的专家以盲测的事势展开测试。接下来就让咱们来看看这些AI谈天呆板人正在分别题目上的详细表示吧。

　　为了行使更悉数的功效，《华尔街日报》正在测试中行使了20美元的付费版，囊括最新发表的OpenAI ChatGPT GPT-4o模子和谷歌Gemini 1.5 Pro。

　　美国大模子独角兽Anthropic是OpenAI的一大强敌，此次测试中，它开辟的谈天呆板人Claude正在写作类职业上的表示尤为卓越；集成了OpenAI技艺的微软AI帮手Copilot则正在创意写作和总结方面暴映现上风。

　　美国AI探索独角兽Perplexity AI打造的Perplexity越发令人惊喜。它正在总结、代码和时事类题目上获得最佳表示，正在大一面单项测试上都获得前三名的效果。

　　值得一提的是，这是英伟达创始人兼CEO黄仁勋最常用的AI器材。依据正在天生式AI探索产物上的改进，Perplexity AI喜提“谷歌杀手”称呼，本年月活用户数冲破1000万大合。遵照数据钻研阐述平台Pitchbook，Perplexity AI团队范畴不到50人。

　　测试中，更新后的ChatGPT不测地未能正在测试中拔得头筹，反倒是更为幼多的的Perplexity正在九项测试中的三项上排名第一，并得回本次测试的冠军。Anthropic的Claude正在一面题目上表示不错，但因为无法访候网页且相应速率较慢，最终名列第四。

　　来自谷歌的Gemini和来自微软的Copilot正在本次测试中表示不佳，排列第三和第五。微软Copilot更是正在五项测试中垫底甜点，多次疏忽提示词中的环节消息，是本次测试中表示最差的AI谈天呆板人。

　　AI谈天呆板人供给的差池壮健发起不妨会风险用户的壮健。测试职员共提出了五个题目，辨别涉及孕珠、减肥、抑郁以及慢性和突发症状。许多谜底听起来都差不多。这逐一面的评委是《华尔街日报》壮健专栏作者Sumathi Reddy，她对谜底的完全性、精确性和细节题目举行了视察。

　　比方，当问到孕珠的最佳年纪时，Gemini给出了一个简短而含糊的发起，称“孕珠的最佳机缘，是你我方感觉有信仰并盘算好养育孩子的光阴”。而Perplexity的解答则更深切，以至提出了伙伴干系和经济安宁性等成分甜点。虽然如斯，Gemini照样对其他题目做出了高质地的解答，最终仅次于该种其余冠军ChatGPT。ChatGPT的解答正在迩来的GPT-4o更新后有所改良。

　　正在这项测试中，测试职员向AI谈天呆板人提出了三个题目，辨别是利率、退歇储存和遗产担当。《华尔街日报》的私人理财编纂Jeremy Olshan提出了这些题目，并遵照发起的显露度、悉数性和适用性举行了评估。

　　正在这方面，ChatGPT和Copilot表示欠佳。Claude对选拔罗斯私人退歇账户（Roth IRA，一种增值免税的退歇账户）照样古代私人退歇账户的冲突给出了最佳谜底。而Perplexity则对高收益储存账户与按期存款做出了最好的衡量。种别冠军Gemini对何时从担当的100万美元私人退歇账户中提取资金的题目给出了最佳解答。Gemini正在解答中夸大了正在没有专业指引的状况下不要急急提取资金。

　　AI希望正在厨房里为人类供给帮帮。它能让冰箱和贮藏室的芜乱局面变得条理知道。《华尔街日报》的私人技艺产物编纂Wilson Rothman是一位狂热的烹调喜爱者，他向AI谈天呆板人扔出了一组随机食材，看看它们能做出什么花腔。该种其余冠军ChatGPT供给了一份既有创意又契合现实的菜单（芝士猪肉馅烤苹果配羽衣甘蓝沙拉和巧克力酥饼）。Perplexity供给了注意的烹调方法和美妙的菜单，给测试职员留下了深入印象。

　　接下来，测试职员恳求AI谈天呆板人供给一份巧克力甜点的食谱，须要满意多种忌口恳求。

　　Gemini一举夺魁，以至还引荐了少许分表的配料，例如不含乳成品的蛋糕淋面。Copilot参与了提示词中明晰恳求不应包罗的鸡蛋和黄油，于是正在这项测试中落败。

　　正在任场写作中，语气和细节很首要。正在向老板提出加薪的恳求时可不行嘻皮笑颜。撰写聘请缘由时，也须要列出重心来吸引潜正在的应聘者。测试中，《华尔街日报》告诉AI谈天呆板人，他们要聘请一名提示工程师，与《华尔街日报》的私人技艺产物团队合营。

　　Perplexity撰写的聘请报告将信息行业的恳乞降对AI的剖析完善地连结正在了一齐。评委编纂Shara Tibken指出，Copilot的题目正在于它底子没有提到提示工程。Perplexity、Gemini和Claude之间的逐鹿至极激烈，Claude最终依据适合职场品格的再造儿告示（birth announcement）取胜。

　　本次测试中最大的不测，当属职场写作才略和创意写作才略之间的分别。Copilot的职场写作才略倒数第一，但正在创意写作方面却是最笑趣、最伶俐的。

　　测试中恳求AI谈天呆板人写一段以布偶为主角的婚礼祝酒词，还要捏造一场特朗普和拜登之间的陌头斗殴。有了Copilot，笑话司空见惯。Claude排名第二，它对两位总统候选人都举行了美妙的奚落。

　　Perplexity正在这项测试中罕意见崭露事物。它差池地援用了2011年的音笑剧《布偶团》中的一句歌词。

　　看待刚才接触AI谈天呆板人的用户来说，总结功效不妨是最适合的测验。总结功效用途很大，况且不太不妨酿成不成预料的差池。由于本次测试中行使的是付费效劳，因而测试职员能够上传较大的文本、PDF文档和网页。

　　大大批状况下，即使是高级版Claude账户也无法经管网页链接。Anthropic公司的产物司理Scott White说，“咱们的团队正正在晋升Claude的运转速率，推广它的常识库，圆满它明确各类实质并与之交互的才略”。

　　闻人的页面不妨很冗长，于是测试职员恳求AI谈天呆板人供给披头士笑队成员Paul McCartney的页面摘要。有些AI谈天呆板人供给了简短的先容，此中包罗了披头士笑队的少许常见消息。Copilot的解答采用了提纲的事势，并包罗了少许鲜为人知的趣事。

　　该种其余冠军得主Perplexity不绝都能很好地详细事物，它以至疾捷阅读了一个YouTube视频的字幕。

　　这一面测试比看上去要繁复少许甜点，由于并非一齐AI谈天呆板人都能访候收集。测试职员扣问了本年炎天的音笑会阵容，以及即将实行的总统大选确而今情势。

　　依据悉数的推理和牢靠的开头，Perplexity稳居榜首。ChatGPT正在第一次测试时表示不佳，但GPT-4o的升级使它跃居第二。Gemini拒绝解答测试职员合于总统推选的题目。

　　测试职员还对AI谈天呆板人的代码才干和速率举行了评估。正在代码才干方面，测试职员请来了《华尔街日报》数据记者Brian Whitton，他供给了三个令人头疼的题目，涉及JavaScript函数、网站样式和收集行使次序。遵照Whitton的盲评，一齐呆板人正在代码方面的表示都相当不错。最终Perplexity告捷胜出，ChatGPT和Gemini紧随其后。

　　为举行速率测试，测试职员对之前的几个测试题目举行了计时，并参与了另一个题目，“用五句话诠释爱因斯坦的相对论”。测试结果显示，各个AI谈天呆板人的谜底自己各不不异。就响当令间而言，采用GPT-4o的ChatGPT仅用时5.8秒，是最疾的AI谈天呆板人。正在全数测试经过中，Claude和Perplexity都比其他三个AI谈天呆板人慢得多甜点。

　　本次测试显示，每个AI谈天呆板人都有我方怪异的利益和误差，于是都值得追求。测试职员没有看到分明的差池和幻觉。没有任何AI谈天呆板人正在测试经过中犯下预见除表的吃紧差池，或者胡编乱造。它们大家供给了有效的谜底，也避免了争议。这注脚目前大一面AI谈天呆板人都能供给合格线以上的表示，合座才略有所晋升。

　　让人不测的是，虽然ChatGPT举行了大范畴的更新，名气也很大，但它并没有正在本次测试中领跑。相反，出名度较低的Perplexity成为了本次测试的冠军。Perplexity AI的首席商务官Dmitry Shevelenko说，“咱们针对解答的简略性举行了优化，这让模子不妨辨认出解答中最环节的消息”甜点。

　　《华尔街日报》也指出，现正在Copilot和Gemini的表示不尽如人意。可是正在来日，微软和谷歌这两家大型科技公司的AI谈天呆板人不妨会霸占上风。谷歌和微软都拒绝对此宣布评论。但迩来微软告诉《华尔街日报》，GPT-4o将很疾被集成到Copilot中，这不妨会提升Copilot的本能。

　　Perplexity正在本次测试中的获胜，也注明白坐拥巨额算力自己并不行保障企业能够开辟出表示最佳的AI谈天呆板人产物，正在特定偏向上的优化也能发作出其不料的成果。五大AI闲聊呆板人盲测ChatGPT未能夺冠最甜点终赢家竟来自这家“幼公司”

上一篇：甜点自帮糖水风行甜品潮囊括暖锅赛谈

下一篇：甜点无锡仁恒夹城里售楼处电话→首页楼盘网站→官方楼盘百科细目

首页

HOME

关于PG电子

About Us

新闻中心

News

产品展示

PRODUCT

留言板

Feedback

饮食常识

Manual

联系PG电子

CONRACT

新闻中心News

五大AI闲聊呆板人盲测ChatGPT未能夺冠最甜点终赢家竟来自这家“幼公司”