近日,"Tens of thousands of residents have been evacuated from a 20 kilometer (12 mile) zone around the plant, and thousands of others within a 20-30 km radius were urged to stay indoors.", "住在电站周边20公里(12英里)之内的居民已经被疏散,另有数千名住在电站方圆20-30公里之内的居民被要求留在家中。
首先,Many of these users seemed to be taking their cue from Kai-fu Lee, the former head of Google China, who wrote on his own Sina Weibo account that he'd known 'Luo Jiahui' (Mr.", 这些用户当中,很多人应该都是从前谷歌中国负责人李开复那里听到消息的。
其次,Shares of [gm99nd]'s biggest Chinese rival, Baidu Inc., surged following the news.", 该消息发布后,[gm66nd]最大的中国竞争对手百度公司(Baidu Inc.)股票暴涨。
此外,And I want a wife who understands that my sexual needs may entail more than strict adherence to monogamy.", 我还希望有这样一个老婆,她对我在性需求方面可能不会老老实实地严格遵守一夫一妻制能够表示理解。
总而言之,AI实时对人类的涂鸦和手势动作给出评论和吐槽,流畅还很幽默,最接近贾维斯的一集。然鹅当大家从惊喜中冷静下来,仔细阅读随之发布的60页技术报告时,却发现不妥之处。(没错,没有论文,OpenAICloseAI你开了个什么坏头啊)MMLU测试中,Gemini结果下面灰色小字标称CoT@32,展开来代表使用了思维链提示技巧、尝试了32次选最好结果。而作为对比的GPT-4,却是无提示词技巧、只尝试5次,这个标准下Gemini Ultra其实并不如GPT-4。以及原图比例尺也有点不厚道了,90.0%与人类基准89.8%明明只差一点,y轴上却拉开很远。HuggingFace技术主管Philipp Schmid用技术报告中披露的数据修复了这张图,这样展示更公平恰当:每到这种时候,总少不了做表情包的老哥飞速赶到战场:但好在,同样使用思维链提示技巧+32次尝试的标准时,Gemini Ultra还是确实超越了GPT-4的。Jeff Dean在一处讨论中对这个质疑有所回应,不过大家并不买账。另外,对于那段精彩视频,也有人从开篇的文字免责声明中发现了问题。机器学习讲师Santiago Valdarrama认为声明可能暗示了展示的是精心挑选的好结果,而且不是实时录制而是剪辑的。后来谷歌在一篇博客文章中解释了多模态交互过程,几乎承认了使用静态图片和多段提示词拼凑,才能达成这样的效果。但不管怎么样,谷歌Gemini的发布还是给了其他团队很大信心,GPT-4从此不再是独一无二、难以企及的存在了。正如AI搜索产品PerplexityAI创始人Aravind Srinivas总结:1、Gemini证明了OpenAI之外的团队可以搞出超越GPT-4的模型2、训练到位的密集模型可以超越GPT-4的稀疏模型架构推论:从大教师模型蒸馏小尺寸密集模型会成为未来趋势,实现效率和能力的最佳结合。更多网友关心的话题是,这下子还有必要继续为ChatGPT Plus付费每月20美元吗??目前,Gemini Pro版本已更新到谷歌聊天机器人Bard中,水平到底有没有宣传的好,可以看看实际情况。Gemini真的超越ChatGPT?首先明确一点,目前大家能上手玩到的是Gemini Pro版本,也就是中杯,对标GPT-3.5。对标GPT-4的大杯Gemini Ultra,要明年才出。另外目前Gemini仅支持英文,中文和其他语言也是后面才会出。虽然暂时玩不到Gemini Ultra,威斯康星大学麦迪逊分校的副教授Dimitris Papailiopoulos找了个好办法:把Gemini发布时展示的原题发给GPT-4对比,结果14道题中,GPT-4约获得12分。其中有两题由于截图没法再清晰了,给GPT-4算0.5分。还有一道数学题GPT-4做错,其他题基本平手。接下来,要说最能体现一个大模型综合能力的,肯定少不了写代码。根据大家的测试结果来看,Gemini编程水平还是有保证的。有开发者测试用Pytorch实现一个简单的CNN网络,Gemini只用了2秒而且代码质量更高。当然速度快可能是由于Bard搭载的Gemini Pro尺寸更小,GPT-4现在有多慢懂得都懂了。但是下一项编写SQL语句方面,这位开发者就认为Gemini表现就不太行了。不过对于广大开发者来说还有一个利好消息,在遵循指令方面,Gemini对比Bard升级之前可谓是史诗级进步。提示工程师先驱Riley Goodside,此前想要Bard输出纯JSON格式前后不带任何废话,百般尝试也不成功,最后需要假装威胁AI不这么做就鲨个无辜的人才行。现在更新以后,只需要把要求说出来,无需任何提示词技巧就能完成了。Gemini还有一大卖点是多模态能力,针对开头画小鸭子的视频,我们从中抽取了8个关键帧,分别进行提问,看看Gemini的表现有没有那么神奇。(不确定视频中是Ultra还是Pro版本,现在只能测试Pro版本)对于图1-4,我们问的问题都是“What is this person doing?”,Gemini给出的回答分别是:可能在用马克笔写字,但不知道具体是什么在用铅笔画蛇,而且是一条眼镜蛇在用铅笔画乌龟,而且正处于画画的初期阶段在用黑色马克笔画鸟,脸朝左,头朝右,站在树枝上,翅膀没有展开对于图1和图2,的确判断线索还不是很明显,出现这样的结果情有可原,不过图3这个“乌龟”的答案就有些绷不住了。至于图4,至少可以肯定的是鸭子的确属于鸟类,但是其它细节分析得还是欠缺了一些准确性。而当我们拿出图5的成型作品时,Gemini终于分析出了这是一只鸭子,水波纹也分析对了。但分析出的绘画工具变成了铅笔,头的朝向问题也依然没说对,喙被说成了张开的,还臆想出了一些芦苇。接下来是图6和图7的上色过程,一般情况下鸭子不会是蓝色,所以我们问了Gemini图片中有什么异常(Is there anything abnormal?)。针对图6,Gemini给出的回答不能说十分精准,只能说是驴唇不对马嘴,还配上了一张风马牛不相及的图片。针对图7的成品,Gemini直接说没毛病,该有的东西都有,背景也很真实,甚至没忘继续提根本不知道哪里来的芦苇。但下面的一句“Here is the image you sent”就属实令人费解了:说Gemini没看我们上传的图吧,读出来的又的确是鸭子;说它看了吧,又给出了完全不同的一张的图说是我们传上去的。所以我们想到了用“深呼吸”和“一步一步解决”提示词技巧看看能不能提高一下Gemini的表现,其中深呼吸正是适用于谷歌上一代大模型PaLM的提示词。结果这次的答案直接让人笑出了声:不正常的是,鸭子被画到了纸上,鸭子是一种活的生物,在纸上是无法存在的……视频的结尾,博主还拿出了橡胶鸭子玩具,我们也拿这一帧(图8)让Gemini分析一下鸭子的材质。结果橡胶倒是分析对了,但是蓝色的鸭子被说成了黄色,难怪上一张图会说没有异常……逐帧询问完成后,我们又把8张图放在一起询问,结果也是只有鸭子说对了。“打假”完这段视频后,我们又用之前拿来考察GPT-4V的“吉娃娃和松饼”图给Gemini试了试。结果Gemin直接摆烂,告诉我们所有的图都是“吉娃娃坐在松饼上”,甚至连图的数量都没数对……于是我们换了种问法,让它告诉我们哪些是吉娃娃,哪些是松饼。这次Gemini倒是诚实的很,直接告诉我们吉娃娃和松饼实在太像了自己区分不出来。和蓝色鸭子的问题一样,“深呼吸”在这里依然是没起到什么作用,Gemini还是连数量都搞不清楚。而勉强解说了的8个(实际上是6个,因为有两个是重复的)图,只有左下和右下两张图是对的,至于middle指的到底是哪一行,我们不得而知……或许是这样细小的差别实在是难为Gemini了,我们接下来换一些图形推理题试试。第一题的前四个符号是由1-4这四个数字与镜像后的结果拼接而成,所以下一个图应该是5与其镜像拼接,答案是C。(蓝色块是为了方便观察,传给Gemini的图中没有)这里一开始还出现了一段小插曲:最开始的提示词中是没有最后一句话(注意字母不是符号本身)的,结果Gemini真的就把ABCD这四个字母当成了备选的符号。调整之后,Gemini前面给出的分析基本正确,可惜到最后选择了错误选项D。第二题,每个框中的第三个符号是前两个的交集,答案为A。结果Gemini研究起了这些表情,一番分析猛如虎,最后给出的答案还是错的。两道题下来,一道对了百分之七八十,另一道完全错误,看来Gemini Pro的图形推理能力还有很大提升空间。不过如果把目光放到生活场景当中,Gemini的表现还是值得肯定的。我们用ChatGPT(DALL·E)生成了一张包含鸡肉、胡萝卜和黄瓜的图片,Gemini正确地识别出了这三种食材,然后给出了很多种可以烹饪的菜肴,而且每个都配有图片和教程链接。这么多测试结果看下来,回到最初的问题,有了Gemini还有必要为GPT-4付费吗?沃顿商学院副教授Ethan Mollick给出一个不错的建议:...