请选择 进入手机版 | 继续访问电脑版
查看: 1732|回复: 0

ChatGPT Alpha与GPT-3.5、GPT-4详细对比评测

[复制链接]

171

主题

11

回帖

22万

积分

开发人员

积分
220771
发表于 2023-11-8 16:44:57 | 显示全部楼层 |阅读模式

说明:稿件更新时间为2023年11月7日,因为 ChatGPT 功能也在迭代,所以随着时间推移,可能评测的有些功能与现在使用的有所差别,且AI功能输出结果有一定的随机性,故评测也可能存在一些问题,如果纰漏欢迎批评指正。

近日,ChatGPT 给用户小规模免费推送Alpha新模态,新模态集成 GPT-4(All Tools)功能,用户可以无限制使用 GPT4-32k,也可以使用绘图、联网、分析文件等功能,下面我们将 Alpha 与 GPT-3.5、GPT-4 进行详细的对比评测。

什么是 GPT-4(All Tools)?
GPT-4(All Tools)是 OpenAI 推出的最新人工智能模型,它结合了自然语言理解和生成的能力,并扩展了其前身 GPT-3 的功能。这个版本包括了一系列增强的工具,如:

  1. 图片生成(DALL-E):能够根据文本描述生成图片。
  2. 代码执行(Python):能够执行 Python 代码,提供编程和数据分析的能力。
  3. 网络浏览器(Browser):允许AI模型在没有直接互联网访问的情况下浏览网页,搜索信息,并引用内容。
  4. 文件浏览器(MyFiles Browser):能够浏览和分析上传到对话中的文件。

GPT-4(All Tools)通过这些工具提供了更全面的服务,能够在多种任务中提供帮助,如图像创作、编程问题解答、数据分析、网页搜索和文件内容理解等。它被设计为更智能、更灵活,并且在处理复杂任务时更加高效。

在成稿时,ChatGPT又发布了一些更新,最直观的改变就是界面进行了重新设计,但是这个改变也只是针对部分账号,我用两个ChatGPT Plus账号进行登录,界面不同。

新旧.jpg

登录后新界面直接集成了 Browse with Bing 和 Advanced Data Analysis 这两个以前部分 Plus 用户才能拥有的功能。

在这里为了方便截图进行对比,我们继续选择旧界面的 GPT-4 进行对比。

 一、数据截止时间

我们以 模型数据截止时间 对模型进行提问,GPT-3.5 截止日期为2022年1月,Alpha 和 GPT-4 模型截止日期均为2023年4月。可以推测   Alpha 调用 GPT-4 模型,但是语言类具体功能还是需要用过示例进行详细对比。

数据对比.png

二、文字处理对比

这里以网上最常用的问题来区分 Alpha 是否是调用 GPT-4 模型,用 鲁迅为什么暴打周树人 进行提问。

鲁迅.jpg

通过测试,我们发现 GPT-3.5 将鲁迅和周树人看做两个人,而 Alpha 和 GPT-4 均能正确识别鲁迅和周树人为一个人,粗略看 Alpha 确实是使用的GPT-4。

但是为了更好的测试文字处理能力,我们继续对 GPT-3.5、Alpha 和GPT-4 进行测试,我们以下面的提示词 你的任务是以小红书博主的文章结构,以我给出的主题写一篇帖子推荐。你的回答应包括使用表情符号来增加趣味和互动,以及与每个段落相匹配的图片。请以一个引人入胜的介绍开始,为你的推荐设置基调。然后,提供至少三个与主题相关的段落,突出它们的独特特点和吸引力。在你的写作中使用表情符号,使它更加引人入胜和有趣。对于每个段落,请提供一个与描述内容相匹配的图片。这些图片应该视觉上吸引人,并帮助你的描述更加生动形象。我给出的主题是:[安踏要疯篮球鞋] 对能力进行测试。

文字.jpg

通过对比,GPT-3.5 文字处理能力还是相比 Alpha、旧版 GPT-4 、新版 GPT-4(All Tools)有差距,而 Alpha 和新版 GPT-4 则可以直接调用 DALL·E 3 生成相关图片,旧版 GPT-4 无法直接出图。

就 Alpha 来说,文字处理质量还是比较优异,集成 GPT-4(All Tools)看来不是说说而已,文字处理应该是用 GPT-4 驱动。

三、图片生成对比

下面我们以 帮我画一幅画,熊猫吃竹子,动漫风格 为提示词,测试三个模态的出图功能。

从下图可以看出,GPT-3.5 无法出图,Alpha 和 GPT-4 均是调用 DALL·E 3,出图质量也差不多。
出图对比.jpg

四、识图能力对比

GTP-3.5 不支持上传文件,而 Alapha 和GPT-4 则支持图片上传,图片格式支持 jpg、png、webp,拖拽图片直接到对话框即可上传。

这里上传一张图片,询问 请告诉我这张图片的拍摄地址 ,来测试下 Alpha 和 GPT-4 的识图能力。

识图.jpg

可以看出,两者均能正确识别图片拍摄地址是杭州西湖,但是Alpha输出语言为英文,GPT-4 为中文。

接着我们再上传一张图片,询问 这张图片里面有那些水果 ,再次进行测试。
识图2.jpg

这次两者正确识别图片中的水果,且都是用中文输出,通过测试感觉 Alpha、GPT-4  输出语言英文、中文都有一定的随机性,但是 GPT-4 中文输出的概率大很多。在日常使用时,无论用 Alpha 还是 GPT-4  建议都在提示词后面加一句 用中文输出

五、联网功能对比

我们以 请告诉我今日日期,和上海市的天气 这个问题,测试联网功能。

从下图可以看出:

联网.jpg
GPT-3.5 无法联网。

Alapha 则直接调用 bing 搜索引擎联网,但是 Alapha 如果提示词未指定中文输出,很多情况都会用英文输出,需要再次输入命令翻译为中文,这个问题应该是因为 Alapha 联网使用 Bing 搜索优选对英文网站进行检索,点击输出文字文末的上角标 <sup>1</sup> 可以直接访问数据检索网站,我们点击 <sup>1</sup> 会发现源网站链接是 https://www.timeanddate.com/weather/china/shanghai ,是一个英文网站。

天气.png

旧版 GPT-4 可以勾选 Browse with Bing 功能直接联网,虽然 Browse with Bing 功能也是使用Bing搜索对网站进行检索,且输出文字文末同样标有上角标 <sup>1</sup>,点击 <sup>1</sup> 会发现源网站链接依然是 https://www.timeanddate.com/weather/china/shanghai ,但是不同的是 GPT-4 可以直接使用中文输出,不会存在 Alapha 用英文输出的现象。

新版 GPT-4可以直接联网,但是输出结果有时候为中文,有时候为英文。

下面我们更换提问,提问为 请为用户提供的[云南丽江]制定为期一周的旅行计划。我希望你为每一天规划整整一天的活动,包括吃饭的地方,活动和完全所有的事情。我希望你写下大约他们将花费在餐食,活动等方面的近似费用。我还想让你提出酒店的建议。

我们来对比 Alapha 和旧版 GPT-4 Browse with Bing 两者结果:
联网对比2.jpg

新版gpt4.jpg

两者同样会对索引网站的链接用上角标标记,Alapha 数据源是对英文网站,而旧版 GPT-4 Browse with Bing 数据源是对中文网站。

虽然 Alpha 和 GPT-4 都是调用 Bing 搜索,但是 Alpha 和新版 GPT-4 更多的是检索英文网站,旧版 GPT-4 Browse with Bing 更多的是检索中文网站,输出结果时 Alpha 和新版 GPT-4 常常容易用英文输出,而 GPT-4 Browse with Bing 基本都是中文输出。

在使用的时候,旧版 GPT-4 Browse with Bing 因为是勾选联网功能,所以提问均会联网,而 Alpha 和新版 GPT-4 有时候有些提问并不会触发联网功能,同时输出也大概率是英文,所以我们需要考虑优化提示词,下面我分享一个我写的提示词,至于为什么这么写我以后再专门撰文做分析。

使用联网功能,只检索中文网站,且检索时关键词不要翻译为英文,仅用中文检索。
prompt
输出结果翻译为中文输出,不要用英文。

在提示词(prompt)前加上 使用联网功能,只检索中文网站,且检索时关键词不要翻译为英文,仅用中文检索。 ,在结尾加上 输出结果翻译为中文输出,不要用英文。 进行控制,这样大概率会检索中文网站,也会用中文输出。

六、文档分析对比

GPT-3.5 不支持文档上传,Alapha 、新版 GPT-4 支持文档直接上传分析,而旧版 GPT-4 则需要勾选 Advanced Data Analysis 功能方支持文档上传。

6.1 文档格式支持

虽然 Alpha、旧版 GPT-4 Advanced Data Analysis 、新版 GPT-4 都支持 doc、xls、ppt、pdf、txt、zip、rar 等常见格式的上传,但是读取文档能力的能力却不尽相同。

下面我们上传一篇后缀为 .epub 的论文,虽然都能上传成功,但是Alpha 、新版 GPT-4均不能正确读取到文档的内容显示报错,而旧版 GPT-4 Advanced Data Analysis 则成功读取文档内容。

epub.jpg

通过一系列对比,可以推测 Alpha 可以看成新版 GPT-4 的测试版本,而新版 GPT-4 和旧版 GPT-4 能共存多久,就不得而知了。

6.2 文档大小限制

这个语言模型支持最大上传附件为多少 分别对 Alpha、旧版 GPT-4 Advanced Data Analysis 、新版 GPT-4 进行提问,均告知支持的最大上传附件为 25M。

25.jpg

但是通过实际测试,上传一个 30M 的文件,Alpha、旧版 GPT-4 Advanced Data Analysis 、新版 GPT-4 均能上传成功。

同时对 openai 的官方文档进行查阅,也没有查看到对文档大小限制的值。

6.3 分析能力对比

这里模拟一个场景,要对一篇论文的关键点进行提炼总结,做个 PPT 进行汇报演示。

首先上传一篇 doc 格式的论文,这篇论文共28页6900多字符,同时输入以下提示词 帮我提取这篇文章的全部标题,标题要有层级,所有层级的标题都要,标题要和原文一致,每个标题所属内容归纳出200字文字内容,用来做ppt演示,用中文输出。

文档测试.jpg

通过归纳总结的内容,Alpha 完全没基于原文档乱写,旧版 GPT-4 Advanced Data Analysis 尝试了多种方法进入了死循环,而新版GPT-4 读出了文档的内容但是没有总结完全。

这里我们点击旧版 GPT-4 Advanced Data Analysis 中的 Show work ,会发现每一次都是自动执行 Python 代码。

python.jpg

这里显示 ChatGPT 尝试根据字号去区分标题。

所以我们在日常工作中,能尽量把文章排版好再去分析比较好,此外尽量上传 doc、txt 用于分析,因为上传 pdf 等其它格式文档,不仅 ChatGPT 不能根据字号等去区分排版,同时也要先正确识别文字,而 doc、txt 读取文字远比其它格式方便得多。

6.4 测试相关问题

① Alpha 上传文档功能极其不稳定,常常会出现无法上传的现象,时好时坏。

② 旧版 GPT-4 Advanced Data Analysis 无法成功读取 doc 格式,但是能读取 docx 格式。

③新版GPT-4 能成功读取 docx 格式,但是能读取 doc 格式。

才学疏浅难免疏漏,欢迎提出批评或建议。





您需要登录后才可以回帖 登录 | 立即注册

本版积分规则