ChatGPT Alpha与GPT-3.5、GPT-4详细对比评测

admin · 发表于 2023-11-8 16:44:57

说明：稿件更新时间为2023年11月7日，因为 ChatGPT 功能也在迭代，所以随着时间推移，可能评测的有些功能与现在使用的有所差别，且AI功能输出结果有一定的随机性，故评测也可能存在一些问题，如果纰漏欢迎批评指正。

近日，ChatGPT 给用户小规模免费推送Alpha新模态，新模态集成 GPT-4（All Tools）功能，用户可以无限制使用 GPT4-32k，也可以使用绘图、联网、分析文件等功能，下面我们将 Alpha 与 GPT-3.5、GPT-4 进行详细的对比评测。

什么是 GPT-4（All Tools）?
GPT-4（All Tools）是 OpenAI 推出的最新人工智能模型，它结合了自然语言理解和生成的能力，并扩展了其前身 GPT-3 的功能。这个版本包括了一系列增强的工具，如：

图片生成（DALL-E）：能够根据文本描述生成图片。

代码执行（Python）：能够执行 Python 代码，提供编程和数据分析的能力。

网络浏览器（Browser）：允许AI模型在没有直接互联网访问的情况下浏览网页，搜索信息，并引用内容。

文件浏览器（MyFiles Browser）：能够浏览和分析上传到对话中的文件。

GPT-4（All Tools）通过这些工具提供了更全面的服务，能够在多种任务中提供帮助，如图像创作、编程问题解答、数据分析、网页搜索和文件内容理解等。它被设计为更智能、更灵活，并且在处理复杂任务时更加高效。

在成稿时，ChatGPT又发布了一些更新，最直观的改变就是界面进行了重新设计，但是这个改变也只是针对部分账号，我用两个ChatGPT Plus账号进行登录，界面不同。

新旧.jpg

登录后新界面直接集成了 Browse with Bing 和 Advanced Data Analysis 这两个以前部分 Plus 用户才能拥有的功能。

在这里为了方便截图进行对比，我们继续选择旧界面的 GPT-4 进行对比。

　一、数据截止时间

我们以 模型数据截止时间 对模型进行提问，GPT-3.5 截止日期为2022年1月，Alpha 和 GPT-4 模型截止日期均为2023年4月。可以推测 Alpha 调用 GPT-4 模型，但是语言类具体功能还是需要用过示例进行详细对比。

数据对比.png

二、文字处理对比

这里以网上最常用的问题来区分 Alpha 是否是调用 GPT-4 模型，用 鲁迅为什么暴打周树人 进行提问。

鲁迅.jpg

通过测试，我们发现 GPT-3.5 将鲁迅和周树人看做两个人，而 Alpha 和 GPT-4 均能正确识别鲁迅和周树人为一个人，粗略看 Alpha 确实是使用的GPT-4。

但是为了更好的测试文字处理能力，我们继续对 GPT-3.5、Alpha 和GPT-4 进行测试，我们以下面的提示词你的任务是以小红书博主的文章结构，以我给出的主题写一篇帖子推荐。你的回答应包括使用表情符号来增加趣味和互动，以及与每个段落相匹配的图片。请以一个引人入胜的介绍开始，为你的推荐设置基调。然后，提供至少三个与主题相关的段落，突出它们的独特特点和吸引力。在你的写作中使用表情符号，使它更加引人入胜和有趣。对于每个段落，请提供一个与描述内容相匹配的图片。这些图片应该视觉上吸引人，并帮助你的描述更加生动形象。我给出的主题是：[安踏要疯篮球鞋] 对能力进行测试。

文字.jpg

通过对比，GPT-3.5 文字处理能力还是相比 Alpha、旧版 GPT-4 、新版 GPT-4（All Tools）有差距，而 Alpha 和新版 GPT-4 则可以直接调用 DALL·E 3 生成相关图片，旧版 GPT-4 无法直接出图。

就 Alpha 来说，文字处理质量还是比较优异，集成 GPT-4（All Tools）看来不是说说而已，文字处理应该是用 GPT-4 驱动。

三、图片生成对比

下面我们以 帮我画一幅画，熊猫吃竹子，动漫风格 为提示词，测试三个模态的出图功能。

从下图可以看出，GPT-3.5 无法出图，Alpha 和 GPT-4 均是调用 DALL·E 3，出图质量也差不多。
出图对比.jpg

四、识图能力对比

GTP-3.5 不支持上传文件，而 Alapha 和GPT-4 则支持图片上传，图片格式支持 jpg、png、webp，拖拽图片直接到对话框即可上传。

这里上传一张图片，询问 请告诉我这张图片的拍摄地址 ，来测试下 Alpha 和 GPT-4 的识图能力。

识图.jpg

可以看出，两者均能正确识别图片拍摄地址是杭州西湖，但是Alpha输出语言为英文，GPT-4 为中文。

接着我们再上传一张图片，询问 这张图片里面有那些水果 ，再次进行测试。
识图2.jpg

这次两者正确识别图片中的水果，且都是用中文输出，通过测试感觉 Alpha、GPT-4 输出语言英文、中文都有一定的随机性，但是 GPT-4 中文输出的概率大很多。在日常使用时，无论用 Alpha 还是 GPT-4 建议都在提示词后面加一句 用中文输出 。

五、联网功能对比

我们以 请告诉我今日日期，和上海市的天气 这个问题，测试联网功能。

从下图可以看出：

联网.jpg
GPT-3.5 无法联网。

Alapha 则直接调用 bing 搜索引擎联网，但是 Alapha 如果提示词未指定中文输出，很多情况都会用英文输出，需要再次输入命令翻译为中文，这个问题应该是因为 Alapha 联网使用 Bing 搜索优选对英文网站进行检索，点击输出文字文末的上角标 1 可以直接访问数据检索网站，我们点击 1 会发现源网站链接是 https://www.timeanddate.com/weather/china/shanghai ，是一个英文网站。

天气.png

旧版 GPT-4 可以勾选 Browse with Bing 功能直接联网，虽然 Browse with Bing 功能也是使用Bing搜索对网站进行检索，且输出文字文末同样标有上角标 1，点击 1 会发现源网站链接依然是 https://www.timeanddate.com/weather/china/shanghai ，但是不同的是 GPT-4 可以直接使用中文输出，不会存在 Alapha 用英文输出的现象。

新版 GPT-4可以直接联网，但是输出结果有时候为中文，有时候为英文。

下面我们更换提问，提问为 请为用户提供的[云南丽江]制定为期一周的旅行计划。我希望你为每一天规划整整一天的活动，包括吃饭的地方，活动和完全所有的事情。我希望你写下大约他们将花费在餐食，活动等方面的近似费用。我还想让你提出酒店的建议。

我们来对比 Alapha 和旧版 GPT-4 Browse with Bing 两者结果：
联网对比2.jpg

新版gpt4.jpg

两者同样会对索引网站的链接用上角标标记，Alapha 数据源是对英文网站，而旧版 GPT-4 Browse with Bing 数据源是对中文网站。

虽然 Alpha 和 GPT-4 都是调用 Bing 搜索，但是 Alpha 和新版 GPT-4 更多的是检索英文网站，旧版 GPT-4 Browse with Bing 更多的是检索中文网站，输出结果时 Alpha 和新版 GPT-4 常常容易用英文输出，而 GPT-4 Browse with Bing 基本都是中文输出。

在使用的时候，旧版 GPT-4 Browse with Bing 因为是勾选联网功能，所以提问均会联网，而 Alpha 和新版 GPT-4 有时候有些提问并不会触发联网功能，同时输出也大概率是英文，所以我们需要考虑优化提示词，下面我分享一个我写的提示词，至于为什么这么写我以后再专门撰文做分析。

使用联网功能，只检索中文网站，且检索时关键词不要翻译为英文，仅用中文检索。
prompt
输出结果翻译为中文输出，不要用英文。

在提示词（prompt）前加上 使用联网功能，只检索中文网站，且检索时关键词不要翻译为英文，仅用中文检索。 ，在结尾加上 输出结果翻译为中文输出，不要用英文。 进行控制，这样大概率会检索中文网站，也会用中文输出。

六、文档分析对比

GPT-3.5 不支持文档上传，Alapha 、新版 GPT-4 支持文档直接上传分析，而旧版 GPT-4 则需要勾选 Advanced Data Analysis 功能方支持文档上传。

6.1 文档格式支持

虽然 Alpha、旧版 GPT-4 Advanced Data Analysis 、新版 GPT-4 都支持 doc、xls、ppt、pdf、txt、zip、rar 等常见格式的上传，但是读取文档能力的能力却不尽相同。

下面我们上传一篇后缀为 .epub 的论文，虽然都能上传成功，但是Alpha 、新版 GPT-4均不能正确读取到文档的内容显示报错，而旧版 GPT-4 Advanced Data Analysis 则成功读取文档内容。

通过一系列对比，可以推测 Alpha 可以看成新版 GPT-4 的测试版本，而新版 GPT-4 和旧版 GPT-4 能共存多久，就不得而知了。

6.2 文档大小限制

以 这个语言模型支持最大上传附件为多少 分别对 Alpha、旧版 GPT-4 Advanced Data Analysis 、新版 GPT-4 进行提问，均告知支持的最大上传附件为 25M。

但是通过实际测试，上传一个 30M 的文件，Alpha、旧版 GPT-4 Advanced Data Analysis 、新版 GPT-4 均能上传成功。

同时对 openai 的官方文档进行查阅，也没有查看到对文档大小限制的值。

6.3 分析能力对比

这里模拟一个场景，要对一篇论文的关键点进行提炼总结，做个 PPT 进行汇报演示。

首先上传一篇 doc 格式的论文，这篇论文共28页6900多字符，同时输入以下提示词 帮我提取这篇文章的全部标题，标题要有层级，所有层级的标题都要，标题要和原文一致，每个标题所属内容归纳出200字文字内容，用来做ppt演示，用中文输出。

文档测试.jpg

通过归纳总结的内容，Alpha 完全没基于原文档乱写，旧版 GPT-4 Advanced Data Analysis 尝试了多种方法进入了死循环，而新版GPT-4 读出了文档的内容但是没有总结完全。

这里我们点击旧版 GPT-4 Advanced Data Analysis 中的 Show work ，会发现每一次都是自动执行 Python 代码。

这里显示 ChatGPT 尝试根据字号去区分标题。

所以我们在日常工作中，能尽量把文章排版好再去分析比较好，此外尽量上传 doc、txt 用于分析，因为上传 pdf 等其它格式文档，不仅 ChatGPT 不能根据字号等去区分排版，同时也要先正确识别文字，而 doc、txt 读取文字远比其它格式方便得多。

6.4 测试相关问题

① Alpha 上传文档功能极其不稳定，常常会出现无法上传的现象，时好时坏。

② 旧版 GPT-4 Advanced Data Analysis 无法成功读取 doc 格式，但是能读取 docx 格式。

③新版GPT-4 能成功读取 docx 格式，但是能读取 doc 格式。

才学疏浅难免疏漏，欢迎提出批评或建议。