AI大语言模型上手

OpenAI 的 ChatGPT 开放测试引发了新一波的 AI 热潮。首先 ChatGPT 3.5 在对话能力上达到了令人惊艳的水平。其次,有上亿人通过不同方式亲自体验了这一服务。(即使不对中国用户开放,仍然有数百万人通过 VPN 或代理用上了)

在国外,有 Google 赶鸭子上架的 Bard(上架当天股价暴跌 8%),有 Facebook 被迫开源的 LLaMA(不知道被谁给泄漏了源码)。在国内,百度的文心一言已经开过发布会,阿里的通义千问刚刚开始邀请测试。各家互联网公司都在烧钱搞大语言模型,盈利前景尚不明朗,唯有 NVIDIA 老黄赚的盆满钵满。

在坊间,AI 已经被过度神化,主流媒体甚至也在鼓噪“你的工作会被 AI 取代”这种论调。但是对于科技从业者而言,我们需要冷静看待,AI 大语言模型仍然有很大的局限性。它还远不能取代人,甚至不能取代同为程序的搜索引擎。但是不可否认,就像现在每个人都要使用计算机和手机一样,未来每个人都要使用 AI 做一些事情。了解和接触大语言模型还是很有必要的。

TL;DR

  • OpenAI 的 GPT-4,还没上手。
  • OpenAI 的 ChatGPT 3.5,综合表现在我上手的里面最好。
  • 清华大学的 ChatGLM-6B,基本的中英文对话还行,不能处理复杂逻辑问题,编程能力较差。
  • Google 的 Bard,英文对话接近 ChatGPT 3.5,编程能力较差。
  • Facebook 的 LLaMA,用了但是无法评判。公司自建服务器效果很糟糕,可能不是 65B 完整版。
  • 百度的文心一言,还没上手。在 waiting list 等。但还是给李彦宏点赞,敢吃螃蟹,开放测试。
  • 阿里云的通义千问,还没上手。只对特定的企业用户和媒体开放,这格局真的不敢恭维。

开放程度对比

  • LLaMA 开源,代码和模型都开放下载。虽然用 PC 游戏显卡就能跑,但效果属实不理想,无法称之为对话,更像是鸡同鸭讲。
  • ChatGLM 开源,代码和模型都开放下载。清华大学开发,支持中英双语。唯一一个由非商业公司开发的模型。有基本的对话能力,但是由于参数规模较小,还是比 ChatGPT 3.5 弱很多,尤其是在逻辑,编程,多模态等方面。
  • ChatGPT 3.5/GPT4 闭源,公开测试。中国用户需要 VPN + 外国手机号,或者使用一些代理服务。
  • Bard 闭源,通过 waiting list 加入测试。中国用户只需要 VPN,不需要外国手机号。等待大概半天就能进入。
  • 文心一言闭源,通过 waiting list 加入测试。这个等待时间就比较长了,少则一天,多则几天。
  • 通义千问闭源,通过邀请码加入测试。有测试资格的人极少。阿里巴巴员工目前也不能内测最新版。

功能体验对比

英文对话能力

GPT-4 还没有上手过,未知。据其他人的测试结果,GPT-4 相比 ChatGPT 3.5 增强了一些悖论和数理逻辑的能力,同时强化了伦理道德约束。

ChatGPT 3.5 算是一个基准标杆。

Bard 在英文对话能力上接近 ChatGPT 3.5。

LLaMA 对话能力比较差,经常不能理解问题。

文心一言,还没上手。

通义千问,内测版差强人意,最新版还未上手。

中文对话能力

GPT-4 还没有上手过,未知。

ChatGPT 3.5 算是一个基准标杆。

LLaMA 对话能力比较差,经常不能理解问题。

文心一言,还没上手。

通义千问,内测版差强人意,最新版还未上手。

LLaMA 中文对话能力极其有限,经常胡言乱语。

Bard 目前完全不支持中文。

多模态生成能力

GPT4 能生成代码,图片(基于 OpenAI 自有的技术 DALL·E 2),甚至还能做简单的网页。可以说是目前最强的。

ChatGPT 3.5 能生成代码。

文心一言能生成代码和图片。图片生成基于开源的 Stable Diffusion, 缺点是单纯通过文字 prompt 很难获得比较高质量的图片。Stable Diffusion 最擅长的还是各种第三方模型,LoRA,ControlNet 以及 image-to-image 等组合使用获取高质量图片。然而这些并不能在文心一言中使用。另外 Stable Diffusion 只支持英文输入,文心一言内部是通过将中文翻译成英文实现的,可能会生成完全不相关的图片。(比如总线变公交车)

Bard,ChatGLM 和通义千问目前只能输出文字和代码。

LLaMA 似乎只能进行文字对话,无法输出代码能复杂内容。

图形编程能力

大语言模型很擅长给出各种算法的代码,但是图形编程能力依然很差。我测了一个很简单的编程问题:用 HTML 和 CSS 画一个红十字/create a red cross with HTML and CSS。

ChatGPT 3.5 的回答,错了一半,是十字但是颜色是反的:

<div class="red-cross"></div>
.red-cross {
  width: 50px;
  height: 50px;
  background-color: #f00;
  position: relative;
}

.red-cross::before,
.red-cross::after {
  content: "";
  width: 25px;
  height: 5px;
  background-color: #fff;
  position: absolute;
  top: 50%;
  left: 50%;
  transform: translate(-50%, -50%);
}

.red-cross::before {
  transform: translate(-50%, -50%) rotate(45deg);
}

.red-cross::after {
  transform: translate(-50%, -50%) rotate(-45deg);
}

Bard 的回答完全错误,形状都不对:

<div class="red-cross">
  <div class="cross-bar"></div>
  <div class="cross-bar"></div>
</div>
.red-cross {
  width: 100px;
  height: 100px;
  background-color: red;
  border-radius: 50%;
}

.cross-bar {
  width: 50px;
  height: 100px;
  position: absolute;
  top: 0;
  left: 25px;
  background-color: white;
  border-radius: 50%;
}

ChatGLM 的回答也完全错误:

<div class="cross"></div>
.cross {
width: 20px;
height: 20px;
background-color: red;
position: relative;
margin-right: 10px;
}

.cross:before,
.cross:after {
content: "";
position: absolute;
right: 0;
bottom: 0;
width: 10px;
height: 20px;
background-color: red;
border-radius: 50% 50% 0 0;
transform: rotate(-45deg);
}

.cross:after {
right: 10px;
}

当前的局限性

不擅长细分领域的事实性问题

著名华裔科幻作家姜峯楠对此有一个很著名的论断——ChatGPT 就是给万维网(Web)拍了一张很糊的 JPEG 照片。这指出了 ChatGPT 最核心的弱点:它有海量数据,却无法理解深层的联系,容易产生错误的理解;它很能说会道,却不知道自己在说什么,经常编造看似可信的答案。

我想到了中国社会上行走了上千年的江湖骗子。他们没有真才实学,却不论说什么都能头头是道。大语言模型和江湖骗子具有非常多的相似之处。

很多江湖骗子家里满满一书架的书,但都是浅尝辄止并没有深入研究,行走江湖全靠经验阅历。大预言模型也是一样,虽然被喂了大量的数据,但是它阅读理解的效率极低,只有最常见的知识能够训练的比较好。一旦被问及细分领域的问题,由于训练样本不足,它很容易搞不清楚领域的边界。

首先,我们问一个简单的开放性问题:推荐一些漫画?

  1. 《进击的巨人》(Attack on Titan):讲述了人类与巨人之间的战斗,揭示了一个充满阴谋和秘密的世界。
  2. 《海贼王》(One Piece):讲述了主角路飞和他的伙伴们在寻找传说中的宝藏时的冒险故事。
  3. 《火影忍者》(Naruto):讲述了主角漩涡鸣人成为忍者,并成为村庄英雄的故事,充满战斗、友情、爱情和成长的元素。
  4. 《银魂》(Gintama):以幽默搞笑的方式讲述了一个充满科幻元素的江户时代,主角坂田银时和他的伙伴们经历了种种奇怪的事件。
  5. 《攻壳机动队》(Ghost in the Shell):讲述了一个宏大的未来世界和以及人类与机器之间的融合,主角草薙素子是一个拥有高超能力的狙击手。
  6. 《名侦探柯南》(Detective Conan):讲述了高中生侦探小兰和他的朋友变成了童话样子后,以侦破各种案件为题材的故事。
  7. 《鬼灭之刃》(Demon Slayer):讲述了主人公炭治郎为了报仇,踏上了消灭鬼族的旅程。 8.《妖狐×僕SS》(Inu × Boku SS):讲述了一个拥有异能的贵族少女和她的护卫之间的故事,充满了奇幻和浪漫的因素。
  8. 《约定的梦幻岛》(Promised Neverland):讲述了一群孤儿在追求自由的过程中,发现了惊人的真相。充满了惊悚和悬疑的元素。
  9. 《你好,旧时光》:讲述了一个年轻人回到了过去,重新度过青春期的故事,充满了温情和成长的元素。
ChatGPT 3.5

从整体看,这个回答貌似不错,推荐的都是知名作品。细看能发现一些明显的事实性错误,“高中深侦探小兰”是什么鬼!

下一个问题我们再把领域收窄:火影忍者中有哪些主要角色?

  1. うずまきナルト (Uzumaki Naruto):故事的主角,一名忍者,是四代目火影的儿子,拥有九尾妖狐的力量,梦想是成为火影,得到全村人的认可。
  2. うちはサスケ (Uchiha Sasuke):另一名主角,是宇智波一族的后代,对于家族被灭的仇恨深重,梦想是报仇雪恨,但在成长过程中逐渐变得理性冷静。
  3. 春野サクラ (Haruno Sakura):女主角之一,是一名医疗忍者,对于同班同学的爱慕之情逐渐转变为对于团队和保护村子的责任感。
  4. はたけカカシ (Hatake Kakashi):火影之一,是一名传说中的忍者,拥有众多技能和能力,作为三人小队的领队,传授了许多技能给三位主角。
  5. 獣神サスケ (Jūgo Sasuke):一名受到实验变异的忍者,曾经是八尾人柱力的宿主,后成为守护叶村的一员。
  6. 日向ヒナタ (Hyuga Hinata):女主角之一,是一名拥有白眼的忍者,天生有着强大的能力,曾经对于同班同学的爱慕之情逐渐转变为对于团队的责任感。
  7. 綱手 (Tsunade):火影之一,是一名医疗忍者和扑克大师,曾经是三人小队的领队,拥有强大的能力和技能。
ChatGPT 3.5

如果只看前四行回答,是非常不错的。但是后三行回答都有明显的事实性错误:重吾的名字写错了,他也不是八尾人柱力;雏田的描述和春野樱完全重复;纲手缝赌必输,完全算不上扑克大师。总体来看,回答仍然在火影忍者的领域内。

下面我们继续收缩领域:火影忍者晓组织的成员有哪些?

  1. 佐助 (Uchiha Sasuke):在某些情况下,佐助曾是晓组织的一员。
  2. 蝎 (Sasori):拥有木偶的能力,曾经是晓组织的高级成员。
  3. 大蛇丸 (Orochimaru):曾经是晓组织的创始人之一,拥有着强大的血继限界能力。
  4. 鬼鲛 (Kisame Hoshigaki):拥有着一身鲨鱼样的外表,是晓组织的高级成员之一。
  5. 雏田 (Karin):拥有着特殊的医疗能力,是晓组织的成员之一。
  6. 夕日红 (Yūra):是一个熟练的忍者医生,曾经是晓组织的成员。
  7. 御手洗红豆 (Guren):是晓组织的成员,拥有着控制水晶的能力。
  8. 草轮梦蝶 (Tsurugi Misumi):是晓组织的成员,拥有伸缩自如的身体。
  9. 土之器 (Tsuchi Kin):是晓组织的成员,拥有使用声音的能力。
ChatGPT 3.5

可以看到,GPT 回答的错误比例进一步增大到 2/3。当你问的问题越细,GPT 能依靠的数据样本就越少,理解错误就越多。

大语言模型依然很昂贵

OpenAI 据称训练一次 ChatGPT 要耗费数百万美元,每日运营成本也高达十万美元。大语言模型仍然需要大量算力,而核心硬件 GPU/TPU 已经没有了摩尔定律加持。过去十年 GPU 的算力/美元提升了4倍,但是未来十年这样的事情不太可能重演:芯片工艺遭遇物理瓶颈,中美科技战导致供应链成本上升,芯片可能会越来越贵,越来越缺。如果软件算法没有革命性突破,大语言模型将一直是个烧钱的游戏,只有巨头能玩的游戏。另一方面,训练所需的海量数据也需要钱,甚至有钱都不一定能够买到。大语言模型一开始就高筑围墙,可能会进一步加强科技巨头的垄断地位。

现在 OpenAI 也推出了付费的 GPT Plus 服务,20 美元/月。(同时 API 接口还要额外收费)是不是像极了凭几句不靠谱的话术就能赚钱的江湖骗子?现实中也有听风水大师买股票,喝中药汤治疗癌症的。GPT 起码还有一些道德约束,不会给你投资建议或者健康建议。

如果说 OpenAI 这种初创公司烧不起钱还能理解。现在连微软也烧不起了,要给 New Bing 的聊天功能加广告了。这些成本最终还是会转嫁到消费者身上。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据