OpenAI开发新工具,试图解释语言模型的行为

语言模型是一种人工智能技术,可以根据给定的文本生成自然语言。OpenAI 的 GPT 系列语言模型是目前最先进的代表之

一,但IT之家注意到它们也有一个问题:它们的行为很难理解和预测。为了让语言模型更透明和可信,OpenAI 正在开发一种新工具,可以自动识别语言模型中哪些部分对其行为负责,并用自然语言进行解释。


这个工具的原理是利用另一个语言模型(也就是 OpenAI 最新的 GPT-4)来分析其他语言模型(比如 OpenAI 自己的 GPT-2)的内部结构。语言模型由许多“神经元”组成,每个神经元都可以观察文本中的某种特定模式,并影响模型下一步的输出。例如,给定一个关于超级英雄的问题(比如“哪些超级英雄有最有用的超能力?”),一个“漫威超级英雄神经元”可能会提高模型提到漫威电影中特定超级英雄的概率。

OpenAI 的工具就是利用这种机制来分解模型的各个部分。首先,它会将文本序列输入到被评估的模型中,并等待某个神经元频繁地“激活”。然后,它会将这些高度活跃的神经元“展示”给 GPT-4,并让 GPT-4 生成一个解释。为了确定解释的准确性,它会提供给 GPT-4 一些文本序列,并让它预测或模拟神经元的行为。然后它会将模拟的神经元的行为与实际神经元的行为进行比较。

“通过这种方法,我们基本上可以为每个神经元生成一些初步的自然语言解释,并且还有一个分数来衡量这些解释与实际行为的匹配程度。” OpenAI 可扩展对齐团队负责人 Jeff Wu 说,“我们使用 GPT-4 作为过程的一部分,来生成对神经元在寻找什么的解释,并评估这些解释与它实际做什么的匹配程度。”

研究人员能够为 GPT-2 中所有 307,200 个神经元生成解释,并将它们编译成一个数据集,与工具代码一起在 GitHub 上以开源形式发布。像这样的工具有朝一日可能被用来改善语言模型的性能,比如减少偏见或有害言论。但他们也承认,在真正有用之前,还有很长的路要走。该工具对大约 1000 个神经元的解释很有信心,这只是总数的一小部分。

有人可能会认为,这个工具实际上是 GPT-4 的广告,因为它需要 GPT-4 才能运行。但 Wu 说,这并不是这个工具的目的,它使用 GPT-4 只是“偶然”的,而且,相反它显示了 GPT-4 在这方面的弱点。他还说,它并不是为了商业应用而创建的,并且理论上可以适应除了 GPT-4 之外的其他语言模型。

“大多数解释的分数都很低,或者没有解释太多实际神经元的行为。” Wu 说,“很多神经元的活动方式很难说清楚 —— 比如它们在五六种不同的东西上激活,但没有明显的模式。有时候有明显的模式,但 GPT-4 却无法找到。”

更不用说更复杂、更新、更大的模型,或者可以浏览网页获取信息的模型了。但对于后者,Wu 认为,浏览网页不会太改变工具的基本机制。他说,它只需要稍微调整一下,就可以弄清楚神经元为什么决定进行某些搜索引擎查询或访问特定网站。

“我们希望这将开辟一个有前途的途径,来以一种自动化的方式解决可解释性问题,让其他人可以建立在上面并做出贡献。” Wu 说,“我们希望我们真的能够对这些模型的行为有好的解释。”

标签:
上一篇2025-08-22

相关推荐

  • OpenAI开发新工具,试图解释语言模型的行为

    语言模型是一种人工智能技术,可以根据给定的文本生成自然语言。OpenAI的GPT系列语言模型是目前最先进的代表之一,但IT之家注意到它们也有一个问题:它们的行为很难理

    2025-08-22 07:03:07
    1248
  • 全球首个 AI 律师出庭计划被搁置:“同行”强烈反对,开发者还有可能坐牢

    由DoNotPay公司培训开发的全球首个AI律师原定于2023年2月出庭,为超速驾驶案件的被告辩护。然而,在人类“同行”的强烈反对和坐牢风险下,DoNotPay公司CEOJoshuaBrowde

    2025-08-22 07:03:07
    1168
  • ChatGPT成了作弊利器?学校和教师该如何看待AI写作

    随着OpenAI的ChatGPT于去年12月正式公开,由此引发的作弊问题已经引起学术界的广泛关注。全美各地的教学和学校董事会都开始认真思考,到底是该对AI写作工具张开怀抱

    2025-08-22 07:03:07
    234
  • 人工智能与ROI的真相:人工智能真的能实现吗?

    现如今,企业组织比以往任何时候都更加信任和投资人工智能(AI)和机器学习(ML)的潜力。根据2022年IBM全球人工智能采用指数,35%的企业报告称目前在其业务中使用人工智

    2025-08-22 07:03:07
    1347
  • 企业如何将人工智能提升到新的水平

    企业通过使用分布式混合云架构部署人工智能,越来越多地获得竞争优势。这是由两个因素驱动的:首先,边缘生成的数据比以往任何时候都多。事实上,据预测,到2025年,50%的企

    2025-08-22 07:03:07
    1444
  • 由ChatGPT挑起的这场大战,第一个倒下的会是谁?

    随着谷歌母公司Alphabet宣布谷歌正在开发一款名为“Bard”的人工智能聊天机器人以对标ChatGPT,百度确认将推出文言一心,计划三月面世;苹果决定举行线下的年度内部AI

    2025-08-22 07:03:07
    1446
  • MLOps的角色是什么?

    你有兴趣成为一名MLOps工程师吗?今天详细了解MLOps工程师角色。所以已经建立了一个机器学习模型。它在验证数据集上达到了预期的性能。很高兴能够应用数据科学和机

    2025-08-22 07:03:07
    195
  • ouyi手机版下载官网 okx最新版app安卓手机

    欧意官方版是一款非常专业的货币交易软件,软件当中提供了最近比较流行的虚拟货币,还有着超多的便捷的功能在软件中等你来进行享用,欧意官方版软件中也是有着超级真实

    2025-08-22 07:03:07
    1791