IT采购网5月10日消息,OpenAI正在开发一种新工具,以提高语言模型的透明度和可信度。该工具利用另一个语言模型(GPT-4)来分析其他语言模型的内部结构,为每个神经元生成自然语言解释并评估这些解释与实际行为的匹配程度。
据IT采购网了解,语言模型是一种人工智能技术,可根据给定的文本生成自然语言。OpenAI的GPT系列语言模型是目前最先进的代表之一,但存在着其行为难以理解和预测的问题。为了解决这一问题,OpenAI正在开发一种新工具,可以自动识别语言模型中哪些部分对其行为负责,并用自然语言进行解释。
该工具的原理是利用另一个语言模型(GPT-4)来分析其他语言模型的内部结构。语言模型由许多“神经元”组成,每个神经元都可以观察文本中的某种特定模式,并影响模型下一步的输出。OpenAI的工具通过将文本序列输入到被评估的模型中,并等待某个神经元频繁地“激活”,将这些高度活跃的神经元“展示”给GPT-4,并让GPT-4生成一个解释,以确定解释的准确性。
目前,研究人员已经为GPT-2中所有307,200个神经元生成了解释,并将它们编译成一个数据集,在GitHub上以开源形式发布。虽然像这样的工具有望被用来改善语言模型的性能,但研究人员也承认,还有很长的路要走。该工具对大约1000个神经元的解释很有信心,但这只是总数的一小部分。同时,也存在一些神经元的活动方式很难说清楚,甚至在五六种不同的东西上激活,但没有明显的模式。因此,在未来,该工具需要进一步的优化和完善。
总之,这一工具有望开辟一个有前途的途径,以一种自动化的方式解决语言模型的可解释性问题,让其他人可以基于此进行研究和贡献。希望未来能对这些模型的行为有更好的解释。