人工智能真的能理解语言吗?

  这篇文章最初发表于广达杂志社。一张图片胜过千言万语,但一个单词又能抵得上多少个数字呢?这个问题听起来或许有些愚蠢,但它正是大型语言模型(法学硕士)的核心所在,许多现代人工智...

  

这篇文章最初发表于广达杂志社。

一张图片胜过千言万语,但一个单词又能抵得上多少个数字呢?这个问题听起来或许有些愚蠢,但它正是大型语言模型(法学硕士)的核心所在,许多现代人工智能应用正是基于此。

每个法学硕士都有自己的解答。在meta的开源Llama 3模型中,单词被分解为由4096个数字表示的令牌;而GPT-3的某个版本则是12288。单独来看,这些冗长的数字列表——被称为“嵌入”——只是难以理解的数字串。然而,它们同时编码了单词之间的数学关系,这些关系与意义出奇相似。

单词嵌入的基本理念已有数十年历史。要在计算机上模拟语言,首先需要从字典中提取每个单词,并列出其基本特征——特征的数量由你决定,只要每个单词的特征一致。“你可以把它想象成一个20问游戏,”布朗大学和谷歌DeepMind的计算机科学家埃莉·帕夫利克(Ellie Pavlick)表示。“动物、蔬菜、物体——这些特征可以是人们认为有助于区分概念的任何内容。”然后为列表中的每个特征分配一个数值。例如,dog这个词在“毛茸茸的”特征上得分很高,而在“金属的”特征上得分很低。最终结果将每个单词的语义关联及其与其他单词的关系嵌入到一个独特的数字串中。

研究人员曾经手动指定这些嵌入,但现在它们是自动生成的。例如,神经网络可以被训练成根据自己定义的特征对单词(或技术上称为“标记”的文本片段)进行分组。帕夫利克说:“也许有一种特征能很好地区分名词和动词,而另一种特征则能区分在句号后出现的单词和不出现的单词。”

这些机器学习嵌入的缺点在于,与20个问题的游戏不同,每个数字列表中编码的许多描述是人类无法解释的。帕夫利克说:“这似乎是一个大杂烩。”“神经网络可以以任何有用的方式组合特征。”

然而,当一个神经网络在一种称为语言建模的特殊任务上进行训练时——即预测序列中的下一个单词——它学到的嵌入绝非随意。就像铁屑在磁场下排列一样,这些值的设置方式使得具有相似关联的单词在数学上具有相似的嵌入。例如,狗和猫的嵌入将比狗和椅子的嵌入更为相似。

这种现象使得嵌入显得神秘而奇妙:神经网络以某种方式将原始数字转化为语言意义,“就像把稻草纺成金子一样,”帕夫利克说。“文字算术”的著名例子——国王减去男人加上女人大致等于女王——进一步增强了嵌入的神秘感。它们似乎是LLM“知道”的丰富而灵活的知识库。

但这些所谓的知识与我们在字典中找到的内容截然不同。相反,它更像是一张地图。如果将每个嵌入视为高维地图上的一组坐标,您将看到某些模式浮现。某些词会聚集在一起,就像郊区环绕大城市一样。同样,狗和猫的坐标会比狗和椅子更为相似。

然而,与地图上的点不同,这些坐标仅指向彼此,而不指向任何潜在的领土,就像纬度和经度数字表示地球上的特定地点一样。相反,狗或猫的嵌入更像是星际空间中的坐标:除了它们与其他已知点的距离外,没有任何意义。

那么,为什么狗和猫的嵌入如此相似呢?这是因为它们利用了语言学家几十年前就已知的事实:在相似的语境中使用的单词往往具有相似的意思。在“我雇了一个宠物保姆来喂我的____”这个序列中,下一个单词可能是狗或猫,但不太可能是椅子。你不需要字典来判断,只需依赖统计数据。

嵌入——基于这些统计数据的上下文坐标——是LLM如何找到一个良好起点来进行下一个单词预测的关键,而不依赖于定义。

某些词在特定语境中比其他词更为合适,有时精确到没有其他词可以替代。(想象一下,当你完成“法国现任总统的名字是____”这句话时)根据许多语言学家的说法,人类之所以能很好地辨别这种契合感,很大程度上是因为我们不仅仅将单词与单词联系起来——我们实际上知道它们指的是什么,就像地图上的领土一样。语言模型则不然,因为嵌入并不是那样工作的。

然而,作为语义的代理,嵌入被证明是非常有效的。这也是大型语言模型迅速崛起于人工智能前沿的原因之一。当这些数学对象以一种与我们的期望相符的方式组合在一起时,感觉就像智慧;而当它们不这样做时,我们称之为“幻觉”。然而,对于法学硕士而言,情况并无不同。它们只是一串数字,在空间中消失。

本文来自作者[小之]投稿,不代表大向号立场,如若转载,请注明出处:https://dx-led.cn/keji/202412-10085.html

(8)

文章推荐

  • 科普一下“微乐游戏填大坑挂挂软件好使吗”原来确实有挂

    微乐小程序是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加我微下载使用。微乐小程序可以一键让你轻松成为“必赢”。其操作方式十分简单,打开这个应用便可以自定义微乐小程序系统规律,只需要输入自己想要的开挂功能,一键便可以生成出

    2024年12月13日
    28
  • 玩家实测“跑胡子打鸟计算神器”分享装挂详

    跑胡子是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加我微下载使用。跑胡子可以一键让你轻松成为“必赢”。其操作方式十分简单,打开这个应用便可以自定义跑胡子系统规律,只需要输入自己想要的开挂功能,一键便可以生成出跑胡子专用辅

    2024年12月16日
    25
  • 今日实测“红包辅助器下载”有什么技巧

    红包是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加我微下载使用。红包可以一键让你轻松成为“必赢”。其操作方式十分简单,打开这个应用便可以自定义红包系统规律,只需要输入自己想要的开挂功能,一键便可以生成出红包专用辅助器,不

    2024年12月19日
    11
  • 分析必看“微乐麻将有挂是真的 怎么看”开挂是真的吗

    微乐麻将是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加我微下载使用。微乐麻将可以一键让你轻松成为“必赢”。其操作方式十分简单,打开这个应用便可以自定义微乐麻将系统规律,只需要输入自己想要的开挂功能,一键便可以生成出微乐麻

    2024年12月19日
    17
  • 国庆阅兵有哪些兵种部队 今年国庆节有阅兵仪式吗

    国庆阅兵的兵种组成  国庆大阅兵包括海军、陆军和空军的参与。陆军由步兵、炮兵、装甲兵、工程兵、通信兵、防化兵和陆军航空兵等多个兵种和专业部队构成。海军则由水面舰艇部队、潜艇部队、航空兵、岸防兵和陆战队等兵种和专业部队组成。空军由航空兵、地空

    2024年12月20日
    13
  • 分享干货“微乐小程序必赢辅助器免费”外卦神器下载如何安装

    微乐小程序是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加我微下载使用。微乐小程序可以一键让你轻松成为“必赢”。其操作方式十分简单,打开这个应用便可以自定义微乐小程序系统规律,只需要输入自己想要的开挂功能,一键便可以生成出

    2024年12月21日
    13
  • 重磅揭秘“欢聚斗地主水鱼挂链接”怎么才能牌好

    水鱼是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加我微下载使用。水鱼可以一键让你轻松成为“必赢”。其操作方式十分简单,打开这个应用便可以自定义水鱼系统规律,只需要输入自己想要的开挂功能,一键便可以生成出水鱼专用辅助器,不

    2024年12月22日
    5
  • 玩家实测“手机打双扣能开挂吗”其实真的有挂

    关于手机打双扣能开挂吗这个问题其实是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加我微下载使用。手机打牌可以一键让你轻松成为“必赢”。其操作方式十分简单,打开这个应用便可以自定义手机打牌系统规律,只需要输入自己想要的开挂功

    2024年12月23日
    8
  • 科普一下“天天微友辅助器”其实真的确实有挂

    关于天天微友辅助器这个问题其实是一款可以让一直输的玩家,快速成为一个“必胜”的ai辅助神器,有需要的用户可以加我微下载使用。手机打牌可以一键让你轻松成为“必赢”。其操作方式十分简单,打开这个应用便可以自定义手机打牌系统规律,只需要输入自己想要的开挂功能,

    2024年12月25日
    5
  • 人工智能对就业市场的影响

      人工智能(AI)有潜力改变多个行业,但其对不同工作的具体影响仍不明确。DanieleQuercia及其团队通过识别可能影响各类职业任务的AI技术专利,运用机器学习进行自我研究。该模型分析了来自美国政府职业数据库O*NET的17,879个任务描述,以及2015年至2022年间

    2024年12月26日
    3

发表回复

本站作者后才能评论

评论列表(4条)

  • 小之
    小之 2024年12月26日

    我是大向号的签约作者“小之”!

  • 小之
    小之 2024年12月26日

    希望本篇文章《人工智能真的能理解语言吗?》能对你有所帮助!

  • 小之
    小之 2024年12月26日

    本站[大向号]内容主要涵盖:国足,欧洲杯,世界杯,篮球,欧冠,亚冠,英超,足球,综合体育

  • 小之
    小之 2024年12月26日

    本文概览:  这篇文章最初发表于广达杂志社。一张图片胜过千言万语,但一个单词又能抵得上多少个数字呢?这个问题听起来或许有些愚蠢,但它正是大型语言模型(法学硕士)的核心所在,许多现代人工智...

    联系我们

    邮件:大向号@sina.com

    工作时间:周一至周五,9:30-18:30,节假日休息

    关注我们