人工智能走进每一个人(2017~现在)

环境变化

新千年之后,计算机技术得到了超前的速度发展,AI的量变到质变累积了基础。

互联网技术

随着互联网技术的出现,促进了全球范围内的知识共享和协作,使得AI领域的研究人员能够轻松分享研究成果和技术进展。开源项目和在线论坛为AI研究和应用提供了交流平台,加速了新技术的传播和应用。

同时互联网也创造了大量的数据内容,为AI提供了丰富的数据资源,从智能个人助手到自动翻译,再到推荐系统和智能家居设备,无论在电商还是社交,电子图书馆变得非常容易获取,作为人工智能和机器学习算法的训练的数据来源,

计算机硬件技术

自从戈登·摩尔(Gordon Moore)在1965年提出摩尔定律,半导体工业得到空着的发展。计算机存储和算力也随之快速提升,GPU(图形处理单元)、TPU(张量处理单元)和其他专用AI加速器的出现和性能提升,AI模型的训练速度大大加快,这些硬件专为并行处理设计,能够有效处理大规模数据集和复杂计算,从而缩短了模型训练时间,使得更为复杂和深层的神经网络模型成为可能。

软件技术

硬件技术的发展促使研究者探索新型神经网络架构,例如量子计算和神经形态计算。这些新型架构旨在模仿人脑的工作方式,以更高效地处理学习任务,而先进的硬件技术为这些探索提供了可能,软件技术在以下几方面都得到了很大的突破:

  • 人工智能算法(机器学习、深度学习)

  • 神经网络

  • 计算机视觉

  • 自然语言处理

随着这些技术的发展,已经逐渐被应用到人们日常生活中,比如:

  • 门禁人脸识别

  • 汽车自动驾驶

  • 工业智能制造

  • 智能音箱(亚马逊Echo、谷歌Assistant助手、苹果Siri助手、小爱音箱、天猫精灵、百度小度)

  • ...

人工智能技术为这些应用场景解决了不少需求和问题,但是都比较偏单一和规则化,超出一定的范围,可能就变地很“弱智”,总体还是基本停留在弱人工智能阶段。

神经网络架构的变化

自然语言处理 (NLP) 是深度学习中一个颇具挑战的问题,与图像识别和计算机视觉问题不同,自然语言本身没有良好的向量或矩阵结构,且原始单词的含义也不像像素值那么确定和容易表示。一般我们需要用词嵌入技术将单词转换为向量,然后再输入计算机进行计算。

语言模型是一种基于统计学和机器学习方法的自然语言处理技术,它用于评估和预测一个给定序列的概率分布,通常是单词序列或字符序列。语言模型的主要应用是文本生成、机器翻译、语音识别等任务。

循环神经网络(RNN,Recurrent Neural Network)

人类的阅读习惯不会从头开始思考每个出现单词的含义,而是透过前面单词的信息来理解当前单词的含义。基于这种行为,循环神经网络 (RNN) 应运而生。

RNN是一种经典的序列模型,它通过循环的方式将序列中的信息逐个输入到网络中,并在网络内部使用循环结构来捕捉序列中的时间依赖关系。

RNN模型的主要问题是输入是序列,只能按照顺序处理数据,无法并行处理,计算成本很高。此外,它也会出现梯度消失的问题,因此无法处理很长的序列。

尽管也有包括GRU、LSTM 这种改进,也无法解决这些根本性的问题:即使通过注意力机制改进了记忆,计算也没有得到改进。处理过程仍然是顺序的,无法解决长文本上下文数据关系和计算效率,因为每个标记必须按顺序处理。因此,才诞生了Transformer。

Transformer架构

2017年Google在论文《Attention is All You Need》中提出 Transformer架构。这是一种基于自注意力机制(self-attention mechanism)的神经网络架构,它通过将序列中所有位置的信息进行交互,来处理长序列。Transformer将输入序列分别传递给编码器和解器,每个部分由多个层次组成,每个层次由多头自注意力机制和全连接层组成。Transformer的编码器和解码器可以同时处理多个序列位置,因此可以更高效地处理长序列。下图是这篇论文提到的网络示意图:

关于Transformer架构的详细介绍,将在大模型相关原理章节详细介绍,总之,Transformer架构的主要以下几个特点:

  • 并行处理,不再像RNN一样,每个处理依赖于前面一个处理的串行关系,Transformer没有了序列,采用了并行处理,这极大的提高了处理速度;从上面的图知道,Transformer是将输入的语句当作一个整体,输入到embedding层中,因此有了并行计算的能力,不再强调输入序列 次序。因此,也就没有长依赖的问题。

  • 位置编码(positional encoding),是一种向输入嵌入中添加位置信息的技术,它使模型能够理解输入中某些部分在整个输入中的位置。编码除位置本身之外,还有拆解后各部分(token)间的关联关系数据,有利于并行处理(多头注意力机制)时计算权重;

  • 自注意力机制(self-attention mechanism):这是一种新的,在《Attention is All You Need》论文中引入的方法,也是transformer中最常见的结构。自注意力机制是Transformer的一个核心组件。与之前的注意力机制不同的是,可以将序列中不同位置之间的依赖关系进行建模,不需要依赖于时间的顺序,因此可以更好地处理长序列。

由于Transformer架构的出现,对于处理海量信息,建立海量的模型参数提供了基础,《Attention is All You Need》发表之后,Transformer以及它的变体,已经普遍被运用到大数据集上,来训练大语言模型。

大模型的出现

自从Transformer架构的出现,大语言模型如雨后春笋部陆续出现。

拐点纪:预训练模型的崛起

2018年,随着谷歌 BERT(Bidirectional Encoder Representations from Transformers)的发布,预训练模型迎来了一个里程碑。BERT通过预先训练大规模语料库,使得模型能够理解更为复杂的语境和语义关系。这一技术创新使得大语言模型在各种自然语言处理任务中表现出色,为自动问答、机器翻译等应用打开了新的可能性。

2018年06月 GPT-1 约5GB文本,1.17亿参数量;

2019年02月 GPT-2 约40GB文本,15亿参数量;

2020年6月11日,宣布了GPT-3语言模型;

全球纪:大语言模型的跨领域应用

在2022年秋季,GPT-3因其在社交媒体上病毒式的传播而引发了广泛关注。这款拥有超过1.75亿参数和每秒运行成本达到100万美元的大型语言模型(Large Language Models,LLMs)开启了自然语言处理(NLP)领域的新纪元。

在这个阶段,大规模预训练模型的涌现彻底改变了NLP的研究和应用格局。

大规模语言模型充分挖掘了大量未标注数据的潜力,从而赋予模型更强的语言理解和泛化能力。采用预训练和微调策略的大模型在多个NLP任务上都实现了前所未有的成就,无论是在模型准确性、泛化能力还是复杂任务处理方面,都展示了出色的表现。这不仅吸引了大量投资,也催生了NLP领域全新的发展和研究方向。

同时,随着大模型应用门槛和使用门槛都逐步降低,大量的大模型产品不断涌现——ChatGPT、跨语言代码编译工具Cursor、Github官方代码编写工具CopilotX、一键生成PPT内容的Gamma AI,office全家桶中配置的Copilot、Photoshop中配置的fill features,广泛生成图像的MidJourney和Stable Diffusion……这些应用不仅改变了商业的运营方式,也极大地影响了人们的生活和工作,这一时期,大语言模型跨足金融、医疗、法律等多个领域,为各行各业带来了智能化和效率提升。

多模态出现

随着大语言模型的广泛应用,多模态学习也成为了大语言模型发展的新方向,模型能够更好地理解文字、图像、声音等多种信息形式。同时,自适应学习的理念也引领着大语言模型更好地适应不同领域和任务,使其更具泛化能力。

2月16日凌晨,OpenAI再次震撼全球科技界,发布了名为Sora的文生视频模型,Sora相比此前其他文生视频模型,已经跨越到实用生产力工具,不仅标志着人工智能在视频生成领域的重大突破,更引发了关于人工智能发展对人类未来影响的深刻思考。

同一天谷歌推出Gemini 1.5 Pro,支持长达100万个token,远超当前其他基础模型,可以一次性处理大量信息,如1小时的视频、11小时的音频、超过3万行代码或超过70万个单词,Gemini 1.5 Pro是一个中型大小的多模态模型。

AGI时代的来临

随着Sora的发布,人工智能似乎正式踏入了通用人工智能(AGI)的时代。AGI是指能够像人类一样进行各种智能活动的机器智能,包括理解语言、识别图像、进行复杂推理等。Sora模型能够直接输出长达60秒的视频,并且视频中包含了高度细致的背景、复杂的多角度镜头,以及富有情感的多个角色。这种能力已经超越了简单的图像或文本生成,开始触及到视频这一更加复杂和动态的媒介。这意味着人工智能不仅在处理静态信息上越来越强大,而且在动态内容的创造上也展现出了惊人的潜力。

梦境与现实的融合

人类自古以来就有着将梦境变成现实的渴望,而Sora的推出无疑让这个进程向前迈进了一大步。通过高度逼真的视频生成,Sora让我们看到了梦境与现实交融的可能性。未来的艺术家、导演甚至普通人,都可以借助Sora这样的工具,将自己的创意和想象迅速转化为视觉作品。这不仅将极大地丰富我们的文化生活和娱乐体验,也可能对影视、广告等产业产生颠覆性的影响。

AI生成AI:不可预测的时代

Sora的发布还带来了另一个令人震撼的启示:用AI生成AI的时代或许已经不再遥远。在AI技术的推动下,像Sora这样的模型不仅可以模仿人类的创作风格,甚至有可能自我进化,产生全新的艺术风格和创作方式。这种“AI生成AI”的过程将使人工智能的发展变得更加不可预测,但同时也充满了无限的可能性。

硅基生命的崛起与未来的挑战

AI时代的来临,不仅将推动人类从碳基生命走向硅基生命,还将对人类的生产力和生活方式产生深远影响。在硅基生命的视角下,人类或许可以通过与AI的深度融合,实现生产力的飞跃,创造前所未有的文明高度。然而,这也带来了前所未有的挑战和伦理问题。当AI生成的内容越来越逼真,人类将很难区分梦幻和现实,这可能会对我们的认知、情感甚至社会稳定产生深刻影响。

对每个人的影响

人工智能的影响是直接影响着现代文明的发展,人工智能已成为未来已来的标志,将在当下和今后继续走近和影响人们的生活,并对人类社会进步产生广泛而深刻的影响。从自动驾驶汽车到智能家居系统,从虚拟购物助手到医疗诊断系统,AI正逐渐渗透到我们生活的方方面面。

AI可以解放人力,提高工作效率,AI数字人、AIGC(内容生成),改变着身边的多个行业,如新闻媒体、电商营销、策划、产品设计、影视制作等等,一系列繁重、重复、甚至危险的任务都逐渐会被AI替换掉,就业岗位会被一些AI从事职业给替换掉,比如提示词工程师;

第一批因AI失业的人已经来了,我们无力去阻止科技的快速发展,只能去拥抱和迎接未来到到来,作为人类历史上的见证者和参与者,我们必须提升自己的相关AI认识和技术,去学习它、使用它、甚至改进它。

虽然AI技术带来了许多好处,但也存在一些担忧和风险。例如,AI技术可能导致失业率上升、隐私泄露、数据滥用和道德问题等。

License:  CC BY 4.0

©2024 AI全书. Some rights reserved.

    备案号: 浙ICP备06043869号-8