大数据 | Big data

访问量 141 Posted 2023-03-13 Updated 2025-01- 9 26~33 min read

大数据可以用于训练和支持人工智能算法和模型的发展。这些数据集合通常包括结构化数据（如关系型数据库）和非结构化数据（如文本、图像、音频和视频）。

本文从人工智能角度介绍下大数据是什么，以及和人工智能什么关系。

什么是大数据？

在了解大数据之前，我们先来看下，什么是数据。

数据(data)，就是对客观事实的描述或是我们通过观察、实验或计算得出的结果。数据有很多种，最简单的就是数字，也可以是文字、图像、声音、视频等。在计算机系统底层，数据以二进制信息单元0,1的形式表示。

各种计算机数据类型

大数据（Big Data）是指由于数据量巨大、速度快和多样性大，在一定时间范围内无法使用传统的数据处理技术进行有效处理和分析的数据集合。说白了大数据就是使用单台计算机没法在规定时间内处理完，或者压根就没法处理的数据集。前置条件是一定时间和技术范围的，比如几十年前T级别的数据量就是海量了，在现在看来也不过如此，就算不上大数据。

大数据是计算机时代的产物。

大数据和人工智能什么关系？

大数据是人工智能三要素之一（算法、算力见另外文章介绍）：

我们简单讲下人工智能发展中，对大数据的依赖作用。

人工智能发展

早期计算机能实现的主要功能是按规则处理数据，数据只作为过程和产物，比如判断数据大小、数据属性定义，然后执行运算，有基本是属于传统软件的运行：

随着人工智能地发展，后续出现了专家系统，知识库（某些领域的数据积累）含有大量的某个领域专家水平的知识与经验，能够利用人类专家的知识和解决问题的方法和推理规则来处理该领域问题，这时候数据成了专家系统的知识与经验，不再单纯作为计算机运行过程数和结果数据。

随后机器学习的出现，数据作为机器学习的原料，需求进一步扩大，但由于算力有限、数据的类型丰富程度也有限，人工智能上起的作用并不是特别明显。

（更多关于人工智能发展，可以查看《人工智能发展历，四个阶段，整体编年历》）

大模型的出现

互联网的出现，改变了计算机发展史，全世界的计算机融合到了一起，数据呈暴发式地增长，人们对数据的存储、处理、充分利用都跟不上数据的增长速度，于是出现了真正的大数据时代。

大数据的出现

从机器学习出现，人工智能对数据的利用效率一直卡在处理门槛上，早期深度学习RNN算法以及改进的LSTM算法都是基于串行处理机制，效率上一直不太高，直到Transformer架构的出现，利用位置编码、注意力机制、并行处理等优势，将机器学习的效率大大提升了，解决了算法的问题，从而间接地在当前解决了算力问题。

随后，各种大模型遍地开花，所谓大模型就是大力出奇迹，通过对大数据的学习和训练，不断优化和改进自身的性能和效果，生成海量参数。

多种大模型训练算力和参数量

大数据为人工智能提供了大量的数据作为输入，使得人工智能算法和模型能够学习和做出更准确的预测和决策。同时，人工智能技术也可以支持大数据的处理和分析，提高数据的可挖掘价值。

大数据的特点

维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》中大数据指不用随机分析法（抽样调查）这样捷径，而采用所有数据进行分析处理。大数据的5V特点（IBM提出）：

Volume（大量）
Velocity（高速）
Variety（多样）
Value（低价值密度）
Veracity（真实性）

大量

这也是大家最容易想到的。比如我们日常生活离不开的微信、支付宝，我们的任意的聊天或者支付都会有相应的记录，这样每天将会产生数十亿条、百亿条乃至更多条数据。这仅仅是一天的量，那一个月呢，一年呢？与此类似的场景在各行各业均有涉及。

在 IDC 发布《数据时代 2025》的报告显示，全球每年产生的数据总量在2025 年将达到175ZB，平均每天约产生 491EB 的数据。其中，中国数据圈以 48.6ZB 成为最大的数据圈，占全球 27.8％，以1TB的硬盘来存储这些数据的话，每年需要五百多亿块。

数据衡量单位

多样化

包括结构化数据、半结构化数据和非结构化数据，而这些数据可能来自于传统企业数据、社交数据及物联网数据。

多数据类型

结构化数据

数据以行为单位，每一行就是一条记录，每行数据的属性是相同的，能够用统一的结构表示，说白了就是可以用关系型数据库（RDBMS）来进行管理的数据。

非结构化数据

没有固定的数据结构，一般将其作为一个整体进行存储，比如各种图片、视频、音频等，非结构化的数据越来越成为数据的主要部分。

半结构化数据

介于结构化数据和非结构化数据之间，比如HTML和XML文档，其内部用成对的标签记录对应的数据，但每个文档内部的标签又不是统一的，没有固定的规律。

价值密度低

单条记录基本无意义，无用数据多，但是整个数据集综合价值大、隐含价值大，所以需要对大数据进行分析和挖掘，从数据金矿中掘金。比如，我们拿到一个电商网站的售卖记录数据集，单看其中任意一条记录，不外乎知道了某个人买了什么东西，但是我们要是把这个人所有的购买记录拿在一起分析，就能得出这个人的购买偏好，从而对他进行精准商品推荐。

第四、速度快

在这个万物互联的的时代，每时每刻都在产生数据，而这些数据需要被及时处理掉，因为存储价值密度较小的历史数据需要花费很大的存储成本，非常不划算，一般平台保存的历史数据只有几天或者一个月，再远的就要清理掉，所以数据处理的速度也必须跟上，谁家处理速度更快，谁家就更具竞争力。

第五、真实性

大数据中的内容是与真实世界中的发生息息相关的，研究大数据就是从庞大的网络数据中提取出能够解释和预测现实事件的过程。提高数据的准确、可依赖程度，保证数据质量。也可以作为未来某种趋势的预判及以数据来提取到真正的需求点。

大数据的应用场景

大数据在各个领域中都有广泛的应用，例如市场营销、金融、医疗、交通、能源和互联网等。利用大数据可以获得更深入和全面的洞察，并支持决策制定和业务优化。

1、商业数据：商业数据是来自企业运营、销售、市场营销和客户关系管理等方面的数据，它们可以有效地帮助企业做出更好的决策和规划。

2、社交媒体数据：社交媒体数据是指来自社交媒体平台的数据，如人们发布的帖子、评论、存档、分享和其他社交交互内容，这些数据可以用于分析客户行为和人群兴趣。

3、互联网数据：互联网数据指的是来自互联网各种来源和渠道的数据，比如搜索引擎数据，网站上的用户行为数据以及电子邮件记录数据等，这些数据通常被用于衡量网络活动和在线广告效果。

4、科学研究数据：科学研究数据通常是来自科学研究领域的测试数据，如图像、文本和音频等，这些数据可以帮助科学家进行数据分析，并在医疗、天气预报、大气等领-domain进行研究。

人工智能与大数据的应用

机器学习

大数据可以用于机器学习算法的训练和优化，帮助提高人工智能系统的准确性和效率。

语音识别

语音识别是人工智能领域的一个重要应用。语音识别技术可以将人的语音转换成文字，从而实现快速、高效的文字输入。在语音识别技术中，大数据起到了非常重要的作用。通过对大量语音数据的训练和学习，机器可以逐渐提高其语音识别的准确率。例如，在智能客服领域，通过使用语音识别技术，用户可以通过语音与机器人进行交互，大大提高了客服效率。

图像识别

图像识别是人工智能领域的另一个重要应用。图像识别技术可以通过对图像的分析和理解，实现对图像的分类、识别、跟踪等功能。在图像识别技术中，大数据也起到了非常重要的作用。通过对大量图像数据的训练和学习，机器可以逐渐提高其图像识别的准确率。例如，在安防领域，通过使用图像识别技术，可以对监控视频进行分析，实现对异常行为的自动检测和预警。

自然语言处理

自然语言处理是人工智能领域的另一个重要应用。自然语言处理技术可以实现对人类语言的自动分析和理解，从而实现机器与人类的自由交互。在自然语言处理技术中，大数据也起到了非常重要的作用。通过对大量文本数据的训练和学习，机器可以逐渐提高其自然语言处理的准确率。例如，在智能助手领域，通过使用自然语言处理技术，用户可以通过自然语言与智能助手进行交互，实现信息的查询、翻译等功能。

智能推荐

智能推荐是人工智能领域的另一个重要应用。智能推荐技术可以通过对用户行为数据的分析，实现对用户的个性化推荐服务。在智能推荐技术中，大数据也起到了非常重要的作用。通过对大量用户行为数据的分析和学习，机器可以逐渐提高其智能推荐的准确率。例如，在电子商务领域，通过使用智能推荐技术，可以根据用户的购买历史和浏览行为等信息，推荐相关的商品和内容，从而提高用户的购买率和满意度。

百科介绍

百度百科（详情）

大数据（big data），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

维基百科（详情）

大数据是一个术语，用于指传统数据处理应用软件过于庞大或复杂的数据集，以便充分处理。具有许多情况（行）的数据提供更大的统计功率，而具有更高复杂度（更多属性或列）的数据可能导致更高的错误发现率。
大数据挑战包括捕获数据，数据存储，数据分析，搜索，共享，传输，可视化，查询，更新，信息隐私和数据源。
大数据最初与三个关键概念相关联：大量，多样和及时。后来归因于大数据的其他概念是准确性（即数据中有多少噪声）和价值。

扩展阅读

书籍

入门类

必读！这6本书带你了解数据科学的硬核技能

实践

开拓视野

数据分析推理(智能化)

理论原创全民认知

License: CC BY 4.0