福建福州SEO推广 谷歌搜索 大数据有多“大”? 谷歌搜索以 62 PB 排名最后

大数据有多“大”? 谷歌搜索以 62 PB 排名最后

大数据有多“大”? 谷歌搜索以 62 PB 排名最后

作者| 西西

编辑 | 陈采贤

众所周知,算法、算力和数据是人工智能发展的“三驾马车”。 吴恩达等学者常说:以数据为中心的AI,或数据驱动的AI。

可见,近年来数据量的激增是AI腾飞的驱动力之一,而数据在AI中扮演着重要的角色。 那么,人们常说的“大数据”到底有多大规模呢?

出于好奇,意大利物理学家 Luca Clissa 调查了 2021 年几家知名大数据源(Google Search、Facebook、Netflix、Amazon 等)对撞机电子设备检测到的数据 (LHC) 进行了比较。

地址:https://arxiv.org/pdf/2202.07659.pdf

毫无疑问,大型强子对撞机的数据量是惊人的,高达 40k 艾字节。 但是,商业公司的数据量不容小觑。 例如,存储在 Amazon S3 中的数据量已达到约 500 EB,大致相当于 Google 搜索(62 PB)的 7530 倍。

此外,流式数据在大数据市场也占有一席之地。 Netflix 和电子通信等服务产生的流量比纯数据生产商多一到两个数量级。

1 LHC数据量

根据Luca Clissa调查,2021年主要知名数据源数据量大致如下:

图例:2021年 大数据规模

右上角(灰色部分)为欧洲核子研究中心(CERN)大型强子对撞机(LHC)实验电子设备检测到的数据,为 最大的。

在上一次运行期间(2018 年),大型强子对撞机在四个主要实验(ATLAS、ALICE、CMS 和 LHCb)中的每一个中每秒产生了大约 24 亿次粒子碰撞,每次碰撞可以提供大约 100 MB 的粒子碰撞 数据,因此估计每年的原始数据量约为 40k EB(=10 亿千兆字节)。

但以目前的技术和预算,存储 40k 艾字节的数据是不可能的。 此外,只有一小部分数据是真正有意义的,因此没有必要记录所有数据。 记录的数据量也已减少到每天约 1 PB。 上次2018年采集的真实数据只有160PB,模拟数据240PB。

此外,收集的数据通过WLCG(全球LHC计算网络)持续传输,2018年产生了1.9k PB的年流量。

但是,欧洲组织 核研究中心 (CERN) 正在努力通过 HL-LHC 升级来增强 LHC 的能力。 这一过程产生的数据量预计将增加五倍以上,预计到 2026 年每年将产生 800 PB 的新数据。

2 大公司数据量对比

大公司的数据量很难追踪,而且数据通常不会公开。 为此,Luca Clissa 采用费米估计,将数据生成过程分解为原子组成部分,并做出合理的猜测。

例如,对于特定数据源,检索在给定时间窗口内生成的内容量。 然后通过合理猜测此内容的单位大小(例如平均消息或图像大小、1 小时视频的平均数据流量等)来推断数据总量。

他从如下数据源估计 Google 搜索、YouTube、Facebook 等:

Google 搜索:最近的一项分析估计,Google 搜索引擎包含 30 到 5000 亿个网络 页。 根据 Web Almanac 提供的信息,假设谷歌年平均页面大小约为 2.15 MB,那么截至 2021 年,谷歌搜索引擎的总数据大小应该约为 62 PB。

YouTube:据Backlinko称,2021年用户每天将在YouTube上上传72万小时的视频。假设平均大小为1GB(标清),2021年YouTube的数据量约为263 PB。

Facebook 和 Instagram:Domo 的 Data Never Sleeps 9.0 报告估计 Facebook 和 Instagram 将在 2021 年每分钟分别上传 240k 和 65k 图片。假设平均大小为 2 MB,这大约是 252 PB,一共68 PB。

DropBox:虽然 Dropbox 本身不生成数据,但它提供了一个云存储解决方案来托管用户内容。 2020年,公司宣布新增用户1亿,其中付费用户117万。 通过推断免费和付费订阅的占用率分别为 75% (2 GB) 和 25% (2 TB),Dropbox 用户在 2020 年所需的存储空间约为 733 PB。

电子邮件:根据 Statista 的数据,从 2020 年 10 月到 2021 年 9 月,用户发送了大约 131,000 亿次电子通信(包括 71,000 亿封电子邮件和 60,000 亿封垃圾邮件)。 假设标准邮件的平均大小为 75 KB,垃圾邮件的平均大小为 5 KB,我们可以估计总电子邮件流量约为 5.7k PB。

Netflix:Domo 估计 2021 年 Netflix 用户每天将消耗 1.4 亿小时的流媒体,假设每小时 1 GB(标准定义),总计约为 51.1k PB。

亚马逊:据亚马逊网络服务(AWS)首席布道者杰夫巴尔称,截至2021年,亚马逊S3(简单存储服务)中存储的对象将超过100万亿个。 假设每个桶的平均对象大小为 5 MB,存储在 S3 中的文件总大小大约等于 500 EB。

一般来说,科学数据在数量上可以与商业数据源相媲美。

参考链接:

1.https://towardsdatascience.com/how-big-are-big-data-in-2021-6dc09aff5ced

2 .https://firstsiteguide.com/google-search-stats/

3.https://backlinko.com/

4.https://mms.businesswire.com /media/20210929005835/en/911394/5/data-never-sleeps-9.0-1200px.jpg?download=1

5.https://backlinko.com/dropbox-users

6.https://www.statista.com/

7.https://aws.amazon.com/cn/blogs/aws/amazon-s3s-15th-birthday-it- is-still-day-1-after-5475-days-100-trillion-objects/

8.https://atlas.cern/

本文来自网络,不代表福建福州SEO推广立场,转载请注明出处:https://www.fujianseo.com/ggss/1079.html

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注