1. IPFS点滴资讯首页
  2. 观点碰撞

保存濒危数据的说明:是时候分散了。

注意:这些指令的最新版本由IPFS的维护者在github上维护。

形势:濒临灭绝的数据编织成岌岌可危的网络

不稳定的形容词。危险地缺乏安全性或稳定性:不稳定的姿势; 在梯子上岌岌可危的立足点。ADJ。受机会或未知条件限制。

万维网是不稳定的。它是一个信息,讨论,数据和分析网络,它依赖于HTTP链接来维护各个部分之间的连接。这些链接不可靠,因为它们指向的内容不稳定。如果您依赖HTTP服务作为权威的数据来源,那么您就是在不稳定的基础上构建的。下次当你感受到这种不稳定情况的痛苦时,我鼓励你把它作为一个标志,你应该接受分散的网络

集中化是网络所遭受的疾病。它使网络不稳定,不安全并且易受剥削。我们可以通过改变信息链接的方式来解决这种疾病。

例如,现在气候科学家正急于备份气候数据集。几十年来,他们一直依靠美国政府来承载他们所依赖的大量气候数据。数据已集中在几台服务器上,这些服务器已被视为数据的“权威”位置。现在研究人员担心再依赖这些服务器是不安全的。这引发了#DataRescueGuerilla Archiving的巨大努力。

保存濒危数据的说明:是时候分散了。
不要让重要数据被破坏。

当GeoCities关闭时,也发生了类似的事情。当人们在被删除之前抓住有争议的推文和高调的Facebook对话的快照时,也会发生这种情况。这些都是人们应对网络不稳定性和不可靠性的例子。今天的全球网络不是一个有弹性的系统。

从技术角度来看,问题在于数据的集中化。我们依赖的任何数据都应该在许多地方冗余。政府,研究人员,图书馆等都应该持有他们关心的任何数据集的相同副本。今天这是可能的,但我们根本就没有这样做。为了使该系统更具弹性,我们需要停止依靠位置来区分数据,而是使用称为内容寻址的技术来区分“权威”数据与其他数据。

你今天可以进行这种切换。IPFSBitTorrentDat等技术和协议允许您在动态,可扩展的对等网络中分发相同的数据副本。这些分散的网络技术将使现在保存濒危数据的过程顺利进行,并且它们将防止此问题在未来再次发生。

在与保存濒危数据主题特别相关的说明中,互联网档案馆一直鼓励使用分散技术。他们甚至在2016年6月举办了权力下放网络峰会

本文档概述了使用分散式Web需要了解的概念,以及使用分散式Web来拯救濒危数据所涉及的策略概述。

问题:按位置识别内容

当您使用http://https://链接指向网页,图像,电子表格,数据集,推文等时,您将按其位置识别内容。该链接是指向web上的特定位置的标识符,其对应于web上某处的特定服务器或服务器组。控制该位置的人控制内容。这就是HTTP的工作原理。这是位置地址。即使有一千人下载了文件的副本,意味着内容存在于一千个位置,HTTP也指向一个位置。这种定位方法迫使我们所有人假装数据只在一个位置。控制该位置的人决定在人们使用该链接时要返回的内容。他们还决定是否要退回任何内容。

为了了解按位置处理内容是多么不切实际,想象一下我是否使用位置寻址来推荐“ 为什么信息增长”这本书。

如果我通过它的内容来识别这本书,那就说:“查看由CésarHidalgo 撰写的为什么信息增长的书。ISBN是0465048994.“,您可以从任何来源获得该书的任何副本,并且知道您正在阅读我推荐的信息。你甚至可以说“哦。我已经读过了。“或”我的室友在另一个房间里有它。我会从他那里借用它。“,节省自己获得另一份副本的成本或工作量。

相比之下,如果我使用位置寻址识别书籍,我将不得不指向一个位置,说“去费城市场和15号的新闻台,并要求距离南端16英寸的东西。东墙上的第三个架子“这些指令令人困惑和尴尬,但这就是http链接的工作原理。他们根据位置识别内容,并依靠该位置的“主持人”向访问者提供内容。这种方法有很多可能出错的地方。它还为控制你所指的位置的人提供了很多权力和责任 – 在这种情况下是新闻台。

让我们考虑控制我们所指向的位置的人的责任。如果运行新闻台的人希望我的指示(也就是我的“链接”)保持有效,允许人们访问该书,他们必须:

  • 如果有人想要阅读这本书,请务必每周7天,每天24小时开放。
  • 所有寻求书籍的提供这本书,无论是一个人还是数十万人。
  • 通过防止任何人篡改它来保护书籍的完整性。
  • 永远不要将书从书架上取下 – 如果它们摆脱它,甚至移动它,我的链接就会被破坏,没有人能够用我的指示找到这本书。

伴随着这些责任带来了巨大的力量。新闻台的所有者控制着我的指示指向的位置,因此他们可以选择:

  • 决定谁被允许看这本书。
  • 不告诉任何人就移动书。
  • 摧毁这本书。
  • 向人们收取费用以获取书籍或强迫他们在走进大门时观看广告。
  • 收集有关访问我的图书的所有人的数据,使用他们想要的信息。
  • 用其他东西替换书 – 他们甚至可能不会在那里放书,因为我的说明只是描述一个位置,恶意演员可以用危险的东西取代书,把位置变成陷阱!

位置寻址已在网络上运行了25年,但它开始变得痛苦,而且它将变得更糟。只要我们继续依赖它,网络将继续不稳定,不安全,易于操纵或利用。

解决方案:通过指纹识别信息,而不是其位置

保存濒危数据的说明:是时候分散了。
文件及其中的所有块都有唯一的指纹,称为加密哈希。

另一种方法是通过“指纹”识别内容,而不是通过其位置识别内容。这样,当有人说“查看带有此指纹的内容”时,您可以从拥有该内容副本的任何人那里获取该内容。为此,我们通过其加密哈希来识别内容。加密哈希是一串字母和数字,通过将您的内容提供给像SHA这样的加密哈希函数来计算。

当我们以这种方式识别内容时,使用内容的加密哈希而不是其位置来识别内容,这称为内容寻址。一段内容的加密哈希永远不会改变,这意味着内容寻址可以保证链接始终返回相同的内容,无论我从哪里检索内容,无论是谁将内容添加到网络中,也不管何时内容已添加。这是使用内容寻址协议(如IPFS)而不是使用HTTP等位置寻址协议的基本功能。

保存濒危数据的说明:是时候分散了。
在使用IPFS查找文件时,您要求网络查找可以返回与该唯一哈希对应的内容的节点。

这种分散的,内容寻址的方法从根本上增加了数据的持久性。它确保数据不会受到威胁,只要任何人仍然依赖它,因为任何人都可以持有他们关心的数据的有效副本。如果您在任何设备上持有数据集的副本,或者您需要付费给某人在IPFS节点上托管它,您就会成为保护该数据集丢失的管理员网络的一部分。您不必担心是否有人要关闭托管数据的服务器,因为您是其中一个主机。您和您的同伴在您自己之间保存数据,并且能够直接相互共享数据,而不依赖于集中的故障点。

权力下放还增加了数据的完整性,因为链接是内容寻址的。这意味着我们可以通过检查链接上的数据指纹来验证数据。使用位置寻址链接进行这种验证是不可能的。这在大规模上尤其强大,其中数千个数据集相互引用数百万次。使用位置寻址链接,所有这些连接都很脆弱。通过内容寻址链接,连接变得有弹性。

怎么做:将内容写入IPFS并发布哈希

IPFS是一种内容寻址协议,旨在替代HTTP。协议有多个免费的开源软件实现。您可以使用该软件运行IPFS节点,将数据添加到IPFS网络或保存其他人发布的数据副本。

如果要使用IPFS保存数据,则需要将内容写入IPFS,然后使用IPFS协议在对等网络中复制该内容。为此,有四个主要步骤:

  1. 在具有Internet访问权限的计算机(笔记本电脑,台式机,服务器等)上安装IPFS节点
  2. 将内容添加到IPFS节点。
  3. 告诉您的同行您添加到IPFS的内容的加密哈希值(也就是指纹)。
  4. 让您的对等方通过“固定”其IPFS节点中的哈希值将内容副本复制到其计算机上

IPFS社区正在组建一个分散式Web入门,介绍如何执行此操作以及更多内容。底漆是一项正在进行的工作,但关键部件已准备就绪。如果您想帮助改进此文档,或者有任何特别需要改进的部分,请在github存储库上创建问题。我们将很乐意为您提供任何帮助,反馈或鼓励。

本文档的下一部分介绍了通过IPFS复制内容所涉及的基本概念和步骤。如果您想实际使用这些技术,请参阅入门手册,并请使用IPFS社区,他们随时准备提供帮助。有一个社区资源对森林小组GitHub的库列表

将内容写入IPFS

第一步是在计算机上安装IPFS节点,并将内容写入该节点。IPFS节点是您参与对等网络,从其他节点读取内容以及向请求它的节点提供内容的方式。当您将内容写入IPFS节点时,人们将能够使用其哈希/指纹来请求该内容。

IPFS是一项相对较新的技术。目前文档很少,而且非常技术性。IPFS社区正在稳步努力改进文档并使其更易于访问。如果您想要帮助完成这项工作,无论是编写还是查看文档,请使用此处列出资源参与,或在IPFS社区github存储库中创建问题

本代码为费城研讨会提供了最完整的分散式网络入门部分的链接。它们涵盖了您需要知道的所有核心事项,以便安装IPFS节点并向该IPFS节点添加数据集。

固定数据以保存它

IPFS有一个内容固定到IPFS节点的概念。当您在IPFS节点上“固定”内容时,您将内容的散列(即指纹)添加到节点的引脚集。只要节点的引脚集中包含该哈希值,节点就会在您的计算机上保留相应内容的副本。

将数据集写入IPFS时,IPFS节点将为您提供该数据集的哈希值。然后,您可以将该哈希传递给任何对等方,并要求它们将其固定在其IPFS节点上。只要向IPFS节点的引脚集添加哈希,该节点就会与IPFS网络上的对等体协调,将数据副本提取到您的计算机上。

发布哈希

分布式网络的真正力量是任何人都可以参与的事实。如果您发布要保存的内容的哈希值,那么关心数据的任何人都可以固定自己的副本,分担存储和提供数据的负担。

发布哈希没有一种既定的方法。一种显而易见的方法是将它们发布在网站或博客上,但还有许多其他选择。我们的想法是通过散列,让人们知道要使用哪些内容或固定。从长远来看,您需要考虑如何发布哈希值,因为您希望人们获取有关数据真实性,版本控制等的信息。下一节将介绍其中的一些策略。值得庆幸的是,您可以稍后回填大量信息。从短期来看,关键是要向可能希望帮助保存数据的人们提供哈希值。

我不得不担心坏内容会进入我的机器吗?

IPFS是点对点技术,往往会引起对不良内容的担忧。人们想要知道“如果我运行IPFS节点,这是否意味着人们可以使用我的机器在未经我许可的情况下提供不良内容?”和“我的IPFS节点会在我不知情的情况下将不良内容丢到我的机器上吗?”IPFS的维护者非常认真地对待这个问题。IPFS协议明确旨在确保您可以通过IPFS完全控制哪些内容进入您的计算机。您的IPFS节点将只读取您告诉它从网络读取的内容。它只会存储您告诉它存储的内容。这使您可以确信不良内容不会意外到达您的计算机。如果网络上有人发布了不良内容,它将不会泄漏到您的IPFS节点上。

覆盖您的基础:使您的内容具有弹性的策略

为了真正长期保存您的危险数据,您需要以有弹性的方式存储和分发数据。这需要做的不仅仅是将数据写入IPFS,并要求您的朋友将数据的副本固定到他们的计算机上。您还需要考虑冗余,可用性,真实性,版本控制和保存等问题。以下是每个问题的快速概述,以及有关如何在分散的上下文中处理它的一些提示。

与图书馆员交谈

在解决这些问题时,查看图书馆的灵感或指导是有帮助的。图书馆经常谈论围绕其馆藏提供三种类型的服务:保存发现访问。如果您希望人们参与您收集的内容,您需要支持所有这三件事。如果您在任何这些区域中滑倒,人们将无法使用您的内容。这适用于手头的问题 – 为了保存您的濒危数据,您需要涵盖所有这三个基础。您需要保留内容,以便人们仍然可以使用它。您需要保留有关内容的元数据,以便人们可以搜索或浏览元数据以便发现你收藏的是什么。最后,您需要为他们提供一种访问内容的方法。

说到图书馆,请打电话给你的图书管理员并向他们寻求建议。图书馆可以帮助你解决一些问题。他们甚至可以帮助您存储和提供数据。如果您是图书管理员,请考虑在库中运行IPFS固定服务,或考虑运行IPFS哈希注册表。完成后,请在另一个图书馆给你的朋友打电话,让他​​们也考虑一下。

实现冗余

很多副本保持安全。这是任何保存策略的基本理念。甚至有一个名称项目可以帮助图书馆保存数字内容(唉,它还没有使用IPFS)。为了保护您的内容,您希望许多组织在多个司法管辖区内将其固定在许多地理位置。

您还可以在多个对等点之间传播一个巨大的数据集,以便一组参与者可以结合努力来保存超出任何个人存储容量的数据。

确保可用性

如果您希望数据在线可用,则冗余是不够的。您需要确保其中一些副本在网络上实际可用,否则任何人都无法访问该内容。为了使数据始终在线可用,您需要确保始终将IPFS节点连接到网络,并在其上固定数据副本。

确保可用性的简单方法是在已经连接到Web 24/7的服务器上运行一些IPFS节点。如果将数据固定在这些节点上,只要节点保持活动状态,数据就会保持可用状态。这是云服务如何有用的示例 – 您可以在托管服务或云服务上运行IPFS节点并将内容固定在那里。

有许多策略可以以更加强大的方式提供内容。例如,如果您可以访问多个数据中心,则可以在两个数据中心的节点上固定内容。这将允许您同时通过多个管道提供内容。IPFS团队目前正在开发一个名为ipfs-cluster的项目,它允许您根据不同的策略配置和协调IPFS节点和引脚集。

确保真实性

一旦您的数据出现在外,我们如何知道哪些数据是真实数据?到目前为止,我们依靠位置作为真实性的代理,说“如果它在您的服务器上,那么它必须是您希望我看到的真实信息。”这是建立真实性的一种可怕方式(主机可能会篡改有了数据,黑客可以在没有人知道的情况下改变它,它可能会意外地变得腐败,等等。尽管如此,这就是我们长期以来在网络上建立数据真实性的方式。这是一种根深蒂固的习惯,我们不能依靠分布式技术。有什么选择?

使用内容寻址协议,我们只关心哈希,地址的来源。基于该哈希,我可以从许多地方获取内容。这使得知道散列是真实的非常重要。我们想知道谁说“正确的数据有这个指纹。”或“我们的官方数据的当前版本有这个指纹。”或“我改进的数据版本有这个指纹。”我们想知道究竟是哪个哈希他们提供了指纹。

有许多方法可以告诉世界哪些哈希是您内容的“真实”指纹。他们每个人都有优点和缺点。其中一些方法将在服务器关闭和组织拆除后继续存在。其他人更容易理解,更容易实施。有些人依赖图书馆和报纸等独立机构。其他人在无信任的环境中工作 – 他们避免依赖任何中央机构来建立真实性。

建立数据真实性的关键思想是将有关内容哈希值的权威声明放入公共记录中。诀窍是选择无法关闭或损坏的地方。例如,您可以将哈希值放在您的网站上,但如果您的网站被关闭,则会失去真实性的证据。更糟糕的是,如果有人接管网站并发布了不良哈希,那么很难找到信任的人。这就是为什么真实性很棘手。

一种相对可靠的低技术技术是在报纸或学术期刊上发表哈希。这依赖于这些出版物的分发渠道,以确保持久访问哈希。

您还可以访问您的库并要求他们运行经过身份验证的内容地址注册表。从长远来看,他们可能会使用区块链来做到这一点(见下文),但在短期内,他们可以保留信息并通过任何可能的方式重新分配信息。

这两种方法都依赖于独立机构(报纸/期刊出版商或图书馆)将您的权威声明记录为公共记录的一部分。这些方法容易受到攻击,例如图书馆的资金被削减或发布者被迫发布不良信息,但它们比在您的网站上发布哈希更耐用。

指示哈希出处的技术上最正确的方法涉及公钥加密,您可以使用安全的私有加密密钥对哈希(或有关哈希的元数据)进行加密签名。这就是使用蜡封将文件标记为真实的加密等效物。遗憾的是,虽然公钥加密技术已经存在了很长时间,但管理密钥和签名内容的工具仍然难以置信和令人生畏。这很不幸。当有人围绕这些技术构建正确的用户体验时,世界将受益匪浅。许多项目正在解决这个问题。Keybase特别有前途。

依赖于公钥加密的一种技术是IPNS,即IPFS名称服务。IPNS仍处于开发阶段。它在IPFS白皮书IPFS规范中进行了解释

另一种流行的技术仍然处于起步阶段,因此难以采用,就是将哈希写入区块链。区块链是分散的分类账。我们说它们是分发的,因为它们不是由任何个人团体或团体持有或控制的 – 参与分类帐的每个人都持有同样有效的分类帐副本。当您在区块链分类帐上编写交易时,所有参与分类帐的各方都可以看到该交易,任何人都可以在不依赖中央权限的情况下验证交易。这意味着您可以将哈希值编写到区块链分类帐上的事务中,以便以非常难以擦除的方式使其全局可见。即使你消失了,即使你的组织消失了,分类账也会显示你宣布了这些哈希值。为了破坏该记录,恶意方将不得不妥协分类账中的大多数参与者,这通常是遍布全球的数千个参与者。这使它成为保存少量防篡改内容的最有前途的方法之一,就像我们宣布的哈希一样。

处理版本控制

这不是一次性过程。在大多数情况下,数据集会随着时间的推移而变化,增长和发展 为了适应那些不断变化,不断发展,不断发展的数据集,我们需要采用各种方法来跟踪不同版本的内容。值得庆幸的是,内容寻址为您提供了所需的基本构建块,以便优雅地跟踪版本。强大的版本控制工具(如git)构建在内容寻址的相同基础上,并使用加密哈希来构建信息树来表示历史,版本,分支等。

例如,每次创建新版本的数据时,都会有一个新的哈希值来唯一标识该版本。这真的很强大。唯一剩下的挑战是告诉您的同行哪些哈希对应于哪些版本。你可以通过多种方式实现这一目标。最简单的方法是将散列与文本文件中的某些描述一起列出。如果您希望该信息是机器可解析的,则可以将其放在JSON而不是自由文本中。

分散式网络的一个惊人的好处:您也可以将该版本信息放入IPFS,为您的整个版本历史发布哈希值。

目前还没有很好的工具可以用IPFS内容构建这些版本的历史记录,但所有的部分都在那里。如果你认识一个正在寻找一个好项目的软件开发人员,请指明我们的方向。我们很乐意帮助他们解决这个问题。鼓励他们通过在IPFS社区github存储库上创建问题来表达他们的兴趣。

保存数据

最后,除了冗余,可用性,版本控制等之外,还有保存问题。为了构建保留策略,您需要查看威胁模型,然后找出如何保护您的数据免受这些威胁。

保存是一个涉及文件格式,存储设备,组织可持续性等的重要主题,但有一点与本文档有关:您不应该单独依赖IPFS。您还应将内容存储在各种位置的各种在线和离线存储设备上。

这提出了内容寻址有价值的另一种方式,因为我们用于识别IPFS中内容的哈希值可用作验证数据的任何副本的校验和,无论它们存储在何处。对于您存储在IPFS之外的数据副本,可能在备份硬盘驱动器,离线存储器或内存晶体上,您可以通过检查其加密哈希值并确保这些哈希值与那些哈希值匹配来随时验证这些副本。你发表了。内容寻址链接标识内容,无论它在哪里,即使它在IPFS之外。

为什么成熟的工具不够好

所有关于权力下放和内容寻址的讨论都可能听起来过分。这是我们过去15年来一直在做的事情的一个重大变化。作为最后的观察,我们将讨论为什么它不足以依赖已建立的工具和技术。

将数据移动到新的受信任位置有什么问题?

仅将数据移动到新位置是不够的,因为它使位置寻址的所有问题永久化。它带来了打破我们一直依赖的基于位置的链接的所有痛苦和不便,但没有带来切换到内容寻址方法的任何好处。

为什么每个人都下载数据副本还不够?

许多副本保持安全,但只是将数据副本下载到许多位置基本上采用分散方法而不使用任何分散工具。您需要一种内容寻址的方法来回答基本问题,例如“谁拥有数据副本?”,“这两个数据副本是否相同?”并且为了传达诸如“这是最新版本的数据“和”我有最后三个版本的数据。你想要哪一个?”

我们不能使用云来备份数据吗?

保存濒危数据的说明:是时候分散了。
设计者Chris Watterston

许多人将云服务与数据备份相关联。可以轻松地将数据副本转储到任意数量的云服务上,大多数云提供商都渴望出售他们的服务非常适合备份和灾难恢复的想法。

好消息:这意味着几乎任何人都可以轻松且相对便宜地提供任何数量的存储空间。坏消息:这本身并不能解决根本问题。

正如设计师Chris Watterston在流行的贴纸中所表达的那样,“没有云。它只是别人的计算机。“将数据移动到云服务并不能解决集中化的问题。它简单地使我们可以轻松地在一系列位置配置存储空间和/或计算能力。这是一个强大的工具,但它不是完整的解决方案。

有一种方法可以利用云的便利性和成本优势来协助分散的工作。首先,将您的内容添加到IPFS。然后,雇用多个独立的云服务来存储内容并使用IPFS提供服务。这为您提供服务冗余。理想情况下,也雇用他们将其存储在多个不同的地理和政治区域。这样,您的宝贵内容就可以免受单个实体和基于位置的风险的影响。由于内容由IPFS解决和提供,因此云提供商无法控制内容或更改内容。这是使用云的正确方法:为了方便,但没有放弃对它的控制。始终保留其他地方的副本,以防万一。您永远不知道云服务何时可能会关闭

图书馆能节省一天吗?

是的,图书馆可以在这方面发挥重要作用。分散式技术非常适合图书馆。这是一个绝佳的机会,您可以与您的图书馆合作,为人类共享和保存数字信息创建一个有弹性的基础设施。

成为您数据的管家

如果您想获得本文中讨论的内容的帮助,或者您想为IPFS和所有可能实现这一目标的工具做出贡献,请访问此处或发送电子邮件至contact@protocol.ai。如果您有一个用例,但IPFS需要更多功能或错误修复,请在此处发布问题。

如果您能想到世界上想要保护的数据,请采取措施保护它。分散的技术最终使我们所有人都能够成为我们关心的信息的管家。

点对点科技简介

点对点科技深耘IPFS与Filecoin技术,坚持区块链技术改变未来的信念。点对点 IPFS 数据中心是目前国内技术领先,性价比高、保障优的投资标的。自建杭州数据中心,合作数据中心分布于上海、宁波、河北、香港、斯德哥尔摩(瑞典)等地。点对点数据中心具有优秀的硬件配置与目前国内优质的网络节点资源。点对点科技力求将IPFS爱好者升级为IPFS领军者与受益者,让IPFS颠覆传统互联网,共同开启 WEB 3.0时代。

想了解更多区块链知识吗?关注我吧!

Filecoin测试网二阶段昨日重启,点对点出块第一! | 点滴资讯

原创文章,作者:Haskell,如若转载,请注明出处:https://ipfsdrop.com/view/baocunbinweishujudeshuomingshishihoufensanle/

发表评论

电子邮件地址不会被公开。 必填项已用*标注