信息茧房随想-信息茧房之重定义 Information Cocoon

2021/04/13

信息茧房（Information Cocoon），也许大家经常在互联网读到这个名词。其词原意指代互联网时代每人选择自己的内容造成的，人们的信息领域会习惯性地被自己的兴趣所引导，从而将自己的生活桎梏于像蚕茧一般的“茧房”中的现象。这个名词最早由哈佛大学法学院教授桑斯坦提出。本文并不打算讨论这方面相关问题。

信息茧房以“个人日报”的形式出现。伴随着网络技术的发达，社会信息量的剧增，人们可以随意选择想要关注的内容。依据喜好定制内容，每个人都可以为自己量身打造一份“个人日报”。当个人被禁锢在自我构建的信息脉络中，生活就会变得程序化和定式化。而且，在信息传播中的个人的需求是不全面的，公众只注意自己选择的东西合适自己预约的领域，久而久之就会将自身禁锢于像蚕茧一般的“茧房”中。
《信息乌托邦》

不过，难道信息茧房只存在于互联网么时代么，其实仔细思考一下所谓的信息茧房应该是随着人类的诞生以来就一直存在的。没有人能做到全知全能或者长生不老，即代表所有人都是某种意义上存在于一个信息茧房之内，只不过区别是这个房间的大小罢了。本文会从一个新的观点重新定义信息茧房，并讨论其历史和意义了。

写在前面

本文会有许多有关人工智能，计算机，甚至遗传学的专业词汇和观点，不过笔者虽然略知一二或者从事其中但并不是专门研究这些行业。如有错误和偏颇敬请谅解，也欢迎各位读者在评论指出。

从人工智能角度再定义信息茧房

这从各种数据利用算法训练出模型从而达成运用，是一切目前的人工智能（深度学习）的基础构建模式。虽然有点粗暴，不过在这笔者做一个比喻：假设人本身就是所谓的人工智能的模型，人周遭的环境和输入的信息就比作提供给人工智能的训练集，人的一生就比做模型在接受训练的过程，而这里的信息茧房，便是所有的输入的信息以及模型本身了。

也许上述比喻比较粗暴，不过下文会发现上述比喻的精妙之处了。第一，这里很好的解决了先天说后天说以及性善论性恶论的争论。虽然人的记忆无法遗传（好比复制重组一个人工智能模型的时候，并不代表复制了所有训练过此模型的训练集），但是人的基因是可以遗传的（复制了训练集本身，模型无需学习便会先天对事物做出判断）。人的遗传基因同样也像代码一样碱基配对，包含了一切生活，生命所需要的基础信息，也某种意义上是模型的代码表现了。人，在生活/成长过程中也会或多或少的从周围吸收信息，就好像模型会不断的从各种训练集使模型发生变化，这便是每个人与众不同却同时能在存在过程中成长的原因了。于是上面的争论也可以轻松得到答案，人的目前的性格和状态，是由先天遗传，成长过程中的环境和解除的信息，以及作为模型本身与外在互动的结果等多重要素的结果确定的。许多学者喜欢使用“集体潜意识”之类的术语来描述人类的一些共通的行动模式（但是毫无科学依据），而用这个比喻的话，人类本身因为遗传等原因使用了相似的一套模型，加上处于同一个时代会有近似的“训练集”，那自然会某种情况下体现出统一的特质。在这里，“集体潜意识”便不是什么高深莫测的词汇，而是一个类似模型的统一表现了。

于是，重新定义一下人的信息茧房。广义的信息茧房，便是人的遗传状态，接触到的所有信息，以及作为人类生理状态的限制。狭义的信息茧房，便主要指代人能够接触到的所有的外部信息（Input）。由于对于遗传状态和作为人类本身限制对于我们都无能为力也无法改变，于是下文主要使用狭义的信息茧房进行讲述。

信息茧房与固定训练集和个人训练集

每个时代的信息界限也是不同的，无论是内容还是深度都随着人类历史的演进而发生变化，为了描述这些变化，这里又要发明一些新名词了。本来机械学习是分测试集，开发集，验证集来进行训练的，但是人并不是为了某个特定目的的工具，也没有正确答案，所以一般的机器学习与这所类比的人还是有很大区别的。下面引入新名词。

固定训练集：每个时代固有的环境，以及整体社会的共通的教学内容。

个人训练集：每个人与众不同的因为独立个人发展能够获得的新环境和新的知识。

因为所处时代的不同，这俩的关系也是有巨大变化的，以下把人类的历史阶段分为5个阶段（对不起，又要发明新单词了）

区块茧房时代：这段时代从古代大致持续到印刷术产生和近代教育普及之前。因为交通的不便利加上并不存在所谓的大众教育，大部分人的一生所接触到的信息，都基本局限于自己的出生地周围。无论是王宫贵族还是农民，他们一生所能够接触到的信息，也大部分是由自己周遭环境决定的。这个时候的信息茧房就呈现了分区和分块的现象，为什么古代会有迷信无法破除，也是因为这个小区块的信息茧房造成的必然现象。每个区块（地域），都有自己独立的固定训练集。同时大部分人的个人训练集，因为接触到内容的不足，也会非常贫瘠。历史的演进速度，相比之下也就相对缓慢。

统一茧房时代：这段时代从近代教育普及之后到信息技术（互联网）普及之前。国家能够对大部分国民施行义务教育，每个人能接触到的信息取决于个人的求知欲望和深度教育程度。因为有义务教育的存在，人们对世界和周遭会有一个共通的认识，而因为进行信息传播的方式只有书籍或者报纸杂志，每个人接触到的内容，大多是由专门的媒体制作的高质量的媒体内容。现在发达国家的父母一辈，大部分都是这个时期的人，这也是人类历史上科学爆炸进步的一段时期。这个信息茧房相比于原来的地区变成了整个国家，而教材上的丰富会使每个人获得非常丰富的固定训练集。对于个人训练集，因为每个人发信的门槛很高，大部分人接触的都是非常优质的媒体信息。虽然会因为获取方式比较局限导致每个人的个人训练集相对有限，但是质量非常过关。比如杂志，就是这个时代的产物，虽然订阅费用不菲，不过能够给订阅者定期的提供高质量的信息。

扩张茧房时代：这段时代从互联网普及到社交媒体普及和大规模实现算法提供信息之前的一段短暂时代。因为互联网的诞生，人一下子从高门槛的杂志订阅，变成了免费信息时代。哪怕是核弹的制作方式都能在网上轻松查询到，而每个人需要付出的仅仅是自己的互联网费用。在互联网巨头还没有垄断占据每个人的生活以前，互联网给了人们空前的信息量，人们也开始分享自己已经了解的已有信息，形成了各种各样的兴趣论坛并充满了高质量内容。在这个时代，固定训练集还是统一的，但是个人训练集会因为个人的兴趣和取向做极大的拓展，并因为网络普及使得获得信息门槛得到进一步降低。

信息茧房时代：社交媒体普及和大规模实现算法提供信息的时代（当前时代）。这个时代的国家会更加了解利用教育和各种媒体影响一般人的基础认识。同时因为互联网的大量普及，社交网络的兴起以及推送算法的涌现，虽然互联网变得更加前所未有的膨胀，但是平均的质量却在降低。一些原来听不见的极端的声音，在这个时代却越能被展露于世人面前，而真正具有质量的信息却被藏于互联网海浪之下。这个时代的固定训练集会因为政治导向变色，个人训练集的会因为信息入口的贫瘠导致人与人差距进一步拉大而整体偏向低智化。

爆炸茧房时代（好的未来）：笔者感觉好的未来的教育会提供更加丰富的内容甚至有科技手段能够直接给人直观教育。人也有无限丰富的选项来为自己提供发展所需的一切。每个人的训练集会无比丰富，星际旅行的展开进一步开拓人类的视野。

撕裂茧房时代（坏的未来）：反智大行其道，义务教育因为给每个人造成的重荷使得内容无限缩减（有些发达国家已经有这些迹象）。网上充斥低质资源，高质内容没人去创造，每个人的信息茧甚至不如父母。甚至会出现回流的反向的区域性分布。

	固定训练集	个人训练集
区块茧房时代	呈现区域性分布，内容少	选项少，内容贫瘠
统一茧房时代	丰富的固定训练集	选择较多，门槛较高，内容优质
扩张茧房时代	更加丰富的固定训练集	选择极多，门槛低，内容优质
信息茧房时代	政策性的丰富固定训练集	选择极多，门槛极低，内容低质，极端化
爆炸茧房时代	近乎无限的固定训练集	近乎无限的选项
撕裂茧房时代	固定训练集变小	选择极多但极其低质，进一步的极端化

有关这个时代的信息茧房

大家毕竟都是这个时代的人，于是也来谈谈这个时代的信息茧房。虽然在发达国家一般人的现实生活可能没有上一辈那么丰富多彩，不过能够接触到的信息却是爆炸式的。但是看上去互联网上无尽的资源和信息面前，人确越来越无法感知到自己所在的信息茧的真实边界。

成也推送算法，败也推送算法

推送的算法本意是提供给人自己偏好的内容，这样用户不会看到自己不喜欢的内容。但是当每个人的“偏好”都没有确立的时候，在没有方法了解自己其他偏好的时候就去确立一个人的喜好，反而使得每个人更加陷入在自己的信息茧的怪圈之内。这些一部分是开发者无意为之，而另一大部分就是互联网臭名昭著的行为心理学的实践了。上个世代的“百科全书”类的书最近愈发无人问津，却是把某个做到极限的人越来越多，在AI训练里面，训练样本不足，也会导致训练出来的模型不够理想。

自我极化，自我主义，自我贬低

现在互联网上有一个词表示的很贴切，就是“魔怔”。无论是是事实还是周围得出的结论都与你不同的时候，你不去接受现实而是去找相同认知的人群去加强自己错误的认知，就会导致非常恐怖的后果。微软曾经公布了一个聊天机器人，公布短短两天靠着评论的学习，就已经学会了脏话和种族歧视，难道真的是人工智能还不能理解人类的道德么？这些和聊天机器人聊天的人，自然的代表了人类的“道德”水平。互联网给予了每个人找到自己的同伴的能力，但是，面前的互联网却不能告诉使用者一个世界的全貌。为什么这个时代会更多的出现极度的自我中心以及自我贬低的人，很大一部分是由于互联网带给了我们的痛了，发出的朋友圈点赞的数量，对于有些人来说，比别人说的一声赞美的分量更要沉重。

政治家都很懂：说了一千遍的谎言-就能变成“事实”

在AI训练内，给了错误的训练集和错误的结果，那肯定训练出来的模型也是有问题的。毫无疑问，当今对人们也是如此。在固定训练集：教育和媒体，和个人训练集：网络如果都能让一件事情看起来是真的的时候，那就足够能让一件事情变成真的（这时候让你尽量减少反对这个事情的真相的训练集，这个事实就不会动摇）。”钻石恒久远，一颗永流传“，高贵的钻石曾经是一个世代的”时代记忆“，甚至直到廉价的人造钻石出世，这件事情似乎还是不可动摇。”钻石=高贵“这个知识，是什么时候进入你的认知的呢，这就是时代的固定训练集给你的训练结果。当然，在这还能举出一万个不好的例子，甚至至今还在复述一遍又一遍的谎言（此处省略一万字）。当然，现实其实更加悲观。大部分是固定训练集已经偏颇的情况下，个人训练集更加偏颇的时候，会通过不断的自我学习增强个人训练集，使得谎言的效果倍增。

如何打破信息茧房

虽然取了这个标题，不过信息茧房是理论上是无法打破的。但是可以通过每个人自身的努力扩大自己的信息茧房，来提高自己模型的训练精度和能力。对于AI这是个再浅显不过的问题，数据越多，模型质量越高。换做人话就是，能够见多识广，融会贯通。

多学一门/多门语言，并学以致用

目前互联网制作内容语言前排的语言就是英语，日语，中文，俄语。（法语，德语，西语虽然占比也不低，但是大部分会提供英语翻译）一门语言其实某种意义上的抽象化的文化模型，学习了一门语言，也能够同时学习其背景，思考方式等各方面内容。同时，也是让你不被语言而陷入信息茧的最强武器（巴别塔的故事大家也都知道）。所以既然学会了这个语言，就应该定期去强化对应语言的认识和信息（训练集）。

多时空（以史为鉴）多方位（环球地理）的思考方式

上述也说明了，因为历史原因每个时代的信息茧状况不同。而我们确是有能力站在前人的肩膀上的，加上万能的工具（互联网），作为个人分析判断一件事情难度其实不高。每个发生的事件通过多个地区的新闻来判断，也能极大程度的提高判断的准确程度。也会极大程度的减少人为的信息茧的可能性发生。

Follow your instinct 跟随直觉

人类是会主动寻找训练集的灵长类动物。为什么做事情会腻，就是因为大脑已经判断这件事情并不能给你足够的刺激了（相反，如果做一件事情怎么做都不会腻，建议是时候审视一下自己或者你已经患病了）。也许这就是人和其他动物的最大区别了。而阻止你去这么做的原因，往往又是别的制约因素了。钓鱼，养宠物，美食，登山，改装车，修理钟表，射击，游戏，看鸟，跳舞，野外探险，炒股，考古，电竞，编程，动漫，美剧，建筑，太空….世界上等待你去发现和探索的领域实在是太多了。

延迟判断

虽然人会由自己已知的经验对未知的事物或者是不了解的事情加以判断。但是无论是谁的言论，哪里的声音，也请最起码听完了之后再加以判断。就好比“希特勒干的所有事情一定是坏事”，“老师肯定教给我们的是正确的知识”等等先入为主的观念，就越会让人的保险丝放松，从而无法做出正常的逻辑或者价值判断。

结束语

于是，为什么每个人要扩展自己的信息茧房呢？这就是一个哲学问题了。这就好比人如果就像牛马那样，辛劳一生繁衍后代，这样不也很幸福么？我不能回答这个问题，任何哲学也无法回答这个问题。不过相信正在阅读这篇文章的各位，应该也是有自己的判断的。在这个无数茧所裹挟的世界里面，如何创造出自己的一片天地，也许也正如笔者创造本网站的本意了吧。