10|等价性:信息是如何压缩的?

10|等价性:信息是如何压缩的?

吴军·信息论40讲

2019-6-5

转述:宝木

你好,欢迎来到我的《信息论40讲》,这一讲的主题是,信息的等价性,这一讲我会告诉你信息是怎么被压缩的。

你可能会好奇,我为什么要让你知道信息压缩的原理,你又不会真的去压缩视频。在回答你这个问题之前,我们先从上节课最后留下的那个问题谈起,秦王子婴到底是谁?

我们上一讲说《史记》这本书里对于他的身世就有三个说法,而且前后差出两代人。第一个说法,说他是秦始皇的弟弟,第二个说法:他是秦二世的哥哥,第三个说法是根据《秦本纪》记载,子婴是秦二世的侄子。这样,从秦二世的上一辈,到平辈,到晚辈都让子婴占了,这当然不可能。那么史学家是如何确定他的身份的呢?这就用到了等价信息。

好,我们就先从说子婴是秦二世侄子的《秦本纪》里找线索。在《秦本纪》中,还写了子婴在秦二世驾崩后杀赵高的事情,讲他“与其子二人谋”。也就是说,秦始皇的孙子子婴谋划杀赵高时,已经有了两个能够出主意的儿子。我们知道,秦始皇49岁就驾崩了,秦二世在3年后也驾崩了,那时子婴还是十多岁的孩子,不可能有两个能出主意的儿子杀赵高。

至于是不是他哥哥,这个可能性就更没有了,因为《史记》中写了秦二世怕他的兄弟和自己争皇位,把他的20多个兄弟都杀了。排除了这两个可能性,子婴只能是秦二世的叔叔了,而《史记》中也没有和这条信息相矛盾的记录。

当然,这是一桩史学界著名的悬案,目前也没有一个定论,我只是用自己的推导方法为你演绎了一下,面对错综复杂的信息时,如何利用其他信息的等价性为我们理清思路。而信息等价性的应用,在今天尤其广泛,对于指导你处理复杂信息会很有帮助。

在很多时候,我们直接得到一种信息,或者原封不动地保留一条信息并不容易,但是却可以从等价的信息中导出所要的信息。当然,这样倒手一次的操作需要一个桥梁,让原有的信息和等价信息一一对应。在信息科学中,最著名的桥梁就是傅立叶变换了。

傅立叶是十九世纪法国的数学家,他发现任何周期性的函数(信号)都等同于一些三角函数的线性组合。下面这张图,就是周期性函数的样子,也就是说它们的波形都是重复的。

一般来讲,我们生活中的各种信号,都是随着时间变化的,比如一年中每一天的温度就是一个信号,它从每一年的第一天到第365天会有高有低地变化,如果我们把历史上全部温度的记录画成一条曲线,它大致就是上图那种周期性函数,一个周期就是一年。

如果我们要记录100年间每天的平均气温,就需要三万多个数据,这个数据量比较大。但是由于它具有周期性,我们就有可能利用这种周期性来进行信息压缩。而对于这一类波动信号,信息压缩的基本原理大致如下:

找到这种周期性信号的等价信息;

对等价信息进行压缩;

如果要使用原来的信号,通过压缩后的等价信息复原原来的信号。

这里面的关键,是找到等价信息。对于周期性的信号,等价信息就是一组正弦(或者余弦)波。正弦波的性质如下,大家可能并不陌生,因为它是最典型的波动曲线的性质。

世界上所有的正弦波曲线形状都差不多,但是振动的幅度可大可小,振动的频率可高可低。比如下面这张图中的正弦波显然振动的频率就比较高,用句俗话讲,它抖动得特别快。

19世纪初,法国数学家傅立叶发现所有的周期性信号都可以用频率和振幅不同的正弦函数叠加而成,也就是说周期性信号里面所包含的信息和若干正弦函数的频率、振幅信息完全等价,这种变换被称为傅立叶变换。

如果利用傅立叶变换,可以将100年里温度变化的信息用大致20根频率和振幅不同的正弦曲线叠加而成。也就是说,100年里3万多个温度样点里的信息,基本上就等价于20个频率数据和20个振幅数据,这样一来信息就被压缩了近百倍。

今天音频、图像和视频的压缩,就是利用这个原理。其中的关键就是找出那个等价的信息。

今天我们见到的各种音频信号,包括我们的语音、音乐等等,在较短的时间内,都有相对稳定的周期性,比如下图就是一段语音,你可以看出它有一定的周期性。利用傅立叶变换,可以对语音进行压缩编码,然后传输,这样可以将语音信息压缩10倍左右,当然这样可能会有很少的信息损失,这一点我们后面再讲。但不管怎样,这样的信息压缩是非常合算的,比如用微信语音打电话,如果不进行信息压缩,可能要多用十倍的数据流量。

那么图像又是怎么压缩的呢?它们看上去不像是有周期性振动的波形啊。这其实只是我们在宏观上看一幅图,但是如果我们用放大镜把图放得特别大,看到的就是一个个像素,而且相邻的像素之间颜色和灰度的变化会是相对连续的。利用这个特性,人们发明了一种被称为“离散余弦变换”的数学工具,也称为DCT。

DCT可以被认为是傅立叶变换的延伸,只不过它没有使用正弦波,而是采用了下面图中所示的64个基本灰度模板,任何照片都可以用这些模板组合而成。当然,对于彩色图片需要用带有红绿蓝三原色的彩色模板。这样一幅图片,就变成了一组数字,这些数字是模板中相应的模块的权重。我们经常使用的JPEG格式的图像,就是这么生成的。

当然,对于JPEG图片,你会发现各种图像压缩工具允许你根据对清晰度的要求,压缩得多一点或者少一点,这里面的技巧我们后面介绍信息损失时再讲。

通过上述语音和图像的压缩,我们介绍了信息等价性的应用。很多时候,一种原始的信息,它们虽然里面有很多冗余成分,但是很难直接压缩掉。但我们可以将它们转化为容易压缩的等价的信息,再进行压缩,然后进行存储和传输。在使用和接收到被压缩的等价信息后,我们先解压,再恢复回原来的信息。

不仅每一篇文章,每一段语音,每一个图片可以利用信息的等价性分别压缩,将很多相同形式的内容放到一起,还能进行更有效的压缩。之前有读者问我,在Google上什么东西都能够查到,难道它保存了互联网的所有的内容?这听起来难以置信。其实Google还真这么做了,只不过它在向大众服务时,把所有网页中的文字顺序打乱了,它按照每一个关键词在网页中出现的位置重新整理了互联网的内容。这样不仅方便查找,而且能够压缩信息,节省存储空间。这样当你查找时,它不仅能够告诉你你要找的内容在哪里,还能够根据每一个词出现的位置,恢复出原来的网页展现给你。这就是等价性在信息处理中的应用。

善用等价信息,是我们这个年代每一个人都必须掌握的工作技巧,这是我们这讲最希望你记住的一个知识点。比如说我们无法看清人体内部的情况,但是我们知道人体内有很多水分,水里有氢原子,它的电子在旋转中形成一个个微小的磁针,我们在人体外面施加磁场,就可以把水分子里的小磁针方向给排顺了,然后我们加入一个能够和水中氢原子共振的脉冲,就可以把人体氢原子振动的信息取出来。由于人体各个部分水的分布不一样,我们通过各个部分氢原子振动的信息,就可以把人的结构画出来。这就是核磁共振的原理。因此核磁共振就是利用了等价信息。

类似地,检测引力波的LIGO装置,检测希格斯玻色子的ATLAS装置,用的也是等价信息。我们今天在医院里做的大部分血项检查,都是在用等价信息。

要点总结

我们通过信息压缩来说明了等价信息的重要性,当然这个原则的应用要远不止信息压缩这件事情。它对于我们获取信息,乃至处理信息同样重要。

思考题:说说你是如何通过等价性原则找出一些难题的答案的,欢迎你和我在留言区和我交流。

预告:当然,对于信息压缩是否会丢失一些信息,这个问题我们下一讲再讨论。我们下一讲再见。

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。

http://www.pinlue.com/style/images/nopic.gif

分享
评论
首页