Page 49 - 信息的脉络
P. 49

·第一部分·
                   ⑤信宿是位于另一端的人(或物)。
                   信息论提出了一种优化的编码方式,能够让信息编码的总长度接近它的信息
               熵,即对不同符号采用不同的编码:经常出现的符号,采用较短的编码;出现次
               数较少的符号,采用较长的编码,这样才能做到总的编码长度最短。如果能做到
               每一种符号的编码长度正好它出现的概率的对数,那么编码的总长度就是他的信

               息熵,用公式表示就是:
                                                 S=-klgN
                   这就是香农第一定理,又被称为无失真的信源编码定律。

                   这个定律为人们进行信息压缩指明了方向,使我们可以将任何形式的原始信
               息都转换为一种新的编码符号,并且可以使这种新的编码符号有尽可能短的编码
               长度,同时完整地保存了所有原始信息。此外,这个定律也给信息压缩划定了一
               个极限,即如果信息不丢失任何信息,无论采用什么样的编码,都不可能将信息

               压缩到小于信息熵的程度。信息熵如同物理学中的光速,是一条不可逾越的极限。
                   事实证明,只有当可选选项是离散的和有限的,或者试图通过非理想信道进
               行通信时,这种度量才能很好地被实施。香农注意到,传递的信息量不仅取决于

               可选选项的数量,还取决于这些选项的可能性。
                   那为什么要用对数来表示呢?对数有一个很好的性质,对于任意两个数字 a
               和 b 来说,log2(ab)=log2(a)+log2(b)。对数的这个性质可以把乘法变成加法。假设
               掷硬币的一个结果是 TH,即先是背面朝上,再是正面朝上。这样的结果中包含了
               多少信息呢?一起来看一下,我们从 T 的结果中得到 3.32 比特,从 H 的结果中得

               到 0.15 比特,所以这个结果对大概传递了两者之和或者 3.47 比特的信息。当你收
               到一系列不相关的消息时,其所传递的信息是每条消息的和(我们假设每次掷硬
               币对下一次掷硬币的结果没有影响)。

                   你可能会问,为什么到处都是这个讨厌的负号呢?有两个原因可以解释这个
               问题。第一个原因在于,概率总是小于 1,小于 1 的对数都是负数。我们总是倾向
               于用一个正数来量化信息,而在一个负数前边加上负号可以得到一个正数。第二
               个也是更为重要的原因是,随着事件越来越少,信息量应该增加。如果没有前边

               的负号,信息量就会减少,而信息和稀缺性之间的关系会发生退化。
                   香农之所以选择“熵”这个术语,是因为其公式的数学结构类似于先前在热
               力学中被用于“熵”这一概念的公式。在一篇关于香农的简介中,霍根写道:伟
               大的数学家和计算机理论家约翰·冯·诺依曼说服香农使用“熵”这个词。冯·诺

               依曼认为,没有人知道熵到底是什么,这一事实将使香农在信息论的争论中获得
               优势。香农对信息量的量化以及选择用比特来表达这种量化,对通信理论、计算


                                                     • 33 •
   44   45   46   47   48   49   50   51   52   53   54