問2

アルファベットが である単純マルコフ情報源の遷移確率行列が

で与えられたとする.ここで, 成分は遷移確率 を表し, とする.以下の問いに答えよ:

  1. このマルコフ情報源の状態遷移図を図示せよ.
  2. このマルコフ情報源の定常確率分布が であるとき, の値を求めよ.
  3. (2) が前問で求めた値となるとき、このマルコフ情報源のエントロピー率を求めよ.
  4. このマルコフ情報源に従う確率変数の列 を考える. が上述の定常確率分布 に従う場合, に対するハフマン符号化を行い, 符号的表示图を示せ.ただし符号語のアルファベットは とする.

中文翻译

给定字母表为 的简单马尔可夫信息源, 其状态转移概率矩阵如下:

其中 元素表示状态 转移到状态 的概率 , .

  1. 绘制该马尔可夫信息源的状态转移图.
  2. 假设该马尔可夫信息源的平稳分布为 , 求 的值.
  3. 为前述求得的值时, 计算该马尔可夫信息源的熵率.
  4. 假设符号序列 服从平稳分布 , 为 执行哈夫曼编码, 并绘制编码结果的图. 假设编码字母表为 .

o1

下面给出在修正后转移概率矩阵下的完整解答。修正矩阵为

其中是从状态 转到 的概率。

题目设定:

  • 状态(字母)集合为
  • 给定平稳(定常)分布
  • 需要回答:
  1. 状态迁移图
  2. 令该链的平稳分布正好是上述 时,求
  3. 用(2)求得的 代入,计算该马尔可夫源的熵率。
  4. 若从该马尔可夫源出发,考虑随机变量 都具有边缘分布 (题意里说“ 服从 ”),对取值 进行 Huffman 编码,并给出编码树(或“符号→码字”的对应)。

1. 状态迁移图

从矩阵的每一行(状态 )出发,看哪些转移概率为正,即可画出如下有向图(圆圈表示状态,箭头表示可能的转移,标注相应的概率):

  • 行 1 (i=1):
    ,其余转移为 0。
    即:

  • 行 2 (i=2):
    ,其余为 0。
    即:

  • 行 3 (i=3):
    ,其余为 0。
    即:

  • 行 4 (i=4):
    ,其余为 0。
    即:

可以把这几条箭头在纸上连起来,即得到状态迁移图。示意如下(用“→”画出非零概率的方向,并在箭头上标注对应的 0.5、 等):

 (1) --0.5--> (1)
   \          
    \--0.5--> (2) --0.5--> (2)
                     \            
                      \--0.5--> (4) --(1−γ)--> (4)
                                ^             
                                | γ           
                                (3) <--- 0.5 --- (3本身没有自环)
                                  ^ 
                                  | 0.5
                                  (3)
     (3) --0.5--> (1)
           --0.5--> (2)

(文本示意稍显杂乱,实际作图时更易看清:1 的自环、1→2、2 的自环、2→4、3→1、3→2、4→3、4 的自环。)


2. 由

要让 成为该马尔可夫链的平稳分布,需满足

(a) 求 对应的方程

从矩阵可知:

  • ,
  • ,
  • ,
  • .

因此

但题目给出 ,故

(b) 求 对应的方程(验证一致性)

从矩阵可读出:

  • ,
  • ,
  • ,
  • .

所以

题目给定 ,又我们已知 ,代入则

两边相等,一致。其余 对应的方程也会自动满足。由此可知:


3. 在 时,这个马尔可夫源的熵率

马尔可夫链(离散记忆源)的熵率公式为

其中对 的项不计(或视为乘以 0)。下面逐行计算:

  • 行 1:
    分布 的熵为

  • 行 2:
    分布 的熵同上,也为

  • 行 3:
    分布 ,同理也是

  • 行 4:
    分布 的熵为

    数值上,
    因此

将它们按平稳分布加权:

如果要求精确到三位小数,可写


4. 按 作 Huffman 编码

题目最后一问常见的作法:

  • 视这 4 个符号(或状态)的出现概率分别为 进行 Huffman 码的构造。

Huffman 码步骤

  1. 列出四个符号及其概率:

  2. 选出两个最小概率项合并:

    • 这里最小的是 ,各 。合并得到新节点 ,概率
  3. 此时剩余的节点概率:

    再次选出最小的两项合并(现在 并列最小,各 ),合并成新节点 ,概率

  4. 最后将 (概率 ) 与 (概率 ) 合并成根节点(概率 1)。由此生成一棵二叉树。若我们一贯约定“左分支标 0,右分支标 1”,可以得到下面的前缀码(只要保证前缀码唯一即可,小的交换并不影响平均长度)。

得到的编码

  • 符号 :路径为“根 右”,码字可定为 1
  • 符号 :从根 右,码字 01
  • 符号 :从根 左右再分,实际上更简单写法是:先与 合并,再与 合并;一种典型的布置是
    • 得码字 000
    • 得码字 001

典型 Huffman 编码树可示意为(自上而下):

       (根)   (概率 1)
       /   \
    0 /     \ 1
     /       \
 (N_{132})   (4)
  (概率1/2)  (概率1/2)
    /   \
  0/     \1
  /       \
(N_{13})  (2)
 (1/4)    (1/4)
  /  \
0/    \1
/      \
(1)    (3)
(1/8)  (1/8)

对应的码字分配(仅举一例):

  • : 1
  • : 01
  • : 000
  • : 001

这样就完成了对 的 Huffman 编码。在这 4 个符号的概率分布下,该码的平均长度可以算得是最优的。


小结

  1. 状态图:根据修正矩阵可见

    • 且相应概率如前。
  2. 求得 :令 成为不变分布,可解得
  3. 熵率:在 时,用

    计算可得约 bits。
  4. Huffman 编码:对出现概率 的 4 个符号,构造出的经典二叉 Huffman 码可为