問2
アルファベットが である単純マルコフ情報源の遷移確率行列が
で与えられたとする.ここで, 成分は遷移確率 を表し, とする.以下の問いに答えよ:
- このマルコフ情報源の状態遷移図を図示せよ.
- このマルコフ情報源の定常確率分布が であるとき, の値を求めよ.
- (2) が前問で求めた値となるとき、このマルコフ情報源のエントロピー率を求めよ.
- このマルコフ情報源に従う確率変数の列 を考える. が上述の定常確率分布 に従う場合, に対するハフマン符号化を行い, 符号的表示图を示せ.ただし符号語のアルファベットは とする.
中文翻译
给定字母表为 的简单马尔可夫信息源, 其状态转移概率矩阵如下:
其中 元素表示状态 转移到状态 的概率 , .
- 绘制该马尔可夫信息源的状态转移图.
- 假设该马尔可夫信息源的平稳分布为 , 求 的值.
- 在 为前述求得的值时, 计算该马尔可夫信息源的熵率.
- 假设符号序列 服从平稳分布 , 为 执行哈夫曼编码, 并绘制编码结果的图. 假设编码字母表为 .
o1
下面给出在修正后转移概率矩阵下的完整解答。修正矩阵为
其中是从状态 转到 的概率。
题目设定:
- 状态(字母)集合为 。
- 给定平稳(定常)分布 。
- 需要回答:
- 状态迁移图
- 令该链的平稳分布正好是上述 时,求 。
- 用(2)求得的 代入,计算该马尔可夫源的熵率。
- 若从该马尔可夫源出发,考虑随机变量 都具有边缘分布 (题意里说“ 服从 ”),对取值 进行 Huffman 编码,并给出编码树(或“符号→码字”的对应)。
1. 状态迁移图
从矩阵的每一行(状态 )出发,看哪些转移概率为正,即可画出如下有向图(圆圈表示状态,箭头表示可能的转移,标注相应的概率):
-
行 1 (i=1):
,其余转移为 0。
即: 和 。 -
行 2 (i=2):
,其余为 0。
即: 和 。 -
行 3 (i=3):
,其余为 0。
即: 和 。 -
行 4 (i=4):
,其余为 0。
即: 和 。
可以把这几条箭头在纸上连起来,即得到状态迁移图。示意如下(用“→”画出非零概率的方向,并在箭头上标注对应的 0.5、 等):
(1) --0.5--> (1)
\
\--0.5--> (2) --0.5--> (2)
\
\--0.5--> (4) --(1−γ)--> (4)
^
| γ
(3) <--- 0.5 --- (3本身没有自环)
^
| 0.5
(3)
(3) --0.5--> (1)
--0.5--> (2)
(文本示意稍显杂乱,实际作图时更易看清:1 的自环、1→2、2 的自环、2→4、3→1、3→2、4→3、4 的自环。)
2. 由 求
要让 成为该马尔可夫链的平稳分布,需满足
令 。
(a) 求 对应的方程
从矩阵可知:
- ,
- ,
- ,
- .
因此
但题目给出 ,故
(b) 求 对应的方程(验证一致性)
从矩阵可读出:
- ,
- ,
- ,
- .
所以
题目给定 ,又我们已知 ,代入则
两边相等,一致。其余 对应的方程也会自动满足。由此可知:
3. 在 时,这个马尔可夫源的熵率
马尔可夫链(离散记忆源)的熵率公式为
其中对 的项不计(或视为乘以 0)。下面逐行计算:
-
行 1: 。
分布 的熵为 -
行 2: 。
分布 的熵同上,也为 -
行 3: 。
分布 ,同理也是 -
行 4: 。
分布 的熵为数值上,,
因此
将它们按平稳分布加权:
如果要求精确到三位小数,可写
4. 按 对 作 Huffman 编码
题目最后一问常见的作法:
- 视这 4 个符号(或状态)的出现概率分别为 进行 Huffman 码的构造。
Huffman 码步骤
-
列出四个符号及其概率:
-
选出两个最小概率项合并:
- 这里最小的是 和 ,各 。合并得到新节点 ,概率 。
-
此时剩余的节点概率:
再次选出最小的两项合并(现在 和 并列最小,各 ),合并成新节点 ,概率 。
-
最后将 (概率 ) 与 (概率 ) 合并成根节点(概率 1)。由此生成一棵二叉树。若我们一贯约定“左分支标 0,右分支标 1”,可以得到下面的前缀码(只要保证前缀码唯一即可,小的交换并不影响平均长度)。
得到的编码
- 符号 :路径为“根 右”,码字可定为
1。 - 符号 :从根 左 右,码字
01。 - 符号 :从根 左 左 左右再分,实际上更简单写法是:先与 合并,再与 合并;一种典型的布置是
- 得码字
000, - 得码字
001。
- 得码字
典型 Huffman 编码树可示意为(自上而下):
(根) (概率 1)
/ \
0 / \ 1
/ \
(N_{132}) (4)
(概率1/2) (概率1/2)
/ \
0/ \1
/ \
(N_{13}) (2)
(1/4) (1/4)
/ \
0/ \1
/ \
(1) (3)
(1/8) (1/8)
对应的码字分配(仅举一例):
- :
1 - :
01 - :
000 - :
001
这样就完成了对 的 Huffman 编码。在这 4 个符号的概率分布下,该码的平均长度可以算得是最优的。
小结
- 状态图:根据修正矩阵可见
- 、、、,
且相应概率如前。
- 、、、,
- 求得 :令 成为不变分布,可解得 。
- 熵率:在 时,用
计算可得约 bits。 - Huffman 编码:对出现概率 的 4 个符号,构造出的经典二叉 Huffman 码可为