DaMin
发表于 2006-8-8 09:54
原帖由 boilingsnow 于 2006-8-8 00:58 发表
请教楼上的同学一个问题,汉语熵大表征什么,在哪些个方面是优势,在哪些个方面是劣势。
Vielleicht darf ich:
Entropie ist ein Mass für Chaos. Je chaotisch ein System ist, desto größer ist seine Entropie. Ich weiss zwar nicht wie man bei Sprache Entropie genau misst, aber dass chinesisch bei seinem Zeichensystem eine viel größere Entropie hat, kann ich mir gut vorstellen.
Nachteil hat eisenstange oben sehr gut erklärt. Vorteil will ich auch gern mal wissen. :)
[ 本帖最后由 DaMin 于 2006-8-8 11:02 编辑 ]
boilingsnow
发表于 2006-8-8 10:10
据说信息熵大是表征信息量也大,但是会在信息储存和传输中提高“成本”,比如汉字需要管理一个超过几万字的字库,没增加一个汉字就要改变这个字库。但是优点是汉语它承载的信息也更多——是这样的吗?
DaMin
发表于 2006-8-8 10:57
原帖由 boilingsnow 于 2006-8-8 11:10 发表
据说信息熵大是表征信息量也大,但是会在信息储存和传输中提高“成本”,比如汉字需要管理一个超过几万字的字库,没增加一个汉字就要改变这个字库。但是优点是汉语它承载的信息也更多——是这样的吗?
Das wäre genau was ich mit Informationsverlagerung meine!
eisenstange
发表于 2006-8-8 11:11
对于语言的熵的计算,最早是Zipf进行统计的。我们国家的语言学家也是使用Zipf定律结合国家的汉字常见字的出现概率算出来的。关于进算的过程我没有看到具体的推导过程,不过结果倒是记住了。这个熵表示的含义,是平均信息量,所谓的平均信息量并不是我们日常生活中理解的信息,如每个文字,字母包含的实际内容,而是统计结果表明的样本的空间大小和出现的概率,其实对于计算机而言它并不关心一句中文或者英文的内容,它关心的是给每个符号进行编码的长度大小。对于已经统计出来的熵的含义是,假设我们采用的编码是给出现概率最多的字或者字母分配最短的1bit的码,然后逐渐的递增到出现概率最小的字分配最长的码,然后取他们的算术平均值,那么这个值应该等于熵的大小。
而不管英文用的 ASCII 还是中文的 Unicode,都不是按照最简编码方法进行设计的。实际上都有冗余的位。中文的冗余位少,也就是说出错的概率高,英文有效的是5位,而实际是8位传输,也就是说它的编码效率大概在60%左右,所以在上一篇的计算中,我给中文加了一个50%的系数,因为Unicode和ASC在安全性上有不同的系数。
单从通信角度上将,工程师无法去衡量50个中文字和250个英文字母,那个包含的读者想知道的实际信息多,而是从系统实现的角度讲,保证从信息发送方到信息接受方的无误差传输。而实际情况是,不论采用什样的校验方式,出现误差的情况是无法避免的,对于中文来书,如果要达到和英文一样的可靠性,就必须要采用如加入冗余位的办法来降低信源的平均信息量。这需要新的算法,新的硬件存储码表,各种校验。从而花费上要大很多。
关于最后的汉语承载的信息多的说法我觉得更合适的,应该是为了能表述任意内容,汉字需要的小概率字符多,因为在熵的计算中真正将汉字的熵提上去的是那些出现概率小的不常用字,而且这个结果已经是在使用新的新华字典的基础上得到的,如果使用康熙字典的话,可能会更多。
关于这个说法到目前还没有一个完全的定论,因为确实很难衡量到底哪个更有效,因为必净语言是由生活环境衍生出来的,不同的生活环境自然语言需要表达的内容也不同,翻译那些两个文化相同的部分的难度,比将一个文化中的新概念完全引入一个另一个文化中的难度要小的多,而科技领域正是如此,所以我说在科技领域汉字的匹配还没有做好,至少估计在我的有生之年应该是这样。科技文明也是一种文明,也有底蕴,和文化一样,很多东西不是一天两天能养成的。包括很多国内大学教授的思维习惯已经很陈旧了,
传统文化影响思维习惯,思维习惯反作用于研究方式,研究方式影响研究结果,研究结果决定科技进步。都是一环套一环的。同样学语文造成的发散性思维的后期影响使得学文科的和学理工科的学生在思维习惯上有不小的差异。中文更适合发散性的思维,因为它发散性的语法结构。对于喜欢发散性思维的人自然是优美的,而对于使用逻辑性思维的人来说,是可怕的。
eisenstange
发表于 2006-8-8 11:21
再举一个关于熵的例子,我们可以用熵的计算公式来计算, 中一次 Lotto头奖 所包含的信息量是 27 bit。这个在科技领域的 27 Bit的信息量的含义是:
给定一个由27位 0和1 组成的序列如 000101111010101101101, 然后给你一枚硬币,头算1,字算0, 只允许你连续抛27次, 连续抛27次后得出的结果和给定的序列一致的这个事件所包含的信息量和中一次Lotto头奖 包含的信息量是一样的。 虽然两者的后果是完全不一样的,但在科学计算上来说是一样的。
中文和英文的信息量,也与次类似。
ph2006
发表于 2006-8-8 12:54
原帖由 giffgaff 于 2006-8-4 19:57 发表
还是不能否认汉语不是一种比德语先进的语言
你的意思是说汉语不是一种比德语先进的语言吧,我没理解错吧
eisenstange
发表于 2006-8-8 13:21
原帖由 ph2006 于 2006-8-8 13:54 发表
你的意思是说汉语不是一种比德语先进的语言吧,我没理解错吧
;);)
DaMin
发表于 2006-8-8 14:01
原帖由 eisenstange 于 2006-8-8 12:11 发表
关于这个说法到目前还没有一个完全的定论,因为确实很难衡量到底哪个更有效.
$握手$
giffgaff
发表于 2006-8-8 17:57
原帖由 ph2006 于 2006-8-8 13:54 发表
你的意思是说汉语不是一种比德语先进的语言吧,我没理解错吧
当时发帖匆忙没注意,呵呵!:D
知道我什么意思就好了$汗$
当时明月在
发表于 2006-8-8 22:56
........绝对强帖,来晚了,明天继续拜读几遍哈...长见识呢