信息墒与微博

China Looking Over My Shoulder

不知道小道消息的订阅者中有多少是女性,节日快乐!

零.
发现有些人不太放心邀请我试用一些还未正式发布的产品,担心我会乱批评。其实啊,我哪会那么不知深浅,一般邀请我试用的,已经给了我好大面子,产品好用我当然会夸奖,不好用我甚么都不说也就是了。

一.
不少微信公众帐号被封了,我开始还以为是微信要一刀切,如果真不让写我也就坡下驴把这个小道消息关闭算了,自己也能轻松一点。后来了解到是因为别的原因,既然用了这个平台,当然就要老老实实遵守规则,不做错事应该也不会有什么大问题。

二.
看到不少朋友给我留言,表达了他们对于广告的看法,绝大多数都是支持的,很感动。不过我还是保持微信的纯粹性,别搞一些乱七八糟的,如果没有了乐趣,其它都没有意义。

三.
今天写点小科普.

下面这段话是我大约十几天前看到的:

「投资者喜欢将微博与Twitter进行对比,因为两者都存在字数限制,并且都很热门。然而,两者有一个根本不同,即140字中文能够包含比140个英文字符更多的信息。中文文字的信息熵为11.3,而英文字符的信息熵仅为4.7」

关键词是「信息墒」,我相信很多人都看过这篇报道,但估计没有多少人对其中的这几句话怀疑。我怀疑的原因是这个数据有点问题,跟我记忆中有差异。

于是用「信息墒 中文」作为关键词搜索了一下,得到关于信息墒的基本数据是这样的:

英文:4.03 bit
法文:3.98 bit
西班牙文:4.01 bit
俄文:4.35 bit
中文:9.65 bit

这是联合国通行的几种文字的信息墒数据。这个数据跟新闻中的数据并不一致。

但是新闻中的 4.7 / 11.3是怎么来的? 4.7 是以英文 26 个字母计算,如果每个字母出现次数平均的话,将得到 4.7 的数值;11.3 则是以汉字常用字 2500 个来计算,得到 11.3 的信息墒值,但实际上,英文字母出现的次数并不平均,还有空格的出现也会影响,所以,英文实际上是 4.03 应该靠谱一些。

这个是维基百科中的示例,估计这位记者也看了维基百科,但是没有仔细看这个数值只是为了举例说明而已,记者疏忽,并没有进一步求证学术文献。而 9.65 是当汉字个数达到 12366 的时候得到的计算值。

读到这里,可能有人一头雾水,信息墒是什么东西呢? 「墒」(Entropy)是一个物理学中的概念,初中物理就提到了热力学第二定律。至于「信息墒」这个概念则是 1948年信息论创始人香农提出来的,用来解决信息的量化度量问题。通俗一点说,单个信息是没有多少意义的, 通常要衡量一个符号或者一串符号序列(Message)的平均信息量,这个平均信息量就是信息墒。

汉字的信息墒比较高,带来的结果是,同样数量字符,汉字信息量大,但是通信传输过程中成本高、效率也比较低。

从上面的数据来看,汉字的信息墒总要比英语大,所以,同样 140 字的限制,平均一条微博的信息量要比一条 Tweet 多不少。人们常说「中文博大精深」,还是有一定道理的,倒也不是一句空话。

至于 Twitter 为什么是 140 字符限制,很多人会告诉你是因为手机短信是 140 字限制,其实啊…这样说也不太严谨,手机短信是 160 字符(7 Bit)限制,Twitter 设置为 140 字是为了留出 20 个让人用来写自己的名字。网上已经有过很多介绍我就不赘述了。如果好奇的话,大家可以去搜索一下。

知道信息墒对我们普通人有啥用呢? 这样说吧,如果有出版社找你翻译一本书,你看了一下英文书字数,然后出版社跟你签署合同的时候,实际上是按照中文字数签署的… 然后,你懂了吧?

时间关系,以上或许有写错的地方,欢迎指正。一般我如果留下一点明显的错误,大家的反馈就会非常踊跃。HOhoho

题图:漫画 China Looking Over My Shoulder.

点击{阅读原文}可以下载我们开发的一款面向大众的健康类 App 「家庭用药」,希望这款工具在特定的场景中能帮到你。使用的过程中,如果有问题,请反馈给我即可。