海量信息的收集与过滤

编者:虽然是[童牧晨玄]博客里的一篇旧文章,不过在看到的时候还是解决了自己现在的一些困惑,面对越来越多的信息,筛选、判断比大量的阅读更重要。

信息是当今时代的货币,处理海量信息的能力决定每个人的成效。处理的第一步,是要选定关心的领域,进行信息收集。其实我觉得“收集”这个词未必准确,“收集”有主动出击的意思,但我认为,最好是能让信息自动出现在你面前。RSS订阅,电子邮件,豆瓣友邻都有这样的功能。例如我感兴趣的领域包括计算机科学,数学,心理学,人工智能。我会通过RSS订阅相关的博客,我在豆瓣上关注有共同兴趣的牛人,而我的电子邮件可以收到一些邮件列表信息或是电子杂志(如Toplanguage讨论组,新语丝)。这样,我不必主动去“收集”信息,而是让信息自动聚合到我眼前,由我定期检阅,这样的好处当然是省时间,而且便于以自己的节奏进行信息批处理。

收集信息倒不难,难的是怎样过滤信息。这里有一个前提假设,就是得到准确的信息比不准确的信息好,这点我想只要不是发神经的人,不会不同意。暂且不论信息质量的高低,就是得到准确的信息很多情况下都不是那么容易的。拿政治信息来说,网民搜集资料多方猜测,可能到最后都是意淫,但在上面的人只要想了解就很容易得到准确的信息(至于他知道信息后采取什么行动是另一回事)。Google到底有没有被中国黑客入侵?我们根本不清楚,但上面的人一定有准确的信息。在任何一个领域中,处于领导地位的人都很容易获得他所需要的信息,这些人我称为信息中心。

因此,要更高效地得到准确的信息,只有两种方法,一是近量与信息中心接近。比如你想多了解金融信息,就认识一些在这个行业工作的人,而不是光靠新闻媒体这种滞后又不一定准确的信息。另一个方面就是和与你有同样需求的人结成圈子,比如大量股民,这样通过P2P的方式,使得信息可以大量流通,缺点是垃圾信息太多,必须花心思选择信息质量高的圈子。

没有一种方法能保证你获得是准确而又高质量的信息,以上方法只能增加你获得准确信息的概率。最终对信息的筛选还需要你的判断力。但好的方法可以极大减少你的工作量,使得到你眼前的信息已经是经过筛选的了,比如Google搜索的结果,事实上就是根据到这个页面的链接多少来排序的,于是呈现的结果本身就是一个已筛选的结果。又比如想学习某个主题,可以看看某个牛人推荐的书籍,这便是牛人已帮你预筛选的信息了。

上面说到,由于信息不对称,有些信息只对这个领域的中心人物公开。但有一个领域例外,就是学术界,这个领域是以分享知识为宗旨的,所以所有的信息都是公开的,你可以很容易接近信息中心,里面的信息质量也非常高(如科学实验大都设计得非常严密),善用学术领域的研究成果我认为是最大的信息杠杆,而且学术界已经帮你筛选信息了,比如设计不严密的实验无法在有头有脸的学术期刊上发表。困难的是学术文章普通大众未必看得懂,但科普杂志和学者的博客、书籍也差不到哪去。所以我强烈建议大家有空多看[科学松鼠会]和《环球科学》杂志,里面的信息不但质量高,也和我们的生活密切相关。比如,通过阅读这些信息,你能很清楚地知道人类医学对各种疾病的攻克情况,而且你能确定这些信息是准确的,这样,你就不会被江湖上的神医和电视上的神药忽悠。

以上所说的方法等于是对所收集信息的第一轮筛选,其实这很重要,经过第一轮筛选后信息已经被精简了90%,我的Google Reader上每天新条目不超过20条,且其中的50%都能让我受益。之后的第二轮筛选只能靠你个人的判断力了。

判断力这东西说来含糊,说白了就是你要有一个框架,让你能判断信息的真伪和重要性。框架就是你判断事物的一些抽象的规则,正是因为抽象,所以它们简洁而适用范围又广,比如为什么我不会被非法传销骗?因为我有一些简单的经济学原理知识,如果一个行业门槛很低,又宣称加入进来的人收入很高,那这行业如果不是夸大宣传,就是有非法收入。于是如果这个组织进一步让你交“会员费”之类玩意的时候你就得格外小心。这个“投入很少收益又奇高”的规则可以帮助我筛选很多信息。比如24小时学会XXX之类的书,以及所有速成类的广告。

我的另一条判断规则,就是好书基本上每页都好,烂书基本上每页都烂,好的作者基本写出来的都是好东西,反之亦然。因此如果一个信息源一直产出垃圾信息,那你也别对它有指望了。比如各类伪科学作品。

我个人主要关注信息的准确度和质量,并不太关注信息的新鲜度和频率,比如刘未鹏的BLOG更新频率很低,但每篇都很有价值。对我来说,一个信息延迟一些知道是没什么损失的,因为我现在的主轴是阅读经典。这就是为什么我不用twitter和校内(偶尔还是会看看朋友们的近况),因为它们的信息质量和准确度太低了。其实对大部分人来说,信息的新鲜度都不是那么重要。

转载文章 来自:童牧晨玄的工作坊

One thought on “海量信息的收集与过滤

Comments are closed.