Profilo di Liu静水铭室FotoBlogElenchiAltro Strumenti Guida

Liu Liu

Professione
http://jsms.me/
http://www.linkedin.com/in/liuliu
Foto 1 di 5

静水铭室

静水可铭,丰山须镂。
10/12/2008

Notes on Amazon S3 Price Calculation

1. A 10Mbps hosting service in China costs 50,000 RMB per year, thus, 7246 USD;

2. $7246/(10*60*60*24*365/8) = $0.0001838 USD/MiB = $0.188 USD/GiB;

3. Amazon S3 service charge $0.170 USD/GiB.

Note: it is much easier to do financial estimation based on bandwidth capacity. The calculation is rough, but amazingly corresponding.

09/12/2008

Deal Non-structured Data along with Structured Ones

Several attempts have been made to make semi-structured information more structuralize. The central concept of semantic web is about universal form of the knowledge we have. Freebase is a highly structured information base, however, Wikipedia, the world largest encyclopedia, only have semi-structured data. In CIKM 2008, the awarded paper is about extract structured information from Wikipedia database. Basically, there are more semi-structured information than full-structured one. Another problem is about the massive, poorly organized data, for instance, the photos. Flickr made a good attempt in exploit human resource to organize data. However, there are less photos are tagged. Luckily, camera manufacturer came up with EXIF which can embed combined camera sensor’s information into a photo. But time-dimension and geo-dimension is too vogue to fit in specific usage. Overall, with years efforts, we have pretty much structured or semi-structured data in hand.

The mixed data structure is organized in key-value form. An element can be described with several properties. These properties can be structured or non-structured. Here we recognize semi-structured property as non-structured, too. There are several questions remain unclear, for example, how to form a query in mixed data structure? How to slice data based on its mixed properties? In this article, we simply ignore these questions. So, we directly jump to how to fulfill a query. Once a query was made, firstly we break up the structured information. The break up process, was described in fuzzy set area for years. We used one assumption in this process: any data relation can be illustrate with similarity. It is a very big hypothesis, besides, we leave difficulties here for ourselves which I will discuss later. However, illustrate data with only similarity can simplify the problem. To fulfill query, we only have to sort based on the similarities.

I have to suggest several considerations in this process. First, in many cases, the structured data cannot be simply measured by one similarity method. For example, to fuzzy datatime field, we can only measure the time span between each other. Then, how we compare May 11, 2008 and May 14, 2006? The two date definately share some common, they are all mother’s day. The second problem is about computing time. However, the similarity matrix was very spare, thus, it should reduce some calculation time.

The idea of fuzzy is not new. It came from multi-value logic and soon adapted to computer science. The idea I suggest here is about to form query and retrieval in database where data is poorly organized.

15/11/2008

事情都开始好转

不过每次都是这样,看起来都很有希望的样子。RBM开始显露出有希望的一面,但是有个地方的sigmoid函数不是很清楚怎么回事。
11/11/2008

Rethink of artificial neural network

I discard artificial neural network idea long time ago since its over-fitting problem and the ugly expression of back-propagate algorithm. It is hard to say bp is an elegant algorithm. It directly magnifies the influence of error with the gradient, and the hidden layer structure is highly depended on empirical data.

People are easily convinced by SVM, HMM or manifolding methods. They look elegant with great mathematic skills. Other methods such as PCA and LFD, which in fact largely depends on linear hypothesis earn its credit, too. ANN method in a long time was only applied by engineers and ignored in science community.

There are some problems in existing statistic learning methods. Modern methods are expected longer execution time, in some case, it is unbearable. Applying nonlinear SVM which requires many support vectors is a painful experience. Successful applications nowadays largely rely on specific structure. In face detection application, it is a degenerated high-dimensional surface approximation. In general recognition problem, people much more rely on good "features" which is an indeterminate problem itself. Thus, nearly all the state-of-art methods in image recognition are empirical results more than formal mathematic proves.

Despite the over-fitting problem which can be tuned by carefully testing, nn algorithms have some advantages. They could be deployed in online learning problem where other statistic methods may need a holistic distribution of data for further calculation. Hence that, I am investigating some modern nn models such as RBM these days.


10/11/2008

Dr. Nash

“你知道那叫什么吗,纳什?”
“社会认可”
“对,你再有才,不被认可又有什么用呢”
“……”
05/11/2008

此事

一个月后再做评论
30/10/2008

我不能倒

HB发给我的:有一次,程晨读到一封来自浙江大学的信,是四个大学生联名写的,他们在信中写道,“史玉柱,你不能倒,你是我们这一代人的偶像,如果你倒下了,你就会辜负一代人。”

从来都是这样

三年前开始就是这样,我觉得很靠谱很VISIONARY的事情讲给美国人听他们就没感觉,现在还是。深切感受到了我不适合这个国家,但是又没有更好的地方。
29/10/2008

发现正反馈的上下界

MSN Space被封,不得不用WordPress搭了一个BLOG供国内的朋友访问:http://jsms.me/


问题在于,我们根本不知道提问的方式。

对于庞氏骗局(Ponzi Scheme) 其破灭的原因远不是人们通常所认为的“突然有个人意识到,原来他不值这么多钱啊”。在大多数情况下,人们无法意识到自己正参与庞氏骗局的赌博之中,即使意 识到,利益的巨大诱惑也会产生能说得通的道理。因此,并无法产生所谓羊群效益的简单恐慌性的抛售,即突然有一个人意识到了并进行了一个抛盘,然后市场崩溃 了。在前半生的大部分时间中,我致力于寻找将问题简单化的方法,而现在,我更倾向于将问题进行还原,而不是简单进行是非论证。在此将问题还原就会发现,任 何一个单独的抛售行为并不能产生足够大的拐点,正如我们无法准确预知第几粒沙子会导致沙丘的倒塌一样,我们也无法怪罪于任何一个单独的抛售。从短期来看, 趋势总是产生负反馈的,任何一次操作都会被淹没在平滑的向上向下曲线中。而从长期来看,趋势却是正反馈的,由于一个微小的初始差异,在市场机制的推波助澜 下,就会放大成一个巨大的上升或者下降曲线。这种特性,我们在混沌理论中已经进行过深入的探讨了。

负反馈是一个神奇的机制,它代表,大部分的事物是健壮的,对错误不敏感的。在数学中,美国人尤其喜欢这样的模型,通过多次的迭代能从无论什么样错误 的值,收敛到一个正确的结果,初始值无非影响的是收敛的快慢罢了。然而现实是可悲的,自然界的复杂让我们对负反馈系统的存在性产生了敏感的怀疑,如果说参 数中仅仅是等于1还是大于小于1可以让宇宙变得面目全非,这样方程描述的自然界哪里会存在什么负反馈。

正反馈主宰了世界,问题却是,在经济系统中确定的一些正反馈事物,例如臭名昭著的市场不会按照正反馈一路坏下去。这样就回到了原来的问题,如果否认了经验认为的“羊群效应”,那么应该致力于寻找外部因素来解释市场的反复。事实上,正反馈的上界很好找。

1.确定单个经济体中的正反馈上界

导致非理性繁荣破灭的真正原因应是资源性的枯竭。市场,无论是金融市场还是现货市场,都存在资源问题。对于金融市场,货币或者说现金和各类券都是所 谓的资源。而现货市场,货品和现金都是资源。资源性枯竭来源于两个方面,一方面是交易品的缺乏,另一方还是交易品的缺乏。在现代社会中,我们倾向于不使用 物物交易,因此就是物和现金两方面的缺乏。因此,一些很有意思的现象产生了。

资本主义的一个典型Dilemma是周期性的经济危机。而产生经济危机的原因却是生产过剩。从资源性枯竭的角度讲,由于交易物的充沛,事实上导致了 现金的缺乏,我们所说的流动性枯竭产生了。在这种情况下,当人们手中没有钱的时候,才会意识到,原来手中握的东西远不值这个价。恐慌性的抛售这时才开始。 对于30年代的现货市场,情况会更加复杂一些,因为在大量抛售的时候导致了通货膨胀。现货市场的投资远不是期货市场那样简单,现货市场投资的通常是工厂等 回报周期长的资产,因此,现货市场的大量抛售就是将工厂关闭或低价出售套现,因此,缺乏了生产,反而导致了通货膨胀。从现在看过去,才会发现,一方面,钱 更值钱了,另一方面,穷人却买不起东西了。考虑到30年代是现货市场,并且货币与黄金挂钩,那么在现代社会,由于货币可以无限贬值,是否可以避免正反馈的 上界呢。

结论看来是显然的,货币可以无限贬值的时候,当人们缺乏现金,政府给银行印刷钞票就行了,简单方便避免了流动性枯竭。事实上,人人都能感觉得到,现 代社会货币的确是每年贬值的。简单的将金融市场与现货市场区分开,理论是完美的,即使我们知道庞氏骗局是以指数增长的,只要政府以指数增长发行钞票,一切 都会很美好。然而,亿万的投资人以及上市企业将现货市场和金融市场连接了起来。股票不仅是进行交易的凭证,还给企业提供了切实的资金。次级债券也不只是银 行发行的债券,而给穷人提供了买房的贷款。话说回来,钞票也承担了现货交易的重任啊。

因此,我们仍然面对一个复杂的问题,现金是如何流到现货市场的?这决定了我们的模型如何确定正反馈的外部条件约束。由于投资者的现金流动很难掌握, 我们假设每个投资者都是大玩家,即在市场周期中将所有的资本都再投入市场。这样的假设并不算过分,如果有人要就这个假设提出反对,并说明投资者盈利的资金 对市场消费有极大影响,我乐意听取他的分析。那么我们会进一步假设,证券市场的资金都由企业消费了。同样,这样的假设也是简单不严谨的,但是并没有什么更 好的假设方法。企业通过发行和增发来套取现金。这些现金通过投资资产的方式回流到了现货市场上,资产包括不动产、耗材和员工工资。因此,在一个向好的市场 中,员工福利增加,企业支出更加激进。那么是否同时各种资产也顺应涨价?即使考虑财富的阶梯递减效益,但由于是和金融市场同比例增长,金融市场价格的指数 增长附带到了现货市场价格的指数增长(在递减中只是损失常数) 。如果市场是平滑的,那么上面的一句话是成立的,同样的道理,回顾之前说过的现金缺乏,也只是会导致价格下降而已。自由市场经济学者笃信,市场机制会保证 寻找到最有配置的方法,但是他们并没有说明市场机制调整的剧烈程度。由于市场对资源总量事实是一无所知的,价格信号波动从一头传到另一头往往花费太长时 间。于是,现货缺乏产生,剧烈价格波动开始。剧烈价格波动,终于导致了通货膨胀(这段假设在单经济体的演示中是必要的)。我们翘首以盼的经济危机以一种崭新的方式,却是过时的通货膨胀开始了。当通货膨胀开始,企业利润率受到影响,新股无人问津,我们的大玩家开始囤积现金而不是投资给企业,金融市场重新定价也终于开始。

即使在现代丑恶繁复的信用货币体系下,正反馈的上界仍然是整体的流动性缺乏(包括投资者惜投,银行惜贷),而初始于通货膨胀。然而,这套系统仍然是 美好的,它提示我们,只要政府不断发行货币,并且现货市场价格能有效反应,那么我们可以维系一个过量增长的经济体。在单一货币体制下,这或许是对的,然而 不幸的我们却生在了一个有如此多信用货币的时代。下面我将说明在多经济体中,我们可以抛开以上的市场失灵假设,仍然能导致正反馈的上界条件约束。

2.确定多经济体中的正反馈上界

在多经济体假设中,我们会说,资本通过一定的,也就是正比例于资本量的成本能够进入任何经济体的任何市场。这点假设通常都是正确的,只有在少数国 家,资本受到如此严格的控制,以至于以大量成本仍然无法进入。分析以上的金融市场假设,如果一个经济体A以指数形式印刷钞票,将导致本货币贬值,这样的贬 值直接导致企业运作成本提升。 成本提升导致企业利润率提升远没有在单一经济体中提升显著(考虑这里市场定价实际上是即时变动的!),敏锐的投资者会将货币以常数成本兑换为另一经济体B 的货币。由于自由货币市场的变化,即使在没有市场失灵的情况下,由于进出口交易,经济体B通货膨胀(主要资本流入并没有导致B经济体整体向好)和经济体A 通货紧缩的现象出现了。而在此之前,经济体A的资本市场已经达到了正反馈的上界。

3.现实经济体中的正反馈上界

在正反馈上界破灭之后谈现实经济体的上界就容易多了。现实的情况综合了多经济体假设和单一经济体假设。因为世界大部分货币仍然是盯住美元的,所以在 美国发生事实上流动性缺乏的时候,却能使用更多的钞票来保证上涨,同时将流动性输出到了亚洲国家。而最后正反馈上界的破灭恰恰来自于市场定价的调整,即是 房地产的价格下降(注意这里与单经济体的通货膨胀假设正好相反)。正反馈上界一旦达到,破灭仍然是一个正反馈过程,因此,市场不会主动调整,除非碰到外部 条件的约束。

4.何时是正反馈下界

由于正反馈下界仍然没有达到,所以带有预测性质。但是根据我们对于正反馈上界的一些知识,可以做出这样的判断:正反馈下界绝不是某人突然说“原来已 经被低估了啊”,然后大量买进,其他人也跟着买进这样简单。正反馈下界需要达到外部条件约束的苛刻要求反弹才会开始。可以预见,只有在易耗品市场出现供应 过量的时候,下界才会到达,这或许与30年代的情况正好相反。

5.总结

明白正反馈的意义有助于我们总结一些市场行为模式的动机。例如,为何短线投资者总是追涨杀跌,因为从短期来看,市场的小趋势是负反馈的,任何交易都 不能对市场产生绝对影响,而大趋势是正反馈的,总是向着一个极端运行,顺市操作更合理。而长线价值投资者为何总是逆市操作也能解释得通,市场的正反馈会得 到纠正,而纠正的结果就是另一个方向的正反馈。
26/10/2008

真不好意思

OpenCV 1.1分发了,哥们把我的DEMO放到了Samples里面,做了很多修改,还不留名字,搞得我不都好意思了。另外,SURF的Patent不知道下来没,下来了OpenCV里面的实现就该撤了。

 
Nessun elemento ancora aggiunto.