Archive for the '收藏' Category
收藏——The Easy Way to Extract Useful Text from Arbitrary HTML
星期日, 06月 29th, 2008原文地址:http://ai-depot.com/articles/the-easy-way-to-extract-useful-text-from-arbitrary-html/
作者: alexjc
介绍了一种另类的、简单的、有效的、具有一定广泛性的提取HTML文档正文内容的方法,这种方法从统计学和机器学习的角度出发,使用文本和HTML代码的密度来决定一行文件是否应该输出,从而跨越了HTML文件的结构和标签的分析难度,实现真正文本信息的挖掘。
如文章中所示,其主要原理如下:
- Parse the HTML code and keep track of the number of bytes processed.
- Store the text output on a per-line, or per-paragraph basis.
- Associate with each text line the number of bytes of HTML required to describe it.
- Compute the text density of each line by calculating the ratio of text to bytes.
- Then decide if the line is part of the content by using a neural network.
作者使用了python来实现了基本的实例,并使用了FANN(Fast Artificial Neural NetWork,人工神经网络库)的机器学习算法使得结果更为成熟,思路明确,代码简单,图表清晰,很棒的文章。
csdn的赖勇浩(恋花蝶的博客)曾翻译过该文,地址是:http://blog.csdn.net/lanphaday/archive/2007/08/13/1741185.aspx
收藏——MySpace的六次重构
星期日, 06月 29th, 2008本文来自互联网,如侵犯了您的权利,请来信告知:gsls.info@gmail.com
在每个里程碑,站点负担都会超过底层系统部分组件的最大载荷,特别是数据库和存储系统。接着,功能出现问题,用户失声尖叫。最后,技术团队必须为此修订系统策略。
虽然自2005年早期,站点账户数超过7百万后,系统架构到目前为止保持了相对稳定,但MySpace仍然在为SQL Server支持的同时连接数等方面继续攻坚,Benedetto说,”我们已经尽可能把事情做到最好”。
1.里程碑一:50万账户
按Benedetto 的说法,MySpace最初的系统很小,只有两台Web服务器和一个数据库服务器。那时使用的是Dell双CPU、4G内存的系统。
单个数据库就意味着所有数据都存储在一个地方,再由两台Web服务器分担处理用户请求的工作量。但就像MySpace后来的几次底层系统修订时 的情况一样,三服务器架构很快不堪重负。此后一个时期内,MySpace基本是通过添置更多Web服务器来对付用户暴增问题的。
但到在2004年早期,MySpace用户数增长到50万后,数据库服务器也已开始汗流浃背。
但和Web服务器不同,增加数据库可没那么简单。如果一个站点由多个数据库支持,设计者必须考虑的是,如何在保证数据一致性的前提下,让多个数据库分担压力。
在第二代架构中,MySpace运行在3个SQL Server数据库服务器上–一个为主,所有的新数据都向它提交,然后由它复制到其他两个;另两个全力向用户供给数据,用以在博客和个人资料栏显示。这 种方式在一段时间内效果很好–只要增加数据库服务器,加大硬盘,就可以应对用户数和访问量的增加。
奇人奇词:词二首
星期日, 06月 15th, 2008词二首
作者:王兆山
一位废墟中的地震遇难者,冥冥之中感知了地震后地面上发生的一切,遂发出如是感慨——
天灾难避死何诉,
主席唤,总理呼,
党疼国爱,声声入废墟。
十三亿人共一哭,
纵做鬼,也幸福。
银鹰战车救雏犊,
左军叔,右警姑,
民族大爱,亲历死也足。
只盼坟前有屏幕,
看奥运,同欢呼。
钗头凤
川之吟
山青秀,水碧透,
峰塌须臾河毁骤。
城飞歌,乡飘乐,
楼崩灵折,村消屯破。
祸。祸。祸。
国殇忧,八方吼,
令发京城动九州。
红旗烁,军歌越,
救川举国,不弃一个。
魄!魄!魄!
G一下吧:王兆山
想起屈原的“长太息以淹涕兮,哀民生之多难”,想起郑板桥的“衙斋卧听萧萧竹,疑是民间疾苦声”。不由得对这个现实和人生,失望无比。






