Archive for 06月, 2008

收藏——The Easy Way to Extract Useful Text from Arbitrary HTML

星期日, 06月 29th, 2008

原文地址:http://ai-depot.com/articles/the-easy-way-to-extract-useful-text-from-arbitrary-html/

作者: alexjc

介绍了一种另类的、简单的、有效的、具有一定广泛性的提取HTML文档正文内容的方法,这种方法从统计学和机器学习的角度出发,使用文本和HTML代码的密度来决定一行文件是否应该输出,从而跨越了HTML文件的结构和标签的分析难度,实现真正文本信息的挖掘。

如文章中所示,其主要原理如下:

  1. Parse the HTML code and keep track of the number of bytes processed.
  2. Store the text output on a per-line, or per-paragraph basis.
  3. Associate with each text line the number of bytes of HTML required to describe it.
  4. Compute the text density of each line by calculating the ratio of text to bytes.
  5. Then decide if the line is part of the content by using a neural network.

作者使用了python来实现了基本的实例,并使用了FANN(Fast Artificial Neural NetWork,人工神经网络库)的机器学习算法使得结果更为成熟,思路明确,代码简单,图表清晰,很棒的文章。

csdn的赖勇浩(恋花蝶的博客)曾翻译过该文,地址是:http://blog.csdn.net/lanphaday/archive/2007/08/13/1741185.aspx

收藏——MySpace的六次重构

星期日, 06月 29th, 2008

本文来自互联网,如侵犯了您的权利,请来信告知:gsls.info@gmail.com

在每个里程碑,站点负担都会超过底层系统部分组件的最大载荷,特别是数据库和存储系统。接着,功能出现问题,用户失声尖叫。最后,技术团队必须为此修订系统策略。

虽然自2005年早期,站点账户数超过7百万后,系统架构到目前为止保持了相对稳定,但MySpace仍然在为SQL Server支持的同时连接数等方面继续攻坚,Benedetto说,”我们已经尽可能把事情做到最好”。

1.里程碑一:50万账户

按Benedetto 的说法,MySpace最初的系统很小,只有两台Web服务器和一个数据库服务器。那时使用的是Dell双CPU、4G内存的系统。

单个数据库就意味着所有数据都存储在一个地方,再由两台Web服务器分担处理用户请求的工作量。但就像MySpace后来的几次底层系统修订时 的情况一样,三服务器架构很快不堪重负。此后一个时期内,MySpace基本是通过添置更多Web服务器来对付用户暴增问题的。

但到在2004年早期,MySpace用户数增长到50万后,数据库服务器也已开始汗流浃背。

但和Web服务器不同,增加数据库可没那么简单。如果一个站点由多个数据库支持,设计者必须考虑的是,如何在保证数据一致性的前提下,让多个数据库分担压力。

在第二代架构中,MySpace运行在3个SQL Server数据库服务器上–一个为主,所有的新数据都向它提交,然后由它复制到其他两个;另两个全力向用户供给数据,用以在博客和个人资料栏显示。这 种方式在一段时间内效果很好–只要增加数据库服务器,加大硬盘,就可以应对用户数和访问量的增加。

(more…)

一五一食:椰香荔枝大虾

星期六, 06月 21st, 2008

今天夏至,当然吃荔枝。既然周末,那就换个吃法吧~

荔枝

冰镇后新鲜荔枝约二十只。

荔枝

剥皮去核后待用。

(more…)

Firefox3支持颜色管理

星期四, 06月 19th, 2008

谓色彩管理,就是在电脑屏幕上,能真实的还原现实世界的色彩的相关技术。一直以来,颜色管理都是mac的专利,windows平台虽然提供了ICM,但效果并不好,所以在vista中,我们看到了WCS,但终究不如人意。在这个广色域摄像设备、影像格式层出不穷的时代,我们在windows上看到的很多精致图片,其实颜色都是错误的。

上午收到曾蕾老师转发的email,告诉我Firefox3支持用户定制的颜色管理。用户如何用?开发者是否需要提供支持?该如何支持?好奇之下,试了一下这个功能,虽然没有认真的调整显示器的ICC,但效果的确有所差别,不过,启用了这个效果之后,firefox会变慢,也只能玩玩而已了。

要启用颜色管理的功能,首先,你要升级到Firefox3,然后通过以下两种方法之一启用。

方法1:安装颜色管理插件,现在的版本是0.4。下载时候,需要你先免费注册。安装过程比较简单,安装完成后,通过点击“工具”—“附加插件”—“Color Management”,弹出色彩管理窗口,点击“选项”按钮,然后在选择显示器的ICC文件(什么是ICC如何创建一般来说,安装了photoshop之后,安装目录下的Color/Profiles下会有ICC文件,安装了打印机之后,在系统盘的windows/system32/spool/drivers/color下会有ICC文件),重启Firefox,即可实现。在“选项”旁的“启用/禁用”按钮,可以实现颜色管理功能的开启和关闭。

color management

(more…)

开源单点登录系统

星期三, 06月 18th, 2008

用成熟的开源单点登录软件,抑或根据自己的简单需求进行开发?

目前在考察中的两个开源项目:

  • Yale CAS:http://www.ja-sig.org/products/cas/,Central Authentication Service,耶鲁大学开发的,很受欢迎。基于ticket认证,个头比较小,通过几个servlet运行于独立平台上实现服务,在耶鲁大学、加州大学、剑桥大学及香港科技大学等得到应用。
  • josso:http://www.josso.org/,各方面的评价都不错,比较成熟。支持LDAP,支持部署到PHP/ASP的应用中。

如果你知道,有更好的单点登录系统或模块——主要是指更小巧——请推荐给我,mail:gsls.info@gmail.com

更多的开源资源:http://www.open-open.com/

奇人奇词:词二首

星期日, 06月 15th, 2008

词二首
作者:王兆山

江城子.废墟下的自述

一位废墟中的地震遇难者,冥冥之中感知了地震后地面上发生的一切,遂发出如是感慨——

天灾难避死何诉,
主席唤,总理呼,
党疼国爱,声声入废墟。
十三亿人共一哭,
纵做鬼,也幸福。
银鹰战车救雏犊,
左军叔,右警姑,
民族大爱,亲历死也足。
只盼坟前有屏幕,
看奥运,同欢呼。

钗头凤

川之吟
山青秀,水碧透,
峰塌须臾河毁骤。
城飞歌,乡飘乐,
楼崩灵折,村消屯破。
祸。祸。祸。
国殇忧,八方吼,
令发京城动九州。
红旗烁,军歌越,
救川举国,不弃一个。
魄!魄!魄!

G一下吧:王兆山

想起屈原的“长太息以淹涕兮,哀民生之多难”,想起郑板桥的“衙斋卧听萧萧竹,疑是民间疾苦声”。不由得对这个现实和人生,失望无比。

(more…)

几款免费ftp服务器软件

星期二, 06月 10th, 2008

看了一下Serv-U的官网报价,有点贵了,还是享用免费的大餐吧!

Quick Easy FTP Server:一个全中文FTP服务器软件,反应迅速,操作方便,实现了包括完整的帐户管理,便捷的服务器配置,安全性设置,在线用户信息, 服务器日志, 实时数据统计等标准FTP服务器所应具有的功能。支持断点续传,具有完整的帮助系统。

FileZilla Server:一个消耗系统资源极少,却十分好用的ftp服务器软件。具有组配置、速度限制、在线用户管理等功能。推荐!

Xlight FTP Server:一个功能非常强大的ftp服务器,支持SSL、ODBC、虚拟目录、IPv6等,有独创的网络算法,体现出更强得性能。有个人、标准、专业三个版本,在30天的试用期内,会以专业版本的功能运行,试用期后, 如果没有注册,FTP服务器自动变成个人版本运行。个人版功能就弱了很多,仅支持5个并发用户。但是如果用于数据备份等工作,该系统仍然是较佳的选择。

wzdftpd:一个可以运行在Linux, Windows, FreeBSD或者OpenBSD下的开源FTP服务器端软件,同样支持SSL、IPv6、虚拟目录等功能,此外基于SITE commands的在线管理模式,会让你的命令操作更容易。强烈推荐!

GuildFTPd:官方网站是个博客,首页一堆新帖子,找不到介绍,晕倒~倒是有个Awards & Reviews,恩,会不会是觉得够牛就不用介绍呢?

EFTP:也就是Encrypted FTP ,亮点在于其突出的加密功能。个人免费版支持5个并发,也是一个用于数据备份的好工具。

CocaFTP Server:基于著名的 Internet Component Suite 组件包编写,部分程序结构改写自 SunFTP Server Project 程序源码,使用 Object Pascal 语言编写,在 Delphi 平台下编译,有较高的运行效率。

Golden FTP Server:使用简单,并不代表功能简单,足以满足你的需求。

一五一食:粽子

星期六, 06月 7th, 2008

端午节吃的当然是粽子。

可惜,不在农村,竹叶都找不到,更别说大冬叶了,糯米在超市高达5块多一斤,肉倒是很好解决的。当然,如果要做“灰水粽”(又叫碱水粽),更找不到草木灰了。所以,要自己动手,似乎是水中捞月了。

当然,食堂肯定是有粽子卖的,超市也有,此外,也有粽子的专卖店。不过,这个端午节很有口福,堂弟去肇庆的女朋友家,给我带回好几个他女朋友家包的粽子,味道真是美极了。

粽子

个头比较小,用的是竹叶包的,外面缠上的是薄薄的竹篾,很浓厚的大山感觉。

粽子

剥开竹叶,香气扑来,用料非常的足,乳白的糯米中间,可以看到粉色的花生、紫红的红豆。

粽子

粽子蒸得非常合适,用竹篾轻松切开,可以看到,里面包了一朵香菇,一块花肉,真是让人垂涎欲滴。

粽子

换个角度,与你共享。

 

mysql参考手册

星期三, 06月 4th, 2008

考虑全面转向mysql ,最好的帮助信息,当然是mysql的开发文档。

中文参考(5.1版):

更多都内容请看这里:

Prototype 1.5.1 API 参考手册

星期一, 06月 2nd, 2008

英文原版在这里下载:

www.ruby-china.cn 站长翻译了一个中文版本,点击查看: