下午坐了5个小时的汽车,来到了汕头大学,参加一个关于图书馆应用RFID的研讨会。对于RFID这个东西在图书馆能做什么用,好不好用,该怎么用,一直以来我都不是很了解,这正是一个好的学习机会。
主讲专家有Alan Butters、景祥祜、吴晞、车俊铁、杨明华等,题目有:
汕头大学很清静,和暨大的熙熙攘攘相比,这可真是个学习、开会的好地方,当然,晚饭过后到湖边大坝走一走,也不禁的感叹,这可真是一个谈恋爱的好地方,只是,3天的会议,时间有些短了……、
晚饭时候和华南师范大学南海学院的李馆长一桌,聊起来,深切地感觉到了“2.0馆长”的魅力。原来她前段时间参加了上海图书馆2.0培训,并因此“中毒不浅”,她还总结了“以人为本、先进技术、优质服务”的十二字方针,并说只有想不到,没有做不到。在这么有冲劲的2.0馆长带领下,他们的图书馆2.0实践值得期待。
今天开始放暑假,一连两博,久旱逢甘霖啊!
话说“要干就干图书馆员”虽好,但也只能限量了。于是公版该如何设计,众说纷纭,创意无限,偶也心急难耐,真恨不得马上穿上新装,也好在偷香窃玉之时,增加点印象分。
我觉得,公版,就不要太复杂,太出位了,简简单单四个毛笔字“大旗底下”,足矣。
献上偶的书法赠送:
嘿嘿,这字还算可以吧,如果你要表扬我,那我就先接受了,正如丫枝,强烈要求加上一句他表扬我的话,不忍拒之:
不过,偶是很诚实滴,这些字,都是一个软件生成的,绿色软件,无需安装,点击这里下载之后,解压,运行主程序即可。
这个软件唯一让我不爽的是:日本人开发的,而不是中国人。
原文地址:http://ai-depot.com/articles/the-easy-way-to-extract-useful-text-from-arbitrary-html/
作者: alexjc
介绍了一种另类的、简单的、有效的、具有一定广泛性的提取HTML文档正文内容的方法,这种方法从统计学和机器学习的角度出发,使用文本和HTML代码的密度来决定一行文件是否应该输出,从而跨越了HTML文件的结构和标签的分析难度,实现真正文本信息的挖掘。
如文章中所示,其主要原理如下:
作者使用了python来实现了基本的实例,并使用了FANN(Fast Artificial Neural NetWork,人工神经网络库)的机器学习算法使得结果更为成熟,思路明确,代码简单,图表清晰,很棒的文章。
csdn的赖勇浩(恋花蝶的博客)曾翻译过该文,地址是:http://blog.csdn.net/lanphaday/archive/2007/08/13/1741185.aspx
Tags: html, python, Text mining
本文来自互联网,如侵犯了您的权利,请来信告知:gsls.info@gmail.com
在每个里程碑,站点负担都会超过底层系统部分组件的最大载荷,特别是数据库和存储系统。接着,功能出现问题,用户失声尖叫。最后,技术团队必须为此修订系统策略。
虽然自2005年早期,站点账户数超过7百万后,系统架构到目前为止保持了相对稳定,但MySpace仍然在为SQL Server支持的同时连接数等方面继续攻坚,Benedetto说,”我们已经尽可能把事情做到最好”。
1.里程碑一:50万账户
按Benedetto 的说法,MySpace最初的系统很小,只有两台Web服务器和一个数据库服务器。那时使用的是Dell双CPU、4G内存的系统。
单个数据库就意味着所有数据都存储在一个地方,再由两台Web服务器分担处理用户请求的工作量。但就像MySpace后来的几次底层系统修订时 的情况一样,三服务器架构很快不堪重负。此后一个时期内,MySpace基本是通过添置更多Web服务器来对付用户暴增问题的。
但到在2004年早期,MySpace用户数增长到50万后,数据库服务器也已开始汗流浃背。
但和Web服务器不同,增加数据库可没那么简单。如果一个站点由多个数据库支持,设计者必须考虑的是,如何在保证数据一致性的前提下,让多个数据库分担压力。
在第二代架构中,MySpace运行在3个SQL Server数据库服务器上–一个为主,所有的新数据都向它提交,然后由它复制到其他两个;另两个全力向用户供给数据,用以在博客和个人资料栏显示。这 种方式在一段时间内效果很好–只要增加数据库服务器,加大硬盘,就可以应对用户数和访问量的增加。