`
文章列表
   呵呵,只为自己玩,哈哈。    技术难度:    1)快速高效的抓取记录,并去重,和以后的增量抓取。    2)因为口碑网的联系方式是图片的,如何批量的完成OCR的转换      本文只是一个实验,不建议使用在项目当中,如下是部分代码。      涉及的开源代码:    crawler4j    AspriseOCR      资源包,把crawler4j所有jar包放在你的应用目录中。   Berkeley DB Java Edition 4.0.71 or higher fastutil 5.1.5 DSI Utilities ...
     本文章纯属个人学习笔记,持续不断的增加中...      本章主要的学习是中文分词 和两种统计词频(传统词频和TF-IDF算法 ) 的方法.        学习目的:通过N多的新闻标题 or 新闻摘要 or 新闻标签,生成基本的文本聚类,以便统计当天新闻的热点内容.      扩展:可以运用到文本分类 ,舆情分析 等.        基本的学习思路:(本思路由网友rowen指点) 1.准备文本 2.切词并统计词频 3.去掉极低频词和无意义词(如这个、那个、等等) 4.从剩余的词中提取文本特征,即最能代表文本的词 5.用空间向量表示文本,空间向量需标 ...
     客户需求:客户有多个不同的分类,包括新闻,论坛,博客,微博,视频,报刊,来自同一个数据源。      客户想要的功能,完成一个portlet的开发,可以预先设置不同的分类项,而表现出不同的输出结果。      需求延伸:二维度的分类需求,比如针对张三的新闻,李四的论坛等等。如下所示: 监测项 新闻 论坛 博客 微博 视频 报刊 张三 √ √ √ √ √ √ 李四 √ √ √ √ √ √ ... √ √ √ √ √ √           开发设计:在对应的数据库设计表:PortletMappi ...
    本文使用spring集成hibernate完成一个liferay portlet的开发,做为plugin的方式部署到liferay容器当中。提供源代码下载。     版本约束:           Spring 3.0 及以上           Hiberante 3.5           Liferay 6.0及以上    构建基制:           Ant           Maven      知识点描述:            使用Hiberante+jndi的方式,否则使用Hiberante+jdbc的话,在liferay当中部署不成功,然后再集 ...
    基于Maven管理的项目,在eclipse当中有两种调试方式,  第一种方式,  1)菜单RUN->External Tools->External Tools Configurations,如图所示:    2):Program->new launch configuration,如下图所示   说明: 其中Location是你本地maven所在的目录. Working Directory是当前项目 Arauments, 其中jetty:run是必须项,其它的根据项目需求而加入 这样建立的远程调试方式是以默认配置为基础的,其端口为8000, 3),菜 ...
 拜读了solr的部分源码,却急于弄明白solr的索引顺序和查询顺序,如下是探访结果.  所有的配置都在solr/example/solr/conf/schema.xml当中.   <!-- 如下是对text类型的处理 --> <fieldType name="text" class="solr.TextField" positionIncrementGap="100" autoGeneratePhraseQueries="true">  <!-- 索引顺序1空格2同义词3过滤 ...
对 solr1.4版本 准备  下载地址 :http://lucene.apache.org/solr      最新源码下载地址 :https://svn.apache.org/repos/asf/lucene/dev/trunk   源码使用说明 ,使用 ant构建 ,  命令 :ant test 用于跑单元测试              ant dist 用于 build,将会生成 jar和 war包              ant example 创建一个可运行的示例 .   ...
    首先,鄙视一下搜狐微博API,比起哪个新浪的日本人:Yusuke Yamamoto的还差一截呀!     没有完整的包装微博的API做为一个完整的SDK,真是让人费脑筋让人做一个测试.     话入正题: import java.io.File; import java.io.IOException; import java.net.URLEncoder; import javax.activation.MimetypesFileTypeMap; import org.apache.commons.httpclient.HttpClient; import org ...
     前两年拜读过宋鸿兵的<<货币战争>>,了解了以后的战争形态,但是留下我太多的悬念让我觉得很沉闷。      货币战争让我了解了大量的经济和金融知识,也曾经拜读了“凯恩斯”主义,对经济有了基本的了解。       货币战争倡导“金本位”的基本交换方式,但我觉得这个太不可能了。所以说货币战争只是一个揭示或者一个警示:美元靠不住!但宋鸿兵最重要的意思是:这是一场战争,中国要准备好了!这是我的理解。      同时货币战争也揭示了“美联储”这个黑暗的控制机器,我对他的了解也是从这里开始的,于是拜读了“彼得伯格俱乐部”,貌似有点联系,主要是说家庭和优等人的。 ...
   原文请参考:http://www.salientpoint.com/blog/?p=480       Google Appengine有一个Eclipse 插件,但它约束了一个特定的项目结构。由于有的时候我们不使用 Eclipse ,而使用 Maven 来管理项目,这样的好处多多,他的开发标准可以很容易的和各种IDE集成。   下载SDK        在此下载Google App for Java SDK : http://code.google.com/appengine/downloads.html ,下载 appengine-java-s ...
     Sometimes, Custom have externalized the location of their property files to a location outside of the WARs, so their settings are not wiped out by code updates.  The problem is that we have a number of property files that share the same name.      So that would like to propose that we adopt ...
      一年当中最后一天上班,其实,已经是第二个年头了.       我收拾起自己零乱的心情,做好回家过年的准备.一年了,太他妈的辛苦了.真他妈的累!       吃过午饭回到凌乱的办公桌边.啊,红包?啊,红包?我拿起的时候,感觉很轻.啊!!,不是钱,是公司老大对个人的祝福,还有一年的年终奖,过节费,祝福.........一共200 RMB!!!       为什么在工作的最后一天,还要这么捣乱呢?
    说明: YourKit Java Profiler :专业Java剖析工具:YourKit Java Profiler 发布。CPU和内存的剖析历来是很困难的,YourKit创造出了革命性的剖析工具,应用在研发和生产阶段,为专业的Java开发者带来了无比的好处。            YourKit Java Profiler是一个目前很受欢迎的Java Profiler(Java调优器).可以用来分析和监控你的应用程序的性能, 从而进行更好地调优.     下载 :http://www.cehx.com/html/52/n-12952.html,建议大家使用Rayfil ...
  Hibernate supports several third-party caching services.  After some research, the team has concluded that Ehcache would be suitable for our requirements, namely the caching of frequently-accessed, read-only tables.   Ehcache Evaluation   I spent the last couple of days evaluatin ...
    看了张开印与蓝桑坤的精彩表演.激发我的搏击精神.     这次的搏击我学习到了很多,尤其自己在生活和工作,或者是学习困境的时候,每一个中国人都应该学习的精神.     上图片吧.会表达我简单的激情. 遇到困难,我用 ...
Global site tag (gtag.js) - Google Analytics