如何进行文本挖掘,文本挖掘的目的,web挖掘和目的
文本挖掘是新时期人们对数据的更加深入的需求的,文本挖掘的原材料是各种文本格式的文本,文字,图片,通过这些来分析相似,关键性,内部蕴涵的逻辑结构等等.文本数据多是半结构化的数据,(结构化数据是有一定规律的数据,半结构化,是这些文本有标题,作者,出版日期,类别等结构的东西,同时也有非结构的成分:内容)
文本挖掘有很多方法,基于关键字的方法,标记方法,信息提取方法.
web挖掘是对网页的挖掘,这是因为随着www的发展,
越来越多的信息在网络中,这些数据不仅对商业,对经济,
而且对政治,文化有很深远的影响. web挖掘可以分为web内容挖掘,web结构挖掘,web使用挖掘,
可以根据html语言对web进行文本挖掘从而达到web挖掘,
但是很多网页并不遵守W3C html规范.
如何通过SAS进行编程对文本,web进行挖掘
为什么我一直在说SAS的文本挖掘和web挖掘,因为这些程序我还不知道如何编写,
其他程序我都知道了,也编写过了.
这是与算法相关的了!
http://bbs.pinggu.org/thread-475227-1-1.html
[ 本帖最后由 pinky0211 于 2012-2-8 16:34 编辑 ]
页:
[1]