关注于商业智能,报表工具,ETL及相关应用软件和技术的博客

生活点滴的文章

数据挖掘是什么?

众所周之,数据挖掘(DW)是商业智能(BI)里相当重要的一部分。那数据挖掘到底是什么呢,本文将对此探讨一下。

人们在日常生活中经常会遇到这样的情况:超市的经营者希望将经常被同时购买的商品放在一起,以增加销售;保险公司想知道购买保险的客户一般具有哪些特征;医学研 究人员希望从已有的成千上万份病历中找出患某种疾病的病人的共同特征,从而为治愈这种疾病提供一些帮助。

对于以上问题,现有信息管理系统中的数据分析工具无法给出答案。因为无论是查询、统计还是报表,其处理方式都是对指定的数据进行简单的数字处理,而不能对这些数据所包含的内在信息进行提取。随着信息管理系统的广泛应用和数据量激增,人们希望能够提供更高层次的数据分析功能,从而更好地对决策或科研工作提供支持。

正是为了满足这种要求,从大量数据中提取出隐藏在其中的有用信息,将机器学习应用于大型数据库的数据挖掘(Data Mining)技术得到了长足的发展。

数据挖掘(DW),也可以称为数据库中的知识发现(Knowledge Discover Database,KDD),是从大量数据中提取出可信、新颖、有效并能被人理解的模式的高级处理过程。

数据库中的知识发现是一个多步骤的处理过程,一般分为:

问题定义了解相关领域的有关情况,熟悉背景知识,弄清用户要求。

数据提取根据要求从数据库中提取相关的数据。
数据预处理主要对前一阶段产生的数据进行再加工,检查数据的完整性及数据的一致性,对其中的噪音数据进行处理,对丢失的数据进行填补。
数据挖掘运用选定的知识发现算法,从数据中提取出用户所需要的知识,这些知识可以用一种特定的方式表示或使用一些常用的表示方式。
知识评估将发现的知识以用户能了解的方式呈现,根据需要对知识发现过程中的某些处理阶段进行优化,直到满足要求。

由此可见,数据挖掘只是数据库中知识发现的一个步骤,但又是最重要的一步。因此,往往可以不加区别地使用KDD和数据挖掘。一般在研究领域被称作数据库中知识发现的,在工程领域则称之为数据挖掘。

常用SQL语句集锦

语 句 功 能
–数据操作
  SELECT –从数据库表中检索数据行和列
  INSERT –向数据库表添加新数据行
  DELETE –从数据库表中删除数据行
  UPDATE –更新数据库表中的数据
–数据定义
  CREATE TABLE –创建一个数据库表
  DROP TABLE –从数据库中删除表
  ALTER TABLE –修改数据库表结构
  CREATE VIEW –创建一个视图
  DROP VIEW –从数据库中删除视图
  CREATE INDEX –为数据库表创建一个索引
  DROP INDEX –从数据库中删除索引
  CREATE PROCEDURE –创建一个存储过程
  DROP PROCEDURE –从数据库中删除存储过程
  CREATE TRIGGER –创建一个触发器
  DROP TRIGGER –从数据库中删除触发器
  CREATE SCHEMA –向数据库添加一个新模式
  DROP SCHEMA –从数据库中删除一个模式
  CREATE DOMAIN –创建一个数据值域
  ALTER DOMAIN –改变域定义
  DROP DOMAIN –从数据库中删除一个域
–数据控制
  GRANT –授予用户访问权限
  DENY –拒绝用户访问
  REVOKE –解除用户访问权限
–事务控制
  COMMIT –结束当前事务
  ROLLBACK –中止当前事务
  SET TRANSACTION –定义当前事务数据访问特征
–程序化SQL
  DECLARE –为查询设定游标
  EXPLAN –为查询描述数据访问计划
  OPEN –检索查询结果打开一个游标
  FETCH –检索一行查询结果
  CLOSE –关闭游标
  PREPARE –为动态执行准备SQL 语句
  EXECUTE –动态地执行SQL 语句
  DESCRIBE –描述准备好的查询
—局部变量
  declare @id char(10)
  –set @id = ‘10010001′
  select @id = ‘10010001′
—全局变量
  —必须以@@开头
  –IF ELSE  
declare @x int @y int @z int
  select @x = 1 @y = 2 @z=3
  if @x > @y
  print ‘x > y’ –打印字符串’x > y’
  else if @y > @z
  print ‘y > z’
  else print ‘z > y’
  –CASE  
use pangu
  update employee
  set e_wage =
  case
  when job_level = ’1’ then e_wage*1.08
  when job_level = ’2’ then e_wage*1.07
  when job_level = ’3’ then e_wage*1.06
  else e_wage*1.05
  end
  –WHILE CONTINUE BREAK  
declare @x int @y int @c int
  select @x = 1 @y=1
  while @x < 3
  begin
  print @x –打印变量x 的值
  while @y < 3
  begin
  select @c = 100*@x + @y
  print @c –打印变量c 的值
  select @y = @y + 1
  end
  select @x = @x + 1
  select @y = 1
  end
–WAITFOR
  –例 等待1 小时2 分零3 秒后才执行SELECT 语句 
waitfor delay ’01:02:03’
  select * from employee
  –例 等到晚上11 点零8 分后才执行SELECT 语句  
waitfor time ’23:08:00’
  select * from employee
  ***SELECT*** 
select *(列名) from table_name(表名) where column_name operator value
  ex:(宿主)
  select * from stock_information where stockid = str(nid)
  stockname = ’str_name’
  stockname like ‘% find this %’
  stockname like ‘[a-zA-Z]%’ ——— ([]指定值的范围)
  stockname like ‘[^F-M]%’ ——— (^排除指定范围)
  ——— 只能在使用like关键字的where子句中使用通配符)
  or stockpath = ’stock_path’
  or stocknumber < 1000
  and stockindex = 24
  not stock*** = ‘man’
  stocknumber between 20 and 100
  stocknumber in(10,20,30)
  order by stockid desc(asc) ——— 排序,desc-降序,asc-升序
  order by 1,2 ——— by列号
  stockname = (select stockname from stock_information where stockid = 4)
  ——— 子查询
  ——— 除非能确保内层select只返回一个行的值,
  ——— 否则应在外层where子句中用一个in限定符 
select distinct column_name form table_name ——— distinct指定检索独有的列值,不重复
  select stocknumber ,stocknumber + 10 = stocknumber + 10 from table_name
  select stockname , stocknumber = count(*) from table_name group by stockname
  ——— group by 将表按行分组,指定列中有相同的值  
having count(*) = 2 ——— having选定指定的组
  select *
  from table1, table2
  where table1.id *= table2.id ——– 左外部连接,table1中有的而table2中没有得以null表示
  table1.id =* table2.id ——– 右外部连接
  select stockname from table1
  union [all] —– union合并查询结果集,all-保留重复行
  select stockname from table2
***insert***  
insert into table_name (Stock_name,Stock_number) value (xxx,xxxx)
  value (select Stockname , Stocknumber from Stock_table2)—value为select语句
  ***update***  
update table_name set Stockname = xxx [where Stockid = 3]
  Stockname = default
  Stockname = null
  Stocknumber = Stockname + 4
***delete***  
        delete from table_name where Stockid = 3
  truncate table_name ———– 删除表中所有行,仍保持表的完整性
  drop table table_name ————— 完全删除表
***alter table*** — 修改数据库表结构  
        alter table database.owner.table_name add column_name char(2) null …..
  sp_help table_name —- 显示表已有特征
  create table table_name (name char(20), age smallint, lname varchar(30))
  insert into table_name select ……… —– 实现删除列的方法(创建新表)
  alter table table_name drop constraint Stockname_default —- 删除Stockname的default约束
***function(/*常用函数*/)***
  —-统计函数—-
  ***G –求平均值
  COUNT –统计数目
  MAX –求最大值
  MIN –求最小值
  SUM –求和
  –***G 
use pangu
  select avg(e_wage) as dept_avgWage
  from employee
  group by dept_id
–MAX
  –求工资最高的员工姓名
use pangu
  select e_name
  from employee
  where e_wage =
  (select max(e_wage)
  from employee)
  –STDEV()
  –STDEV()函数返回表达式中所有数据的标准差
  –STDEVP()
  –STDEVP()函数返回总体标准差
  –VAR()
  –VAR()函数返回表达式中所有值的统计变异数
  –VARP()
  –VARP()函数返回总体变异数
  —-算术函数—-
  /***三角函数***/
  SIN(float_expression) –返回以弧度表示的角的正弦
  COS(float_expression) –返回以弧度表示的角的余弦
  TAN(float_expression) –返回以弧度表示的角的正切
  COT(float_expression) –返回以弧度表示的角的余切
/***反三角函数***/
  ASIN(float_expression) –返回正弦是FLOAT 值的以弧度表示的角
  ACOS(float_expression) –返回余弦是FLOAT 值的以弧度表示的角
  ATAN(float_expression) –返回正切是FLOAT 值的以弧度表示的角
  ATAN2(float_expression1,float_expression2)
  –返回正切是float_expression1 /float_expres-sion2的以弧度表示的角
  DEGREES(numeric_expression)
  –把弧度转换为角度返回与表达式相同的数据类型可为
  –INTEGER/MONEY/REAL/FLOAT 类型
  RADIANS(numeric_expression) –把角度转换为弧度返回与表达式相同的数据类型可为
  –INTEGER/MONEY/REAL/FLOAT 类型
  EXP(float_expression) –返回表达式的指数值
  LOG(float_expression) –返回表达式的自然对数值
  LOG10(float_expression)–返回表达式的以10 为底的对数值
  SQRT(float_expression) –返回表达式的平方根
  /***取近似值函数***/
  CEILING(numeric_expression) –返回>=表达式的最小整数返回的数据类型与表达式相同可为
  –INTEGER/MONEY/REAL/FLOAT 类型
  FLOOR(numeric_expression) –返回<=表达式的最小整数返回的数据类型与表达式相同可为
  –INTEGER/MONEY/REAL/FLOAT 类型
  ROUND(numeric_expression) –返回以integer_expression 为精度的四舍五入值返回的数据
  –类型与表达式相同可为INTEGER/MONEY/REAL/FLOAT 类型
  ABS(numeric_expression) –返回表达式的绝对值返回的数据类型与表达式相同可为
  –INTEGER/MONEY/REAL/FLOAT 类型
  SIGN(numeric_expression) –测试参数的正负号返回0 零值1 正数或-1 负数返回的数据类型
  –与表达式相同可为INTEGER/MONEY/REAL/FLOAT 类型
  PI() –返回值为π 即3.1415926535897936
  RAND([integer_expression]) –用任选的[integer_expression]做种子值得出0-1 间的随机浮点数
—-字符串函数—-
  ASCII() –函数返回字符表达式最左端字符的ASCII 码值
  CHAR() –函数用于将ASCII 码转换为字符
  –如果没有输入0 ~ 255 之间的ASCII 码值CHAR 函数会返回一个NULL 值
  LOWER() –函数把字符串全部转换为小写
  UPPER() –函数把字符串全部转换为大写
  STR() –函数把数值型数据转换为字符型数据
  LTRIM() –函数把字符串头部的空格去掉
  RTRIM() –函数把字符串尾部的空格去掉
  LEFT(),RIGHT(),SUBSTRING() –函数返回部分字符串
  CHARINDEX(),PATINDEX() –函数返回字符串中某个指定的子串出现的开始位置
  SOUNDEX() –函数返回一个四位字符码
  –SOUNDEX函数可用来查找声音相似的字符串但SOUNDEX函数对数字和汉字均只返回0 值
  DIFFERENCE() –函数返回由SOUNDEX 函数返回的两个字符表达式的值的差异
  –0 两个SOUNDEX 函数返回值的第一个字符不同
  –1 两个SOUNDEX 函数返回值的第一个字符相同
  –2 两个SOUNDEX 函数返回值的第一二个字符相同
  –3 两个SOUNDEX 函数返回值的第一二三个字符相同
  –4 两个SOUNDEX 函数返回值完全相同
QUOTENAME() –函数返回被特定字符括起来的字符串 
select quotename(’abc’, ‘{’) quotename(’abc’)
  运行结果如下
  ———————————-{
  {abc} [abc]*/
  REPLICATE() –函数返回一个重复character_expression 指定次数的字符串
  以下是引用片段: 
select replicate(’abc’, 3) replicate( ‘abc’, -2)
  运行结果如下
  ———– ———–
  abcabcabc NULL*/
  REVERSE() –函数将指定的字符串的字符排列顺序颠倒
  REPLACE() –函数返回被替换了指定子串的字符串
  /*select replace(’abc123g’, ‘123′, ‘def’)
  运行结果如下
  ———– ———–
  abcdefg*/
  SPACE() –函数返回一个有指定长度的空白字符串
  STUFF() –函数用另一子串替换字符串指定位置长度的子串
 —-数据类型转换函数—-
  CAST() 函数语法如下 
CAST() ( AS [ length ])
  CONVERT() 函数语法如下 
CONVERT() ([ length ], [, style])
 
select cast(100+99 as char) convert(varchar(12), getdate())
  运行结果如下
  —————————— ————
  199 Jan 15 2000
  —-日期函数—-
  DAY() –函数返回date_expression 中的日期值
  MONTH() –函数返回date_expression 中的月份值
  YEAR() –函数返回date_expression 中的年份值
  DATEADD( , ,)
  –函数返回指定日期date 加上指定的额外日期间隔number 产生的新日期
  DATEDIFF( , ,)
  –函数返回两个指定日期在datepart 方面的不同之处
  DATENAME( , ) –函数以字符串的形式返回日期的指定部分
  DATEPART( , ) –函数以整数值的形式返回日期的指定部分
  GETDATE() –函数以DATETIME 的缺省格式返回系统当前的日期和时间
—-系统函数—-
  APP_NAME() –函数返回当前执行的应用程序的名称
  COALESCE() –函数返回众多表达式中第一个非NULL 表达式的值
  COL_LENGTH(<’table_name’>, <’column_name’>) –函数返回表中指定字段的长度值
  COL_NAME(, ) –函数返回表中指定字段的名称即列名
  DATALENGTH() –函数返回数据表达式的数据的实际长度
  DB_ID([’database_name’]) –函数返回数据库的编号
  DB_NAME(database_id) –函数返回数据库的名称
  HOST_ID() –函数返回服务器端计算机的名称
  HOST_NAME() –函数返回服务器端计算机的名称
  IDENTITY([, seed increment]) [AS column_name])
  –IDENTITY() 函数只在SELECT INTO 语句中使用用于插入一个identity column列到新表中 
/*select identity(int, 1, 1) as column_name
  into newtable
  from oldtable*/
  ISDATE() –函数判断所给定的表达式是否为合理日期
  ISNULL(, ) –函数将表达式中的NULL 值用指定值替换
  ISNUMERIC() –函数判断所给定的表达式是否为合理的数值
  NEWID() –函数返回一个UNIQUEIDENTIFIER 类型的数值
  NULLIF(, )
  –NULLIF 函数在expression1 与expression2 相等时返回NULL 值若不相等时则返回expression1 的值
sql中的保留字
  action add aggregate all
  alter after and as
  asc avg avg_row_length auto_increment
  between bigint bit binary
  blob bool both by
  cascade case char character
  change check checksum column
  columns comment constraint create
  cross current_date current_time current_timestamp
  data database databases date
  datetime day day_hour day_minute
  day_second dayofmonth dayofweek dayofyear
  dec decimal default delayed
  delay_key_write delete desc describe
  distinct distinctrow double drop
  end else escape escaped
  enclosed enum explain exists
  fields file first float
  float4 float8 flush foreign
  from for full function
  global grant grants group
  having heap high_priority hour
  hour_minute hour_second hosts identified
  ignore in index infile
  inner insert insert_id int
  integer interval int1 int2
  int3 int4 int8 into
  if is isam join
  key keys kill last_insert_id
  leading left length like
  lines limit load local
  lock logs long longblob
  longtext low_priority max max_rows
  match mediumblob mediumtext mediumint
  middleint min_rows minute minute_second
  modify month monthname myisam
natural numeric no not
  null on optimize option
  optionally or order outer
  outfile pack_keys partial password
  precision primary procedure process
  processlist privileges read real
  references reload regexp rename
  replace restrict returns revoke
  rlike row rows second
  select set show shutdown
  smallint soname sql_big_tables sql_big_selects
  sql_low_priority_updates sql_log_off sql_log_update sql_select_limit
  sql_small_result sql_big_result sql_warnings straight_join
  starting status string table
  tables temporary terminated text
  then time timestamp tinyblob
  tinytext tinyint trailing to
  type use using unique
  unlock unsigned update usage
  values varchar variables varying
  varbinary with write when
  where year year_month zerofill

抗灾救灾,众“支”成城

爱心大地震

    2008年对要大步发展的中国而言的确是多灾多难的一年,股票下跌、手足口病、藏独等事件已经让08年变得不大稳定了,突如其来的汶川大地震又一下夺取了一万四千多条的性命,而且这个数字还在不断上升,关于地震的情况,各媒体也是24小时滚动不断的播出,向关注汶川大地震的人们传达最新消息。

    我听过这么一个故事,一位母亲的孩子在四川工作,地震后的两三天时间里她打电话一直打不通,当偶尔有一次突然接通了孩子的电话,听到了她孩子的声音,她什么也说不出了,竟大哭起来。

    汶川大地震牵动的不止只是灾区亲人的心,更是牵动了整个中华民族的心,这些日子社会各界也纷纷献出爱心,体育娱乐明星都做了一些不错的带头作用,但这应该是整个社会的责任,如果一人捐一元钱整个华人就能捐13亿,让我们齐心协力共度难关。天无情,人有情,让我们各自尽自己的一份力,并调动身边人的热情,为自己的同胞们做出自己的贡献吧!

FreeFeet震惊中国

    FreeFeet:贫着我们自由的双脚,走我们想走的路,有一颗年轻心就没有什么不可能的! 

    从开始筹划到现在,Blog算是正式搭建成了,并开始投入使用,希望通过这个平台能结交更多志趣相投的朋友,让我们在这里自由畅谈。

    我发现我的Blog开的不是时候,刚一开博全国尽然有那么多地方感到有地震,不敢想象这次地震的破坏有多大,所以我想向地震严重的受灾地区表示同情,并会用自己的方式为受灾地区做点事情。