查看: 38702|回复: 53

[精华] 写一函数,准确地判断字段是否含有汉字或者提取汉字等

[复制链接]
论坛徽章:
115
生肖徽章:狗
日期:2007-01-06 21:14:12马上有车
日期:2014-03-06 16:45:08马上加薪
日期:2014-05-09 12:27:582014年世界杯参赛球队: 英格兰
日期:2014-07-03 13:10:44青年奥林匹克运动会-竞技体操
日期:2014-09-10 15:30:57马上有钱
日期:2014-10-31 13:56:48美羊羊
日期:2015-03-04 14:48:582015年新春福章
日期:2015-03-06 11:57:31懒羊羊
日期:2015-04-23 19:26:10金牛座
日期:2015-09-17 08:21:44
跳转到指定楼层
1#
发表于 2007-9-5 19:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
本帖最后由 atgc 于 2014-1-4 15:11 编辑

写了个新的函数,可以识别GBK字符集
http://www.itpub.net/forum.php?mod=viewthread&tid=1839026&page=1&extra=#pid22039711

从表里提取汉字, 需要考虑字符集, 不同的字符集汉字的编码有所不同
这里以GB2312为例, 写一函数准确地从表里提取简体汉字.

假设数据库字符集编码是GB2312, 环境变量(注册表或其它)的字符集也是GB2312编码
并且保存到表里的汉字也都是GB2312编码的

那么也就是汉字是双字节的,且简体汉字的编码范围是
B0A1 - F7FE
换算成10进制就是
B0  A1    F7  FE
176,161 - 247,254

我们先看一下asciistr函数的定义
Non-ASCII characters are converted to the form \xxxx, where xxxx represents a UTF-16 code unit.
但是这并不表示以 "\" 开始的字符就是汉字了

举例如下
SQL> select * from test;

NAME
--------------------
,啊OO10哈
你好aa
大家好aa/
☆大海123
★ABC

这里第5条记录有一个实心的五角星
然后用asciistr函数转换一下试试
SQL> select name,asciistr(name) from test;

NAME                 ASCIISTR(NAME)
-------------------- ----------------------
,啊OO10哈            ,\554AOO10\54C8
你好aa               \4F60\597Daa
大家好aa/            \5927\5BB6\597Daa/
☆大海123            \2606\5927\6D77123
★ABC                \2605ABC

我们看到最后一条记录的实心五角星也是 "\"开头的
此时我们就不能用asciistr(字段)是否存在 "\" 来判断是否含有汉字了.

我的函数如下,基本思路是判断字符的编码是否在GB2312规定的汉字编码范围之内
[PHP]
create or replace function get_chinese(p_name in varchar2) return varchar2
as
  v_code     varchar2(30000) := '';
  v_chinese  varchar2(4000)  := '';
  v_comma    pls_integer;
  v_code_q   pls_integer;
  v_code_w   pls_integer;
begin
  if p_name is not null then
     select replace(substrb(dump(p_name,1010),instrb(dump(p_name,1010),'ZHS16GBK:')),'ZHS16GBK: ','') into v_code from dual where rownum=1;
     for i in 1..length(p_name) loop
         if lengthb(substr(p_name,i,1))=2 then
            v_comma  := instrb(v_code,',');
            v_code_q := to_number(substrb(v_code,1,v_comma-1));
            v_code_w := to_number(substrb(v_code,v_comma+1,abs(instrb(v_code,',',1,2)-v_comma-1)));
            if v_code_q>=176 and v_code_q<=247 and v_code_w>=161 and v_code_w<=254 then
               v_chinese := v_chinese||substr(p_name,i,1);
            end if;
            v_code := ltrim(v_code,'1234567890');
            v_code := ltrim(v_code,',');
         end if;
         v_code := ltrim(v_code,'1234567890');
         v_code := ltrim(v_code,',');
     end loop;
     return v_chinese;
  else
     return '';
  end if;
end;
/
.
[/PHP]

好,现在来执行一些语句
SQL> select * from test;

NAME
--------------------
,啊OO10哈
你好aa
大家好aa/
☆大海123
★ABC

5 rows selected.

1. 列出有汉字的记录
SQL> select name from test where length(get_chinese(name))>0;

NAME
--------------------
,啊OO10哈
你好aa
大家好aa/
☆大海123

4 rows selected.

2. 列出有汉字的记录,并且只列出汉字

SQL> select get_chinese(name) from test where length(get_chinese(name))>0;

GET_CHINESE(NAME)
---------------------------------------------------------------------------
啊哈
你好
大家好
大海

4 rows selected.


需要说明的是GB2312共有6763个汉字,即72*94-5=6763
我这里是计算72*94,没有减去那5个,那五个是空的。等查到了再减去
============

改写这个函数,可以提取非汉字或者汉字
该函数有两个参数,第一个表示要提取的字符串,第二个是1,表示提取汉字,是非1,表示提取非汉字

[PHP]
create or replace function get_chinese
(
  p_name    in varchar2,
  p_chinese in varchar2
) return varchar2
as
  v_code         varchar2(30000) := '';
  v_chinese      varchar2(4000)  := '';
  v_non_chinese  varchar2(4000)  := '';
  v_comma        pls_integer;
  v_code_q       pls_integer;
  v_code_w       pls_integer;
begin
  if p_name is not null then
  select replace(substrb(dump(p_name,1010),instrb(dump(p_name,1010),'ZHS16GBK:')),'ZHS16GBK: ','') into v_code from dual where rownum=1;
  for i in 1..length(p_name) loop
      if lengthb(substr(p_name,i,1))=2 then
         v_comma  := instrb(v_code,',');
         v_code_q := to_number(substrb(v_code,1,v_comma-1));
         v_code_w := to_number(substrb(v_code,v_comma+1,abs(instrb(v_code,',',1,2)-v_comma-1)));
         if v_code_q>=176 and v_code_q<=247 and v_code_w>=161 and v_code_w<=254 then
            v_chinese := v_chinese||substr(p_name,i,1);
         else
            v_non_chinese := v_non_chinese||substr(p_name,i,1);
         end if;
         v_code := ltrim(v_code,'1234567890');
         v_code := ltrim(v_code,',');
      else
         v_non_chinese := v_non_chinese||substr(p_name,i,1);      
      end if;
      v_code := ltrim(v_code,'1234567890');
      v_code := ltrim(v_code,',');
  end loop;
  if p_chinese = '1' then
     return v_chinese;
  else
     return v_non_chinese;
  end if;
  else
     return '';
  end if;
end;
/

.
[/PHP]
SQL> select * from a;

NAME
--------------------
我们啊、
他(艾呀)是★们
他的\啊@

SQL> select get_chinese(name,1) from a;

GET_CHINESE(NAME,1)
-----------------------------------------
我们啊
他艾呀是们
他的啊

SQL> select get_chinese(name,0) from a;

GET_CHINESE(NAME,0)
-----------------------------------------

()★
\@

SQL>
论坛徽章:
59
狮子座
日期:2016-03-26 13:35:402013年新春福章
日期:2013-02-25 14:51:24双黄蛋
日期:2013-02-25 11:06:15ITPUB 11周年纪念徽章
日期:2012-10-09 18:06:20灰彻蛋
日期:2012-04-25 13:19:33紫蛋头
日期:2012-03-14 11:16:09最佳人气徽章
日期:2012-03-13 17:39:18玉石琵琶
日期:2012-02-21 15:04:38鲜花蛋
日期:2011-11-30 14:13:01ITPUB十周年纪念徽章
日期:2011-11-01 16:21:15
2#
发表于 2007-9-5 19:46 | 只看该作者
强人啊,顶!

使用道具 举报

回复
论坛徽章:
33
红孩儿
日期:2006-04-13 07:34:50ITPUB十周年纪念徽章
日期:2011-11-01 16:19:412012新春纪念徽章
日期:2012-01-04 11:49:54玉石琵琶
日期:2012-02-21 15:04:38奥运会纪念徽章:射击
日期:2012-08-10 11:01:09ITPUB 11周年纪念徽章
日期:2012-10-09 18:05:07
3#
发表于 2007-9-5 20:04 | 只看该作者
厉害!

使用道具 举报

回复
论坛徽章:
6
授权会员
日期:2005-10-30 17:05:33ITPUB元老
日期:2006-09-01 15:30:45参与2007年甲骨文全球大会(中国上海)纪念
日期:2007-08-06 15:19:01会员2007贡献徽章
日期:2007-09-26 18:42:10
4#
发表于 2007-9-5 20:57 | 只看该作者

不错

不错

使用道具 举报

回复
论坛徽章:
314
行业板块每日发贴之星
日期:2012-07-12 18:47:29双黄蛋
日期:2011-08-12 17:31:04咸鸭蛋
日期:2011-08-18 15:13:51迷宫蛋
日期:2011-08-18 16:58:25紫蛋头
日期:2011-08-31 10:57:28ITPUB十周年纪念徽章
日期:2011-09-27 16:30:47蜘蛛蛋
日期:2011-10-20 15:51:25迷宫蛋
日期:2011-10-29 11:12:59ITPUB十周年纪念徽章
日期:2011-11-01 16:19:41鲜花蛋
日期:2011-11-09 20:33:30
5#
发表于 2007-9-6 00:25 | 只看该作者

楼主:这句话哪里看到的?说个出处。

那么也就是汉字是双字节的,且简体汉字的编码范围是
B0A1 - F7FE

使用道具 举报

回复
论坛徽章:
139
2009日食纪念
日期:2009-07-22 09:30:00ITPUB8周年纪念徽章
日期:2009-09-27 10:21:21祖国60周年纪念徽章
日期:2009-10-09 08:28:002010年世界杯参赛球队:葡萄牙
日期:2010-01-18 09:23:302010年世界杯参赛球队:意大利
日期:2010-01-21 07:30:192010年世界杯参赛球队:南非
日期:2010-01-22 09:48:242010年世界杯参赛球队:加纳
日期:2010-02-13 16:34:422010新春纪念徽章
日期:2010-03-01 11:04:572010年世界杯参赛球队:斯洛伐克
日期:2010-05-21 11:24:312010年世界杯参赛球队:塞尔维亚
日期:2010-06-30 13:43:14
6#
发表于 2007-9-6 08:19 | 只看该作者

Re: 楼主:这句话哪里看到的?说个出处。

最初由 ZALBB 发布
[B]那么也就是汉字是双字节的,且简体汉字的编码范围是
B0A1 - F7FE [/B]

http://www.knowsky.com/resource/gb2312tbl.htm

使用道具 举报

回复
论坛徽章:
314
行业板块每日发贴之星
日期:2012-07-12 18:47:29双黄蛋
日期:2011-08-12 17:31:04咸鸭蛋
日期:2011-08-18 15:13:51迷宫蛋
日期:2011-08-18 16:58:25紫蛋头
日期:2011-08-31 10:57:28ITPUB十周年纪念徽章
日期:2011-09-27 16:30:47蜘蛛蛋
日期:2011-10-20 15:51:25迷宫蛋
日期:2011-10-29 11:12:59ITPUB十周年纪念徽章
日期:2011-11-01 16:19:41鲜花蛋
日期:2011-11-09 20:33:30
7#
发表于 2007-9-6 08:49 | 只看该作者

Re: Re: 楼主:这句话哪里看到的?说个出处。

最初由 alantany 发布
[B]
http://www.knowsky.com/resource/gb2312tbl.htm [/B]


使用道具 举报

回复
论坛徽章:
59
狮子座
日期:2016-03-26 13:35:402013年新春福章
日期:2013-02-25 14:51:24双黄蛋
日期:2013-02-25 11:06:15ITPUB 11周年纪念徽章
日期:2012-10-09 18:06:20灰彻蛋
日期:2012-04-25 13:19:33紫蛋头
日期:2012-03-14 11:16:09最佳人气徽章
日期:2012-03-13 17:39:18玉石琵琶
日期:2012-02-21 15:04:38鲜花蛋
日期:2011-11-30 14:13:01ITPUB十周年纪念徽章
日期:2011-11-01 16:21:15
8#
发表于 2007-9-6 08:51 | 只看该作者

Re: Re: 楼主:这句话哪里看到的?说个出处。

最初由 alantany 发布
[B]
http://www.knowsky.com/resource/gb2312tbl.htm [/B]

好东西

使用道具 举报

回复
论坛徽章:
115
生肖徽章:狗
日期:2007-01-06 21:14:12马上有车
日期:2014-03-06 16:45:08马上加薪
日期:2014-05-09 12:27:582014年世界杯参赛球队: 英格兰
日期:2014-07-03 13:10:44青年奥林匹克运动会-竞技体操
日期:2014-09-10 15:30:57马上有钱
日期:2014-10-31 13:56:48美羊羊
日期:2015-03-04 14:48:582015年新春福章
日期:2015-03-06 11:57:31懒羊羊
日期:2015-04-23 19:26:10金牛座
日期:2015-09-17 08:21:44
9#
 楼主| 发表于 2007-9-6 09:17 | 只看该作者

Re: 楼主:这句话哪里看到的?说个出处。

最初由 ZALBB 发布
[B]那么也就是汉字是双字节的,且简体汉字的编码范围是
B0A1 - F7FE [/B]

这是国家标准,也算是一种国际标准吧
谢谢alantany提供的链接

使用道具 举报

回复
论坛徽章:
314
行业板块每日发贴之星
日期:2012-07-12 18:47:29双黄蛋
日期:2011-08-12 17:31:04咸鸭蛋
日期:2011-08-18 15:13:51迷宫蛋
日期:2011-08-18 16:58:25紫蛋头
日期:2011-08-31 10:57:28ITPUB十周年纪念徽章
日期:2011-09-27 16:30:47蜘蛛蛋
日期:2011-10-20 15:51:25迷宫蛋
日期:2011-10-29 11:12:59ITPUB十周年纪念徽章
日期:2011-11-01 16:19:41鲜花蛋
日期:2011-11-09 20:33:30
10#
发表于 2007-9-6 09:20 | 只看该作者

Re: Re: 楼主:这句话哪里看到的?说个出处。

最初由 atgc 发布
[B]
这是国家标准,也算是一种国际标准吧
谢谢alantany提供的链接 [/B]


我们现在都用ZHS16GBK,若有这个编码的更好。

使用道具 举报

回复

您需要登录后才可以回帖 登录 | 注册

本版积分规则 发表回复

TOP技术积分榜 社区积分榜 徽章 团队 统计 知识索引树 积分竞拍 文本模式 帮助
  ITPUB首页 | ITPUB论坛 | 数据库技术 | 企业信息化 | 开发技术 | 微软技术 | 软件工程与项目管理 | IBM技术园地 | 行业纵向讨论 | IT招聘 | IT文档
  ChinaUnix | ChinaUnix博客 | ChinaUnix论坛
CopyRight 1999-2011 itpub.net All Right Reserved. 北京盛拓优讯信息技术有限公司版权所有 联系我们 未成年人举报专区 
京ICP备16024965号-8  北京市公安局海淀分局网监中心备案编号:11010802021510 广播电视节目制作经营许可证:编号(京)字第1149号
  
快速回复 返回顶部 返回列表