ITPUB??ì3
ITPUB论坛 » WEB程序开发 » 提问:如何将获取的动态新闻由繁体转换为简体

标题: 提问:如何将获取的动态新闻由繁体转换为简体
离线 Arrayecho_huang
花间小坐夕阳迟,香雪千枝与万枝


精华贴数 1
个人空间 0
技术积分 3461 (475)
社区积分 5821 (303)
注册日期 2004-2-2
论坛徽章:22
管理团队成员紫水晶祖母绿海蓝宝石设计板块每日发贴之星ITPUB新首页上线纪念徽章
      

发表于 2004-6-17 09:06 
提问:如何将获取的动态新闻由繁体转换为简体

网站上的新闻,动态获取另一网站的新闻,而另一网站的字符为繁体中文,抓过来以后,怎么自动转换为简体,有人开发过此类程序。


__________________
爱是因为相互欣赏而开始的,因为心动而相恋,因为相互离不开而结婚,  但更重要的一点是需要宽容,谅解,习惯和适应才会牵手一生。                                                                                                  My Blog: Life is hard
只看该作者    顶部
离线 store999
一般会员


精华贴数 0
个人空间 0
技术积分 237 (8923)
社区积分 2183 (657)
注册日期 2002-7-24
论坛徽章:2
ITPUB元老会员2006贡献徽章    
      

发表于 2004-6-17 12:36 
好象JDK本身支持有限,要用到第三方的开发包,要花钱吧,HOHO


__________________
没事就上上动态网
只看该作者    顶部
在线/呼叫 tigerfish
PUB建筑师


来自 白云山高 珠江水长
精华贴数 88
个人空间 0
技术积分 146024 (0)
社区积分 42829 (0)
注册日期 2001-9-18
论坛徽章:19
现任管理团队成员ITPUB元老ITPUB北京2009年会纪念徽章八级虎吧徽章生肖徽章2007版:狗生肖徽章2007版:狗
生肖徽章2007版:牛行业板块每日发贴之星    

发表于 2004-6-17 12:49 
Re: 提问:如何将获取的动态新闻由繁体转换为简体



QUOTE:
最初由 echo_huang 发布
网站上的新闻,动态获取另一网站的新闻,而另一网站的字符为繁体中文,抓过来以后,怎么自动转换为简体,有人开发过此类程序。

找个内码对应表,程序倒是简单的


__________________
只看该作者    顶部
离线 yining
非典型性会员


精华贴数 17
个人空间 0
技术积分 13871 (94)
社区积分 12498 (143)
注册日期 2001-11-13
论坛徽章:38
现任管理团队成员参与2009年中国云计算大会纪念ITPUB北京2009年会纪念徽章八级虎吧徽章生肖徽章2007版:牛生肖徽章2007版:马
生肖徽章2007版:羊生肖徽章2007版:狗2009新春纪念徽章2008北京奥运纪念徽章:排球2008北京奥运纪念徽章:击剑2008北京奥运纪念徽章:足球

发表于 2004-6-17 13:37 
老虎,好像没有这么简单的。有些字根据不同的词,繁体字会有不同的,不是简单的简体/繁体一一对应的关系。比如发动机的“发”和头发的“发”,繁体好像不一样?


__________________
Evil prevails when good men fail to act.
只看该作者    顶部
离线 yining
非典型性会员


精华贴数 17
个人空间 0
技术积分 13871 (94)
社区积分 12498 (143)
注册日期 2001-11-13
论坛徽章:38
现任管理团队成员参与2009年中国云计算大会纪念ITPUB北京2009年会纪念徽章八级虎吧徽章生肖徽章2007版:牛生肖徽章2007版:马
生肖徽章2007版:羊生肖徽章2007版:狗2009新春纪念徽章2008北京奥运纪念徽章:排球2008北京奥运纪念徽章:击剑2008北京奥运纪念徽章:足球

发表于 2004-6-17 13:38 
繁简转换的难点
繁简互转,如果需要做到100%精确,实际上是一个非常复杂的工作。根据转换的精确性等级,大概可以分成4个等级:
1.字符码表一对一映射。
2.对于一对多单字,根据词语识别进行转换。
3.对词语表达方式差异的转换。
4.根据上下文的词汇翻译。

转换等级一 内码映射

其转换机制是按照内码字符映射表,在简繁转换时,用big5的内码把GB的内码替换掉,在繁简转换的时候就反过来。例如,GB 2312-80 0xB9FA 代表简体字国, 简繁转换的时候就把它替换成0xB0EA 对应繁体BIG5码的國字。根据我们实践证明,如果按照字符的转错几率来统计,对一般性质的文本,该处理方式可以达到98%的准确率。但其弱点是由于简繁字体并非一对一的关系,因此忽略掉一些其他较不常用的字。 以下是一个一对一字符内码映射表的例子:

简体源 内码GB (EUC) 繁体目标 BIG5 其他可能性
出 B3F6 出 A558 齣
发 B7A2 發 B56F 髮
干 B8C9 幹 A47A 乾 干 榦
暗 B0B5 暗 B774 闇
里 C0EF 裡 B8CC 里 裏
征 D5F7 徵 BC78 征
门 C3C5  門 AAF9   
汤 CCC0 湯 B4F6   

转换等级二 一对多关系的字根据词语识别转换
对于一个单字应该翻译成在当前有可能的异种内码中的哪一个,我们可以根据该字所在的词汇来决定。比如,下表:

简体词语 繁体词语 拼音 英文意义  
头发 頭髮 tou2fa0 hair
特征 特徵 te4zheng1 characteristic
出发 出發 chu1fa1 start off
干燥 乾燥 gan1zao4 dry
暗里 暗裡 an4li3 secretly
千里 千里 qian1li3 long distance
秋千 鞦韆 qiu1qian1 a swing


在上表中,头发与出发的“发”字在简体中是同一字型的,但繁体中却不一样。这样就可以根据“发”字所在的词汇来对该字进行准确的转换。如果是头发就翻译成“頭髮”,如果是出发就翻译成“出發”。

转换等级三 繁简词汇表达方式不同之转换

有一些词,在繁体与简体用户有不同的表达方式,下表显示了一些词汇表达方式差异的例子:

英文 简体表达方式 汉语拼音 繁体表达方式 汉语拼音
bit 位 wei4 位元 wei4yuan2
byte 字节 zi4jie2 位元組 wei4yuan2zu3
CD-ROM 光盘 guang1pan2 光碟 guang1die2
computer 计算机 ji4suan4ji1 電腦 dian4nao3
database 数据库 shu4ju4ku4 資料庫 zi1liao4ku4
file 文件 wen2jian4 檔案 dang4'an4
information 信息 xin1xi4 資訊 zi1xun4
Internet 因特网 yin1te4wang3 網際網路 wang3ji4-wang3lu4
software 软件 ruan3jian4 軟體 ruan3ti3
week 星期 xing1qi1 禮拜 li3bai4

能够实现以上表达方式转换,就是在本文中所提到的第三级转换功能。

转换等级四 根据上下文对词汇翻译
有一些词,是需要根据上下文才能够准确地决定如何翻译的。比如在中国大陆的语言习惯中,“文件”可以是通常意义上的“文件”,也可以表达计算机磁盘中存取的“文件”(document)。但是,在繁体用户的语言习惯中,这两个东西就是分别用两个词来表达,通常意义上的“文件”和在电脑磁盘中保存的“档案”。
    该层次的翻译需要根据上下文的意思对文章进行断句,分析。因此,是属于繁简互译中最难做的,而且消耗的系统资源也最大。


__________________
Evil prevails when good men fail to act.
只看该作者    顶部
离线 yining
非典型性会员


精华贴数 17
个人空间 0
技术积分 13871 (94)
社区积分 12498 (143)
注册日期 2001-11-13
论坛徽章:38
现任管理团队成员参与2009年中国云计算大会纪念ITPUB北京2009年会纪念徽章八级虎吧徽章生肖徽章2007版:牛生肖徽章2007版:马
生肖徽章2007版:羊生肖徽章2007版:狗2009新春纪念徽章2008北京奥运纪念徽章:排球2008北京奥运纪念徽章:击剑2008北京奥运纪念徽章:足球

发表于 2004-6-17 13:40 
从这个转贴可以看出来,能做到2就不容易了。


__________________
Evil prevails when good men fail to act.
只看该作者    顶部
离线 echo_huang
花间小坐夕阳迟,香雪千枝与万枝


精华贴数 1
个人空间 0
技术积分 3461 (475)
社区积分 5821 (303)
注册日期 2004-2-2
论坛徽章:22
管理团队成员紫水晶祖母绿海蓝宝石设计板块每日发贴之星ITPUB新首页上线纪念徽章
      

发表于 2004-6-17 15:29 
用了繁简字转换表

正在试验。


__________________
爱是因为相互欣赏而开始的,因为心动而相恋,因为相互离不开而结婚,  但更重要的一点是需要宽容,谅解,习惯和适应才会牵手一生。                                                                                                  My Blog: Life is hard
只看该作者    顶部
离线 skyweave
中级会员



精华贴数 0
个人空间 0
技术积分 484 (4481)
社区积分 18 (8947)
注册日期 2001-10-9
论坛徽章:1
授权会员     
      

发表于 2004-6-18 15:44 
调用word转啊!


__________________
BestRegardsskyE-Mail:sky@chiconysoftware.com.cn
只看该作者    顶部
离线 echo_huang
花间小坐夕阳迟,香雪千枝与万枝


精华贴数 1
个人空间 0
技术积分 3461 (475)
社区积分 5821 (303)
注册日期 2004-2-2
论坛徽章:22
管理团队成员紫水晶祖母绿海蓝宝石设计板块每日发贴之星ITPUB新首页上线纪念徽章
      

发表于 2004-6-20 15:04 
楼上的可否说得详细些


__________________
爱是因为相互欣赏而开始的,因为心动而相恋,因为相互离不开而结婚,  但更重要的一点是需要宽容,谅解,习惯和适应才会牵手一生。                                                                                                  My Blog: Life is hard
只看该作者    顶部
 
    

相关内容


CopyRight 1999-2006 itpub.net All Right Reserved.
北京皓辰网域网络信息技术有限公司. 版权所有
E-mail:Webmaster@itpub.net
京ICP证:060528号 联系我们 法律顾问