首页
论坛
门户
空间
手机版
下载
IXPUB
插件
收藏
设置
注册
登录
商店
搜索
培训
Blog
归档
退出
ITPUB专业网站群:
微软技术社区
移动开发社区
企业内容管理社区
ITPUB论坛
»
WEB程序开发
» 提问:如何将获取的动态新闻由繁体转换为简体
‹‹ 上一主题
|
下一主题 ››
投票
交易
悬赏
活动
评价
|
打印
|
推荐
|
订阅
|
收藏
标题: 提问:如何将获取的动态新闻由繁体转换为简体
Arrayecho_huang
花间小坐夕阳迟,香雪千枝与万枝
精华贴数 1
个人空间
0
技术积分 3461 (475)
社区积分 5821 (303)
注册日期 2004-2-2
论坛徽章:22
#1
使用道具
发表于 2004-6-17 09:06
提问:如何将获取的动态新闻由繁体转换为简体
网站上的新闻,动态获取另一网站的新闻,而另一网站的字符为繁体中文,抓过来以后,怎么自动转换为简体,有人开发过此类程序。
__________________
爱是因为相互欣赏而开始的,因为心动而相恋,因为相互离不开而结婚, 但更重要的一点是需要宽容,谅解,习惯和适应才会牵手一生。
My Blog:
Life is hard
只看该作者
store999
一般会员
精华贴数 0
个人空间
0
技术积分 237 (8923)
社区积分 2183 (657)
注册日期 2002-7-24
论坛徽章:2
#2
使用道具
发表于 2004-6-17 12:36
好象JDK本身支持有限,要用到第三方的开发包,要花钱吧,HOHO
__________________
没事就上上动态网
只看该作者
tigerfish
PUB建筑师
来自 白云山高 珠江水长
精华贴数 88
个人空间
0
技术积分 146024 (0)
社区积分 42829 (0)
注册日期 2001-9-18
论坛徽章:19
#3
使用道具
发表于 2004-6-17 12:49
Re: 提问:如何将获取的动态新闻由繁体转换为简体
QUOTE:
最初由 echo_huang 发布
网站上的新闻,动态获取另一网站的新闻,而另一网站的字符为繁体中文,抓过来以后,怎么自动转换为简体,有人开发过此类程序。
找个内码对应表,程序倒是简单的
__________________
厚积薄发
虎窝
老虎的写字本
ITPUB第七本技术丛书《深入解析Oracle》已出版
只看该作者
yining
非典型性会员
精华贴数 17
个人空间
0
技术积分 13871 (94)
社区积分 12498 (143)
注册日期 2001-11-13
论坛徽章:38
#4
使用道具
发表于 2004-6-17 13:37
老虎,好像没有这么简单的。有些字根据不同的词,繁体字会有不同的,不是简单的简体/繁体一一对应的关系。比如发动机的“发”和头发的“发”,繁体好像不一样?
__________________
Evil prevails when good men fail to act.
只看该作者
yining
非典型性会员
精华贴数 17
个人空间
0
技术积分 13871 (94)
社区积分 12498 (143)
注册日期 2001-11-13
论坛徽章:38
#5
使用道具
发表于 2004-6-17 13:38
繁简转换的难点
繁简互转,如果需要做到100%精确,实际上是一个非常复杂的工作。根据转换的精确性等级,大概可以分成4个等级:
1.字符码表一对一映射。
2.对于一对多单字,根据词语识别进行转换。
3.对词语表达方式差异的转换。
4.根据上下文的词汇翻译。
转换等级一 内码映射
其转换机制是按照内码字符映射表,在简繁转换时,用big5的内码把GB的内码替换掉,在繁简转换的时候就反过来。例如,GB 2312-80 0xB9FA 代表简体字国, 简繁转换的时候就把它替换成0xB0EA 对应繁体BIG5码的國字。根据我们实践证明,如果按照字符的转错几率来统计,对一般性质的文本,该处理方式可以达到98%的准确率。但其弱点是由于简繁字体并非一对一的关系,因此忽略掉一些其他较不常用的字。 以下是一个一对一字符内码映射表的例子:
简体源 内码GB (EUC) 繁体目标 BIG5 其他可能性
出 B3F6 出 A558 齣
发 B7A2 發 B56F 髮
干 B8C9 幹 A47A 乾 干 榦
暗 B0B5 暗 B774 闇
里 C0EF 裡 B8CC 里 裏
征 D5F7 徵 BC78 征
门 C3C5 門 AAF9
汤 CCC0 湯 B4F6
转换等级二 一对多关系的字根据词语识别转换
对于一个单字应该翻译成在当前有可能的异种内码中的哪一个,我们可以根据该字所在的词汇来决定。比如,下表:
简体词语 繁体词语 拼音 英文意义
头发 頭髮 tou2fa0 hair
特征 特徵 te4zheng1 characteristic
出发 出發 chu1fa1 start off
干燥 乾燥 gan1zao4 dry
暗里 暗裡 an4li3 secretly
千里 千里 qian1li3 long distance
秋千 鞦韆 qiu1qian1 a swing
在上表中,头发与出发的“发”字在简体中是同一字型的,但繁体中却不一样。这样就可以根据“发”字所在的词汇来对该字进行准确的转换。如果是头发就翻译成“頭髮”,如果是出发就翻译成“出發”。
转换等级三 繁简词汇表达方式不同之转换
有一些词,在繁体与简体用户有不同的表达方式,下表显示了一些词汇表达方式差异的例子:
英文 简体表达方式 汉语拼音 繁体表达方式 汉语拼音
bit 位 wei4 位元 wei4yuan2
byte 字节 zi4jie2 位元組 wei4yuan2zu3
CD-ROM 光盘 guang1pan2 光碟 guang1die2
computer 计算机 ji4suan4ji1 電腦 dian4nao3
database 数据库 shu4ju4ku4 資料庫 zi1liao4ku4
file 文件 wen2jian4 檔案 dang4'an4
information 信息 xin1xi4 資訊 zi1xun4
Internet 因特网 yin1te4wang3 網際網路 wang3ji4-wang3lu4
software 软件 ruan3jian4 軟體 ruan3ti3
week 星期 xing1qi1 禮拜 li3bai4
能够实现以上表达方式转换,就是在本文中所提到的第三级转换功能。
转换等级四 根据上下文对词汇翻译
有一些词,是需要根据上下文才能够准确地决定如何翻译的。比如在中国大陆的语言习惯中,“文件”可以是通常意义上的“文件”,也可以表达计算机磁盘中存取的“文件”(document)。但是,在繁体用户的语言习惯中,这两个东西就是分别用两个词来表达,通常意义上的“文件”和在电脑磁盘中保存的“档案”。
该层次的翻译需要根据上下文的意思对文章进行断句,分析。因此,是属于繁简互译中最难做的,而且消耗的系统资源也最大。
__________________
Evil prevails when good men fail to act.
只看该作者
yining
非典型性会员
精华贴数 17
个人空间
0
技术积分 13871 (94)
社区积分 12498 (143)
注册日期 2001-11-13
论坛徽章:38
#6
使用道具
发表于 2004-6-17 13:40
从这个转贴可以看出来,能做到2就不容易了。
__________________
Evil prevails when good men fail to act.
只看该作者
echo_huang
花间小坐夕阳迟,香雪千枝与万枝
精华贴数 1
个人空间
0
技术积分 3461 (475)
社区积分 5821 (303)
注册日期 2004-2-2
论坛徽章:22
#7
使用道具
发表于 2004-6-17 15:29
用了繁简字转换表
正在试验。
__________________
爱是因为相互欣赏而开始的,因为心动而相恋,因为相互离不开而结婚, 但更重要的一点是需要宽容,谅解,习惯和适应才会牵手一生。
My Blog:
Life is hard
只看该作者
skyweave
中级会员
精华贴数 0
个人空间
0
技术积分 484 (4481)
社区积分 18 (8947)
注册日期 2001-10-9
论坛徽章:1
#8
使用道具
发表于 2004-6-18 15:44
调用word转啊!
__________________
BestRegardsskyE-Mail:sky@chiconysoftware.com.cn
只看该作者
echo_huang
花间小坐夕阳迟,香雪千枝与万枝
精华贴数 1
个人空间
0
技术积分 3461 (475)
社区积分 5821 (303)
注册日期 2004-2-2
论坛徽章:22
#9
使用道具
发表于 2004-6-20 15:04
楼上的可否说得详细些
__________________
爱是因为相互欣赏而开始的,因为心动而相恋,因为相互离不开而结婚, 但更重要的一点是需要宽容,谅解,习惯和适应才会牵手一生。
My Blog:
Life is hard
只看该作者
投票
交易
悬赏
活动
相关内容
ITPUB论坛
≡ 数据库技术 ≡
> Oracle数据库管理
> Oracle高可用
> Oracle开发
> Oracle Developer Suite
> Oracle入门与认证
> Oracle专题深入讨论
> Oracle新技术/11g
> Oracle电子文档
> Oracle Fusion中间件
> IBM信息管理
> MS SQL Server
> Sybase管理与开发
> MySQL及其它开源数据库
> 内存数据库
> 数据仓库与数据挖掘
> 移动及嵌入式数据库
≡ 企业信息化 ≡
> ERP产品与实践
> CRM产品与实践
> HR产品与实践
> 物流
> 供应链
> 供应链建模与仿真
> 物流设备与系统工程
> 企业管理咨询
> 管理协同与办公自动化
> IT服务管理
> 数据中心建设与设备采购
> ERP二次开发
> Oracle ERP
> Oracle EBS R12
> PeopleSoft与JDE
> EBS相关文档
> SAP R/3
> SAP Business One开发与快速实施
> SAP财务及CRM
> SAP后勤及HR
> mySAP ERP
> 系统开发及跨应用设置
> SAP相关文档
> 国外其它ERP产品
> 国内ERP产品
≡ 开发技术 ≡
> Java入门与认证版
> Java web开发及框架技术
> Java企业开发
> WEB程序开发
> WEB 2.0技术
> 动态语言
> 移动与游戏开发
≡ 微软技术 ≡
> 开发工具和语言
> .NET Framework 相关
> Visual Basic/VB.net
> Visual C#
> Visual C++/vc.net
> Visual Studio
> .NET软件架构与模式
> .NET开发辅助工具及框架
> Web开发
> ASP.NET与AJAX
> Web相关技术讨论(IIS等)
> Silverlight 技术
> 微软企业级产品技术
> SQL Server
> windows server
> SharePoint
> Exchange Server
> Biztalk
> 嵌入式及移动开发
> Windows 移动设备
> Windows Embedded 嵌入式技术
> Office开发
> Microsoft office system
> Office Business Application
> 微软产品用户交流区
> .Net人才交流
> .Net电子书籍&&书籍介绍
≡ 系统设计与项目管理 ≡
> 系统分析与UML
> 系统分析与UML精华区
> 项目管理
> 项目过程
> 软件测试
> 算法讨论与研究
≡ IBM软件技术园地 ≡
> IBM信息管理
> Lotus
> Tivoli
> Websphere
> Rational
> 与SOA相关的IBM产品与技术
> IBM蓝色之路
> IBM软件技术精英协会
> 软件技术精英活动专版
≡ 操作系统与硬件 ≡
> AIX及IBM产品【已迁移到IXPUB】
> HP-UX及HP产品【已迁移到IXPUB】
> Solaris及SUN产品【已迁移到IXPUB】
> Linux及其应用 【已迁移到IXPUB】
> 其它UNIX系统【已迁移到IXPUB】
> windows系统及微软相关产品 【已迁移到IXPUB】
> 存储设备与容灾技术 【已迁移到IXPUB】
> 服务器 【已迁移到IXPUB】
≡ 行业纵向讨论区 ≡
> IT业界评论与展望
> 政府与教育事业
> 中国政府信息主管联盟
> 电信行业
> 金融行业
> 制造行业
> 医卫行业
> 电力行业
> 信息安全与审计
≡ 会员交流 ≡
> IT职业生涯
> 招聘求职商务信息
> 投资理财
> 体育世界
> 体育博彩专版
> 汽车世界
> 旅游,驴友
> 外语角
> 数码摄影
> 你的故事我的歌
> 音乐推荐区
> 电子图书与IT文档资料
> 软件交流
> 软件交流精华区
≡ ITPUB产品与服务 ≡
> ITPUB地面活动专版
> BLOG天地
> 授权用户区
> 站务管理
≡ 企业内容管理用户组 ≡
> ECM应用与解决方案
> 内容仓库管理
> 商业流程管理
> 内容及邮件归档管理
> 企业级搜索与分析
> 用户协会事务区
技术积分榜
社区积分榜
徽章
电子杂志
团队
统计
邮箱
游乐场
帮助
TOP
CopyRight 1999-2006 itpub.net All Right Reserved.
北京皓辰网域网络信息技术有限公司. 版权所有
E-mail:Webmaster@itpub.net
京ICP证:060528号
联系我们
法律顾问
控制面板首页
编辑个人资料
积分交易
公众用户组
好友列表
升级您的博客
基本概况
论坛排行
主题排行
发帖排行
积分排行
在线时间
管理团队
管理统计