极速赛车APP下载

.ifly是什么格式_ifly格式文件_ifly格式怎么开启

电脑杂谈  发布时间:2019-09-22 18:03:48  来源:网络整理

ifly格式文件_ifly格式如何打开_.ifly是什么格式

安徽中科大讯飞信息科技股份 Anhui USTC iFly InfoTek CO.,LTD. 研究院 iFLY Research病历转写词典生成 病历转写词典生成 转写 工作记录版本 <1.0>电子病历流程 工作记录版本: 日期:<1.0> <2011/7/6>版本历史日期 <2011/09/09> 版本 <1.0> 描叙 病历转写词典生成的工作记录 作者 蒋才智 审阅 未经审阅Confidential? iFly Research, 1999-2002Page 2 of 4电子病历流程 工作记录版本: 日期:<1.0> <2011/7/6>病历转写词典生成 病历转写词典生成 工作记录 转写1. 简介本文档记录了从原始病历数据到语言建模词典生成中所涵盖到的工作, 这其中包含语料 normalise、 字母数字及特殊符号提取、语料分词、词汇筛选、词典发音标注等方法。2. 病历转写的原始语料 病历转写的原始语料 转写的原始我们从省立医院和安医附院获取了大量语料: 省立医院病例数据(320w) ,gb2312 格式文件.ifly是什么格式,包含 24 个 txt 文本,分别是“感染类型”“诊断 、 1-22”“主诉类型” 、 ,其中“感染类型”和“主诉类型”中包括了一些医学术语。

ifly格式如何打开_ifly格式文件_.ifly是什么格式

安医附院病历数据,utf8 格式文件,共计 66,572 个目录,包含了不同病人的“查房记录”“术后 、 记录”“出院总结”等数据。 、3。 语料的 normalise由于两个医院所提供的语义格式不同,需要分别进行处理。3。1 省立医院(22 个治疗文件):1. 删除文件中的句头编号; 2. 使用回车替换掉语料中的“&KeyEnter;” ; 3. 使用空串替换掉语料中的“&nbsp;” (不使用空格的理由是语料中“&nbsp;”把部分需要联结 在一起的词汇分割开了) ; 4. 断句处理; 5. 将字母、数字及个别特殊符号半角化,并将其合并到一个文件中。3。2 安医附院:1。 2。 3。抽取并合并所有零散文件,并将格式从 UTF8 转换成 gb2312; 断句处理; 将字母、数字及个别特殊符号半角化。经过以下处理后,获得表 3-1 所示的两个病历文件:表 3-1 normalise 后的病历语料省立医院 安医附院总文件大小 852,496 354,610包含句子数目 43,603,525 17,250,3694。 字母、数字和特殊符号的提取 字母、在语义中存在着一些字母、数字和特殊符号,它们多跟医疗术语联系在一起,无法精确判定其 读音。

ifly格式文件_.ifly是什么格式_ifly格式如何打开

因此,该部分的主要工作就是将他们视为关键词从语义中提取起来,再请教人士进行人工标 注。 1. 首先去掉关键字中末尾的点号 2. 删除关键字中不能匹配且在最末尾的空格 3. 规范关键字->关键字分类->对每一类型关键字进行有针对性的过滤 1) 规范关键字:去掉部分关键字末尾的“.”和左右不能匹配的括号,这一个过程将形成一 些重复关键字 Confidential ? iFly Research, 1999-2002 Page 3 of 4电子病历流程 工作记录版本: 日期:<1.0> <2011/7/6>2) 分类(7 类) : 、 (1)日期 :筛选出如“2011-7-29”“2011.7.29”等日期格式的关键字; (2)纯数字:只含有[0-9]的数字; (3)带特殊符号的数字:考虑到分数、小数等其它原因.ifly是什么格式,关键字可以带有特殊字符.-/~*%; (4)单字母:字符长度为 1 的字母; (5)带特殊符号的多字母:包含特殊字符/-()的情况; (6)字母+数字(均带特殊符号) :字母在前,数字在后的组合,如“R20”等; (7)数字+字母(均带特殊符号):数字在前,字母在后的组合,如“3mol/L”等; (8)数字+字母的复杂组合(均带特殊符号):其它字母数字组合状况,如“G3P1”等; (9)其它情况。

ifly格式文件_.ifly是什么格式_ifly格式如何打开

3) 过滤: (1) 日期格式:不需要人工标注读音,暂不作过滤; (2) 纯数字:暂不作过滤; (3) 带特殊符号的数字:过滤掉重复关键字; (4) 单字母:数量较少,暂时不作过滤; (5) 多字母():过滤掉重复关键字; (6) 字母+数字:两份过滤文件,一份过滤重复关键字,一份过滤掉字母相同的关键字; (7) 数字+字母:两份过滤文件,一份过滤重复关键字,一份过滤掉字母相同的关键字; (8) 数字+字母的复杂组合:两份过滤文件,一份过滤重复关键字,一份选取其中“字母 +数字+字母”组合方式,过滤掉前缀字母和后缀字母相同的关键字; (9) 其它:过滤掉重复关键字。 在经过以下分类筛选后,得到的关键字提取文件如表 4-1 和表 4-2 所示省立医院关键字提取文件 表 4-1 省立医院关键字提取文件省立医院 日期 数字 单字母 多字母 字母+数字 数字+字母 数字字母复杂组合 其他 安医附院 日期 数字 单字母 多字母 字母+数字 数字+字母 数字字母复杂组合 其他 Confidential总词汇数量 13735 46590 纯数字 5100 其他 41490 200 9027 2227 5141 77873 24505 总词汇数量 7549 34011 纯数字 8392 其他 25619 137 7139 1466 2568 22852 30663出现一次 37 4390 1333 3420 63195 16417 出现一次 19 3294 811 1644 16908 17144出现两次 26 1229 336 729 7744 3269 出现两次 9 957 251 452 3166 4547两次以上 137 3408 558 992 6934 4819 两次以上 109 2888 404 472 2778 8972 Page 4 of 4表 4-2 安医附院关键字提取文件? iFly Research, 1999-2002


本文来自电脑杂谈,转载请注明本文网址:
http://www.0531mai.com/a/bofangqi/article-123775-1.html

    相关阅读
    发表评论  请自觉遵守互联网相关的政策法规,严禁发布、暴力、反动的言论

    极速赛车手机官网 极速赛车APP下载 极速赛车手机版下载 极速赛车双面盘 极速赛车APP下载 极速赛车APP 极速赛车APP 极速赛车手机版下载 极速赛车手机官网 极速赛车APP下载