基于Word的知识库构建方法及其控制方法

文档序号:1953396 发布日期:2021-12-10 浏览:13次 >En<

阅读说明:本技术 基于Word的知识库构建方法及其控制方法 (Knowledge base construction method based on Word and control method thereof ) 是由 张少举 陶静远 吴海荣 于 2021-08-31 设计创作,主要内容包括:本发明涉及基于Word的知识库构建方法及其控制方法。构建方法包括步骤:⑴登陆网站,选择或创建文档分类;⑵从本地选择要发布的word文档;⑶提交给转换器进行转换;⑷转换后的文件上传到文件系统;⑸将word的元数据信息保存到数据库,得到数据库记录ID;⑹基于转换后的文本内容,进行内容索引,同时也将作者、数据库ID进行索引;⑺刷新网站页面,在最近文档中,即可查到新上传的文档链接。(The invention relates to a knowledge base construction method based on Word and a control method thereof. The construction method comprises the following steps: firstly, logging in a website, and selecting or creating a document classification; secondly, selecting a word document to be published from the local; submitting the third product to a converter for conversion; the converted file is uploaded to a file system; the metadata information of the word is saved in the database, and a database record ID is obtained; sixthly, indexing the content based on the converted text content, and simultaneously indexing an author and a database ID; the website page is refreshed, and newly uploaded document links can be found in the latest document.)

基于Word的知识库构建方法及其控制方法

技术领域

本发明属于将Word文档进行在线预览,检索和云端存储的技术领域,特别涉及一种基于Word的知识库构建方法及其控制方法。

背景技术

公司内部的word文档非常多且分散,容易丢失,找到历史文档几乎是不可能的事情。在职人员离职流动,历史文档有哪些都不知道。word文档无法进行内容检索,无法以最快的速度找到对自己有用的文档。

CN201811043059.3公开了一种核电厂Word文件向基于模板的HTML文件的转换方法及装置,它的目的是提供一种最终生成的HTML文件结构性强,继承了Word文件内容的结构。该技术方案:创建HTML文件模板;将关键内容设置唯一的伪代码;从Word文件中读取文字内容及图形内容;将所读取的文字内容装入数组,并将所读取的图形内容装入文件夹;打开所创建的HTML文件模板;读取HTML文件模板的所设置的唯一的伪代码;建立HTML文件模板的所设置的唯一的伪代码与Word文件中的文字内容及图形内容的对应关系;以及基于HTML文件模板的所设置的唯一的伪代码与Word文件中的文字内容及图形内容的对应关系,将Word文件中的文字内容及图形内容注入到HTML文件中。本发明的转换方法仅由工程生产人员即可完成从Word文件到HTML文件的转换,转换周期大幅缩短。其不足之处是:

⑴该对比文献针对特定领域,其识别word元素能力有限;据该专利描述,其能够识别word文档里文本和图形元素。

⑵该对比文献转换后的是静态的html网页。

发明内容

针对现有技术存在的不足,本发明的目的是提供一种通过将word进行h5转换,发布到服务器,使用户可以对word文档进行集中管理,包括存档,分类,索引,查看,充分发挥word文档所承载的知识价值,提升效率基于Word的知识库构建方法。本发明的另一目的是提供一种通过定制化解析Word文档,即通过在转换过程中加载自定义的css文件和js文件生成个性化排版的基于Word文档的知识库构建的控制方法。

本发明的技术解决方案是所述基于Word的知识库构建方法,其特殊之处在于,包括以下步骤:

⑴登陆网站,选择或创建文档分类;

⑵从本地选择要发布的word文档;

⑶提交给转换器进行转换;

⑷转换后的文件上传到文件系统;

⑸将word的元数据信息保存到数据库,得到数据库记录ID;

⑹基于转换后的文本内容,进行内容索引,同时也将作者、数据库ID进行索引;

⑺刷新网站页面,在最近文档中,即可查到新上传的文档链接。

作为优选:步骤⑶所述转换是指Word到H5的转换,所述转换器完成word文档内部元素的识别,并将其转换为对应的h5元素,进一步包括:

(3.1)读取word的大纲结构,将其转换为H5目录;

(3.2)读取段落内容,转换为H5段落;

(3.3)读取文本样式,将其转换为H5Css3样式;

(3.4)解析word里的超链接,转换成H5的超链接形式;

(3.5)读取word里的图片文件,将其转换为base64编码格式,展示在H5页面上;

(3.6)基于文档里的图片,创建H5版本的弹窗相册,提升word没有的图片查看体验;

(3.7)读取附件信息,将其上传到文件服务器,生成下载连接,展示在H5页面上;

(3.8)读取word数学公式信息,将其转换为xml代码或者png图片展示在H5页面上;

(3.9)读取表格信息,将其转换为H5支持的table。

作为优选:所述转换器在转换word过程中,如果遇到附件,借助于文件服务器的客户端将其上传到文件服务器,文件服务器返回一个唯一的文件ID,转换器将其以超链接的形式保存到转换后的H5页面中。这样发布到网站后,就能够点击下载。

作为优选:所述Word文档通过转换器转换成H5之后,对其基本元素进行索引,包括作者名称,发布日期,文档内容。

本发明的另一技术解决方案是所述基于Word的知识库构建的控制方法,其特殊之处在于,包括以下步骤:

⑴加载Word文档到内存;

⑵提取所有图片信息,将其转换成base64暂存,每个图片均有一个唯一ID对应,将图片ID与图片内容建立唯一映射关系,暂存;

⑶提取所有附件信息,将其上传到文件服务器得到文件服务器唯一ID;每个附件均有一个唯一ID对应,将附件ID与文件服务器ID建立唯一映射关系,暂存;

⑷解析Word文档内部的styles,xml,区分样式层级,建立层级关系,即目录的层级关系,且基于层级关系使用递归算法生成层级序号;

⑸进行段落解析;

⑹判断段落类别;

⑺表格段落;

⑻读取行列号,进行遍历输出;

⑼判断是否有合并列;

⑽若是,则进行合并列转换;

⑾进一步判断是否有合并行;

⑿若有,则按合并行进行转换;

⒀表格内段落解析,结束;

⒁承接步骤⑹,图片段落;

⒂基于图片ID到初始图片列表进行匹配,匹配成功,则转换成H5 image标签,将base64字符串存放到src属性上;

⒃承接步骤⑹,普通文本段落;

⒄读取样式信息,进行样式转换,输出到H5页面;

⒅判断是否包含超链接;

⒆若是,则进行超链接解析;

⒇进一步判断是否存在附件;

(21)与之前的附件列表进行id查找,匹配成功则转换成H5的超链接标签,结束;

(22)承接步骤⑹,大纲段落类型;

(23)基于段落内容,与大纲层级进行匹配,如匹配成功,则使用对应的层级样式对齐进行渲染,结束。

作为优选:步骤⑶所述的文件服务器是在转换器转换word过程中,如遇附件,则借助文件服务器客户端将其上传到所述文件服务器,所述文件服务器返回一个唯一的文件ID,转换器将其以超链接的形式保存到转换后的H5页面中;这样发布到网站后,就能够点击下载。

作为优选:步骤⑷所述的递归算法生成层级序号,包括公式:

构建所述递归算法生成层级序号的本质就是构建目录的过程,具体的步骤如下:

⑴循环遍历各个段落,将具有标题样式的的段落提取出来;标题样式具备如下的特征:heading1,heading2,heading3;

⑵步骤⑴的循环过程中,提取出如下的特征值,结合元组的形式表达:

paragraph->catalog(content,level)

释义:当前段落paragraph是一个目录catalog,内容为content,所属层级为level;

⑶得到当前word文档的所有目录节点;此时,节点之间的层级关系并没有建立起来,接下来的步骤就是建立目录间层级关系;

⑷把目录抽象成一个树形结构,然后利用树形结构的特征对其进行封装;需要要注意word文档的一个隐藏特征关系,该特征关系是构建目录树形结构的关键;

⑸基于如上的特征,目录的层级关系建立;至于层级序号,如1.1,1.2,1.2.1,只需要遍历的过程中,将当前节点的拼接上其上级节点的序即可得到。

作为优选:所述步骤⑷的特征描述如下:

a.word文档段落是自上而下有序的,提取出来的大纲段落也是有序的;

b.第一次出现的大纲段落,肯定是层级最小的最顶层段落;

c.子级段落一定在其父段落出现之后;

d.距离子级段落最近的那个上级段落肯定为其父级段落。

作为优选:服务器包括:

文件服务器,用于存储转换后的附件在H5页面;

索引服务器,用于对文档内容、作者、发布时间进行索引,方便检索;

网站服务器,用于提供对H5页面的展示和文档的分类管理;包括:展示转换后的H5页面;提供文档下载功能;提供文档上传功能;提供文档分类功能。

与现有技术相比,本发明的有益效果:

⑴本发明除了文本,图形,还包括大纲目录结构,表格,数学公式,附件,超链接以及样式信息(粗体,下划线,删除线,字体颜色,背景色等等),识别元素相对丰富。

⑵本发明生成的H5页面可对外提供访问接口,后期还可以动态对H5页面进行内容优化调整,比如调整目录的位置。

⑶本发明面向通用领域,有利于工程化部署,结合文件服务器,数据库服务器,网站服务器,索引服务器可以很轻松基于word文档构建组织(政府,企业,学校)内部的知识库系统。

⑶本发明为企业管理内部留存的word文档提供技术支持,通过将word进行h5转换(尽可能多的保留Word文档原始的排版),发布到服务器,使企业可以对word文档进行集中管理,包括存档,分类,索引,查看。充分发挥word文档所承载的知识价值。提升企业管理,决策的效率。

⑷本发明的Word文档转换成H5网页:内容和排版和原始Word文档几乎保持一致,因而,配合网站服务器,可以对文档进行分类;配合索引服务器,可以对文档进行检索,比如按作者,内容;配合文件服务器,可以在线下载原本粘贴在word里的附件;公司内部从此可以对word文档进行统一高效的管理。

附图说明

图1是本发明基于Word的知识库构建方法的流程图;

图2是本发明基于Word的知识库构建的控制方法的流程图。

具体实施方式

本发明下面将结合附图作进一步详述:

请参阅图1所示,所述基于Word的知识库构建方法,包括步骤:

⑴登陆网站,选择或创建文档分类;

⑵从本地选择要发布的word文档;

⑶提交给转换器进行转换;

⑷转换后的文件上传到文件系统;

⑸将word的元数据信息,包括作者、发布时间、分类信息保存到数据库,得到数据库记录ID;

⑹基于转换后的文本内容,进行内容索引,同时也将作者、数据库ID进行索引;

⑺刷新网站页面,在最近文档中,即可查到新上传的文档链接。

其中:步骤⑶所述转换是指Word到H5的转换,所述转换器完成word文档内部元素的识别,并将其转换为对应的h5元素,进一步包括:

(3.1)读取word的大纲结构,将其转换为H5目录;

(3.2)读取段落内容,转换为H5段落;

(3.3)读取文本样式,将其转换为H5Css3样式;

(3.4)解析word里的超链接,转换成H5的超链接形式;

(3.5)读取word里的图片文件,将其转换为base64编码格式,展示在H5页面上;

(3.6)基于文档里的图片,创建H5版本的弹窗相册,提升word没有的图片查看体验;

(3.7)读取附件信息,将其上传到文件服务器,生成下载连接,展示在H5页面上;

(3.8)读取word数学公式信息,将其转换为xml代码或者png图片展示在H5页面上;

(3.9)读取表格信息,将其转换为H5支持的table。

本实施例中,所述转换器在转换word过程中,如果遇到附件,借助于文件服务器的客户端将其上传到文件服务器,文件服务器返回一个唯一的文件ID,转换器将其以超链接的形式保存到转换后的H5页面中。这样发布到网站后,就能够点击下载。

本实施例中,所述Word文档通过转换器转换成H5之后,对其基本元素进行索引,包括作者名称,发布日期,文档内容。

请参阅图2所示,所述基于Word的知识库构建的控制方法,包括步骤:

⑴加载Word文档到内存;

⑵提取所有图片信息,将其转换成base64暂存,每个图片均有一个唯一ID对应,将图片ID与图片内容建立唯一映射关系,暂存;

⑶提取所有附件信息,将其上传到文件服务器得到文件服务器唯一ID;每个附件均有一个唯一ID对应,将附件ID与文件服务器ID建立唯一映射关系,暂存;

⑷解析Word文档内部的styles,xml,区分样式层级,建立层级关系,即目录的层级关系,且基于层级关系使用递归算法生成层级序号,例如1,1,1,2,1;

⑸进行段落解析;

⑹判断段落类别;

⑺表格段落;

⑻读取行列号,进行遍历输出;

⑼判断是否有合并列;

⑽若是,则进行合并列转换;

⑾进一步判断是否有合并行;

⑿若有,则按合并行进行转换;

⒀表格内段落解析,结束;

⒁承接步骤⑹,图片段落;

⒂基于图片ID到初始图片列表进行匹配,匹配成功,则转换成H5 image标签,将base64字符串存放到src属性上;

⒃承接步骤⑹,普通文本段落;

⒄读取样式信息,进行样式转换,输出到H5页面;

⒅判断是否包含超链接;

⒆若是,则进行超链接解析;

⒇进一步判断是否存在附件;

(21)与之前的附件列表进行id查找,匹配成功则转换成H5的超链接标签,结束;

(22)承接步骤⑹,大纲段落类型;

(23)基于段落内容,与大纲层级进行匹配,如匹配成功,则使用对应的层级样式对齐进行渲染,结束。

其中:步骤⑶所述的文件服务器是在转换器转换word过程中,如遇附件,则借助文件服务器客户端将其上传到所述文件服务器,所述文件服务器返回一个唯一的文件ID,转换器将其以超链接的形式保存到转换后的H5页面中;这样发布到网站后,就能够点击下载。

其中:步骤⑷所述的递归算法生成层级序号,包括:

构建所述递归算法生成层级序号的本质就是构建目录的过程,具体的步骤如下:

⑴循环遍历各个段落,将具有标题样式的的段落提取出来;标题样式具备如下的特征:heading1,heading2,heading3;

⑵步骤⑴的循环过程中,提取出如下的特征值,结合元组的形式表达:

paragraph->catalog(content,level)

释义:当前段落paragraph是一个目录catalog,内容为content,所属层级为level;

⑶得到当前word文档的所有目录节点;注意这里仅仅是得到了目录节点而已,节点之间的层级关系并没有建立起来,接下来的步骤就是建立目录间层级关系;

⑷把目录抽象成一个树形结构,然后利用树形结构的特征对其进行封装;需要要注意word文档的一个隐藏特征关系,该特征关系是构建目录树形结构的关键;

⑸基于如上的特征,目录的层级关系建立;至于层级序号,如1.1,1.2,1.2.1,只需要遍历的过程中,将当前节点的拼接上其上级节点的序即可得到;

该特征关系是构建目录树形结构的关键,特征描述如下:

a、word文档段落是自上而下有序的,提取出来的大纲段落也是有序的;

b、第一次出现的大纲段落,肯定是最顶层(层级最小)的段落;

c子级段落一定在其父段落出现之后;

d距离子级段落最近的那个上级段落肯定为其父级段落。

基于如上的特征,目录的层级关系就能建立起来了;至于层级序号,如1.1,1.2,1.2.1,只需要遍历的过程中,将当前节点的拼接上其上级节点的序号,自然就可以得到。

本实施例中,服务器包括:

文件服务器,用于存储转换后的附件在H5页面;

索引服务器,用于对文档内容、作者、发布时间进行索引,方便检索;

网站服务器,用于提供对H5页面的展示和文档的分类管理;包括:展示转换后的H5页面;提供文档下载功能;提供文档上传功能;提供文档分类功能。

以上所述仅为本发明的较佳实施例,凡依本发明权利要求范围所做的均等变化与修饰,皆应属本发明权利要求的涵盖范围。

12页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:数字格式化方法、装置、终端设备及存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!