用于挖掘文本文档以识别开创性问题和开创性案件的系统、方法和计算机程序产品

文档序号:1382595 发布日期:2020-08-14 浏览:3次 >En<

阅读说明:本技术 用于挖掘文本文档以识别开创性问题和开创性案件的系统、方法和计算机程序产品 (Systems, methods, and computer program products for mining text documents to identify pioneering problems and pioneering cases ) 是由 P·张 V·天普拉 于 2018-12-24 设计创作,主要内容包括:本公开的实施例涉及用于在包含法律案件数据的数据库内识别一个或多个开创性案件的系统、方法和计算机产品程序。所公开的系统和方法提供了一种途径,以通过针对引用理由挖掘包含电子法律文档的文本数据库并挖掘其内的文本从而确定在引用理由中解决的法律问题是否涉及开创性案件,来针对特定法律问题识别一个或多个开创性案件。数据是通过数据挖掘创建的,并且从针对特定法律问题识别开创性案件的多个引用理由中获得该数据,使得当开创性案件中的一个或多个作为搜索结果返回时,与开创性案件对应的输出数据使外部设备区分开创性案件。(Embodiments of the present disclosure relate to systems, methods, and computer product programs for identifying one or more pioneering cases within a database containing legal case data. The disclosed systems and methods provide a way to identify one or more initiative cases for a particular legal issue by mining a text database containing electronic legal documents for a reason for citation and mining the text therein to determine if the legal issue addressed in the reason for citation relates to an initiative case. Data is created by data mining and is obtained from a plurality of referral reasons identifying the pioneering cases for a particular legal issue, such that when one or more of the pioneering cases are returned as search results, output data corresponding to the pioneering cases causes the external device to distinguish the pioneering cases.)

用于挖掘文本文档以识别开创性问题和开创性案件的系统、 方法和计算机程序产品

交叉引用

本申请要求在35U.S.C.119(e)下于2017年12月26日提交的题为“Systems,Methods and Computer Program Products for Mining Text Documents to IdentifySeminal Cases(用于挖掘文本文档以识别开创性案件的系统、方法和计算机程序产品)”的美国临时专利申请第62/610,356号的优先权,其整体通过引用并入本文。

技术领域

本公开通常涉及电子文档处理,并且更具体地,涉及用于通过数据挖掘来识别和提取嵌入在法律数据库中的开创性问题的系统、方法和计算机程序产品。

背景技术

法律学者和其他专家有时可以识别在特定的法律领域中被认为有影响力的法律案件。这些有影响力的案件可以被称为开创性案件。开创性案件解决了重要的法律问题,并且通常被也解决相同问题的后续案件引用。例如,开创性案件可以是来自管辖范围中的最高法院的已裁定特定法律问题的第一个案件,并且声明了所讨论的法律的命题。在另一个示例中,开创性案件可以被认为是建立新法律并设置新判例的重要案件。开创性案件还可以被认为是在法庭中被裁定用作示例来裁定类似案件的案件。

因为开创性案件具有法律意义,所以它们经常被律师和法官引用。然而,开创性案件在公布时和当将案件录入数据库并可供用于搜索时通常不是众所周知的相反,随着众多律师和法官引用和依赖于由开创性案件解决的重要法律问题,该案件才随着时间推移变得更众所周知。因此,许多解决特定法律问题的开创性案件在被存储到提供给搜索引擎的数据库中时,可能未被标记或未以其他方式容易地标识。结果,当进行搜索时,用户可能没有意识到案件是开创性案件。此外,在不具有将某些案件识别为是开创性的信息的情况下,配置成在搜索结果的顶部提供最重要的案件或者以其他方式区分最重要的案件的搜索引擎不可以对开创性案件做上述操作。

发明内容

在一个实施例中,提供了一种用于识别解决特定法律问题的一个或多个开创性案件的系统。系统包括处理设备;以及与处理设备通信的非瞬态处理器可读存储介质。非瞬态处理器可读存储介质包括一个或多个编程指令,当所述一个或多个编程指令被执行时,使处理设备从储存库获取电子法律文档,该电子法律文档包括多个文本;针对包括多个法律问题文本的多个引用理由,搜索所述电子法律文档的所述多个文本;搜索所述多个引用理由以识别多个开创性线索,并且从所述多个引用理由生成具有所述多个开创性线索的数据列表以识别多个潜在的开创性案件;过滤包含所述多个潜在的开创性案件的所述数据列表,以仅识别基于所计算的开创性参考频率的开创性案件并且从经过滤的数据列表生成工作语料库;以及输出与来自所述工作语料库的所述开创性案件对应的数据,使得当所述开创性案件中的一个或多个作为搜索的结果返回时,所述数据使外部设备区分所述开创性案件。

在另一个实施例中,提供了一种用于识别解决特定法律问题的一个或多个开创性案件的方法。该方法包括:通过处理设备从储存库中获取电子法律文档,所述电子法律文档包括多个文本;通过所述处理设备,针对包括多个法律问题文本的多个引用理由,搜索所述电子法律文档的所述多个文本;以及通过所述处理设备,搜索所述多个引用理由以识别多个开创性线索。该方法进一步包括:通过所述处理设备,从所述多个引用理由生成具有所述多个开创性线索的数据列表以识别多个潜在的开创性案件;通过所述处理设备,过滤包含所述多个潜在的开创性案件的所述数据列表,以仅识别基于所计算的开创性参考频率的开创性案件并且从经过滤的数据列表生成工作语料库;通过所述处理设备,从在所述工作语料库中的所有所述开创性案件的所述多个引用理由中挖掘所述多个法律问题文本以建立句子数据,所述句子数据包含多个句子,所述多个句子包括来自在所述工作语料库中的所述开创性案件的所述多个法律问题文本的多个法律讨论;以及通过所述处理设备,为参考所述开创性案件的所述多个句子中的每一个句子分配唯一标识符。进一步地,该方法包括:通过所述处理设备,针对在所述工作语料库中的所述开创性案件中的每一个开创性案件,从所述句子数据中收集所述多个句子中的每一个句子并将来自所述句子数据的所收集的句子存储为临时句子数据;以及通过所述处理设备,将文本聚类算法应用于所述临时句子数据以创建多个文本聚类;通过所述处理设备,从所述多个文本聚类中选择顶部聚类,其中所述顶部聚类包括围绕所述多个法律讨论和用所述开创性案件中的每一个开创性案件识别的所述多个法律问题文本的一个或多个句子;以及向用户显示设备输出与来自所述工作语料库的所述开创性案件对应的数据,使得当所述开创性案件中的一个或多个作为搜索的结果返回时,所述数据使用户显示设备区分所述开创性案件。

在又另一个实施例中,提供了一种非瞬态计算机可读存储介质,所述非瞬态计算机可读存储介质由计算机可操作来识别解决特定法律问题的一个或多个开创性案件。具有存储在其上的一个或多个编程指令的非瞬态计算机可读存储介质使处理设备从储存库获取电子法律文档,该电子法律文档包括多个文本;针对包括多个法律问题文本的多个引用理由,搜索所述电子法律文档的所述多个文本;搜索所述多个引用理由以识别多个开创性线索,并且从所述多个引用理由生成具有所述多个开创性线索的数据列表以识别多个潜在的开创性案件;过滤包含所述多个潜在的开创性案件的所述数据列表,以仅识别基于所计算的开创性参考频率的开创性案件并且从经过滤的数据列表生成工作语料库;以及输出与来自所述工作语料库的所述开创性案件对应的数据,使得当所述开创性案件中的一个或多个作为搜索的结果返回时,所述数据使外部设备区分所述开创性案件。

鉴于下面的详细描述,将结合附图更充分地理解本文所描述的实施例提供的这些和其他特征。

附图说明

附图中阐述的实施例本质上是说明性的和示例性的并且不旨在限制由权利要求所限定的主题。可以在结合以下附图阅读时理解说明性实施例的以下详细描述,其中相同的结构用相同的参考标号表示,并且在附图中:

图1示意性地描绘了根据本文中描述和示出的一个或多个实施例的针对用于挖掘文本文档数据以识别解决特定法律问题的一个或多个开创性案件的系统的说明性的计算网络;

图2A示意性地描绘了根据本文中描述和示出的一个或多个实施例的来自图1的案件挖掘设备,进一步示出了硬件组件和软件组件,所述硬件组件和软件组件可以用于挖掘文本文档数据以识别解决特定法律问题的一个或多个开创性案件;

图2B示意性地描绘了根据本文中描述和示出的一个或多个实施例的来自图1的用户计算设备,进一步示出了硬件组件和软件组件,所述硬件组件和软件组件可以用于发起搜索查询以识别解决特定法律问题的一个或多个开创性案件;

图3描绘了根据本文中示出和描述的一个或多个实施例的促进关键开创性问题搜索查询的说明性方法的流程图;

图4描绘了根据本文中示出和描述的一个或多个实施例的挖掘文本文档数据以识别解决特定法律问题的一个或多个开创性案件的说明性方法的流程图;

图5描绘了根据本文中描述和示出的一个或多个实施例的选择引用理由来表示开创性问题的说明性方法的流程图;以及

图6示意性地描绘了根据本文中描述和示出的一个或多个实施例的具有法律问题查询字段和结果列表的图形用户界面。

具体实施方式

本公开的实施例涉及用于在包含法律案件数据的数据库内识别一个或多个开创性案件的系统、方法和计算机产品程序。更具体地,所公开的系统和方法提供一种途径,以通过挖掘包含电子法律文档的文本数据库来识别一个或多个开创性案件和由特定开创性案件解决的法律问题。传统上,当最初将开创性案件及其对应的法律问题添加到数据库时,存储在数据库中的开创性案件及其对应的法律问题是未标记的或未以其他方式标识的。这是因为在公布时通常不知道案件是否最终将在特定的法律领域中变得尤其重要。进一步地,案件可能仅针对在该案件可能已经解决的许多法律问题中的一个法律问题被认为是开创性的。因此,本文中所描述的过程生成对应于开创性案件的数据,并且向外部设备提供或发送该数据,该外部设备使用该数据来将开创性案件显现在搜索结果列表的顶部,或以其他方式指示开创性案件,该过程在识别开创性案件时改进了外部设备在向用户提供最相关的信息方面的功能。即,所产生的搜索结果作为本文中所描述的过程的结果,可以仅在特定案件的开创性问题满足特定用户的搜索需要时提供(cater to)或宣扬(boost)该案件。

本文中详细地描述了用于通过挖掘文本文档数据库来识别开创性案件的各种系统、方法和计算机产品程序。

现在参考附图,图1描绘了根据本文中示出和描述的实施例的说明性的计算网络,该计算网络描绘了用于挖掘文本文档以识别开创性案件的系统的组件。如图1所示,计算机网络100可以包括广域网(WAN)(诸如,互联网)、局域网(LAN)、移动通信网络、公共服务电话网络(PSTN)个人局域网(PAN)、城域网(MAN)、虚拟专用网络(VPN)和/或另一网络。计算机网络100总体上可以被配置用于电子地连接一个或多个计算设备和/或其组件。说明性计算设备可以包括但不限于用户计算设备102a、案件挖掘设备102b以及管理员计算设备102c。

用户计算设备102a可以总体上提供用户与连接到计算机网络100的其他组件之间的界面。因此,用户计算设备102a可以用于执行一个或多个面向用户的功能,诸如从用户接收一个或多个输入或发送数据或信息,诸如与发起针对一个或多个法律问题的电子搜索查询相关的数据。更具体地,为了执行电子搜索查询,用户计算设备102a可以向用户呈现用户界面,该用户界面允许用户输入要搜索的一个或多个法律问题。用户界面可以配置成从用户接收搜索请求、发起搜索、并且在显示搜索结果时利用从案件挖掘设备102b接收的数据,如本文中更为详细描述的。搜索请求可以包括用于检索文档的术语和/或其他数据。用户计算设备102a的组件和功能将在下面详细描述。

另外,包括在图1中的是管理员计算设备102c。在案件挖掘设备102b需要监督、更新或校正的情况中,管理员计算设备102c可以被配置用于提供所期望的监督、更新、和/或校正。管理员计算设备102c还可以用于将附加数据输入至案件挖掘设备102b的数据存储部分中。例如,管理员计算设备102c可以编辑摘要(headnote)。应当理解,摘要可以是由律师编辑者直接从法庭的语言提取的案件要点。由于摘要是通常所理解的,本文中不进一步详细讨论它们。

案件挖掘设备102b可以使用一个或多个法律问题搜索文档数据库以识别文档的结果集。案件挖掘设备102b还可以确定潜在的开创性案件关键字或线索以识别与文档的结果集相关的开创性案件,该文档的结果集针对每个法律问题指示开创性案件。案件挖掘设备102b还可以向用户计算设备102a发送信息,使得用户计算设备102a可以显示文档的结果集和与文档的结果集有关的信息,其中将开创性案件显示在该文档的结果集和该信息的顶部。案件挖掘设备102b可以向外部设备(诸如用户计算设备102a)提供或发送数据,以显现或以其他方式指示所发现的开创性案件。案件挖掘设备102b的组件和功能将在下面详细描述。

应当理解的是,虽然用户计算设备102a和管理员计算设备102c被描绘为个人计算机并且案件挖掘设备102b被描绘为服务器,但是这些仅是示例。更具体地,在一些实施例中,任何类型的计算设备(例如,移动计算设备、个人计算机、服务器等)可以用于这些组件中的任何组件。此外,虽然这些计算设备中的每一个计算设备在图1中被示出为单件硬件,但是这也是示例。更具体地,用户计算设备102a、案件挖掘设备102b和管理员计算设备102c中的每一个可以代表多个计算机、服务器、数据库等等。

此外,应当理解,虽然本文中所描绘的实施例涉及计算设备的网络,但是本公开不仅限于此类网络。例如,在一些实施例中,本文中所描述的各种过程可以由单个计算设备完成,该单个计算设备诸如非联网计算设备或不使用网络来完成本文中所描述的各种过程的联网计算设备。

图2A描绘了根据本文中示出和描述的实施例的案件挖掘设备102b,进一步示出了通过利用硬件、软件和/或固件来识别一个或多个开创性案件及其对应的法律问题的系统。根据本文中示出和描述的实施例,案件挖掘设备102b可以包括非瞬态计算机可读介质,该非瞬态计算机可读介质被配置用于搜索文档语料库或识别围绕多个引用理由、摘要等的文本,被体现为硬件、软件和/或固件。

虽然在一些实施例中,案件挖掘设备102b可以配置成具有必要硬件、软件、和/或固件的通用计算机,但是在其他实施例中,案件挖掘设备102b还可以配置成为执行本文中所描述的功能而专门设计的专用计算机。例如,案件挖掘设备102b可以是特别地确定位于电子文档的文本内的案件引用、多个引用理由、摘要等的专用设备。在进一步示例中,案件挖掘设备102b可以是进一步对多个引用理由中的每一个引用理由的多个法律问题文本进行搜索以识别多个开创性线索,并且从具有多个开创性线索的多个法律问题文本生成数据列表以识别多个潜在的开创性案件的专用设备。当外部组件(例如,用户计算设备102a(图1))执行搜索并向用户提供根据重要性排序(例如,开创性案件比其他案件更重要)或以其他方式在所显示的搜索结果内指示的结果时,出于提高外部组件的准确性的目的,案件挖掘设备102b随后向外部组件提供所生成的数据列表。

同样如图2A中所示,案件挖掘设备102b可以包括:处理器230;输入/输出硬件232;网络接口硬件234;数据存储组件236,其存储电子文档数据238a、关键字数据238b、潜在的开创性案件数据238c、开创性案件数据238d、顶部文本聚类数据238e、关键术语数据238f、引用理由数据238g或摘要数据的数据库;以及存储器组件240。存储器组件240可以是非瞬态计算机可读存储器。存储器组件240可以被配置为易失性和/或非易失性存储器并且因此可以包括随机存取存储器(包括SRAM、DRAM和/或其他类型的随机存取存储器)、闪存、寄存器、致密盘(CD)、数字通用盘(DVD)和/或其他类型的存储组件。此外,存储器组件240可以被配置用于存储操作逻辑244、搜索逻辑244a、关键字逻辑244b、开创性案件识别逻辑244c、文本聚类逻辑244d、关键术语识别逻辑244e、以及引用理由标识符逻辑244f(作为示例,这些逻辑中的每一个逻辑可以被体现为计算机程序、固件、或硬件)。本地接口246也包括在图2A中并且可以被实现为总线或其他接口以促进在案件挖掘设备102b的组件之间的通信。应当理解,处理器230、存储器组件240和诸如搜索逻辑244a、关键字逻辑244b、开创性案件识别逻辑244c、文本聚类逻辑244d、关键术语识别逻辑244e、以及引用理由标识符逻辑244f的各种逻辑模块可以定义用于通过挖掘文本文档数据库识别开创性案件的计算机程序产品。

处理器230可以包括被配置用于接收和执行指令(诸如来自数据存储组件236和/或存储器组件240的指令)的任何(多个)处理组件。输入/输出硬件232可以包括监视器、键盘、鼠标、打印机、相机、麦克风、扬声器和/或用于接收、发送和/或呈现数据的其他设备。网络接口硬件234可以包括任何有线或无线联网硬件,诸如调制解调器、LAN端口、无线保真(Wi-Fi)卡、WiMax卡、移动通信硬件和/或用于与其他网络和/或设备通信的其他硬件。

应当理解,数据存储组件236可以驻留在案件挖掘设备102b本地和/或远程并且可以被配置用于存储由案件挖掘设备102b和/或其他组件访问的一条或多条数据、确定引用理由、和/或确定是否存在开创性线索。如图2A中所示,数据存储组件236存储电子文档数据238a的数据库。如上所述,电子文档可以包括已经被组织和索引用于搜索的法律文档(即,案件、辩护状等)。关键字数据238b存储可以用于识别潜在的开创性案件的潜在的关键字或开创性线索。例如,可以通过确定引用特定案件的后续案件的引用理由是否包括多个关键字或开创性线索来识别潜在的开创性案件。这些关键字或开创性线索是引用理由或摘要中的意见表示创作法官的信念和权威思考在所讨论的特定法律条文方面已对所引用的案件具有重要性和/或影响的指示器。关键字或开创性线索可以包括但不限于:开创性案件、开创性裁决、开创性意见、开创性裁定、开创性裁决、开创性认定、里程碑式案件、里程碑式裁决、里程碑式意见、里程碑式认定、里程碑式裁定、前导案件、前导裁决、前导意见、前导认定、前导裁定等。在一个特定示例中,如果后续案件的意见文本声明“在裁决于120年前的此开创性第四修正案案件中,法院用频繁被引用的语言写下了第四修正案的禁令适用于‘政府及其雇员方对于人的家庭的神圣性和生活的隐私的所有侵犯’”,则该后续案件可以指示先前案件是开创性的。潜在的开创性案件数据238c可以包括通过关键字或开创性线索识别的潜在的开创性案件。。

开创性案件数据238d包括多个句子,所述多个句子具有基于包含对开创性案件以及已经通过包含在关键字数据238b中的关键字或开创性线索识别为开创性案件的任何案件的引用而分配的唯一标识符。例如,引用理由可以包括创作法官的意见中的关键字或开创性线索(即,使用术语“开创性的”、“前导的”等的),所述关键字或开创性线索提及开创性案件之后的特定案件或法律问题,但是创作法官已经裁决该开创性案件为该后续案件中的先例。开创性案件数据238d仅包括已经从潜在的开创性案件数据238c过滤的开创性案件。更具体地,开创性案件数据238d仅包括以下开创性案件:所述开创性案件已经通过基于在引用理由或摘要中的关键字或开创性线索的预设频率确定该案件是否是开创性的(例如,诸如“开创性的”、“前导的”、“世代的”等的关键字)来进行过滤。应当理解,通常,关键字或开创性线索的频率越高,该案件越可能是开创性案件。顶部文本聚类数据238e包括一个或多个文本聚类,该一个或多个文本聚类被标识成潜在地解决开创性案件中的一个开创性案件的开创性问题顶部文本聚类数据238e包括讨论针对特定开创性案件的开创性法律问题的一个或多个句子(例如,“在监护人寻求停止被诊断为持续性植物人状态的人的营养和水合作用的诉讼中,州可以适用明确且令人信服的证据标准”)。关键术语数据238f可以包括表示特定开创性问题的一组关键术语。如本文所讨论的,该组关键术语可以由系统规范化以捕获特定术语,该特定术语可以通过各种途径被拼写或提及。因此,关键术语数据228f还可以包括(例如,基于上述示例句子的)该组关键术语的任何变型,所述关键术语可以是:“州”、“适用”、“明确的”、“明确且令人信服的”、“明确且令人信服的证据”、“令人信服”、“令人信服的证据”、“令人信服的证据标准”、“证据”、“证据标准”、“标准”、“诉讼”、“监护人”、“寻求”、“停止”、“营养”、“水合作用”、“人”、“诊断”、“持续性”、“持续性植物人状态”、“植物人的”、“植物人状态”等)。引用理由数据238g可以包括多个引用理由或摘要和针对所述多个引用理由、摘要中的每一个引用理由、摘要的多个术语,等等,其中所述多个术语中的每个术语可以表示由特定开创性案件解决的开创性法律问题。

在存储器组件240中包括的是操作逻辑244、搜索逻辑244a、关键字逻辑244b、开创性案件识别逻辑244c、文本聚类逻辑244d、关键术语识别逻辑244e、以及引用理由标识符逻辑244f。操作逻辑244可以包括操作系统和/或其他软件,所述操作系统和/或其他软件用于管理案件挖掘设备102b的组件。搜索逻辑244a可以包含编程指令以促进在数据生成过程期间的电子搜索,如本文中更加详细地描述的。进一步地,搜索逻辑244a可以包含编程指令以挖掘用于法律主题的电子文档并且对与那些主题相关的任何案件进行排序、存储、分类等等。搜索逻辑244a可以向搜索计算机(即,用户计算设备102a)发送数据,使得当接收到搜索请求并且生成结果列表时,搜索计算机知道哪些案件是开创性案件,如本文中更加详细地描述的。因此,搜索计算机(即,用户计算设备102a)具有信息,该信息触发搜索计算机将那些开创性案件移动到搜索结果列表的顶部或以其他方式区分搜索结果(例如,高亮、星号等),使得当用户阅读结果列表时,用户知道在搜索结果中被区分的案件或在结果列表顶部的案件是开创性案件。

关键字逻辑244b可以包含编程指令以选择电子文档数据238a、搜索电子文档数据238a、从对电子文档数据238a的搜索识别引用理由文本、并且识别引用理由文本内指示潜在开创性案件的一个或多个关键字。关键字逻辑244b可以将一个或多个关键字保存为关键字数据238b。开创性案件识别逻辑244c可以包含编程指令以基于在关键字数据238b中的关键字在存储在潜在的开创性案件数据238c中的潜在的开创性案件内被提及的频率,来识别一个或多个开创性案件。文本聚类逻辑244d可以是配置为利用文本聚类来识别顶部文本聚类数据238e的算法。文本聚类逻辑244d的算法可以识别被存储在开创性案件数据238d中的开创性案件的引用理由的文本内的一个或多个句子。关键术语识别逻辑244e可以包含编程指令以通过搜索顶部文本聚类数据238e的句子来识别关键术语数据238f的该组关键术语。如上所述,关键术语识别逻辑244e还可以规范化关键术语。引用标识符逻辑244f可以包含编程指令以基于多个引用理由或摘要中的每一个引用理由或摘要的多个术语和规范化的关键术语之间的语义距离,来选择存储在引用理由数据238g中的一个或多个引用理由或摘要,如本文中更加详细地描述的。如上所述,所选择的多个引用理由或摘要表示由开创性案件解决的开创性问题。

应当理解,图2A中所描绘的组件仅是说明性的并且不旨在限制本公开的范围。更具体地,虽然图2A中的组件被图示为驻留在案件挖掘设备102b内,但是这是非限制性示例。在一些实施例中,组件中的一个或多个可以驻留在案件挖掘设备102b外部。类似地,虽然图2A涉及案件挖掘设备102b,但是其他组件(诸如用户计算设备102a和管理员计算设备102c)可以包括相似的硬件、软件和/或固件。

图2B描绘了根据本文中示出和描述的实施例的用户计算设备102a,进一步示出了通过利用硬件、软件和/或固件来识别搜索查询的系统。另外,根据本文中示出和描述的实施例,用户计算设备102a可以包括非瞬态计算机可读介质,该非瞬态计算机可读介质被配置用于显示和发送由用户发起的搜索查询,被体现为硬件、软件、和/或固件。

虽然在一些实施例中,用户计算设备102a可以配置为具有必要硬件、软件、和/或固件的通用计算机,但是在其他实施例中,用户计算设备102a可以配置为为执行本文中所描述的功能而专门设计的专用计算机。例如,用户计算设备102a可以是专用设备,该专用设备显示用户界面用于输入针对至少一个法律问题的搜索查询,并且显示搜索查询的多个生成的结果,其中出于提高提供给用户的搜索结果的准确性的目的,在搜索结果的顶部显示所搜索的法律问题的开创性案件或以其他方式在搜索结果内指示所搜索的法律问题的开创性案件。

如也在图2B中所示的,用户计算设备102a可以包括:处理器270;输入/输出硬件272;网络接口硬件274;数据存储组件276,其存储搜索查询数据278a和显示数据278b的数据库;以及存储器组件280。存储器组件280可以是非瞬态计算机可读存储器。存储器组件280可以被配置为易失性和/或非易失性存储器并且因此可以包括随机存取存储器(包括SRAM、DRAM和/或其他类型的随机存取存储器)、闪存、寄存器、致密盘(CD)、数字通用盘(DVD)和/或其他类型的存储组件。另外,存储器组件280可以配置成存储操作逻辑282a、搜索查询逻辑282b和显示逻辑282c(作为示例,其中的每一个可以被体现为计算机程序、固件、或硬件)本地接口284也包括在图2B中并且可以被实现为总线或其他接口以促进用户计算设备102a的组件之间的通信。

处理器270可以包括被配置用于接收和执行指令(诸如来自数据存储组件276和/或存储器组件280的指令)的任何(多个)处理组件。输入/输出硬件272可以包括监视器、键盘、鼠标、打印机、相机、麦克风、扬声器和/或用于接收、发送和/或呈现数据的其他设备。网络接口硬件274可以包括任何有线或无线联网硬件,诸如调制解调器、LAN端口、无线保真(Wi-Fi)卡、WiMax卡、移动通信硬件和/或用于与其他网络和/或设备通信的其他硬件。

应当理解,数据存储组件276可以驻留在用户计算设备102a本地和/或远程,并且可以配置成存储一条或多条数据以供由用户计算设备102a和/或其他组件访问,存储可以从外部设备(例如,案件挖掘设备102b)接收的数据(诸如搜索查询数据278a),和/或存储要显示的数据。如图2B中所示,数据存储组件276存储了搜索查询数据278a的数据库。如上所述,搜索查询数据278a可以包括与所搜索的法律问题相关的数据和/或从外部设备(即,案件挖掘设备102b)接收的数据。显示数据278b可以包括与要显示的数据相关的数据。例如,显示数据278b可以包括要在用户计算设备102a(诸如,案件挖掘设备102b)上显示的案件的顺序或以其他方式区分所述案件。

在存储器组件280中包括的是操作逻辑282a、搜索查询逻辑282b和显示逻辑282c。操作逻辑282a可以包括用于管理用户计算设备102a的组件的操作系统和/或其他软件。搜索查询逻辑282b可以包含编程指令以促进用户发起的电子搜索或查询。搜索查询逻辑282b可以配置成将电子文档和其他数据汇编、组织和/或显示成一定顺序,诸如在搜索结果列表的顶部或以其他方式指示和/或区分针对开创性法律问题的开创性案件,当被显示给用户时,所述针对开创性法律问题的开创性案件是可识别的。搜索查询逻辑282b还可以配置成向用户计算设备102a或用户计算设备102a的显示设备提供用于用户界面的数据。

显示逻辑282c可以显示可由用户计算设备102a的用户使用的图形用户界面,以提供电子文档搜索查询、显示与表示由至少一个开创性案件解决的至少一个开创性问题的所选择的多个引用理由或摘要相关联的多个元数据的可视化、以及显示与表示由至少一个开创性案件解决的至少一个开创性问题的所选择的多个引用理由或摘要相关联的元数据的结果。显示逻辑282c通常可以配置成在用户计算设备102a的显示器上显示信息。操作逻辑282a、搜索查询逻辑282b和显示逻辑282c的功能将在下面进一步详细描述。

应当理解,图2B中所描绘的组件仅是说明性的并且不旨在限制本公开的范围。更具体地,虽然图2B中的组件被图示为驻留在用户计算设备102a内,但是这是非限制性示例。在一些实施例中,这些组件中的一个或多个组件可以驻留在用户计算设备102a外部。类似地,虽然图2B涉及用户计算设备102a,但是其他组件(诸如管理员计算设备102c)可以包括相似的硬件、软件和/或固件。

现在参考图3,提供了图形地描绘了促进关键开创性问题搜索查询的说明性方法300的流程图。虽然与图3的框相关联的步骤将被描述为单独的任务,但是在其他实施例中,所述框可以被组合或省略。进一步地,虽然与图3的框相关联的步骤将被描述为以特定的顺序执行,但是在其他实施例中,所述步骤可以以不同的顺序执行。

仍参考图3,在框302处,案件挖掘设备102b(图1)可以将与特定法律问题相关的数据和与针对该特定法律问题的开创性案件相关的数据发送到用户计算设备102a(图1)。从案件挖掘设备102b(图1)发送到用户计算设备102a(图1)的数据或信息是为了使用户计算设备102a(图1)知道哪些案件是开创性案件,以便将这些案件移动到搜索结果列表的顶部或者以其他方式指示开创性案件或将其与其他案件相区分。即,案件挖掘设备102b(图1)可以生成要用显示逻辑282c(图2B)显示的数据或信息。应当理解,从案件挖掘设备102b(图1)发送的数据已经在任何搜索查询之前由案件挖掘设备102b(图1)汇编,并且案件挖掘设备102b(图1)可以在预定的时间和/或间隔自动传送该数据。

在框304处,显示图形用户界面。在一些实施例中,图形用户界面被显示在用户计算设备102a(图1)的显示设备上。本文中所描述的图形用户界面可以基于法律问题搜索以直观且用户友好的方式显示开创性案件,使得针对用户查询的法律问题的至少一个开创性案件可以被显示在搜索结果列表的顶部或在搜索结果中以其他方式指示该至少一个开创性案件或将其与其他案件相区分。在一些实施例中,计算机网络100是因特网,并且本文中所描述的图形用户界面经由web浏览器在用户计算设备102a的显示设备上呈现给用户。

仍参考图3,在框306处,可以由用户生成搜索查询并且由用户计算设备102a(图1)接收该搜索查询。在一些实施例中,在框306处接收的搜索查询可以已经被输入到由用户计算设备102a(图1)显示的图形用户界面的查询输入或搜索字段中。用户界面可以被配置用于从用户处接收搜索查询并发起搜索。一旦接收到搜索查询,响应于由用户发起搜索(即,通过按下回车或选择搜索发起图标,或通过输入文本,该文本被自动搜索),用户计算设备102a(图1)就可以针对与用户正在查询的一个或多个法律问题相关的数据或信息执行搜索查询,并且在框308处显示搜索结果。在搜索结果中显示案件时,搜索结果可以使用从案件挖掘设备102b(图1)接收的数据,来通过将案件移动到搜索结果列表的顶部或者以其他方式指示开创性案件或将其与其他案件相区分,而指示与所查询的法律问题相关的案件中的哪些案件是开创性案件。

现在参考图4,提供了根据一个或多个实施例的图形地示出了挖掘文本文档数据以识别解决特定法律问题的一个或多个开创性案件的说明性方法400的流程图。虽然与图4的框相关联的步骤将被描述为单独的任务,但是在其他实施例中,所述框可以被组合或省略。进一步地,虽然与图4的框相关联的步骤将被描述为以特定的顺序执行,但是在其他实施例中,所述步骤可以以不同的顺序执行。作为本文中关于图4而描述的过程的结果,数据被生成,该数据可以由外部设备(例如,用户计算设备102a(图1)使用,以用生成的数据完成一个或多个附加的过程(例如,进行搜索并在搜索结果中指示开创性案件)。

仍参考图4,在数据生成过程期间,在框405处,系统从语料库(例如,法律语料库)获得所有电子文档。例如,可以从包含电子文档的储存库(例如,法律案件报道者储存库)获取电子文档。在一些实施例中,这样的储存库可以是本地的。例如,如本文中更加详细描述的,可以从数据存储组件236(图2A)的电子文档数据238a获取电子文档。在其他实施例中,可以从非现场数据存储储存库(诸如电子文档发布者的储存库等)获取文档。文档通常是电子文档并且通常可以包含以段落形式布置的信息。在一些实施例中,文档可以是法律文档,诸如,例如,判例法、成文法、诉状、辩护状、法律备忘录等,并且电子文档可以包含汇编的摘要、汇编的引用理由等。

在框410处,针对多个引用理由或摘要来搜索电子文档内的文本。多个引用理由或摘要通常包含多个法律问题文本和与所讨论的法律问题的重要性相关的其他文本,诸如裁定或论证是否基于开创性案件或里程碑式案件。即,多个引用理由或摘要可以识别潜在的开创性案件和/或识别每个开创性案件所讨论的突出问题。换言之,可以识别使开创性案件被确认或被认识到的法律问题。因此,一旦识别了多个引用理由,就在框415处搜索多个引用理由文本,以在框420处识别指示潜在的开创性案件的开创性线索或关键字并且生成包含所有引用理由或摘要的数据列表,所述所有引用理由或摘要包含所述潜在的开创性案件。要识别的开创性线索或关键字可以是存储在关键字数据238b(图2)中的关键字或开创性线索。这些关键字或开创性线索是标识符,在后续案件对开创性案件的引用理由或摘要中的创作法官的意见中,该标识符表示所参考或引用的案件在所讨论的特定法律条文方面对当前案件具有意义、影响或者是当前案件的先例的信念和/或权威思考。因此,这些创作法官经常使用关键字或开创性线索来指示所引用的案件是开创性案件。关键字或开创性线索可以包括,例如,开创性案件、开创性裁决、开创性意见、开创性裁定、开创性裁决、开创性认定、里程碑式案件、里程碑式裁决、里程碑式意见、里程碑式认定、里程碑式裁定、前导案件、前导裁决、前导意见、前导认定、前导裁定等。

基于在框410处通过搜索多个引用理由而进行的对多个开创性案件的识别和在框420处生成的包含多个开创性线索的数据列表,在框425处在该数据列表内识别多个潜在的开创性案件。在框430处过滤包含潜在的开创性案件的数据列表,从而在框435处仅识别基于所计算的开创性参考频率的开创性案件并且生成工作语料库。应当理解,该工作语料库是从经过滤的数据列表生成的。进一步地,通过以下方式来识别开创性案件:针对每个潜在的开创性案件计算开创性线索或关键字被提及的频率,并且随后从数据列表中移除针对关键字具有低频率的的任何潜在的开创性案件。开创性案件的工作语料库对应于从框410识别的多个引用理由。在一些实施例中,可以存在提及潜在的开创性案件的超过一个的引用参考或超过一个参考可以引用潜在的开创性案件。例如,假设案件Harris(哈里斯)诉Fisher(费雪)案的引用理由包括假设案件Smith(史密斯)诉Jones(琼斯)案,并且其中Smith诉Jones案在六个诉讼中被提及并且每一个这些诉讼都包括开创性线索。Smith诉Jones案可以是开创性案件,或者其可以是开创性案件的共同引用。因此,需要进一步调查(诸如频率计算)来确认Smith诉Jones案是否是相关的以及Smith诉Jones案是否实际上是开创性案件。在调查期间,确定了Smith诉Jones案的六个诉讼中的五个诉讼实际上引用了另一个案件(例如,Younger(扬格)诉Harris(哈里斯)案)并且最后一个诉讼引用了又另一个案件Monroe(门罗)诉Pape(帕普)案。如此,因为现在可以确定Smith诉Jones案本身不是针对该特定法律问题的开创性案件,相反地Younger诉Harris案可能是开创性案件,所以假设案件Smith诉Jones案现在可以被认为是共同开创性引用。因此,因为Smith诉Jones案仅引用了可能是开创性案件的其他案件,所以当在框430-435处进行过滤时,可以将Smith诉Jones案从数据集中移除。从数据集过滤关键字并最终过滤案件对于确保在数据集内仅包含基于开创性参考频率的潜在的开创性案件是重要的。因此,数据集仅包括开创性案件。

在框440处,从多个引用理由或摘要中挖掘在工作语料库中的所有开创性案件的多个法律问题文本,该多个引用理由或摘要从根据框435所识别的开创性案件中并基于根据框410的具有多个法律问题文本的多个引用理由而确定。

在框445处,,从根据框440的在工作语料库中的所有开创性案件的多个法律问题文本建立包含多个句子的句子数据,所述多个句子具有包括来自开创性案件的多个法律问题的多个法律讨论的文本。句子数据隔离具有包括多个开创性线索的法律讨论的句子。在框450处,句子数据内的多个句子中的每个句子与引用的案件或参考的开创性案件一起被分配唯一标识符。示例唯一标识句子可以用于Harris诉Fisher案的假设案件,其中Harris案将被分配唯一标识符用于任何相关的句子,诸如“更重要的是,最高法院在彻底审查知情同意案件之后得出结论:在正当程序条款(Due Process Clause)下,有法律能力的人在拒绝无根据的医疗治疗方面具有自由利益。”

在框455处,对在工作语料库中是否存在尚未被分配唯一标识符的包含来自多个法律问题的法律讨论的额外的开创性案件做出确定。如果存在额外的开创性案件,则于框445处重复该过程。如果在框450处,工作语料库中的所有开创性案件都已经具有分配给每个句子的唯一标识符,则该过程可以在框460处继续。针对多个开创性案件中的每一个,句子数据中的多个句子中的全部在框460处被收集并且在框465处在开创性案件数据238d(图2)内被存储为针对每个开创性案件的临时句子数据。

在框470处,可以将文本聚类算法利用用于或应用于具有唯一标识符且被存储为临时句子数据的多个句子中的每个句子,以创建多个文本聚类。文本聚类算法可以用于识别潜在地解决开创性问题的引用理由文本内的句子。即,文本聚类算法被配置成通过以下方式来分析临时句子数据内的多个句子:将多个句子的文本变换成经变换的数据,使得算法可以创建代表包含在这些聚类中的数据的多个面向聚类的(cluster-wise)标签。经变换的数据随后被规范化并且使用多个文本聚类工具(即,诸如RapidMiner、KNIME Analytics、Open Calais等开源工具)分析经变换的数据,从而确定最能代表开创性问题的数据,同时移除不代表关键法律问题的数据。

在框475处,从多个文本聚类中选择至少一个顶部聚类。该至少一个顶部聚类包括讨论针对特定开创性案件的开创性法律问题的一个或多个句子。应当理解,当存在两个聚类,所述两个聚类包括讨论针对特定开创性案件的开创性法律问题的一个或多个句子时,人类编辑者可以确定是使用了一个聚类还是两个聚类都被使用。还应当理解,通过选择至少一个顶部聚类,从临时句子数据移除了来自多个引用理由或摘要的其他句子。更具体地,系统偏向引用关键字(即,诸如“前导的”、“开创性的”等词)的句子。因此,在未聚焦于针对特定开创性案件的开创性法律问题的引用理由文本内的句子可以被丢弃。在识别出至少一个顶部聚类的情况下,在框480处,输出与来自工作语料库的开创性案件对应的数据。当开创性案件中的一个或多个开创性案件作为搜索的结果返回时,输出数据使外部设备(诸如用户计算设备102a)区分开创性案件。

输出的数据基于在框475处从多个文本聚类选择的至少一个顶部聚类。应当理解,该数据,包括元数据,可以由用户计算设备102a(图1)使用来以区分开创性案件或以其他方式指示开创性案件的存在的方式显示搜索结果。然而,应当理解,还可以根据框475向以其他方式利用数据(例如,不用于在搜索结果中指示文档)的其他设备输出数据。

参考图5,提供了根据一个或多个实施例的图形地示出了选择引用理由来表示开创性问题的说明性方法500的流程图。在实施例中,一旦选择了至少一个顶部聚类,就在框510处从至少一个顶部聚类的所有句子中表示利用每个开创性案件识别的一个或多个开创性问题的一组规范化关键术语。即,利用文本聚类算法来分析代表包含在这些聚类中的数据的多个面向聚类的标签,以识别最能代表开创性问题的数据,使得可以识别具有最相关的句子的顶部聚类,并且可以搜索那些句子内的数据以识别表示开创性法律问题的该组关键术语。规范化的一组关键术语的识别可以基于术语的权重和频率进行计算。在框520处,收集与每个开创性案件相关联的多个引用理由。在框530处,扫描多个引用理由,并且可以从多个引用理由中提取多个规范化的术语。例如,可以以多个类似的术语来描述术语“美国公民(US citizen)”。即,术语“美国公民”还可以被称为“美国的公民(citizen of theUnited States)”、“美国公民(United States citizen)”、“美国公民(U.S.citizen)”、“美国的公民(citizens of the United States)”、“美国的公民(citizen of UnitedStates)”等。因此,关键术语可以被称为规范化关键术语。

在框540处,一旦提取了规范化的一组关键术语,就将在框530中提取的针对多个引用理由中的每一个引用理由的规范化关键术语与在框510处生成的表示来自每个开创性案件的开创性问题的一组规范化关键术语进行比较。在框550处,确定在多个引用理由中识别的一组关键术语和多个引用理由的每一个引用理由的多个术语之间的语义距离。语义距离可以通过计算规范化关键术语和多个引用理由术语内的多个术语之间的余弦相似度来确定。余弦相似度可以是使用该规范化关键术语的矢量和该多个术语的矢量之间的余弦角θ的计算,以便基于θ的值来确定术语是否相似。即,多个引用理由内的多个术语中的每一个术语具有可以被计算为最接近于规范化关键术语的术语矢量,随后该术语矢量被选择来表示开创性问题。在一个实施例中,系统可以识别同时聚焦于不同问题上的两个不同的顶部文本聚类。如果两个顶部文本聚类被识别,则系统可以选择两个引用理由(即,每个顶部文本聚类一个引用理由)。如果必要,个人可以评审两个引用理由并选择其中之一作为摘要来表示开创性问题。

在框560处,可以随后基于如以上参考框550所讨论的该组关键术语和该多个术语之间的语义距离,选择特定引用理由。特定引用理由可以表示由开创性案件解决的开创性问题。在框570处,随后将该引用理由的法律问题分配给开创性案件,作为它的开创性问题。

现在参考图6,图形用户界面600包括法律问题查询字段610和结果列表620。法律问题查询字段610被配置成请求提交来自用户的法律问题搜索查询。在一些实施例中,可以在法律问题查询字段610中提供文本输入,诸如在图6中所描绘的说明性的用户输入的术语“搜查和扣押”。在一些实施例中,可能已经向用户提供了单独的搜索屏幕(例如,具有搜索框和“搜索”按钮的用户界面或具有在输入文本时立即导致搜索运行的搜索框的用户界面),该搜索屏幕由用户使用以输入搜索查询,诸如通过将法律问题搜索查询键入到搜索框中。

搜索结果620显示与所搜索的法律问题相关的多个案件。将搜索结果620中显示的案件提供成开创性案件630、640被移动到搜索结果列表顶部。即,关于法律问题搜索查询“搜查和扣押”,两个开创性案件630、640被识别并被移动到搜索结果620的顶部。第一个开创性案件是Katz(卡茨)诉美国案并且第二个开创性案件是Terry(特里)诉俄亥俄州案。因此,提供该界面使得用户可以将这两个案件视觉地识别为与“搜查和扣押”的法律问题搜索相关的两个开创性案件。用于在搜索结果中识别和指示开创性案件的数据是作为本文中关于图4描述的过程的结果而接收的数据的结果。应当理解,开创性案件可以不被推送或移动到搜索结果的顶部,而是可以以其他方式进行指示或区分,诸如高亮、星号、标记等,使得在视觉上,用户可以容易地认识到这些案件是针对特定法律问题的开创性案件。

应当理解,所公开的系统、方法和计算机程序产品被配置成在包含各种文本文档的数据库内识别一个或多个开创性案件。更具体地,所公开的系统、方法和计算机程序产品提供了一种途径,以通过挖掘包含法律文档的文本数据库来识别一个或多个开创性案件和由特定开创性案件解决的法律问题。传统上,存储在数据库中的开创性案件及其对应的法律问题未被标记或以其他方式进行标识。这是因为在公布时通常不知道案件是否将最终在特定的法律领域中变得特别重要。此外,所公开的系统、方法和计算机程序产品为改进搜索结果的目的向搜索计算机发送数据。此外,所公开的方法采用新颖的或非常规的途径来针对一个或多个开创性案件和每个案件解决的相应问题挖掘文本文档数据库。

尽管本文中已经示出和描述了特定实施例,但应理解可作出各种其他变更和修改而不偏离所要求保护的主题的精神和范围。此外,虽然本文中已经描述了所要求保护的主题的各个方面,但不需要以组合的方式来利用这些方面。因此,所附权利要求旨在涵盖所要求保护的主题的范围内的所有此类变更和修改。

权利要求书(按照条约第19条的修改)

1.一种用于识别解决特定法律问题的一个或多个开创性案件的系统,所述系统包括:

处理设备;以及

非瞬态处理器可读存储介质,所述非瞬态处理器可读存储介质与所述处理设备通信,所述非瞬态处理器可读存储介质包括一个或多个编程指令,所述一个或多个编程指令在被执行时使所述处理设备:

从储存库中获取电子法律文档,所述电子法律文档包括多个文本,

针对包括多个法律问题文本的多个引用理由,搜索所述电子法律文档的所述多个文本,

搜索所述多个引用理由以识别多个开创性线索,并且从所述多个引用理由生成具有所述多个开创性线索的数据列表以识别多个潜在的开创性案件,

过滤包含所述多个潜在的开创性案件的所述数据列表,以仅识别基于所计算的开创性参考频率的开创性案件并且从经过滤的数据列表生成工作语料库,以及

输出与来自所述工作语料库的所述开创性案件对应的数据,使得当所述开创性案件中的一个或多个作为搜索的结果返回时,所述数据使外部设备区分所述开创性案件。

2.根据权利要求1所述的系统,其中所计算的开创性参考频率由预定的一组规则来确定,所述预定的一组规则被配置成确定特定案件作为开创性案件被引用的次数以建立频率。

3.根据权利要求1所述的系统,其中所述引用理由文本是摘要文本。

4.根据权利要求1所述的系统,其中所述非瞬态处理器可读存储介质进一步包括一个或多个编程指令,当所述一个或多个编程指令被执行时使所述处理设备:

从在所述工作语料库中的所有所述开创性案件的所述多个引用理由中挖掘所述多个法律问题文本以建立句子数据,所述句子数据包含多个句子,所述多个句子包括来自在所述工作语料库中的所述开创性案件的所述多个法律问题文本的多个法律讨论,

为参考所述开创性案件的所述多个句子中的每一个句子分配唯一标识符,

针对在所述工作语料库中的每个开创性案件,从所述句子数据收集所述多个句子的所述句子,

针对在所述工作语料库中的所述开创性案件中的每一个开创性案件,将来自所述句子数据的所收集的句子存储为临时句子数据,

将文本聚类算法应用于所述临时句子数据以创建多个文本聚类,以及

从所述多个文本聚类中选择顶部聚类,其中所述顶部聚类包括围绕用所述开创性案件中的每一个开创性案件识别的所述多个法律问题文本的一个或多个句子。

5.根据权利要求4所述的系统,其中从所述临时句子数据的所述多个文本聚类中选择所述顶部聚类将未聚焦于用开创性案件识别的所述多个法律问题文本的所述句子从临时句子数据中移除。

6.根据权利要求4所述的系统,其中所述顶部聚类是多个句子。

7.根据权利要求4所述的系统,其中所述非瞬态处理器可读存储介质进一步包括一个或多个编程指令,当所述一个或多个编程指令被执行时使所述处理设备:

从所述顶部聚类的所述一个或多个句子中生成一组规范化关键术语,所述一组规范化关键术语表示用每个开创性案件识别的开创性问题,

收集与每个开创性案件相关联的所述多个引用理由,

针对所述多个引用理由中的每一个引用理由,扫描和提取多个规范化术语,

将所述一组规范化关键术语与所述多个规范化术语进行比较,

确定所述一组规范化关键术语和每一个引用理由的所述多个规范化术语之间的语义距离,

基于所述一组规范化关键术语和所述多个规范化术语之间的所述语义距离,选择特定引用理由,以及

为所述开创性案件分配所述引用理由的所述多个法律问题文本的所述特定法律问题作为所述开创性问题。

8.根据权利要求7所述的系统,其中所选择的引用理由是在所述开创性案件中的所述开创性问题中的至少一个开创性问题的质心。

9.根据权利要求7所述的系统,其中:

所述语义距离通过针对所述多个引用理由中的每一个引用理由计算所述一组规范化关键术语和所述多个规范化术语之间的余弦相似度来确定,以及

针对所述多个引用理由中的每一个引用理由,所述多个规范化术语的所选择的术语是与所述一组规范化关键术语最接近的矢量。

10.一种用于识别解决特定法律问题的一个或多个开创性案件的方法,所述方法包括:

通过处理设备从储存库中获取电子法律文档,所述电子法律文档包括多个文本;

通过所述处理设备,针对包括多个法律问题文本的多个引用理由,搜索所述电子法律文档的所述多个文本;

通过所述处理设备,搜索所述多个引用理由以识别多个开创性线索;

通过所述处理设备,从所述多个引用理由生成具有所述多个开创性线索的数据列表以识别多个潜在的开创性案件;

通过所述处理设备,过滤包含所述多个潜在的开创性案件的所述数据列表,以仅识别基于所计算的开创性参考频率的开创性案件并且从经过滤的数据列表生成工作语料库;

通过所述处理设备,从在所述工作语料库中的所有所述开创性案件的所述多个引用理由中挖掘所述多个法律问题文本以建立句子数据,所述句子数据包含多个句子,所述多个句子包括来自在所述工作语料库中的所述开创性案件的所述多个法律问题文本的多个法律讨论;

通过所述处理设备,为参考所述开创性案件的所述多个句子中的每一个句子分配唯一标识符;

通过所述处理设备,针对在所述工作语料库中的所述开创性案件中的每一个开创性案件,从所述句子数据中收集所述多个句子中的每一个句子并将来自所述句子数据的所收集的句子存储为临时句子数据;

通过所述处理设备,将文本聚类算法应用于所述临时句子数据以创建多个文本聚类;

通过所述处理设备,从所述多个文本聚类中选择顶部聚类,其中所述顶部聚类包括围绕所述多个法律讨论和用所述开创性案件中的每一个开创性案件识别的所述多个法律问题文本的一个或多个句子;以及

向用户显示设备输出与来自所述工作语料库的所述开创性案件对应的数据,使得当所述开创性案件中的一个或多个作为搜索的结果返回时,所述数据使用户显示设备区分所述开创性案件。

11.根据权利要求10所述的方法,其中通过预定的一组规则来确定所计算的开创性参考频率,所述预定的一组规则被配置成确定特定案件作为开创性案件被引用的次数来建立频率。

12.根据权利要求10所述的方法,其中所述引用理由文本是摘要文本。

13.根据权利要求10所述的方法,其中从所述临时句子数据的所述多个文本聚类中选择所述顶部聚类将未聚焦于用开创性案件识别的所述多个法律问题文本的所述句子从所述引用理由文本中移除。

14.根据权利要求10所述的方法,进一步包括:

通过所述处理设备,从所述顶部聚类的所述一个或多个句子中生成一组规范化关键术语,所述一组规范化关键术语表示用每一个开创性案件识别的开创性问题;

通过所述处理设备,收集与每个开创性案件相关联的所述多个引用理由;

通过所述处理设备,针对所述多个引用理由中的每一个引用理由,扫描和提取多个规范化术语;

通过所述处理设备,将所述一组规范化关键术语与针对所述多个引用理由中的每一个引用理由的所述多个规范化术语进行比较;

通过所述处理设备,确定所述一组规范化关键术语与所述多个规范化术语之间的语义距离;

通过所述处理设备,基于所述一组规范化关键术语和所述多个规范化术语之间的所述语义距离,选择特定引用理由;以及

通过所述处理设备,为所述开创性案件分配所述引用理由的所述多个法律问题文本的所述特定法律问题作为所述开创性问题。

15.根据权利要求14所述的方法,其中所选择的引用理由是在所述开创性案件中的所述多个法律问题中的至少一个法律问题的质心。

16.根据权利要求14所述的方法,其中:

通过针对所述多个引用理由中的每一个引用理由计算所述一组规范化关键术语和所述多个规范化术语之间的余弦相似度来计算所述语义距离,以及

其中针对所述多个引用理由中的每一个引用理由,所述多个规范化术语的所述术语是与所述一组规范化关键术语最接近的矢量。

17.一种非瞬态计算机可读存储介质,所述非瞬态计算机可读存储介质由计算机可操作来识别解决特定法律问题的一个或多个开创性案件,所述非瞬态计算机可读存储介质包括存储在其上的一个或多个编程指令用于使处理设备:

从储存库中获取电子法律文档,所述电子法律文档包括多个文本,针对包括多个法律问题文本的多个引用理由,搜索所述电子法律文档的所述多个文本,

搜索所述多个引用理由以识别多个开创性线索,并且从所述多个引用理由生成具有所述多个开创性线索的数据列表以识别多个潜在的开创性案件,

过滤包含所述多个潜在的开创性案件的所述数据列表,以仅识别基于所计算的开创性参考频率的开创性案件并且从经过滤的数据列表生成工作语料库,以及

输出与来自所述工作语料库的所述开创性案件对应的数据,使得当所述开创性案件中的一个或多个作为搜索的结果返回时,所述数据使外部设备区分所述开创性案件。

18.根据权利要求17所述的非瞬态计算机可读存储介质,进一步包括存储在其上的一个或多个编程指令用于使所述处理设备:

从在所述工作语料库中的所有所述开创性案件的所述多个引用理由中挖掘所述多个法律问题文本以建立句子数据,所述句子数据包括多个句子,所述多个句子包括来自所述工作语料库中的所述开创性案件的所述多个法律问题文本的多个法律讨论,

为参考在所述工作语料库中的所述开创性案件的所述多个句子中的每一个句子分配唯一标识符,

从所述句子数据中收集所述多个句子中的每一个句子,

针对在所述工作语料库中的所述开创性案件,将来自所述句子数据的所收集的句子存储为临时句子数据,

将文本聚类算法应用于所述临时句子数据以创建多个文本聚类,以及

从所述多个文本聚类中选择顶部聚类,其中所述顶部聚类包括围绕用开创性案件识别的所述多个法律问题文本的一个或多个句子。

19.根据权利要求18所述的非瞬态计算机可读存储介质,其中所述指令用于使所述处理设备从所述临时句子数据的所述多个文本聚类中选择所述顶部聚类将未聚焦于用开创性案件识别的所述多个法律问题文本的所述句子从临时句子数据中移除。

20.根据权利要求18所述的非瞬态计算机可读存储介质,进一步包括存储在其上的一个或多个编程指令用于使所述处理设备:

从所述顶部聚类的所述一个或多个句子中生成一组规范化关键术语,所述一组规范化关键术语表示用所述开创性案件识别的开创性问题,

收集与所述开创性案件相关联的所述多个引用理由,

针对所述多个引用理由中的每一个引用理由,扫描和提取多个规范化术语,

将所述一组规范化关键术语与所述多个规范化术语进行比较,

确定所述一组规范化关键术语和所述多个规范化术语之间的语义距离,以及

基于所述一组规范化关键术语和所述多个规范化术语之间的所述语义距离选择引用理由,并且为所述开创性案件分配所述引用理由的理由的所述多个法律问题文本的所述特定法律问题作为所述开创性问题。

29页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:域适应学习系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!