公告摘要示例:

自上世纪九十年代末开始,一些会议或组织开始致力于制定摘要评价的标准,他们也会参与评价一些自动文本摘要。比较著名的会议或组织包括SUMMAC,DUC(DocumentUnderstanding
Conference),TAC(TextAnalysis Conference)等。

关系抽取指的是检测和识别文本中实体之间的语义关系,并将表示同一语义关系的提及(mention)链接起来的任务。关系抽取的输出通常是一个三元组(实体
1,关系类别,实体 2),表示实体 1 和实体 2 之间存在特定类别的语义关系。

长短期记忆网络(Long Short-Term Memory,LSTM)是一种 RNN
特殊的类型,通过学习长期依赖信来避梯度爆炸和梯度消失问题。所有RNN
都具有一种循环神经网络模块的链式的形式。在标准的 RNN
中,这个循环模块只有一个非常简单的结构,例如一个 tanh
层。LSTM同样具有这样的循环模块,但更复杂,其核心是记忆单元(memory
cell)。记忆单元在每一步里记住相关信息并忘掉无关信息。这样,重要的相关信息可以一直留存,从而其梯度不会变的太小。形式上来看,记忆单元可以用以下两个公式来定义:

下文主要对句法分析技术方法和研究现状进行总结分析:

下图便可以直观的理解RNN网络结构:

  1. 金融知识图谱构建

  2. 客户项目开发

在未来的一段时间,结合互联网应用需求的实际和技术、产品运营能力的实际发展水平,语义搜索技术的发展重点将有可能集中在以各种情境的垂直搜索资源为基础,知识化推理为检索运行方式,自然语言多媒体交互为手段的智能化搜索与推荐技术。首先将包括各类垂直搜索资源在内的深度万维网数据源整合成为提供搜索服务的资源池;随后利用广泛分布在公众终端计算设备上的浏览器作为客户端载体,通过构建的复杂情境知识库来开发多层次查询技术,并以此管理、调度、整合搜索云端的搜索服务资源,满足用户的多样化、多模态查询需求;最后基于面向情境体验的用户行为模型构建,以多模态信息推荐的形式实现对用户信息需求的主动满足。

  1. 公司全称(实体)
  2. 公司简称(实体)
  3. 公司代码(实体)
  4. 利润分配方案名称(实体)
  5. A股每股现金红利(数字)
  6. 股权登记日每股转增股份(数字)
  7. 除权(息)日(日期)
  8. 新增无限售条件流通股份上市日(日期)
  9. 现金红利发放日(日期)
  10. 公司债券简称(实体)
  11. 兑付债权登记日(日期)
  12. 兑付资金发放日(日期)
  13. 债券摘牌日(日期)

从数据中自动学习规则

1.
使用标注工具,针对文本数据进行归类、整理、标注。

  1. 内容结构

最后的难点是深度学习模型与知识提取的混合工程架构,要考虑如何能更快让开发人员扩展,非常考验工程设计者的架构能力。

检索用户的意图表达

  1. 完成年度商务指标和相应营销工作

十. 学习资料

(六)参考文献

词性标注是指为给定句子中的每个词赋予正确的词法标记,给定一个切好词的句子,词性标注的目的是为每一个词赋予一个类别,这个类别称为词性标记(part-of-speech
tag),比如,名词(noun)、动词(verb)、形容词(adjective)
等。它是自然语言处理中重要的和基础的研究课题之一,也是其他许多智能信息处理技术的基础,已被广泛的应用于机器翻译、文字识别、语音识别和信息检索等领域。

全局最优的标注框架,但同时存在收敛速度慢、训练时间长的问题。一般说来,最大熵和支持向量机在正确率上要比隐马尔可夫模型高一些,但是隐马尔可夫模型在训练和识别时的速度要快一些,主要是由于在利用Viterbi算法求解命名实体类别序列的效率较高。隐马尔可夫模型更适用于一些对实时性有要求以及像信息检索这样需要处理大量文本的应用,如短文本命名实体识别。

  1. 词性标注方法

摘要为:“浙江三维橡胶制品股份有限公司实施2016年年度权益分派方案为:A股每股派发现金红利0.3元(含税),以资本公积金向全体股东每股转增0.4股。股权登记日:2017/6/22。除权(息)日:2017/6/23。新增无限售条件流通股份上市日:2017/6/26。现金红利发放日:2017/6/23。”

切分歧义的检测。“最大匹配法”(精确的说法应该叫“最长词优先匹配法”)
是最早出现、同时也是最基本的汉语自动分词方法。依扫描句子的方向,又分正向最大匹配
MM(从左向右)和逆向最大匹配
RMM(从右向左)两种。最大匹配法实际上将切分歧义检测与消解这两个过程合二为一,对输入句子给出唯一的切分可能性,并以之为解。从最大匹配法出发导出了“双向最大匹配法”,即MM+
RMM。双向最大匹配法存在着切分歧义检测盲区。

以上市公司信息披露为例,随着市场监管的全面深化以及上市公司数量的逐年增长,各类投资者,尤其是中小投资者,面临着海量公告信息处理能力不足的困难。

问答系统(Question answering)

公告摘要示例:

——《统计自然语言处理》宗成庆

在我国证券市场上,信息披露是一种法规要求,各种信息披露义务人“应当真实、准确、完整、及时地披露信息”。以上市公司为例,信息披露能够使市场及时掌握公司的运营情况,评估未来盈利水平和风险情况,从而做出投资决策。

新涌现的通用词或专业术语。对这类未登录词的处理,一般是在大规模语料库的支持下,先由机器根据某种算法自动生成一张候选词表(无监督的机器学习策略),再人工筛选出其中的新词并补充到词表中。鉴于经过精加工的千万字、甚至亿字级的汉语分词语料库目前还是水月镜花,所以这个方向上现有的研究无一不以从极大规模生语料库中提炼出的
n
元汉字串之分布(n≥2)为基础。其中汉字之间的结合力通过全局统计量包括互信息、t-
测试差、卡方统计量、字串频等来表示。

对应信息点:

推荐指数:五颗星

基于统计的方法对特征选取要求较高,需要从文本中选择对该项任务有影响的各种特征,并将这些特征加入到特征向量中。依据特定命名实体识别所面临的主要困难和所表现出的特性,考虑选择能有效反映该类实体特性的特征集合。主要做法是通过对训练语料所包含的语言信息进行统计和分析,从训练语料中挖掘出特征。有关特征可以分为具体的单词特征、上下文特征、词典及词性特征、停用词特征、核心词特征以及语义特征等。

1.3 结果匹配排序

  1. 良好的沟通能力,一定的学习能力

根据目标数据源的不同,已有自动问答技术大致可以分为三类:

摘要为:“因个人原因,郑敏先生辞去公司第八届董事会董事及董事会专门委员会委员职务,辞职后不再担任公司任何职务。”

例如,句子“北京是中国的首都、政治中心和文化中心”中表述的关系可以表示为(中国,首都,北京),(中国,政治中心,北京)和(中国,文化中心,北京)。语义关系类别可以预先给定(如
ACE 评测中的七大类关系),也可以按需自动发现(开放域信息抽取)。

举例来讲,“公司ABC拟向XYZ公司申请1亿元贷款”,通过熔断到序列中的一些结点后,可以泛化为“公司ABC__XYZ公司申请1亿元贷款”,随机的熔断部分数据会加强模型泛化性。

早期的自然语言处理具有鲜明的经验主义色彩。如1913年马尔科夫提出马尔科夫随机过程与马尔科夫模型的基础就是“手工查频”,具体说就是统计了《欧根·奥涅金》长诗中元音与辅音出现的频度;1948年香农把离散马尔科夫的概率模型应用于语言的自动机,同时采用手工方法统计英语字母的频率。

【加分项】(非必须项):

自然语言生成(Natural language generation)

基于规则和词典的方法是命名实体识别中最早使用的方法,一般而言,当提取的规则能比较精确地反映语言现象时,基于规则的方法性能要优于基于统计的方法。但是这些规则往往依赖于具体语言、领域和文本风格,编制过程耗时且难以涵盖所有的语言现象,容易产生错误,系统可移植性不好,对于不同的系统需要语言学专家重新书写规则。基于规则的方法的另外一个缺点是代价大,存在系统建设周期长、移植性差而且需要建立不同领域知识库作为辅助以提高系统识别能力等问题。

基于统计文本信息抽取的问答系统的典型代表是美国 Language Computer
Corporation 公司的 LCC
系统。该系统使用词汇链和逻辑形式转换技术,把提问句和答案句转化成统一的逻辑形式(Logic
Form),通过词汇链,实现答案的推理验证。LCC 系统在 TREC QA Track 2001 ~
2004 连续三年的评测中以较大领先优势获得第一名的成绩。 2011 年,IBM
研发的问答机器人 Watson在美国智力竞赛节目《危险边缘
Jeopardy!》中战胜人类选手,成为问答系统发展的一个里程碑。

  1. 公司全称(实体)
  2. 公司简称(实体)
  3. 公司代码(实体)
  4. 风险警示描述(句子)
  5. 实施其他风险警示后股票价格的日涨跌幅限制(数字)
  1. 个性化搜索
  • 结构化提取:在已经结构化的数据集中,如在Freebase、Wikidata等知识库中进行近一步的实体分类或关联挖掘,通常采用本体推理的方法实现。
  • 非结构化(半结构化)提取:数据以纯文本或者少量结构信息(如表格)的形式展现,需要提取关键实体(如人名,公司名),以及实体间关系(如张三-就职-A公司)。由于公告信息均是PDF文本信息,部分附带表格,故属于第二类。此类工作,一般通过NLP的句法分析,专家领域词表,正则系统,以及前沿的深度学习网络混合构建实现。
  • 对非结构化文档的知识抽取:由于非结构化文档数据丰富,对该类文档的知识抽取一直是知识抽取领域的研究重点。这类文档具有一定的模式,因此可以利用信息抽取(Information
    Extraction, IE)技术抽取其中的知识(或信息)。

相比机器翻译、自动问答、知识图谱、情感分析等热门领域,自动文摘在国内并没有受
到足够的重视。国内早期的基础资源与评测举办过中文单文档摘要的评测任务,但测试集规
模比较小,而且没有提供自动化评价工具。2015 年 CCF
中文信息技术专委会组织了 NLPCC
评测,其中包括了面向中文微博的新闻摘要任务,提供了规模相对较大的样例数据和测试数据,并采用自动评价方法,吸引了多支队伍参加评测,目前这些数据可以公开获得。但上述中文摘要评测任务均针对单文档摘要任务,目前还没有业界认可的中文多文档摘要数据,这在事实上阻碍了中文自动摘要技术的发展。

图片 1

词性标注是一个非常典型的序列标注问题。最初采用的方法是隐马尔科夫生成式模型,
然后是判别式的最大熵模型、支持向量机模型,目前学术界通常采用结构感知器模型和条件随机场模型。近年来,随着深度学习技术的发展,研究者们也提出了很多有效的基于深层神经网络的词性标注方法。

人工评价结果在很大程度上都是可信的,因为人可以推理、复述并使用世界知识将具有类似意思但形式不同的文本单元关联起来,更加灵活,但是时间成本高,效率低。

资源质量管理与度量在传统信息检索研究中并非处于首要的位置,但随着互联网信息资
源逐渐成为检索系统的主要查找对象,网络资源特有的缺乏编审过程、内容重复度高、质量
参差不齐等问题成为了影响检索质量的重要因素。目前,搜索引擎仍旧面临着如何进行有效
的资源质量度量的挑战,这构成了当前信息检索技术发展面临的第二个关键问题。

自动文本摘要有非常多的应用场景,如自动报告生成、新闻标题生成、搜索结果预览等。此外,自动文本摘要也可以为下游任务提供支持。尽管对自动文本摘要有庞大的需求,这个领域的发展却比较缓慢。对计算机而言,生成摘要是一件很有挑战性的任务,要求计算机在阅读原文本后理解其内容,并根据轻重缓急对内容进行取舍,裁剪和拼接内容,最后生成流畅的短文本。因此,自动文本摘要需要依靠自然语言处理/理解的相关理论,是近几年来的重要研究方向之一。

从应用上讲,无论是社会大众、政府企业还是国家机构,都迫切需要机器翻译技术。特别是在“互联网+”时代,以多语言多领域呈现的大数据已成为我们面临的常态问题,机器翻译成为众多应用领域革新的关键技术之一。例如,在商贸、体育、文化、旅游和教育等各个领域,人们接触到越来越多的外文资料,越来越频繁地与持各种语言的人通信和交流,从而对机器翻译的需求越来越强烈;在国家信息安全和军事情报领域,机器翻译技术也扮演着非常重要的角色。

9类公告的摘要示例及所需要抽取的信息点的分析如下:

2.2 基于统计的方法

每类摘要标注50-100份即可,如果效果不足,可以通过模型测试界面进行观测与改进。

推荐指数:四颗星

4.
遵循并参与项目开发规范和开发流程

基于图的方法将依存句法分析问题看成从完全有向图中寻找最大生成树的问题。一棵依存树的分值由构成依存树的几种子树的分值累加得到。根据依存树分值中包含的子树的复杂度,基于图的依存分析模型可以简单区分为一阶和高阶模型。高阶模型可以使用更加复杂的子树特征,因此分析准确率更高,但是解码算法的效率也会下降。基于图的方法通常采用基于动态规划的解码算法,也有一些学者采用柱搜索(beam
search)来提高效率。学习特征权重时,通常采用在线训练算法,如平均感知器(
averaged perceptron)。

  • 统计学习方法之间或内部层叠融合。
  • 规则、词典和机器学习方法之间的融合,其核心是融合方法技术。
  • 在基于统计的学习方法中引入部分规则,将机器学习和人工知识结合起来。
  • 将各类模型、算法结合起来,将前一级模型的结果作为下一级的训练数据,并用这些训练数据对模型进行训练,得到下一级模型。

例如,从“毛泽东 1893 年出生于湖南湘潭”这句话中抽取事件{类型:出生,
人物:毛泽东,时间:1893 年,出生地:湖南湘潭}。

本质上,文本摘要是一种信息过滤,输出的文本比输入的文本少很多,但却包含了主要的信息,有点类似主成分分析(PCA)。从某种意义上,文本摘要与推荐系统的功能类似,都是为了提取出用户感兴趣的内容,只是使用的方法有很大不同。

中文版博客专栏

本课题研究中,公告信息披露这一问题场景对摘要信息的准确性有严格要求,生成式摘要技术不适用于本场景,本文主要介绍基于关键句选取、信息抽取和摘要模板生成式自动文本摘要。

文档内容描述具有结构性,因此也有利用隐马尔科夫模型(HMM)、条件随机场(CRF)、结构化支持向量机(Structural
SVM)等常见序列标注或一般结构预测模型进行抽取式摘要有监督训练的工作。所提取的特征包括所在位置、包含词汇、与邻句的相似度等等。对特定摘要任务一般也会引入与具体设定相关的特征,例如查询相关摘要任务中需要考虑与查询的匹配或相似程度。

1.
有自然语言处理经验,熟悉分词、实体识别等NLP基本模块(知道基本原理,并且使用过某个相关库)

命名实体识别系统通常包含两个部分:实体边界识别和实体分类。

在自然语言理解中,一句话的前后顺序有着极其重要的语义信息,所以研究者在处理文本应用中大多采用
LSTM 模型。LSTM 模型是一种特殊的循环神经网络(Recurrent Neural
Network,RNN)
。RNN(Graves,2012)适合解决时间序列的输入输出问题,而自然语言恰好是一个序列标注问题,在传统神经网络模型中,是从输入层到隐含层再到输出层,层与层之间是全连接的,每层之间的节点是无连接的。但是这种普通的神经网络对于很多问题却无能无力。例如,在之前的语言模型的例子中,要预测句子的下一个单词是什么,一般需要用到前面的单词,而一个句子中前后单词并不是独立的。RNN已经被在实践中证明对NLP是非常成功的。如词向量表达、语句合法性检查、词性标注等。

  1. 模型

以下招聘岗位职责描述仅供参考,请不要让它们限制住你的想象和勇气。

近些年,市面上出现了一些文本挖掘产品,能够提供中文文档摘要功能(尤其是单文档
摘要),例如方正智思、拓尔思(TRS),海量科技等公司的产品。百度等搜索引擎也能为检索到的文档提供简单的单文档摘要。这些文档摘要功能均被看作是系统的附属功能,其实现方法均比较简单。

根据统计,按照原有流程,摘要采编这道工序的时间从20秒至184秒不等,平均约为54秒;按照改进后的流程,自动摘要服务可在数秒之内完成摘要采编(含数据请求及返回的时间),单一工序效率提升了十倍有余。

检索用户、信息资源和检索系统三个主要环节组成了信息检索应用环境下知识获取与信息传递的完整结构,而当前影响信息获取效率的因素也主要体现在这几个环节,即:

如果你还不熟悉文因互联:文因互联是位于北京的智能金融创业公司。技术团队来自MIT、RPI、IBM、Samsung等知名大学和公司,深耕人工智能十余年,是知识图谱领域的领军团队。我们用人工智能技术解决交易所、银行、券商等面临的投资研究、自动化监管、投资顾问等问题。经过两轮融资,财务健康,目前市场拓展顺利,也建立了良好的行业口碑。

也有一些工作考虑更多细节,利用扩展性较强的贝叶斯话题模型,对词汇本身的话题相关性概率进行建模。
一些方法将每个句子表示为向量,维数为总词表大小。
通常使用加权频数作为句子向量相应维上的取值。加权频数的定义可以有多种,如信息检索中常用的词频-逆文档频率
(TF-IDF)权重。

  1. 公司全称(实体)
  2. 公司简称(实体)
  3. 公司代码(实体)
  4. 业绩预测描述(句子)

从某种角度讲,其自动化程度和智能化程度在不断提升,机器翻译质量也得到了显著改善。机器翻译技术的研究现状可从欧盟组织的国际机器翻译评测(WMT)的结果中窥得一斑。
该评测主要针对欧洲语言之间的互译,2006 年至 2016
年每年举办一次。对比法语到英语历年的机器翻译评测结果可以发现,译文质量已经在自动评价指标
BLEU 值上从最初小于 0.3 到目前接近 0.4(大量的人工评测对比说明,BLEU
值接近 0.4 的译文能够达到人类基本可以理解的程度)。

  • 决定原始文本最重要的、需要保留的部分;
  • 在自动文本摘要中识别出1中的部分;
  • 基于语法和连贯性(Coherence)评价摘要的可读性(Readability)。

对于自然语言处理的发展历程,可以从哲学中的经验主义和理性主义说起。基于统计的自然语言处理是哲学中的经验主义,基于规则的自然语言处理是哲学中的理性主义。在哲学领域中经验主义与理性主义的斗争一直是此消彼长,这种矛盾与斗争也反映在具体科学上,如自然语言处理。

国外学者对事件抽取技术的研究开展的较早,理论研究比较成熟,且有一些事件抽取的原型系统出现。国内对事件抽取技术的研究相对贫乏,仍处于起步阶段,但也取得了一定的成果。综合来看,事件抽取的方法大体上分为两大类:模式匹配方法和机器学习方法。下面就两种方法分别详细介绍。

专有名词。如中国人
名、外国译名、地名、机构名(泛指机关、团体和其它企事业单位)等。

3.
具有良好的自我学习能力与团队合作精神,有强烈责任感。

循环神经网络(RNN):循环神经网络将文本作为字符或词语序列{𝑥0 , … ,
𝑥𝑁},对于第𝑡时刻输入的字符或词语𝑥𝑡,都会对应产生新的低维特征向量s𝑡。如图
3 所示,s𝑡的取值会受到
𝑥𝑡和上个时刻特征向量s𝑡−1的共同影响,s𝑡包含了文本序列从𝑥0到𝑥𝑡的语义信息。因此,我们可以利用s𝑁作为该文本序列的特征向量,进行文本分类学习。与
CNN 相比,RNN
能够更自然地考虑文本的词序信息,是近年来进行文本表示最流行的方案之一。

  • 1.文本分析过程:对原文进行分析处理,识别出冗余信息;
  • 2.文本内容的选取和泛化过程:从文档中辨认重要信息,通过摘录或概括的方法压缩文本,或者通过计算分析的方法形成文摘表示;
  • 3.文摘的转换和生成过程:实现对原文内容的重组或者根据内部表示生成文摘,并确保文摘的连贯性

迄今为止,词性标注主要分为基于规则的和基于统计的方法。

基于规则的方法,多采用语言学专家手工构造规则模板,选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词(如尾字)、中心词等方法,以模式和字符串相匹配为主要手段,这类系统大多依赖于知识库和词典的建立。

互联网的出现和计算机硬件水平的提高使得人们存储和处理信息的能力得到巨大的提高,从而加速了信息检索研究的进步,并使其研究对象从图书资料和商用数据扩展到人们生活的方方面面。伴随着互联网及网络信息环境的迅速发展,以网络信息资源为主要组织对象的信息检索系统:搜索引擎应运而生,成为了信息化社会重要的基础设施。

此外为了加强模型的泛化能力,可以将部分结点进行熔断(Dropout)处理。

  1. 书籍
  1. 中国证监会,2007,《上市公司信息披露办法》。
  2. 上海证券交易所,2013,《上海证券交易所信息披露公告类别索引》。
  3. 谭红叶,2008,《中文事件抽取关键技术研究》,哈尔滨工业大学。
  4. Ahn D, The stages of event extraction. InProceedings of the Workshop
    on Annotating and Reasoning about Time and Events,pages 1–8.
    Association for Computational Linguistics 2006.
  5. Bengio Y, Simard P, Frasconi P LearningLong-Term Dependencies with
    Gradient Descent is Difficult IEEE TRANSACTIONS ONNEUREAL NETWORKS
    VOL 5. NO.2 1994.
  6. Bordes A, Usunier N, Garcia-Duran A, et al.Translating embeddings
    for modeling multi-relational data[C]. Advances inneural
    information processing systems. 2013: 2787-2795.
  7. Cho K, Bahdanau D, Learning PhraseRepresentations using RNN
    Encoder–Decoder for Statistical Machine Translation. arXiv:
    1406.1078v3 2014.
  8. Gers, Schmidhuber, Recurrent Nets that Timeand Count,2000,
    10.1109/IJCNN.2000.861302.
  9. GravesA, Supervised sequence labelling with recurrent neural
    networks[M]. Heidelberg:Springer, 2012.
  10. Graves A, Generating Sequences with RecurrentNeural Networks.
    arXiv:1308.0850, 2013.
  11. Hochreiter S, Schmidhuber J. Long short-termmemory[J]. Neural
    computation, 1997, 9(8): 1735-1780.
  12. Hogenboom F, Frasincar F, Kaymak U, et al. Anoverview of event
    extraction from text[C]//Workshop on Detection,Representation, and
    Exploitation of Events in the Semantic Web (DeRiVE 2011) atTenth
    International Semantic Web Conference (ISWC 2011). 2011, 779: 48-57.
  13. Huang Z, Xu W, Yu K. Bidirectional LSTM-CRFmodels for sequence
    tagging[J]. arXiv preprint arXiv:1508.01991, 2015.
  14. Nadeau D, Sekine S, A survey of named entityrecognition and
    classification[J]. Lingvisticae Investigationes, 2007, 30(1):3-26.
  15. Radev D R, Hovy E, McKeown K. Introduction tothe special issue on
    summarization[J]. Computational linguistics, 2002, 28(4):399-408.

语言语法的研究有非常悠久的历史,可以追溯到公元前语言学家的研究。不同类型的句
法分析体现在句法结构的表示形式不同,实现过程的复杂程度也有所不同。因此,科研人员
采用不同的方法构建符合各个语法特点的句法分析系统。其主要分类如下图所示:

本工作在生产环境搭建了自动摘要微服务,为公告采编系统提供服务。在新的流程下,自动摘要服务取代了原有的摘要采编工作,自动生成的摘要仍通过人工审核后发布。

Watson 的技术优势大致可以分为以下三个方面:

图片 2

事件类型识别判断一句话是否表达了特定类型的事件。事件类型决定了事件表示的模板,不同类型的事件具有不同的模板。例如出生事件的模板是{人物,
时间,出生地},而恐怖袭击事件的模板是{地点,时间,袭击者,受害者,受伤人数,…}。
事件元素指组成事件的关键元素,事件元素识别指的是根据所属的事件模板,抽取相应的元素,并为其标上正确元素标签的任务。

5.2 总结展望

具体而言,用户有限的认知能力导致其知识结构相对大数据时代的信息环境而言往往存在缺陷,
进而影响信息需求的合理组织和清晰表述;数据资源的规模繁杂而缺乏管理,在互联网“注意力经济”盛行的环境下,不可避免地存在欺诈作弊行为,导致检索系统难以准确感知其质量;用户与资源提供者的知识结构与背景不同,对于相同或者相似事物的描述往往存在较大差异,使得检索系统传统的内容匹配技术难以很好应对,无法准确度量资源与需求的匹配程度。上述技术挑战互相交织,本质上反映了用户个体有限的认知能力与包含近乎无限信息的数据资源空间之间的不匹配问题。

本项工作采用的是双向LSTM,其网络结构如下图所示:双向卷积神经网络的隐藏层要保存两个值,
A 参与正向计算, A’ 参与反向计算。最终的输出值 y 取决于 A 和 A’:

以基于句子选取的抽取式方法为例,句子的重要性得分由其组成部分的重要性衡量。由于词汇在文档中的出现频次可以在一定程度上反映其重要性,
我们可以使用每个句子中出现某词的概率作为该词的得分,通过将所有包含词的概率求和得到句子得分。

而对于多文档而言,由于在同一个主题中的不同文档中不可避免地存在信息交叠和信息差异,因此如何避免信息冗余,同时反映出来自不同文档的信息差异是多文档文摘中的首要目标,而要实现这个目标通常以为着要在句子层以下做工作,如对句子进行压缩,合并,切分等。另外,单文档的输出句子一般是按照句子在原文中出现的顺序排列,而在多文档摘要中,大多采用时间顺序排列句子,如何准确的得到每个句子的时间信息,也是多文档摘要需要解决的一个问题。

针对切分歧义检测,另外两个有价值的工作是“最少分词法”,这种方法歧义检测能力较双向最大匹配法要强些,产生的可能切分个数仅略有增加;和“全切分法”,这种方法穷举所有可能的切分,实现了无盲区的切分歧义检测,但代价是导致大量的切分“垃圾”。

在这4种学习方法中,最大熵模型结构紧凑,具有较好的通用性,主要缺点是训练时间复杂性非常高,有时甚至导致训练代价难以承受,另外由于需要明确的归一化计算,导致开销比较大。而条件随机场为命名实体识别提供了一个特征灵活、

  1. 关键问题

公式(2)是说当前的隐层状态 ht
是从当前记忆单元得到的,其又由输出门(output gate)ot
来控制。LSTM的循环模块里的输入门 it
、遗忘门 ft
、输出门 ot ,以及需要新输入的信息 gt
可以用以下公式简洁地表示:

四. 文本分类

而生成式方法则应用先进的自然语言处理的算法,通过转述、同义替换、句子缩写等技术,生成更凝练简洁的摘要。比起抽取式,生成式更接近人进行摘要的过程。历史上,抽取式的效果通常优于生成式。伴随深度神经网络的兴起和研究,基于神经网络的生成式文本摘要得到快速发展,并取得了不错的成绩。

1.2 资源质量度量

公告摘要示例:

ACL 2016: 

下面是权益分派公告的例子:

社区问答;

上市公司信息披露自动摘要系统的算法流程如下:

虽然这类推理的效果离实用还有距离,但是我们认为这是值得探寻的方法,特别是如何将已有的基于符号表示的逻辑推理与基于分布式表示的数值推理相结合,研究融合符号逻辑和表示学习的知识推理技术,是知识推理任务中的关键科学问题。

【岗位职责】

 随着 Web2.0 的兴起,基于用户生成内容(User-Generated Content,
UGC)的互联网 服务越来越流行,社区问答系统应运而生,例如 Yahoo!
Answers、百度知道等。问答社区的出现为问答技术的发展带来了新的机遇。据统计
2010 年 Yahoo! Answers 上已解决的问题量达到 10 亿,2011
年“百度知道”已解决的问题量达到 3
亿,这些社区问答数据覆盖了方方面面的用户知识和信息需求。

图片 3

目前互联网中已有的大规模知识库包括 DBpedia、Freebase、YAGO
等。这些知识库多是以“实体-关系-实体”三元组为基本单元所组成的图结构。基于这样的结构化知识,问答系统的任务就是要根据用户问题的语义直接在知识库上查找、推理出相匹配的答案,这一任务称为面向知识库的问答系统或知识库问答。要完成在结构化数据上的查询、匹配、推理等操作,最有效的方式是利用结构化的查询语句,例如:SQL、SPARQL
等。

公告摘要示例:

然而,这些语句通常是由专家编写,普通用户很难掌握并正确运用。对普通用户来说,自然语言仍然是最自然的交互方式。因此,如何把用户的自然语言问句转化为结构化的查询语句是知识库问答的核心所在,其关键是对于自然语言问句进行语义理解。目前,主流方法是通过语义分析,将用户的自然语言问句转化成结构化的语义表示,如范式和
DCS-Tree。相对应的语义解析语法或方法包括组合范畴语法( Category
Compositional Grammar, CCG )以 及 依 存 组 合 语 法( Dependency-based
Compositional Semantics, DCS)等。

  • 各类命名实体的数量众多:根据对人民日报1998年1月的语料库(共计2,305,896字)进行的统计,共有人名19,965个,而这些人名大多属于未登录词。
  • 命名实体的构成规律复杂:例如由于人名的构成规则各异,中文人名识别又可以细分为中国人名识别、日本人名识别和音译人名识别等;此外机构名的组成方式也最为复杂,机构名的种类繁多,各有独特的命名方式,用词也相当广泛,只有结尾用词相对集中。
  • 嵌套情况复杂:一个命名实体经常和一些词组合成一个嵌套的命名实体,人名中嵌套着地名,地名中也经常嵌套着人名。嵌套的现象在机构名中最为明显,机构名不仅嵌套了大量的地名,而且还嵌套了相当数量的机构名。互相嵌套的现象大大制约了复杂命名实体的识别,也注定了各类命名实体的识别并不是孤立的,而是互相交织在一起的。
  • 长度不确定:与其他类型的命名实体相比,长度和边界难以确定使得机构名更难识别。中国人名一般二至三字,最多不过四字,常用地名也多为二至四字。但是机构名长度变化范围极大,少到只有两个字的简称,多达几十字的全称。在实际语料中,由十个以上词构成的机构名占了相当一部分比例。

自动文本摘要是指“一段从一份或多份文本中提取出来的文字,它包含了原文本中的重要信息,其长度不超过或远少于原文本的一半。自动文本摘要旨在通过机器自动输出简洁、流畅、保留关键信息的摘要”(Radev,Hovy,McKeown,2002)。

基于神经网络的方法

原标题:上证信息-文因互联(联合)发布:知识提取在上市公司信息披露中的应用

2.1 基于图的依存句法分析方法

公告摘要示例:

与人工书写规模相比,自动学习规则的方法由于开发周期短和系统健壮性强等特点,加上大规模人工标注数据,比如宾州大学的多语种树库的推动作用,已经成为句法分析中的主流方法。而数据驱动的方法又推动了统计方法在句法分析领域中的大量应用。为了在句法分析中引入统计信息,需要将上下文无关文法扩展成为概率上下文无关文法(Probabilistic
Context Free Grammar,PCFG),即为每条文法规则指定概率值。

对应信息点:

词性标注(Part-of-speech tagging)

通过对A股各类型公告的分析,按照知识提取的难度可分为三类,难度逐步增大。

内容单元类型开放:不限定所抽取的内容单元类型,而是自动地从网络中挖掘内容单元的类型,例如实体类型、事件类型和关系类型等。

  • 1、临时公告,保证数据量大,并且是高频、重要公告;
  • 2、公告关键信息明确,可以被结构化(反例:澄清公告等便没有结构化的必要);
  • 3、公告类别覆盖能“某一句话包含全部关键信息的”与“关键信息出现在多处需要聚合的”。

此外,社区问答与传统自动问答的另一个显著区别是:社区问答系统有大量的用户参与,存在丰富的用户行为信息,例如用户投票信息、用户评价信息、回答者的问题采纳率、用户推荐次数、页面点击次数以及用户、问题、答案之间的相互关联信息等等,这些用户行为信息对于社区中问题和答案的文本内容分析具有重要的价值。

事件提取的主要工作分为事件类型识别以及事件元素与语义角色识别。

事件抽取指的是从非结构化文本中抽取事件信息,并将其以结构化形式呈现出来的任务。

摘要为:“金正大生态工程集团股份有限公司第四届董事会第一次会议于近日召开,会议审议通过《关于选举公司董事长的议案》、《关于选举公司副董事长的议案》、《关于选举公司董事会各专门委员
会委员的议案》、《关于参与认购集合资金信托
计划并对控股子公司进行增资的议案》等事项。”

虽然基于简单概率上下文无关文法的句法分析器的实现比较简单,但是这类分析器的性能并不能让人满意。性能不佳的主要原因在于上下文无关文法采取的独立性假设过强:一条文法规则的选择只与该规则左侧的非终结符有关,而与任何其它上下文信息无关。文法中缺乏其它信息用于规则选择的消歧。因此后继研究工作的出发点大都基于如何弱化上下文无关文法中的隐含独立性假设。

因为首要目的是识别关键语句,然而很多语句经常会以被动形式表述,为了能同样捕捉到这些信息,需要将句子倒序化,简单来讲仅需分词后将序列倒排即可,不必通过依存句法分析器(Dependency
Parser)解析。

自动问答系统在回答用户问题时,需要正确理解用户所提的自然语言问题,抽取其中的
关键语义信息,然后在已有语料库、知识库或问答库中通过检索、匹配、推理的手段获取答
案并返回给用户。上述过程涉及词法分析、句法分析、语义分析、信息检索、逻辑推理、知识工程、语言生成等多项关键技术。传统自动问答多集中在限定领域,针对限定类型的问题
进行回答。伴随着互联网和大数据的飞速发展,现有研究趋向于开放域、面向开放类型问题
的自动问答。概括地讲,自动问答的主要研究任务和相应关键科学问题如下。

评估一篇摘要的质量是一件比较困难的任务,“一千个读者,有一千个哈姆雷特”,对于一篇摘要而言,很难说有标准答案。不同的人理解一篇文档会有很大的不同,基于人工评价的方法有类似于评价开放的文科辨析题目答案一样,需要从答案中寻找一些所谓的要点,计算要点的覆盖率,打分。

给定问句语义分析结果,自动问答系统需要在已有语料库、知识库或问答库中匹配相关的信息,并抽取出相应的答案。传统答案抽取构建在浅层语义分析基础之上,采用关键词匹配策略,往往只能处理限定类型的答案,系统的准确率和效率都难以满足实际应用需求。为保证信息匹配以及答案抽取的准确度,需要分析语义单元之间的语义关系,抽取文本中的结构化知识。早期基于规则模板的知识抽取方法难以突破领域和问题类型的限制,远远不能满足开放领域自动问答的知识需求。为了适应互联网实际应用的需求,越来越多的研究者和开发者开始关注开放域知识抽取技术,其特点在于:

  1. 公司全称(实体)
  2. 公司简称(实体)
  3. 公司代码(实体)
  4. 股东大会名称(实体)
  5. 股东大会召开时间(实体)
  6. 通过的审议项(实体)

基于规则的分类模型旨在建立一个规则集合来对数据类别进行判断。这些规则可以从训
练样本里自动产生,也可以人工定义。给定一个测试样例,我们可以通过判断它是否满足某
些规则的条件,来决定其是否属于该条规则对应的类别。

根据以上任务分类,需要针对性的进行领域词典扩充,对此本工作将各公告首页中的全称-简称对应表、各财务报表的财务制表字段,高管人名等都加入领域词典。对于各个句子,通过词性标注(POS
Tagging)与依存关系分析(Dependency
Parsing)后便可提取出简单的实体与关系,比如对外担保公告中的“担保对象”、“担保金额”等。然而如“担保原因”这类语句并没有明确统一的表述方式,对此采用规则方法尽量穷尽可能性。这部分工作与传统方法并无明显差异,故不做赘述。

 

关键信息在文本多个位置,但结构雷同。例如:董事会决议公告。“武汉祥龙电业股份有限公司第九届董事会第二次会议于2017年2月21日召开,会议审议通过《关于公司控股子公司签署工程合同暨关联交易的议案》、《关于公司控股子公司开展委托理财业务暨关联交易的议案》。”议案名在文章多个位置,但均在某段最左或单独作为一行,特征周围有书名号,数字序号,或通过、否决等标志。这类公告,同样可以采用深度学习,但准确率会有一定损失。

自动问答中,由于语料库、知识库和问答库本身的覆盖度有限,并不是所有问题都能直
接找到答案。这就需要在已有的知识体系中,通过知识推理的手段获取这些隐含的答案。

本课题共针对9类高频公告的开展了实验,分别对结构化提取与摘要生成进行了测试。9类公告的选取主要考虑几个方面:

实体、关系和事件分别表示了单篇文本中不同粒度的信息。在很多应用中,需要将来自不同数据源、不同文本的信息综合起来进行决策,这就需要研究信息集成技术。

2.
有Python项目开发经验,熟悉collections标准库下的数据结构

目前,信息抽取研究中的信息集成技术主要包括共指消解技术和实体链接技术。

  1. 公司全称(实体)
  2. 公司简称(实体)
  3. 公司代码(实体)
  4. 自律监管决定书(实体)
  5. 终止上市执行描述(句子)

切分歧义的消解。

(二)预备知识 2.1 自动文本摘要任务

八. 机器翻译

style=”font-size: 16px;”>课题组:上证信息-文因互联(联合)课题组

课题主办人:上海证券交易所信息公司 赵伟 何曾樑

课题承接单位:北京文因互联科技有限公司

文因互联:张强 王丛 李卫东 丁海星 张梦迪 马新磊

上证信息:王辉 赵伟 何曾樑 王海菲 李炜 陈春燕 奚超

2.1 检索式问答

对应信息点:

2.2 社区问答

3.
负责创建用户友好、符合标准的跨浏览器应用

十一. 进一步学习

【岗位职责】

2.6 基于统计的方法

句法分析(Parsing)

第一种分类:人工评价方法和自动评价方法。这两类评价方法都需要完成以下三点:

专有名词。对专有名词的未登录词的处理,首先依据从各类专有名词库中总结出的统计知识
(如姓氏用字及其频度)和人工归纳出的专有名词的某些结构规则,在输入句子中猜测可能成为专有名词的汉字串并给出其置信度,之后利用对该类专有名词有标识意义的紧邻上下文信息(如称谓),以及全局统计量和局部统计量(局部统计量是相对全局统计量而言的,是指从当前文章得到且其有效范围一般仅限于该文章的统计量,通常为字串频),进行进一步的鉴定。已有的工作涉及了四种常见的专有名词:中国人名的识别、外国译名的识别、中国地名的识别及机构名的识别。从各家报告的实验结果来看,外国译名的识别效果最好,中国人名次之,中国地名再次之,机构名最差。而任务本身的难度实质上也是遵循这个顺序由小增大。
沈达阳、孙茂松等(1997b )特别强调了局部统计量在未登录词处理中的价值。

3.5 算法流程

中文自动分词(Chinese word segmentation)

事件提取(Event Extraction)的研究(Hogenboom,Frasincar, Kaymak et al
2011)是多学科发展和应用的需要,具有深远的理论意义和广泛的应用价值。它涉及到自然语言处理、数据挖掘、机器学习、数据库等多个学科的技术和方法,在自动文摘,信息检索等领域均有着广泛的应用。因此,事件抽取技术的研究具有重要的现实意义。

自动文摘所采用的方法从实现上考虑可以分为抽取式摘要(extractive
summarization) 和生成式摘要(abstractive
summarization)。抽取式方法相对比较简单,通常利用不同方法对文档结构单元(句子、段落等)进行评价,对每个结构单元赋予一定权重,然后选择最重要的结构单元组成摘要。而生成式方法通常需要利用自然语言理解技术对文本进行语法、
语义分析,对信息进行融合,利用自然语言生成技术生成新的摘要句子。目前的自动文摘方法主要基于句子抽取,也就是以原文中的句子作为单位进行评估与选取。抽取式方法的好处是易于实现,能保证摘要中的每个句子具有良好的可读性。

上市公司信息披露的种类繁多,如上交所将上市公司公告分为35大类,376个小类(上海证券交易所,2013)。目前上海证券交易所制作并免费对市场发布部分公告的摘要信息,但由于制作维护成本较高,不易扩展,并难以应对公告数量的井喷。

目录

一般来说,自动文摘过程包括三个基本步骤:

EMNLP 2015: 

图片 4

1.2 建立分类或聚类模型

4.
有git开发项目经验,并能描述自己的workflow

随着互联网信息的爆炸式增长,传统的以关键字匹配为基础的搜索引擎,已越来越难以满足用户快速查找信息的需求。同时由于没有知识引导及对网页内容的深入整理,传统网页
搜索返回的网页结果也不能精准给出所需信息。针对这些问题,以知识图谱为代表的语义搜索(Semantic
Search)将语义 Web 技术和传统的搜索引擎技术结合,是一个很有研究价值
但还处于初期阶段的课题。

依据本研究课题,我们设计并实现了自动公告摘要系统,以微服务的方式为周边系统服务,提供了单篇公告测试页面和批量摘要生成API。该系统目前已经上线运行,服务于公告制作小组,有效降低了部分摘要的制作时间,降低了风险,提升了效率。

机器翻译(machine
translation,MT)是指利用计算机实现从一种自然语言到另外一种自然语言的自动翻译。被翻译的语言称为源语言(source
language),翻译到的语言称作目标语言(target language)。

本项工作的初始目的是为了上交所的公告制作小组提供合适的自动化处理工具,减轻公告高峰期的运行压力,降低人工采编风险,控制可能增加的成本;在此基础上,考虑为周边系统甚至公众提供通用的公告自动抽取服务。

1.1 内容表示与权重计算

3.1.1 基于语句的基本摘要

然而这种经验主义到了乔姆斯基时出现了转变。

二是表格定位,即如何判定某一张表是五大供应商表还是五大客户表,这些需要通过表格的上下文判断,其中篇章结构的解析会对此有辅助定位功能。

其中,分类模型旨在学习特征向量与分类标签之间的关联关系,获得最佳的分类效果;
而聚类模型旨在根据特征向量计算文本之间语义相似度,将文本集合划分为若干子集。
分类和聚类是机器学习领域的经典研究问题。

3.3 基于LSTM的关键句抽取

  1. 方法
  1. 公司全称(实体)
  2. 公司简称(实体)
  3. 公司代码(实体)
  4. 发行类型(实体)
  5. 发行面值(数字)
  6. 发行规模(数字)
  7. 获批文件号(实体)

也有很多工作尝试捕捉每个句子中所描述的概念,例如句子中所包含的命名实体或动词。

一类称作内部评价方法,与文摘系统的目的相关,它通过直接分析摘要的质量来评价文摘系统;第二类称作外部评价方法,它是一种间接的评价方法,与系统的功能相对应,将文摘应用于某一个特定的任务中,根据摘要功能对特定任务的效果来评价自动文摘系统的性能,如对于信息检索任务而言,可以对比采用摘要进行检索与采用原文进行检索的准确率差异,通过文摘对检索系统的效果来评价文摘系统的性能。

一直以来,人工智能的关键核心部件之一是构建可支撑类人推理和自然语言理解的大规模常识知识库。然而,由于人类知识的复杂性、开放性、多样性和巨大的规模,目前仍然无法构建满足上述需求的大规模知识库。信息抽取技术通过结构化自然语言表述的语义知识,并整合来自海量文本中的不同语义知识,是构建大规模知识库最有效的技术之一。每一段文本内所包含的寓意可以描述为其中的一组实体以及这些实体相互之间的关联和交互,因此抽取文本中的实体和它们之间的语义关系也就成为了理解文本意义的基础。

一、模式匹配法

1.1  宗成庆《统计自然语言处理》

在模型开发过程中,公告种类和数量循序增加,本课题期间,系统经过了15个版本的迭代。前4、5个版本准确率的提升非常明显,通过深度学习结合统计的方式,准确率快速提升到75%的区域。伴随着测试数据多样性的增加,在6版本到14版本迭代的过程中,准确率出现了波动,通过对异常情况进行分析,提升统计学习的泛化能力,同时对异常情况进行规则整理,最终准确率获得了提升。

卷积神经网络(CNN):卷积神经网络文本分类模型的主要思想是,对词向量形式的文本输入进行卷积操作。CNN
最初被用于处理图像数据。与图像处理中选取二维域进行卷积操作不同,面向文本的卷积操作是针对固定滑动窗口内的词项进行的。经过卷积层、
池化层和非线性转换层后,CNN 可以得到文本特征向量用于分类学习。CNN
的优势在于在计算文本特征向量过程中有效保留有用的词序信息。针对 CNN
文本分类模型还有许多改进工作, 如基于字符级 CNN
的文本分类模型、将词位置信息加入到词向量。

公告摘要示例:

在句法层面,需要解析句子中词与词之间、短语与短语之间的句法关系,分析句子句法结构。在语义层面,需要根据词语层面、句法层面的分析结果,将自然语言问句解析成可计算、结构化的逻辑表达形式(如一阶谓词逻辑表达式)。

2.7 混合方法

  1. 技术现状

对应信息点:

除了上述单分类模型,以 Boosting
为代表的分类模型组合方法能够有效地综合多个弱分类模型的分类能力。在给定训练数据集合上同时训练这些弱分类模型,然后通过投票等机制综合多个分类器的预测结果,能够为测试样例预测更准确的类别标签。

某一句话即包含全部关键信息。例如:业绩预告公告。“预计2016年实现归属于上市公司股东的净利润600万元—800万元,且2016年末归属于母公司的净资产为正数。”此类摘要,可以直接通过深度学习模型提取,便有较高准确率,结构化提取可以进一步规则解析。

分词,词性标注技术一般只需对句子的局部范围进行分析处理,目前已经基本成熟,其标志就是它们已经被成功地用于文本检索、文本分类、信息抽取等应用之中,而句法分析、语义分析技术需要对句子进行全局分析,目前,深层的语言分析技术还没有达到完全实用的程度。

  1. 事件元素激励:最大熵分类器,用于事件元素的识别。该方法实现了2个领域中的抽取任务,分别是半结构化的讲座通告(Seminar
    Announcement)和自由文本的人事管理(Management
    Succession)。该方法存在着一定的局限性,因为文本中存在着很多非事件元素的词,所以构建分类器时将引人太多的反例,导致正反例严重不平衡,影响抽取的效果。
  2. 触发词激励:2006 David Ahn结合MegaMTimbl
    两种方法分别实现了事件抽取中事件类和元素的识别。在 Ahn
    的方法中,最重要的一个步骤就是判断句子中的每个词是否是最能描述某个事件发生的触发词,如果是,则将其归为正例,并用一个多类分类器对其进行分类,获得其所属的事件类别,从而得出其所含的事件元素类型,用于构建识别每一类事件元素的分类器。此类方法是目前比较主流的事件抽取方法,将每个词作为一个实例进行训练,然后判断是否为触发词,但同样引入了大量的反例,导致正反例严重不平衡;并且,事件类别的多元分类以及为每类事件元素单独构造多元分类器时在语料规模较小的时候存在着一定的数据稀疏问题。
  3. 事件实例激励:是一种基于事件实例激励的抽取模型,充分利用事件和非事件实例的有代表性的特征,构造二元分类器过滤掉非事件的句子,然后来用多知识融合的方法表示候选的事件实例,利用支持向量机采用多元分类的方法自动识别候选事件实例所属的事件类别,实现事件提取任务。

此外,随着移动互联网崛起与发展,以苹果公司 Siri、Google Now、微软
Cortana
等为代表的移动生活助手爆发式涌现,上述系统都把以自然语言为基本输入方式的问答系统看作是下一代信息服务的新形态和突破口,并均加大人员、资金的投入,试图在这一次人工智能浪潮中取得领先。

公告摘要示例:

我们一般可以直接使用经典的模型或算法解决文本分类或聚类问题。例如,对于文本分类,我们可以选用朴素贝叶斯、决策树、k-NN、
逻辑回归(Logistic Regression)、支持向量机(Support Vector Machine,
SVM)等分类模型。 对于文本聚类,我们可以选用
k-means、层次聚类或谱聚类(spectral clustering)等聚类算法。
这些模型算法适用于不同类型的数据而不仅限于文本数据。

本文介绍了上市公司公告专业领域的知识抽取工作,采用了深度学习与传统规则方法的混合算法流程,并以9类高频公告作为测试集,均达到了理想可用的效果

其中实体边界识别判断一个字符串是否是一个实体,而实体分类将识别出的实体划分到预先给定的不同类别中去。命名实体识别是一项极具实用价值的技术,目前中英文上通用命名实
体识别(人名、地名、机构名)的F1值都能达到
90%以上。命名实体识别的主要难点在于
表达不规律、且缺乏训练语料的开放域命名实体类别(如电影、歌曲名)等。

3.1.3 基于关键信息的复杂摘要

1.2 文本信息抽取

  1. 学习标注规则,及时反馈标注质量及进度。

  2. (如有编程能力)协助编写数据清理和处理代码。

实践性差。基于统计的经验主义方法可以根据数据集不断对参数进行优化,而基于规则的方法就不可以,这在当前数据量巨大的情况下,影响是致命的,因为前者常常可以通过增大训练集来获得更好的效果,后者则死板许多,结果往往不尽人意。

4.2.9 融资融券公告

1.1 问句理解

算法按顺序可分为如下几个关键步骤。1、公告分类;2、公告PDF解析;3、基于LSTM的关键语句提取;4、基于规则的结构化提取。

  1. 短语结构句法分析

2.8 知识提取

自然语言处理是文本挖掘的研究领域之一,是人工智能和语言学领域的分支学科。在此领域中探讨如何处理及运用自然语言。

文章节选自上海证券交易所与上交所技术出版的《2017证券信息技术研究发展中心研究报告》内部刊物。

共指消解指的是检测同一实体/关系/事件的不同提及,并将其链接在一起的任务,例如,识别“乔布斯是苹果的创始人之一,他经历了苹果公司几十年的起落与兴衰”这句话中的“乔布斯”和“他”指的是同一实体。实体链接的目的是确定实体名所指向的真实世界实体。例如识别上一句话中的“苹果”和“乔布斯”分别指向真实世界中的苹果公司和其
CEO 史蒂夫·乔布斯。

目前,沪深两所上市公司的信息披露内容中,部分定期公告及临时公告已经利用XBRL技术将信息结构化,其中主要包括公司半年报与年报中的基本信息、股本结构、以及资产负债表、利润表、现金流量表财务报表及附注,这些信息在上市公司撰写公告时,便通过特殊工具进行了采集[1],之后便可以直接将这些信息结构化存储和利用。然而,已经格式化处理的公告仅占全部公告的一部分,加之信息披露的要求逐年变化,对公告信息的完整格式化仍然是个挑战。中小投资者通常使用市场信息供应商来获取信息,而这些信息供应商由于关注点的不同,所提供的数据在时效性、完整性、准确性上,也有很大的提升空间。

基于统计的方法由于使用了概率或评分机制而非词典对文本进行分词而被广泛应用。这种方法主要有三个缺点:一是这种方法只能识别OOV(out-of-vocabulary)词而不能识别词的类型,比如只能识别为一串字符串而不能识别出是人名;二是统计方法很难将语言知识融入分词系统,因此对于不符合语言规范的结果需要额外的人工解析;三是在许多现在分词系统中,OOV词识别通常独立于分词过程。

加入我们

对文档进行分类,一般需要经过两个步骤:(1)文本表示,以及(2)学习。文本表示是指将无结构化的文本内容转化成结构化的特征向量形式,作为分类模型的输入。在得到文本对应的特征向量后,就可以采用各种分类或聚类模型,根据特征向量训练分类器

1.
信息抽取、文本摘要、自动问答等方面的研发以及语言资源/知识库维护

基于转移的方法将依存树的构成过程建模为一个动作序列,将依存分析问题转化为寻找最优动作序列的问题。早期,研究者们使用局部分类器(如支持向量机等)决定下一个动作。近年来,研究者们采用全局线性模型来决定下一个动作,一个依存树的分值由其对应的动作序列中每一个动作的分值累加得到。特征表示方面,基于转移的方法可以充分利用已形成的子树信息,从而形成丰富的特征,以指导模型决策下一个动作。模型通过贪心搜索或者柱搜索等解码算法找到近似最优的依存树。和基于图的方法类似,基于转移的方法通常也采用在线训练算法学习特征权重。

  1. 对数据敏感,细致踏实;有较强的沟通能力。

  2. 每周出勤时间不少于3天,最好能连续实习两个月。

  1. 依存句法分析
  1. 公司全称(实体)
  2. 公司简称(实体)
  3. 公司代码(实体)
  4. 停复牌原因描述(句子)
  5. 停牌时间(日期)
  6. 复牌时间(日期)

鲁棒性差,过于严格的规则导致对非本质错误的零容忍(这一点在最近的一些新的剖析技术上有所改善);

2.4 命名实体识别

文本分类是文本挖掘的核心任务,一直以来倍受学术界和工业界的关注。文本分类(Text
Classification)的任务是根据给定文档的内容或主题,自动分配预先定义的类别标签。

1.
本科或硕士在校生优先,专业不限。

文本领域开放:处理的文本是不限定领域的网络文本

本项工作通过LSTM深度学习网络,首先将不同类别公告的关键语句抽取出来,抽取过程仅需公告制作小组业务专家对少量公告进行标注,期间通过Dropout等方法提供模型泛化能力。关键语句抽取后,再通过规则方法进行细粒度提取,从而将公告结构化。结构化提取与摘要生成是知识提取的两种展示形式,本工作在9类高频公告中分别对两者进行了充分测试,均取得了较为理想的结果。

  1. 理论应用

深度学习模型需要平衡模型的准确率和泛化能力,同样不能采用过于复杂的模型降低运算速度,所以深度学习模型的合理搭建是第二个难点。

关系抽取通常包含两个核心模块:关系检测和关系分类。

本课题根据业务需要,主要聚焦在单文档摘要的处理上。针对单个文档,对其中的内容进行抽取,并针对用户或者应用需求,将文中最重要的内容以压缩的形式呈现给用户。常见的单文档摘要技术包括基于特征的方法(文档摘要中常用的文章特征包括词频、特定段落、段落的特定句子等)、基于词汇链的方法和基于图排序的方法。

从相关新闻报道中抽取出恐怖事件信息:时间、地点、袭击者、受害人、袭击
目标、后果等;

图片 5

1.3 知识推理

由于上市公司公告类别必须按照官方要求发布,所以公告分类可以仅通过标题划分,仅需维护一些简单的特征组合即可,在此不做赘述。

自然语言处理涉及的范畴如下(维基百科):

本文介绍了一种用于上市公司信息披露自动摘要的方法,本方法使用深度学习与知识规则的混合算法,首先将文档划分为句子,将句子进行标注后通过LSTM模型训练计算出关键语句,再将输出句子经过规则系统提取,从而得到一篇公告的重要实体与关系,最后重组为摘要。本方法在几类高频、重要的上市公司公告中进行了结构化提取与摘要生成的测试,并取得理想结果。本文认为这种方法可以低成本、可迁移地部分解决公司公告的知识提取问题。

切分歧义的消解。典型的方法包括句法统计和基于记忆的模型。句法统计将自动分词和基于
Markov
链的词性自动标注技术结合起来,利用从人工标注语料库中提取出的词性二元统计规律来消解切分歧义,基于记忆的模型对伪歧义型高频交集型歧义切分,可以把它们的正确(唯一)切分形式预先记录在一张表中,其歧义消解通过直接查表即可实现。

特别鸣谢

文本分类(Text categorization)

不同于很多拥有客观评判标准的任务,摘要的评判一定程度上依赖主观判断。即使在摘要任务中,有关于语法正确性、语言流畅性、关键信息完整度等标准,每个人对摘要的优劣都有自己的准绳。

  1. 技术现状

综上所述,从国内外研究现状来看,比较流行的事件抽取方法是基于触发词激励的研究。但这类方法所面临的最大问题是必须先对文本中的所有词进行判断以确定其是否是事件触发词,然后再根据相关的信息判断事件的类型。但实际上文本中非触发词的那些词所占的比例很大,如果对所有词进行分类判断不仅增加计算的负担,更重要的是引入太多的反例,造成正反例的严重不平衡。遗憾的是,目前还没有高效的算法对非触发词能够进行有效的过滤,因此,基于触发词激励的事件抽取技术的研究巳陷入了瓶颈。

需求与资源的合理匹配

研究重点和难点

 

ct = ft ⊙ ct−1

1.1 信息需求理解

根据应用需求不同,知识提取的结果可以是结构化实体,也可以是摘要。摘要一方面可以通过结构化数据配合模板组合而成,也可以通过深度学习算法直接训练。本工作对两种方式都进行了尝试,模板组合方式可以高准确率的保证信息准确,但难以保持原文的行文方式;而深度学习方法直接捕捉原文进行组合,准确率有所不足,两者孰优孰劣需要考虑具体应用场景而定。

图片 6

  1. 语义搜索技术

4.2.1 股东大会/董事会决议公告

基于规则的分类模型

4.2.8 终止上市公告

自动文摘的研究在图书馆领域和自然语言处理领域一直都很活跃,最早的应用需求来自
于图书馆。图书馆需要为大量文献书籍生成摘要,而人工摘要的效率很低,因此亟需自动摘
要方法取代人工高效地完成文献摘要任务。随着信息检索技术的发展,自动文摘在信息检索
系统中的重要性越来越大,逐渐成为研究热点之一。经过数十年的发展,同时在
DUC 与 TAC
等自动文摘国际评测的推动下,文本摘要技术已经取得长足的进步。国际上自动文摘方面比较著名的几个系统包括
ISI 的 NeATS 系统,哥伦比亚大学的 NewsBlaster 系统,密歇根大学的
NewsInEssence 系统等。

图片 7

另一方面,很多摘要任务已经具备一定数量的公开数据集,可用于训练有监督打分模型。例如对于抽取式摘要,我们可以将人工撰写的摘要贪心匹配原文档中的句子或概念,从而得到不同单元是否应当被选作摘要句的数据。然后对各单元人工抽取若干特征,利用回归模型或排序学习模型进行有监督学习,得到句子或概念对应的得分。

(三)摘要系统设计

2.3 多模型融合的依存句法分析方法

可以把x理解为自然语言句子中逐个单词的词向量,其中隐藏层St=f(Uxt+Wst−1),Wst-1便是前一个单词所携带的语义信息。由于每一层的St都会向后一直传递,所以理论上St能够捕获到前面每一层发生的事情。然而随着层数加深,RNN最终会计算成W的连乘积形式,如果初始梯度过大或过小,便会导致连乘积很大或趋近于0,进而无法有效学习,也就是梯度爆炸和梯度消失。

依存语法存在一个共同的基本假设:句法结构本质上包含词和词之间的依存(修饰)关系。一个依存关系连接两个词,分别是核心词(
head)和依存词(
dependent)。依存关系可以细分为不同的类型,表示两个词之间的具体句法关系。目前研究主要集中在数据驱动的依存句法分析方法,即在训练实例集合上学习得到依存句法分析器,而不涉及依存语法理论的研究。数据驱动的方法的主要优势在于给定较大规模的训练数据,不需要过多的人工干预,就可以得到比较好的模型。因此,这类方法很容易应用到新领域和新语言环境。数据驱动的依存句法分析方法主要有两种主流方法:基于图(
graph-based)的分析方法和基于转移( transition-based)的分析方法。

内部评价方法按信息的覆盖面和正确率来评价文摘的质量,一般采用将系统结果与“理想摘要”相比较的方法。这种评价方法来源于信息抽取技术。在信息抽取评测中,将原文的关键要点抽取出来,然后与人工抽取的内容相比较,计算其召回率,准确率,冗余率和偏差率等几个指标。这种内部评价方法存在的主要困难是“理想摘要”的获得问题。

其中关系检测判断两个实体之间是否存在语义关系,而关系分类将存在语义关系的实体对划分到预先指定的类别中。在某些场景和任务下,关系抽取系统也可能包含关系发现模块,其主要目的是发现实体和实体之间存在的语义关系类别。例如,发现人物和公司之间存在雇员、CEO、CTO、创始人、董事长等关系类别。

一是实体对齐,如财务报表中的指标对齐,比如“资产总计=总资产”。

  1. 实践案例

随着上市公司数量日益增多,将公告以行之有效的方式让阅读者“读薄”的工作刻不容缓,其中通过自然语言处理、知识图谱、深度学习等技术将公告信息结构化提取或许是关键所在。

根据抽取方法的不同,已有检索式问答可以分为基于模式匹配的问答方法和基于统计文本信息抽取的问答方法。

信息在多个位置,并且表述复杂,较为随意。例如:对外担保公告。“为满足项目建设资金需求,公司全资子公司XXX有限公司拟向XXX信托有限责任公司申请14亿元信托贷款,期限2年,公司为其提供全额全程连带责任担保。”其中担保原因表述不统一,担保对象有子公司、分公司,其他公司等多种方式,担保金额与期限有时会附带累计担保信息。对此类公告,目前认为只能采用严格的规则系统开发。

1956年乔姆斯基借鉴香农的工作,把有限状态机用作刻画语法的工具,建立了自然语言的有限状态模型,具体来说就是用“代数”和“集合”将语言转化为符号序列,建立了一大堆有关语法的数学模型。这些工作非常伟大,为自然语言和形式语言找到了一种统一的数学描述理论,一个叫做“形式语言理论”的新领域诞生了。这个时代,“经验主义”被全盘否定,“理性主义”算是完胜。

即正向计算时,隐藏层的 st 与
st-1
有关;反向计算时,隐藏层的 st
与 st+1
有关:

斯坦福cs224d: 

目前,评估自动文本摘要质量主要有两种分类方法。

短语结构句法分析的研究基于上下文无关文法(Context Free
Grammar,CFG)。上下文无关文法可以定义为四元组,其中 T
表示终结符的集合(即词的集合),N
表示非终结符的集合(即文法标注和词性标记的集合),S
表示充当句法树根节点的特殊非终结符,而 R
表示文法规则的集合,其中每条文法规则可以表示为 Ni®g ,这里的 g
表示由非终结符与终结符组成的一个序列(允许为空)。

发表评论

电子邮件地址不会被公开。 必填项已用*标注

相关文章