/ 来源:/ 访问:2098
接下来我们会分三期就人工智能和金融领域的结合做一系列分析,厘清人工智能在金融领域已经都做了哪些尝试,以及成果:
本量化交易从很早开始就运用机器进行辅助工作,分析员通过编写简单函数,设计一些指标,观察数据分布,而这些仅仅把机器当做一个运算器来使用。直到近些年机器学习的崛起,数据可以快速海量地进行分析、拟合、预测,人们逐渐把人工智能与量化交易联系得愈发紧密。我们可以把量化交易按照人工智能的子领域(机器学习,自然语言处理,知识图谱)分为三个阶段。
日本的初创公司Alpaca,他们的交易平台Capitalico利用基于图像识别的深度学习技术,允许用户很容易地从存档里找到外汇交易图表并帮忙做好分析,这样一来,普通人就能知道明星交易员是如何做交易的,从他们的经验中学习并作出更准确的交易。
伦敦的对冲基金机构Castilium由金融领域大佬与计算机科学家一同创建,包括前德意志银行衍生品专家、花旗集团前董事长兼首席执行官和麻省理工的教授。他们采访了大量交易员和基金经理,复制分析师、交易员和风险经理们的推理和决策过程,并将它们纳入算法中。
坐落在香港的Aidyia致力于用人工智能分析美股市场,依赖于多种AI的混合,包括遗传算法(genetic evolution),概率逻辑(probabilistic logic),系统会分析大盘行情以及宏观经济数据,之后会做出自己的市场预测,并对最好的行动进行表决。
全球最大的对冲基金桥水联合(Bridgewater Asspcoates),使用一种基于历史数据与统计概率的交易算法,让系统能够自动学习市场变化并适应新的信息。与其类似的公司还有Point72 Asset,Renaissance Technologies, Two Sigma。
人们发现仅仅从数字推测模型是不够的,开始考虑引入新闻,政策,社交网络中的丰富文本并运用自然语言处理技术分析,将非结构化数据结构化处理,并从中探寻影响市场变动的线索。这方面直接用于投资交易的并不多,更多是用于风控与征信。通过爬取个人及企业在其主页、社交媒体等地方的数据,一来可以判断企业或其产品在社会中的影响力,比如观测App下载量,微博中提及产品的次数,在zhihu上对其产品的评价;此外将数据结构化后,也可推测投资的风险点。这方面国内的很多互联网贷款,征信公司都在大量使用自然语言处理技术,例如宜信,闪银等。另外一些公司则利用这些技术进行B端潜在客户的搜寻,如Everstring,并将信息出售给其上游公司。
CommEq是今年6月份在伦敦新设的一家基于人工智能(AI)的对冲基金。CommEq的投资方法结合了定量模型与自然语言处理(NLP),使计算机能够如人类一样通过推断和逻辑演绎理解不完整和非结构化的信息。
由李嘉诚与塔塔通讯投资的Sentient Technologies运用自然语言处理,深度学习(Deep Learning)等多种AI技术,进行量化交易模型的建立。
Kensho是美国一家基于云计算的智能计算机系统先锋公司。Kensho 结合自然语言搜索,图形化用户界面和云计算,为金融市场的投资人们提供一套全新的数据分析工具——Warren。Warren 能够回答复杂的金融市场问题,如各种数据、股票走向等,可回答约 100 万种关于全球事件对股价影响的英文问题。
上述技术经常会在一些意外发生的时候预测失败,例如911、熔断机制和卖空禁令等等。人工智能系统没有遇到过这些情况,无法从历史数据中学习到相关模式。这时候如果让人工智能管理资产,就会有很大的风险。此外,机器学习擅长发现数据间的相关性而非因果性。很有名的一个例子是早在1990年,对冲基金First Quadrant发现孟加拉国生产的黄油,加上美国生产的奶酪以及孟加拉国羊的数量与标准普尔500指数自1983年开始的10年时间内均具有99%以上的统计相关性,1993年之后,这种关系莫名其妙的消失了。这就是由于自学习的机器无法区分虚假的相关性所导致的,这时候就需要专家设置的知识库(规则)来避免这种虚假相关性的发生。
知识图谱本质上是语义网络,是一种基于图的数据结构,根据专家设计的规则与不同种类的实体连接所组成的关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。就金融领域来说,规则可以是专家对行业的理解,投资的逻辑,风控的把握,关系可以是企业的上下游、合作、竞争对手、子母公司、投资、对标等关系,可以是高管与企业间的任职等关系,也可以是行业间的逻辑关系,实体则是投资机构、投资人、企业等等,把他们知识图谱表示出来,从而进行更深入的知识推理。
目前知识图谱在金融中的应用大多在于风控征信,基于大数据的风控需要把不同来源的数据(结构化,非结构)整合到一起,它可以检测数据当中的不一致性,举例来说,借款人张三和借款人李四填写的是同一个公司电话,但张三填写的公司和李四填写的公司完全不一样,这就成了一个风险点,需要审核人员格外的注意。以投资关系为例,知识图谱可以将整个股权沿革串起来,方便地展示出哪些PE机构在哪一年进入,进入的价格是多少,是否有对赌条款,这些信息不仅可以判断该机构进入当时的估值,公司未来的发展情况(公司成长的节奏),还可以看清PE机构的投资偏好,投资逻辑是如何变更发展的。
目前知识图谱在工业界还没有形成大规模的应用。即便有部分企业试图往这个方向发展,但很多仍处于调研阶段。我们认为这其中的难点在于如何与特定领域机构建立起一套合作方式,如何将合作变成一种可轻易编程的界面,让领域专家可以通过系统以一种非常简单的方式进行行业逻辑的建模,而他的逻辑可以通过系统实时得到验证,使其进一步更新,只有通过专家与机器反反复复的迭代,形成闭环,才会服务好用户。
知识图谱在金融最早的应用代表是Garlik。这家公司2005年成立于英国,核心成员来自南安普顿大学(University of Southampton,是语义网的核心研究机构之一),主要业务是在线个人信息监控。他们收集网络和社交媒体上的个人信息,当发生个人信息盗窃时Garlik会及时报警。2011年他们被美国的三大个人信用记录公司之一Experian收购,其技术被用于个人信用记录、信用盗窃的分析。Garlik的核心技术之一是大规模语义数据库,前后开源发布了3store, 4store, 5store等高性能数据库。Palantir,估值仅次于Uber的科技创业公司,曾用大数据帮助CIA干掉本·拉登。他们有一个基于知识图谱的金融数据分析平台—Palantir Metropolis,可以整合多源的量化资料,并提供一套方便易用的分析工具来满足复杂的研究需求,其中的组件能够进行复杂搜索,可视化编辑与分析,有非常丰富的人机交互能力。