一、企业基本信息
(一)名称:南京柯基数据科技有限公司
(二)Logo:
(三)联系地址:
南京市江宁区秣周东路12号南京未来科技城3号楼18层
北京市海淀区中关村大街18号B座9层909室
上海市徐汇区小木桥528号201室、203室
(四)联系电话:18061435821
(五)联系邮箱:[email protected]
(六)官方网站网址:www.kgtdata.com
(七)官方社交媒体账号
微信公众号:
知乎:柯基数据
二、企业简介
(一)企业介绍
南京柯基数据科技有限公司成立于2015年,是荣获江苏省“创聚工程”和“创业南京”两项称号的创新型国家高新技术企业。公司拥有核心自主知识产权40多项,技术覆盖了从数据采集到数据清洗、知识提取、知识表示、动态本体建模、图谱自动构建及动态更新、知识推理、事件抽取、可视化关联分析、智能问答、语义检索、智能知识推荐、辅助决策等知识图谱全技术链。公司现有60多人的研发团队,在北京和上海分别成立了全资子公司北京知识图谱科技有限公司及上海稷图数据科技有限公司。
(二)目标定位
柯基数据公司开发了全周期的知识图谱平台产品和基于知识图谱的智能应用产品,其中知识图谱平台和智能问答平台获得了工信部的认证,形成了全流程自动化情报挖掘和知识发现平台,为军工、科技、政府、企业等重点行业的智能情报挖掘以及金融、工业制造等行业提供全栈智能解决方案。公司先后服务了数十家以上领域的大客户,积累了丰富的行业知识图谱数据和应用开发经验。
(三)发展历程
三、企业产品及服务
(一)平台架构
柯基数据的开源情报平台从情报采集到情报应用全流程分为四层,依次为多源异构数据源、PAAS平台产品、DAAS知识库、SAAS应用组件及重点领域。
多源异构数据源
与秘密情报数据来源不同,开源情报渠道广泛,包括政府/组织公开数据、政府报告/文件/网站、社会媒体、大众媒体、地图和商业图像等。在数据源选取上,既要选择微博、网易等受众广泛的综合性门户网站,又要兼顾领域论坛、专业门户网站等。综合性门户网站来源稳定、更新及时、易于获取,领域网站论坛信息可信度高、更具权威性。将多渠道获得的情报融合关联,从而保证情报的时效性和准确性,从源头上保障情报质量。
PAAS平台产品
针对开源情报数据源,PAAS平台产品完成情报的采集、分类、提取和融合。情报采集模块负责情报数据的采集和调度,支持爬取网站配置,用户根据情报采集需求添加或删除监控网址、监控字段等信息。采集模块支持实时采集和定时采集两种模式,实时采集用于即时告警/决策场景,系统持续监控数据源,一旦发现新数据产生则立即采集并输出到下一步处理流程;定时采集用于常规情报收集,系统周期性定时执行增量数据采集任务,批量处理采集到的数据。任务调度引擎管理采集任务的类型、状态、生效时间、采集周期、监控网址等信息。
由于开源情报价值密度低,充斥着大量无效信息,采集到的数据需经过情报分类模块筛选,一是判断是否为情报数据,二是判断是哪个领域的情报数据。对某些应用场景,还需要进一步判断情报的等级,对于价值重大的情报直接以告警方式推送给用户。
情报提取是情报获取的核心模块,对于文本类情报利用NLP算法从情报文本中提取人物、组织、地点、事件等实体信息,以及各类实体之间的关系,实体自身的属性/指标等。对于事件实体,还需要抽取事件论元、论元角色等。另外,对于图片、视频等多模态数据需要利用OCR、人脸识别、目标检测等多种算法从中提取文本、人物、物体等。跨模态情报提取要利用多模态预训练模型从文本-视觉等数据中提取实体、关系等,弥补单模态数据的信息缺失,建立全面立体的情报画像。
开源情报渠道多,价值低,内容同质化严重,为了获取高价值的情报,需要把多源离散的情报通过语义关系融合关联起来,统一各种模态的情报。
开源情报数据源来自政府公开数据、政府报告/文件/网站、社会媒体、大众媒体、地图和商业图像等。与传统情报工作不同,开源情报数据来源广泛,渠道稳定,获取成本低。但同时也带来了诸多弊端,开源情报数量巨大,情报价值低,内容同质化严重,因此必须借助AI能力对开源情报去粗取精、去伪存真、由此及彼、由表及里,提炼出高价值的信息。一方面汇总多源异构信息,形成研究对象的全方位多维度画像,另一方可以打破数据孤岛,将信息进行有机组合发现新模式新线索,多维度验证情报的真实性和准确性。
DAAS知识库
多源情报融合后形成情报图谱、事件图谱、事理图谱和百科图谱等,根据研判专题用情报图谱可构建重点人物库、武器装备库等。随着开源情报的增加,人物库、装备库中已有对象持续补齐或更新相应的属性、指标、关系等,新增对象补充入库。事件图谱基于事件动态抽取时间、地点、人物等论元以及论元角色,第一时间掌握事件重要信息。事理图谱识别事件的顺承、因果、条件等关系,通过事件逻辑描述预测事件趋势。事件是事理的重要组成部分,事理和实体共同组成了知识。百科图谱作为通用知识库,为其他的图谱提供常识性知识。
SAAS应用组件
基于融合后的情报图谱,从三个方面来发挥情报平台的价值。一是知识画像,融合后的图谱整合多个渠道的多模态信息,能够全面反映研究对象的属性和状态,建立研究对象的全息画像,避免管中窥豹,一叶障目。二是知识挖掘,基于已有的情报网挖掘隐藏在数据背后的价值,利用图结构挖掘社交团伙,发现重点人物和关键技术,基于聚类自动发现热点事件和新兴技术,基于多渠道信息甄别情报真伪,通过语义搜索、个性化推荐和智能问答等形式向用户提供知识服务。三是推理预测,通过知识推理与实际业务结合,进行重点事件告警,发展趋势预测,综合态势感知等,切实发挥知识图谱可理解、可推理的认知能力。
开源情报自动化处理平台充分利用机器智能与人工智能优势,有效弥补人在海量数据存储、处理方面的劣势,不间断监控目标领域,高效及时处理多模态数据,从海量数据中抽丝剥茧发现联系挖掘规律,更好地服务军事政治科技经济等各领域的情报需求。
应用领域
军事安全领域
由于成本少、风险低、收效大等特点,通过反复提炼处理得到的高质量开源情报在军事安全领域的应用十分广泛,特别是在军事侦查工作、反恐情报挖掘等方面发挥着重要影响作用。
军事侦察工作方面,公开资料是获取军事情报的重要渠道,也是最经济、安全、迅速的途径,其价值甚至超过秘密情报。在侦查工作中,可以将互联网、社交媒体、研究报告等信息与内网信息进行关联、聚类和协同分析。反恐情报挖掘方面,恐怖主义的张扬性决定了公开途径获取恐怖组织内部情报的可能,将军事领域海量互联网开源情报应用于反恐工作中具有重要的现实价值和良好的适用性。将深度学习、文本挖掘等人工智能技术引入反恐情报挖掘,将开源情报用于冲突监测、大规模暴力事件监视、恐怖人员组织网络关系抽取等。
科技情报领域
科技情报工作范式随着科技创新和经济社会发展正在向基于开源数据的挖掘式情报计算服务迈进,主要体现在科技前沿识别、国防技术转移、科技战略支持等。通过开源情报获取分析框架,掌握具体科研领域的相关研究热点、学术机构及其相关合作网络,洞悉领域研究现状。在国内外环境发生深刻复杂变化的情况下,我国科技创新也面临着巨大的挑战,开源情报在科技情报领域的应用有助于掌握重大科技战略动向,为科技决策服务。
商业竞争领域
信息爆炸的今天,相比于企业机密,企业间的竞争和情报分析更多依靠公开信息进行,商业经济领域亟需让公开的数据、信息和知识发挥出情报的价值,为企业提供战略和战术层面的支持。
以医药领域为例,从新闻、公众号、公司网站、监管网站以及Pubmed、Clinical Trial等权威数据源获取投融资、收购兼并、高管变动、License-in&License-out事件、靶点发现、临床试验情报,抽取公司、高管、药品、pipeline、疾病、适应症、分子、靶点和蛋白等细粒度实体形成医药情报图谱深度挖掘,辅助药企进行竞争情报的实时跟踪和智能决策。
公共管理领域
开源情报存在人们生产生活的各个方面,能够为公共管理提供重要的数据基础和决策支撑。实际上,将开源情报应用于公共管理领域也是完善国家治理体系和提升国家治理能力的重要方法和手段。目前,开源情报在公共管理领域的应用体现在网络舆情监测、公共卫生事件等方面。
舆情网络分析方面,开源情报的应用主要是站点社区发现、影响力分析、情感分析、舆情监测和预警等功能。公共卫生事件方面,开源情报在疾病爆发监测、突发公共卫生风险预测等任务中起着不可替代的作用。如疫情事前阶段进行危机预警,事中阶段融合其他类型情报为疫情处理提供情报层面的保障并辅助决策,事后阶段对疫情全面评估和总结。
开源情报平台实现了情报采集、情报处理和情报应用全生命周期的自动化,实时采集多源异构数据,自动挖掘提取关键实体和事件,形成多元知识图谱,可用在事前、事中、事后等环节自动识别威胁告警、预测事件发展态势、综合研判分析等。
长按识别下面的二维码可加入星球
里面已有近千篇资料可供下载
越早加入越便宜
续费五折优惠
往期关联阅读: