以ChatGPT为代表的超大语言模型的迅速应用,加速了AI普及,让AI伸手可及,并开始走进我们的工作和生活。毫无疑问,AI大模型等技术已经深刻地影响到所有行业的发展,并正在重构企业核心产品,重塑用户与企业产品和服务的交互方式。
(相关资料图)
5月26日,“向星力·未来数据技术峰会(FDTC)”在上海成功举办。星环科技创始人、CEO孙元浩表示,未来人人都是数据科学家,人类与数据的交互方式将发生重大变革,语言、视频等自然语言的交互方式将逐渐普及,每个人都将需要一个“虚拟业务助手”。
孙元浩表示,未来数据处理将走向智能化、多模态和平民化,其中领域大模型让数据处理的自动化程度更高、结果更能为我所用;数据处理将从单一模态向多模态进化,企业数据分析来到新的次元;数据处理平民化,让普通人不再需要掌握复杂工具,就可以快速处理数据。
为了实现数据处理的智能化、多模态、平民化,在“向星力·未来数据技术峰会(FDTC)”上,星环科技推出众多创新产品,包括大模型持续提升和持续开发工具Sophon LLMOps,业界首创的金融大模型无涯、大数据分析大模型SoLar“求索”等多个行业大模型,实现湖、仓、集一体化和多模架构的星环大数据基础平台TDH 9.3,能够替代国外产品的分布式分析型数据库ArgoDB6.0、分布式交易型KunDB3.2、构建海量数据互联智慧“星”图的分布式图数据StellarDB 5.0、面向多元场景的高性能时序数据库TimeLyre 9.1,提出六易、三仓、两中心的新一代智能分析全流程平台Sophon,以及数据要素流通产品Navier 3.1等产品。
基于未来技术,星环科技的这些全系列产品将助力企业加速数据化、智能化转型,加速基础软件的国产化替代,服务数据经济发展。
1.提供大模型训练工具,每个企业都能打造自己的专属大模型
ChatGPT主导的对话式AI开始渗透到各行各业,使人和信息结合比以往任何时候都更紧密。然而,超大模型虽好,但是训练、维护的技术要求高、训练难度大,费用巨大,同时通用大模型对于特定领域的适用性不佳。
为此,星环科技在行业内首先提出行业大模型应用创新场景,推出相应的工具,帮助企业构建自有的行业大模型,通过大模型基础设施,形成具备“新型人机交互”且“敏捷可持续迭代“的人工智能应用。
为了帮助企业用户基于大模型构建未来应用,星环科技推出了Sophon LLMOps,帮助企业构建自己的行业大模型。
作为一个机器学习模型全生命周期管理的工具平台,星环Sophon LLMOps针对大语言模型及其衍生数据、模型、应用问题,提供了相应的增强,形成了LLMOps的工具链:
首先是样本仓库能力。覆盖训练数据开发、推理数据开发、数据维护等工作,对大语言模型涉及的原始数据、样本数据、提示词数据做清洗、探索、增强、评估和管理。
第二,模型运维管理能力。除了传统MLOps的六大统一——统一纳管、统一运维、统一应用、统一监控、统一评估、统一解释外,针对大语言模型的微调、持续提升、评估、对齐等提供从计算框架、工具到计算、存储、通信的调度和优化支持。
第三,大语言模型和其他任务的编排和调度和上线能力。星环Sophon LLMOps提供Agent、Ops、DAG,结合星环的多款大数据、数据库产品,如向量数据库Hippo和星环分布式图数据库StellarDB等,将不同大语言模型、传统机器学习、其他流程等编排成符合用户实际领域和业务需求的任务,并为客户提供服务。
星环Sophon LLMOps解决了客户三个核心痛点:第一,提供一站式工具链,帮助客户从“通用大语言模型” 训练/微调,得到“满足自身业务特点的领域大语言模型”;第二,帮助客户将原型的大语言模型应用,成功在实际生产中投入应用;第三,帮助客户运营在生产中应用的大语言模型和大模型的持续提升。
除此之外,星环科技在行业首先推出了两大行业大模型:
一是服务于金融行业的星环金融大模型无涯。星环科技长期深耕金融领域,服务大量金融行业客户,积累了上百万金融专业领域的语料;基于星环科技对图数据库、深度图推理算法的技术,形成了大规模高质量的金融类事件训练指令集。二者共同铸就了星环科技开发金融领域大语言模型的坚实底座。
无涯是一款面向金融量化领域、超大规模参数量的生成式大语言模型。无涯使用上百万的专业金融语料,其中涵盖了研报、公告,政策,新闻等高质量的自然语言文本来作为基础大模型的二次预训练语料,使得无涯具备对包括基本面、技术面、消息面在内的金融通识领域准确的理解能力。
无涯构建了包括政策、舆情、ESG、风险、量价、产业链等六类大模型基础因子集,擅长处理金融量化领域的各类问题,诸如在政策和研报分析、新闻解读、事件总结和演绎推理上都具备强大的理解和生成能力;能够对股票、债券、基金、商品等各类市场事件进行全面的复盘、传播和推演;能够生成另类的策略因子集合,构建立体的归因解释体系。无涯大模型通过多模感知+事件驱动+深度图计算,从时间和空间、深度和广度等多个方面扩展投资研究的视角,实现了全新的智能量化投研新范式。
二是星环科技基于在SQL编辑器的多年积累,结合大语言模型,推出了大数据分析大模型SoLar “求索”。 SoLar “求索”可以使用自然语言描述涉及多种数据模型的复杂业务需求,借助星环大数据平台特有的“多模型”技术,对不同模态(比如图数据、文本数据、结构化数据)的数据进行关联分析和展示。用户可以通过自然语言,生成可成功执行的SQL或Cypher,从而快速获取查询的结果,能够快速降低用户的使用门槛。
星环科技此次发布的SoLar“求索”,将作为数据查询和分析的智能副手,为数据工程师、数据科学及业务人员提供更好的使用体验。SoLar求索也数据库查询平民化,让非专业用户在不需要学习和掌握数据库编程语言的前提下通过自然语言自由地按需查询数据。
多模态的数据处理,让每个人都拥有个性化的AI助理
孙元浩说,数据处理从多模型向多模态转型,从单一模态向多模态进化,企业数据分析来到新的次元。
为了适应这一全新转变,星环科技推出了自研的向量数据库,拓展大语言模型时间和空间维度。使用星环科技的向量数据库+分布式图数据库,可以构建基于大模型的应用,让每个人都拥有自己个性化的AI助理。
向量数据库由于与AI大模型的协同作用而以惊人的速度流行起来。最古老的数据库类型是SQL或关系数据库,其中所有的数据都结构化的。Web 2.0公司不断增长的需求引发了NoSQL革命,数据库变得更加灵活,出现了能够处理更多非结构化数据的数据库,能够的处理数量更加庞大。现在,随着市场对人工智能应用的追捧,出现了另一种被称为向量数据库(vector databases)的新市场。AIGC热更是将加速了向量数据库的投资热。
在本次峰会上,星环科技推出自研的向量数据库Transwarp Hippo。作为一款企业级云原生分布式向量数据库,星环Hippo支持存储、索引以及管理海量的向量式数据集,能够高效地解决向量相似度检索以及高密度向量聚类等问题。
与开源的向量数据库不同,Hippo具备高可用、高性能、易拓展等特点,支持多种向量搜索索引,支持数据分区分片、数据持久化、增量数据摄取、向量标量字段过滤混合查询等功能,能够很好地满足企业针对海量向量数据的高实时性查询、检索、召回等场景。
大模型技术带来的启发,图神经网络技术的日益发展,为图智能的发展提供了沃土,为图库和图智能结合提供了探索的机遇。大数据时代,应该如何解决海量图数据的存储、计算难题呢?星环科技打造面向图智能、业务分析的多模型企业级分布式图数据库StellarDB 5.0。
StellarDB 5.0实现了实时短查询场景5倍提升,高并发上万+QPS,近50种图算法,平均8倍性能提升,多度关联关系场景10倍提升,解决无限扩层问题。
StellarDB 5.0对计算模型进行优化,全新设计Cypher语言执行器Thunder、BSP查询优化模型,大幅提升短查询执行效率,提高查询并发;实现算法优化,优化星环Eagle图算法模型,大幅优化内置图算法运执行效率;实现编译优化,引入Cypher语言预编译技术,减少语句编译优化开销,提升语句执行效率。
StellarDB 5.0带来全面升级的数据可视化分析引擎KG Explorer 1.3,一款人人易用、面向业务、数据分析的可视化工具。
StellarDB 5.0对接星环科技自研深度图框架ZenGraph结合,基于图数据库的查询计算能力,提供快速、准实时,甚至实时的特征查询和计算;基于图数据库内置算法,提供多元的图特征计算能力;基于图数据库存储能力,提供高速数据写会能力;针对不同业务场景支持多种深度图嵌入算法模型,相比于传统图算法,能够从图中挖掘学习更多的特征知识,预测更精准。
另外,星环科技推出面向多元场景的高性能分布式时序数据库TimeLyre 9.1。
面对时序数据数据量大、数据分析需求高,开源系统不支持集群部署,存储和计算数据规模有限,不支持复杂分析,服务不稳定,以及缺乏安全可控性等问题,星环TimeLyre 9.1在常见的时序数据上,可实现5~20倍压缩率,远优于传统数据库,数据压缩高、单节点磁盘可用容量高,可大大节约成本。
TimeLyre统一标准SQL,完整支持标准SQL查询语言,支持主流的SQL模块化扩展,兼容通用开发框架和工具,支持事务特性,保证数据的准确性;支持复杂分析能力,支持关联、聚合、嵌套查询等复杂SQL分析模型;多模分析能力支持多模平台,打破数据孤岛,支持对不同存储模型数据表进行跨模分析;灵活部署,安全可控:分布式存储、计算分离架构,灵活扩容;自主研发,支持国产化软硬件平台,支持异构集群部署。
而星环的时空数据库Spacture,为空间而生,为变化而生。星环Spacture拥有高效时空数据分析、多样化数据类型支撑、算子下推、多种标准支持、主流生态兼容等特性,可应用于时序遥感分析、城市扩张变化检测、气象业务支持、全球高温天气预测、轨迹分析、船舶轨迹范围检索、泛在空间分析、湖泊面积统计、空间聚合统计等场景。
数据处理平民化,让人人成为数据科学家
让普通人不再需要掌握复杂工具,就可以快速处理数据,这是数据处理平民化的一大追求。而星环科技不同的产品上创新,落地数据处理平民化。
第一,推出的星环大数据基础平台TDH,打破湖仓集的边界,让更多人可以访问实时+历史/原始+加工后的数据。
传统湖仓集采用多系统混合架构,存在存储冗余、数据流转成本高、时效性差、数据一致性难保障、数据孤岛治理成本高、元数据同步开发标准不一致等挑战。
星环大数据基础平台TDH 9.3推出新一代湖仓集存储格式Holodesk,一份数据满足数据湖的离线实时接入、数仓的复杂加工以及数据集市的分析需求,避免数据冗余,减少数据流转,提升业务综合性能与时效性。
新一代湖仓集统一存储Holodesk在数集方面,支持基于Holodesk存储格式的集市分析,存储&计算双升级,分析性能大幅提升;在数仓方面,支持完整四种事务隔离级别,支持复杂批处理加工、数仓模型拉链表等,无需手工计算分桶数,自适应数据分布自动合并小文件;在数据湖方面,支持离线导入/实时写入、时间旅行,生态对接Spark/Flink/Sqoop。
第二,星环数据基础平台TDH 9.3多模型统一架构迭代升级,全新发布向量模型存储,10大存储引擎,共支持11种模型数据统一存储管理,支持统一查询处理语言完成跨模型数据流转与关联分析,业务开发更便捷。TDH 9.3多模型新成员向量数据库Hippo采用全面容器化部署,支持服务的弹性扩缩容,同时具备多租户和强大的资源管控能力;具备分布式部署能力,有丰富的大规模集群部署经验等。
第三,星环TDH底座就地升级到星环TDC。目前,大数据云平台及数据共享面临诸多痛点,如孤岛建设数据难以共享,不同角色用户不同的需求,数据共享的安全隐患、基础设施异构建设及扩容难。为了增强数据开放能力,促进企业数据共享与流通,星环数据云平台TDC升级,推出TDC 3.2。
TDC 3.2一个大重磅更新就是支持星环TDH底座就地升级到星环TDC,利用云化统一管理资源池,实现大数据系统产品、计算、存储资源池化,提高调度资源的灵活性和利用率;多租户隔离技术,实现各业务部门之间的数据独立,更稳定,更安全,保障数据安全与隔离活性;统一管理与精准运维,统一管理和资源虚拟化,按需提供资源,不仅释放运维人员的时间与精力,而且提升运维效率。
另外基于多租户技术的内部数据共享,以及严格的数据安全隔离和保护,解决存算解耦,让扩展更加便捷。基于TDC打造外部数据流通方案,实现从数据资产到数据要素安全流通。
第四,让数据流通更便利、更安全、更可控。数据流通既要满足全流程安全与隐私保护的制度要求,也要满足市场流通全流程业务效率的要求,因此有必要在流通规则中建立数据要素全流程合规与监管体系。在本次峰会上,星环科技推出了数据要素流通产品Navier 3.1让数据流通更便利、更安全、更可控。
星环科技数据流通平台Navier 3.1三大产品同时升级。星环数据交易门户Datamall打造数据资产目录平台,可浏览数据目录、查看数据字典、生成交易凭证。
星环科技安全沙箱Sandbox,打造封闭、隔离的数据开发分析环境,开发人员在安全隔离的环境下进行分析计算,不可下载和导出原始数据集,保障数据可入不可出。
星环科技隐私计算平台Sophon P²C 2.0,在保证数据提供方不泄露敏感数据的前提下,数据消费方对密文数据进行分析计算,保证在各个环节中数据可用不可见。新版本功能覆盖更全面、数据分析使用灵活度更高、建模效果更好。
星环科技推出Defensor4.0版本,在数据分类分级模块中创新性地引入了大模型技术,相较于传统机器学习算法,调优后的模型完美解决了分类分级中短文本语义语境识别率低的问题,在有标注样本的前提下,识别准确率达到了95%。
第五,国产化替代上更进一步。为了实现数据处理的平民化,星环科技推出众多创新产品,不但可以替换国外的商业和开源大数据平台、数据库等基础软件产品,而且拥有大量成功的应用案例,为用户创造新的价值。
星环科技自研的大数据基础平台TDH和星环数据云平台TDC联合,可以完美地替代CDH/HDP和CDP,提升功能、性能、稳定性、易用性、扩展性、可靠性、安全、国产生态支持等能力,提供多种模型支持能力,性能提升可以达到5到100倍,原厂专业服务能力更强。
星环分布式分析型数据库ArgoDB强化实时分析能力,构建安全高效的国产化多模引擎,一站式满足用户数据仓库、数据集市、实时数仓、OLAP、AETP、联邦计算等需求,可以在批处理和OLAP、Ad hoc分析等场景,替代Oracle/DB2/TD/SAP HANA等国外产品。
星环分布式交易型数据库KunDB3.2可以在交易型OLTP的业务场景、高并发在线数据服务场景等,替代Oracle/DB2/MySQL,并且提升存储计算能力、高可用能力、跨分区事务能力。
星环自研发的搜索引擎Scope可以在全文检索、日志分析等多个场景替代ElasticSearch,提升稳定性、性能、集群扩展性等能力。
星环分布式图数据库StellarDB可以在图查询、图分析等场景替代开源图数据库Neo4j。而新发布的StellarDB 5.0产品在延续企业级海量存储、高性能数据查询分析计算、丰富的可视化交互、安全运维一体化等优异产品技术能力的同时,进一步带来了覆盖数据存储、查询计算、可视化交互、深度图学习、多模型数据库等产品多方位的能力升级,以高水平的产品能力和图智能持续赋能业务生产以及应用创新,为国产化图数据应用提供高水平产品解决方案。
星环科技自研的高性能时序数据库TimeLyre可以替代开源时序数据库InfluxDB,解决开源时序数据库不支持复杂分析,只能做简单点查或者指定设备分析,大规模设备情况下,不指定设备查询时,需要使用大量内存载入全量设备数据,并进行归并排序操作,服务极其不稳定,以及缺乏安全可控性等问题。
星环科技的智能分析工具Sophon Base可以在可视化建模分析等场景替代SAS/SPSS,提升功能和性能,降低成本。
大数据产业发展的下一步就是打造以平台为核心的大数据生态。星环科技坚持“平台+生态”的发展理念,与软件开发商、硬件开发商、系统集成商等生态伙伴积极合作,打造更多领域的联合解决方案,扩大产品市场影响力,提升竞争力,打造大数据基础软件产品应用的生态体系。目前,星环科技已经拥有超过600家生态合作伙伴,涵盖系统集成、咨询交付、服务,ISV及行业应用,数据建模分析、挖掘,数据集成治理、展现、流通,操作系统、云与通用软件,整机与硬件,CPU及芯片技术等,星环云课堂拥有2,200+家培训企业数量,10,000+份星环工程师认证证书,4万+人累计培训开发者人次。
未来已来,数据处理的智能化、立体化、平民化大潮汹涌澎湃,而利用创新技术落地数据处理的产品则是这些浪潮落地的基石和基础,正在改变数据处理发展的进程。
关键词: