Logic Intelligence推出了世界开源演讲的第一个框架,以定义LSLM的研究点

Logic Intelligence推出了世界开源演讲的第一个框架,以定义LSLM的研究点

在大规模语言模型(LLM)的波浪中,多模式AI取得了快速发展,尤其是在视觉语言领域(LVLM),并形成了成熟的研究范式。但是,相反,大型语音语言模型(LSLM)的发展似乎是分散且缓慢的。这个领域很长时间以来一直担心构造的结构,不透明的培训数据以及缺乏评估标准,这使得很难进行研究和严重阻碍社区的技术可重复性和系统进步。尽管许多研究暴露了模型的权重,但其成功的关键(培训数据和组成细节)通常是“隐藏的”。为了打破这个死点,北京Deep Logic Intellignt Technology Co.,Ltd。推出了Llaso,这是第一个极端的语言语言研究框架,完全开放。提供统一,透明和可重复的基础设施的目的在整个社区中。它的贡献是“家庭存储桶”,其中包括一组完整的开源数据,参考点和模型,我们希望加速LSLM领域社区驱动的创新。文档标题:LLASO:大规模语言和语音管理模型可再现研究的基本框架:https://arxiv.org/abs/2508.15418v1代码地址:https:// eit-nlp/llaso型号:将LSLM与研究问题进行了比较。视觉语言模型(LVLM)中的字段形成了剪辑编码器 + llava范式的成熟生态系统。 LSLM的研究面临四个核心挑战。 1。建筑途径的严重区别目前包括各种技术解决方案,因为LSLM体系结构主要缺乏统一的范式,例如LVLM字段,例如外部功能融合,模式式护理机制和隐性对齐。几个研究团队跌倒了构建体系结构,这使得很难积累和比较技术进步。 2。培训数据严格私有化。 Qwen-Audio和Kimi-Audio等主要LSLM取决于私人数据培训,并且重要信息(例如数据量表,质量和配置)是不透明的。这是:低可重复性:其他研究人员无法复制相同的结果。性能的归因是模糊的。很难确定绩效的改进是否是由于建筑创新或数据益处所致。研究阈值很高:新移民需要大量资源来构建私人数据集。 3。LAS任务覆盖限制很明显。现有数据集主要集中于语义理解任务,而没有发音中的瘫痪信息的覆盖范围,包括情绪,口音,节奏,说话者的特征等。 ,限制了理解模型发音的积分能力。 4。大多数LSLM交互式固体模式仅接受“文本命令 +音频输入”的单一交互方式,并且缺乏对复杂模态组合(例如“音频命令 +文本输入”和纯音频交互)的系统支持。 Llaso Frame: Three central components to build a complete ecological map 1: The production process of the corpus corpus Llaso Framework solves the previous challenges through three components of open source of origin: Llaso-Align: Llaso-Align: Recognition of text alignment data: 12 million task of 12 million ratesof alignment of the alignment of the alignment of data Practices of the precise integrity of the representation of the speech and the通过测量数据的语义空间(语音识别(语音识别)(对Alea de aligo del aligo ::控制的控制,语音任务的任务。数百万多他的多用途指令任务封面:3翻译,翻译,语义,语义和sematar of基本语言和基本语言和基本语言和基本语言和基本语言的理解类别Smantic: questions and answers, inference, content analysis, other advanced tasks of cognitive coughing: emotional recognition, accents detection, speakers analysis, other modal support: 3 interactive text instructions Audio input (text audio) audio audio + text inputor (audio text) Pure audio and entry procedures (audio audio audio) LLASO-EVALE-EVALE fine and evaluation pipes.它为LSLM调查提供了前所未有的开放和便利性。 LLASO基础:使用技术验证和性能点来验证框架的有效性。逻辑情报团队使用LLASO数据使用38亿个参数训练了参考模型的基础。模型体系结构设计采用经典的三阶段体系结构:语音编码器:负责语音功能提取模态投影仪的Whisper-large-V3:多层PESCEPTRON(MLP),语音文本功能映射语言模型Backantion实现:使用LLASO-ALIGN数据的LLAM模态。自然一致指导罚款阶段:共同进入投影仪和LLM,并使用LLASO说明来学习复杂的说明。图4:分析了LLASO碱LASO基准模型的示意图。一系列严格设计的实验已直接将LLASO基础与行业的多种领先语言模型(LSLM)进行了比较。所有实验均在标准化的LLASO-EVAL评估参考文献中进行,以确保结果和可重复性的公平比较。为了确保配置和评估参考评估实验的完整性,我们选择了十个常规语音语言模型作为参考点,包括QWEN2-AUDIO,SALMONN,GLM-4-VOICE,MINI-AMNI和KIMI-AUDIO。评估了所有模型。图5:LLASO-EVAL评估点组成的详细说明。参考点包括15,044个涵盖20个不同任务的样本。这些任务被系统地分为三类为了详细分析模型的特征。语言学:核是自动语音识别(ASR),它评估了模型文本的最基本语音功能。语义(语义)任务:核心是音频(AQA)。这评估了模型音频内容的理解,推理和高级生成的能力。瘫痪任务:它也分为两类:“以说话者为中心”(性别,年龄,口音识别等)和“居中内容”(对集成的内容,实体的提取等),旨在评估模型捕获含义的能力。评估指标的描述评估系统可确保使用多种指标进行精确测量模型的各个方面的性能:wer/cer(单词/单词错误率):它用于转录任务中的ASR。值越低,它将越确切。精度:用于分类任务(gendER,口音识别等)。价值越高,性能就越好。 MAE(绝对中间错误):用于数值预测任务(例如年龄识别)。数字越低,您的预测就越精确。 GPT-4O分数(GPT-4O分数):对于诸如AQA之类的开放生成任务,请使用GPT-4O获得1-5点以达到模型输出的相关性和精度。得分越高,表现就会越好。 Absteention的速率:衡量模型中的趋势,以“避免”面对未知或困难的任务时“避免”。这种关系越低,对模型和鲁棒性的指示的声音和最强烈的遵守。一般性能比较:基于一般密钥LAPA图6的性能:所有LLASO-EVAL模型的一般性能线(标准化)均直观地显示。 llaso-base的得分较高,得分为0.72,可以从第一个分类数字清楚地看到。这个结果明显好于所有R竞争模型,例如Kimi-Audio(0.65)和Qwen2-Audio(0.57)。该结果强烈证明了llaso基碱的积分力。这项研究发现,经过更多种任务的模型,例如LLASO-BASE,具有不可或缺的性能,远远超出了主要针对多个任务(例如AQA)(例如Call-Oumni和Mini -omni)进行优化的性能。这强调了我们更广泛的任务覆盖培训策略的有效性。详细的任务绩效分析图7:对语言任务(ASR)和语义(AQA)的每个模型的特定动作的详细比较。在ASR任务中,LLASO基础显示出压倒性的优势。它们的WER和CER分别为0.08和0.03,这是所有模型中最低的,因此具有最精确的语音转录能力。相比之下,即使是Kimi-Audio(Wer 0.14)和台风Audio(WER 0.11)等强大的敌人也有明显的差距。在AQA任务中,竞争非常激烈。Kimi-Audio在“ Text Command + Audio Input”模式中表现良好,高分为3.35。 llaso-base在本文中获得了2.58,并且服务良好。但是,值得注意的是,在最具挑战性的“音频说明 +文本输入”模式下,LLASO碱基(2.70)的分数比大多数模型显示出比大多数模型更强的模态适应性。图8:显示了18个碎片寄生任务的比较结果。这是模型是否可以理解“不满”的最终测试。对于这些更复杂的任务,LLASO-BASE几乎所有任务都从上方或附近实现了结果。以演讲者为中心的任务:llaso-bass超过了对说话者(SGC)和口音分类任务(AC)的性别认可的精确性,对说话者的特征提出了很好的愿景。以内容为中心的任务:Llaso-Base提供了更多的好处。在音素识别(PR)的任务中,其PER仅为0.03。在识别语音命令(SCR)的任务中,CER低至0.04/0.02。这两个指标都处于领先地位,还有其他模型在分析精细音频含量的分析中表现出更高的功能。遵循关注者的说明:更重要的是,llaso-base对这些任务的拒绝率非常低。相反,作为许多麻痹任务的“拒绝答案”(标记为“拒绝”)的模型直接选择“拒绝答案”(以“拒绝”为“拒绝”),表明他们无法处理此类任务。 LLASO-BASE的稳定响应表明它强烈遵守任务的教学和概括。模态概括和任务覆盖分析图9:模型性能在不同输入模式中的稳定性模式概括函数(图9):此图分析了不同输入模式中模型的性能稳定性(纯音频,文本 +音频,音频 +文本)。结果表明,大多数模型通过更改为未知的方式而经历低性能s。尽管LLASO-BASE也具有性能波动,但其在标准模式中的最大性能比其他模型高得多,这是领导者的关键。同时,研究发现,使用“隔行或平行解码策略(例如Mini-OMNI,GLM-4-voice)的模型通常表现出更高的稳定性。图10:重要性覆盖与培训的覆盖范围与模型的覆盖范围的正相关(图10):此图清楚地显示了训练的绩效和指导率的正常率,这是训练率的正常率,是训练率的正常率,是指命令的数量。一般的绩效和遵守指示(低淘汰率)。影响社区促进学术研究。保证可重复性:完全和开放的培训数据实施代码2。公平比较基础:统一评估参考点消除了评估偏见3。研究阈值减少。减少:与私人数据解决方案相比,节省数百万个数据构建成本2。可控技术风险:开源解决方案中的透明度降低了技术选择的风险3。自定义便利:开放式体系结构承认目标字段的适应。多语言支持:主要针对英语和中文,其他语言的覆盖范围有限3。实际 – 时间性能:大型模型的推理延迟仍在实时挑战应用程序4。长音频处理:超长音频序列的处理效率必须优化,以直接开发开发。 G:探索大型模型2的性能限制。效率优化:诸如M之类的技术ODEL压缩和定量减少实施阈值3。多模式扩展:视觉信息音频音频的集成实现4.统一联系人和世界作为世界的参考实现的比较。结构。它的开源战略不仅降低了研究阈值,而且更重要的是,它已经建立了LSLM领域的统一技术标准,预计和ITIT将促进该领域的“战斗”转变为“ Coinnovation”。随着公共框架和贡献的广泛采用,LSLM研究的“成像时刻”有望是LSLM调查,建立了一个坚实的基础来建立AI系统,以真正了解人类声音的细微差别。
特殊声明:先前的内容(包括照片和视频(如果有),如有)已由网络自我媒体平台的用户收费和发布。该平台仅提供信息存储服务CES。
注意:上面的内容(如果您有照片或视频)将由社交媒体平台NetEase Hao的用户收取和发布,仅提供信息存储服务。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注