\u3000\u3000 “Este ano é o ano chave para a implementação de grandes modelos. Depois de vários anos de exploração e inovação, grandes modelos atingiram em certa medida a fase de promoção. Então vamos enfrentar o problema de como implementá-los e como gerar valor em cenários reais de aplicação. Do ponto de vista da implementação de aplicações, o problema chave a ser resolvido para a implementação de grandes modelos é a lacuna entre tecnologias de ponta e cenários reais de aplicação. Requisitos para aterragem de aplicações de correspondência de bits? Este é o problema central a ser resolvido pelo grande modelo este ano.” Recentemente, Wu Tian, vice-presidente do grupo Baidu e vice-diretor do Centro Nacional de Pesquisa em Engenharia para tecnologia e aplicações de deep learning, disse na cimeira de desenvolvimento de deep learning 2022.
Então, como resolvê-lo e como promovê-lo? Wu Tian pode ser resumido em três pontos.
Primeiro, construa um sistema modelo grande, que pode ser conectado com os cenários de aplicação. Em segundo lugar, plataformas e ferramentas de suporte para baixar o limite de aplicação e suportar todo o aplicativo de aterragem em todo o processo e de ponta a ponta. Em terceiro lugar, precisa de apoio ecológico, incluindo a construção de ecologia de aplicação e ecologia de hardware.
Na cimeira da onda na primavera de 2022, a baidu lançou dez grandes modelos, os primeiros grandes modelos da indústria e uma série de ferramentas e plataformas, incluindo o kit de desenvolvimento de grandes modelos, a API de grandes modelos, plataformas de desenvolvimento easydl e BML incorporadas com os recursos de grandes modelos e comunidade Wenxin · mingu. É fácil se sentir deslumbrado se você não entender a lógica, mas você pode ver todas as ações de Baidu a esse respeito entendendo os três pontos acima.
\u3000\u3000 “No estágio da produção em massa industrial de IA, a universalidade da tecnologia de deep learning está se tornando cada vez mais forte, a padronização, automação e modularidade da plataforma de deep learning estão se tornando cada vez mais óbvias, e a aplicação de deep learning está se tornando cada vez mais extensa e aprofundada, o que floresceu em todos os lugares. A ascensão de grandes modelos de pré-treinamento aumentou ainda mais a universalidade da inteligência artificial. Grandes modelos têm as características de bom efeito, forte generalização e alta padronização do processo de P & D, e estão se tornando pessoas Uma nova base para tecnologia e aplicação de inteligência industrial.” Said wanghaifeng, diretor de tecnologia da Baidu e diretor do Centro Nacional de Pesquisa em Engenharia para tecnologia e aplicação de deep learning.
Já na cúpula da onda em maio de 2021, Wu Tian falou sobre as três etapas da aplicação de IA corporativa: primeiro, o “estágio de exploração pioneira”, em que um pequeno número de pioneiros introduziu novas tecnologias às empresas para exploração e verificação de protótipos; Em segundo lugar, na “fase de aplicação da oficina”, algumas empresas montam gradualmente pequenas equipas para introduzir a tecnologia; Em terceiro lugar, na “fase de produção em massa industrial”, recursos humanos em larga escala e outros recursos dentro da empresa cooperam para realizar pesquisa e desenvolvimento de inteligência artificial.
Nesta fase da produção industrial em massa de IA, a ideia de Baidu não é estabelecer um grande modelo para “tirar todos” todos os problemas, mas construir um sistema hierárquico. O modelo em larga escala da hélice Wenxin inclui três tipos de modelos: modelo básico, modelo de tarefa e modelo industrial. Os 10 grandes modelos, como Ernie 3.0 Zeus (Zeus), a primeira chamada de API aberta na China, lançado desta vez se enquadram nessas três categorias.
O modelo básico em larga escala tem as características de grande quantidade de dados de aprendizagem, grande quantidade de conhecimento e grande escala de parâmetros, e tem a maior versatilidade. No entanto, o uso direto do modelo básico muitas vezes fica atrás dos requisitos de aplicação exigentes no cenário. Portanto, com base no modelo geral, Baidu adicionou dois tipos de modelos: modelo de tarefa e modelo da indústria.
O modelo de tarefa grande é orientado principalmente para tarefas específicas, como extração de informações, diálogo e pesquisa no campo de PNL, bem como pesquisa gráfica de commodities e compreensão de imagem de documentos no campo visual.
O modelo grande da indústria é baseado no modelo grande geral de Wenxin, dados de domínio da indústria de mineração de uma grande quantidade de dados extensivos e cooperando com empresas ou instituições líderes na indústria para introduzir dados e conhecimento característicos da indústria. “O principal objetivo é combinar e aprender o grande modelo básico geral e o conhecimento profundo da indústria. O ponto chave do grande modelo da indústria é introduzir o conhecimento e dados únicos da indústria, e projetar as tarefas de pré-treinamento correspondentes para a indústria juntamente com os especialistas que têm o profundo conhecimento dos especialistas da indústria. Desta forma, o modelo geral se tornará verdadeiramente um modelo com efeitos mais aplicáveis para a indústria.” Wu Tian contou as notícias.
De acordo com Wu Tian, no campo da energia, energia e finanças, Wenxin desenvolveu conjuntamente o modelo de PNL aprimorado do conhecimento da indústria de energia “State Grid Baidu Wenxin” com a State Grid, e em conjunto desenvolveu o modelo de PNL aprimorado do conhecimento da indústria financeira “SPD Baidu Wenxin” com Shanghai Pudong Development Bank Co.Ltd(600000) .
O valor por trás dessa cooperação pode ser entendido a partir dos discursos de ambas as partes.
Tomando a indústria de energia e energia como um exemplo, Wu Tian acredita que a coisa mais importante para promover o modelo da indústria é trabalhar com os especialistas da rede estadual para introduzir os dados da amostra e o conhecimento único acumulado no negócio de energia, e no treinamento, combinado com a experiência de ambas as partes no algoritmo de pré-treinamento e no negócio e algoritmo de campo de energia, algoritmos de projeto tais como discriminação de entidade no campo de energia e discriminação de documentos no campo de energia como a tarefa de pré-treinamento, Deixe o modelo Wenxin aprender profundamente o conhecimento profissional de energia elétrica.
O Dr. Jiang Wei, chefe de inteligência artificial no Departamento de digitalização da State Grid Corporation da China, disse que, como o acelerador na transformação de digitalização de empresas centrais, a State Grid Corporation da China, juntamente com a Baidu, construiu em conjunto uma infraestrutura de inteligência artificial de nível industrial e explorou a pesquisa e desenvolvimento de um modelo combinado em grande escala de inteligência artificial de potência, que não só melhora a precisão do modelo tradicional de energia específica, mas também reduz significativamente o limiar de pesquisa e desenvolvimento, e realiza a integração de poder computacional, dados Planejamento geral e otimização de tecnologia e outros recursos. Em seguida, a State Grid Corporation da China continuará a aprofundar a cooperação técnica entre os dois lados, promover o avanço técnico e a exploração da aplicação do modelo de inteligência artificial no campo de energia e construir um modelo de inteligência artificial maior com mais características de energia para cenários de negócios de energia mais típicos.
Da mesma forma, o modelo grande do SPD Baidu Wenxin realiza a mineração de dados da indústria baseada em Wenxin. Combinado com os dados da indústria e o conhecimento acumulados no cenário do SPD, os especialistas técnicos e empresariais de ambos os lados podem cooperar para projetar tarefas específicas de pré-treinamento, tais como discriminação de campo de relatórios financeiros e correspondência de perguntas e respostas de atendimento ao cliente financeiro.
Além dos grandes modelos da indústria, desta vez, um total de oito grandes modelos básicos Wenxin e modelos grandes de tarefas foram lançados, incluindo: Ernie 3.0 Zeus, um modelo grande de 100 bilhões integrando conhecimento relacionado a tarefas, vimer-ufo 2.0 para representação visual multitarefa, Vimer UMS para representação gráfica de produtos, Vimer-structext 2.0 para representação de imagem documental, Ernie sat para modelo modal de linguagem de voz, Ernie geolol para modelo multimodal de linguagem geográfica, E hélice-gema e hélice-dobra
“bom cavalo com boa sela”: ferramentas de apoio e plataformas para grandes modelos
Para dar pleno uso ao valor do grande modelo nos cenários de aplicação e reduzir o limite de uso, a Baidu construiu ferramentas e plataformas.
O grande conjunto de modelos fornece principalmente quatro recursos, como uma variedade de ferramentas de pré-processamento de dados para ajudar os desenvolvedores a reduzir os custos de preparação de dados; Ao mesmo tempo, considerando que o grande modelo precisa ser combinado com o aprendizado de migração de problemas de cenário, o baidu fornece uma variedade de ferramentas de ajuste fino, incluindo aprendizado de confrontação, aprendizado de amostra pequena e outros métodos de ajuste fino, bem como novas ferramentas de ajuste fino de modelos grandes, como ajuste rápido.
Em vista do alto custo da implantação real de modelos grandes, as ferramentas e plataformas de modelos grandes Wenxin estão equipadas com esquemas de implantação de alto desempenho para miniaturização de modelos, incluindo esquemas de aceleração de desempenho, e mais de 60 tarefas básicas de PNL e CV são predefinidas ao mesmo tempo.
O modelo grande Wenxin e ferramentas relacionadas podem ser usadas nas plataformas easydl e BML da versão corporativa da hélice. De acordo com a Baidu, atualmente, mais de 10000 usuários na plataforma usaram o grande modelo de pré-treinamento, criaram mais de 30000 tarefas e as aplicaram a um grande número de cenários, como inspeção do caminho de transmissão, detecção de defeitos de peças, identificação de pragas agrícolas, notícias e criação de informações. Na plataforma, o modelo de aplicação de IA é desenvolvido através do mecanismo de modelo grande. A quantidade de anotação de dados é reduzida em 70% em média, e o efeito é aumentado em 10,7% em média. Ernie 3.0 Zeus, Plato e Ernie vilg podem ser acessados e chamados diretamente pelos usuários através da API.
No geral, as principais características do grande modelo da hélice Wenxin têm dois pontos: nível industrial e aprimoramento do conhecimento.
“Grau industrial” significa que toda a tecnologia de Wenxin é polida no processo de aplicação industrial prática. Por outro lado, o modelo grande Wenxin construiu uma série de capacidades de suporte durante a aplicação, de modo que a indústria pode usá-lo melhor. Por exemplo, como projetar anotações de dados, quantos dados sugerir e os métodos de aprendizado de migração correspondentes. Essas ferramentas e plataformas de suporte, incluindo a API de modelo grande recém-lançada, kit de desenvolvimento de modelo grande, portal de plataforma, etc., estão melhorando a viabilidade de aplicações reais.
“Aprimoramento do conhecimento” refere-se à integração de dados e conhecimento através da introdução de mapa de conhecimento, visando tornar a eficiência de aprendizagem do modelo Wenxin maior e melhor interpretável do que outros modelos industriais. Ao melhorar a generalidade e generalização do modelo grande, pode reduzir a dificuldade de desenvolvimento e rotular menos dados.
Em geral, a ideia por trás da plataforma de hélice e do modelo grande Wenxin na biblioteca de modelos de hélice é reduzir o limiar de uso de IA, melhorar a universalidade da tecnologia e fortalecer a padronização, automação e modularidade da tecnologia e plataforma.
Wu Tian acredita que open source e abertura também são maneiras muito diretas de baixar o limiar. Porque a aplicação da IA não é apenas um problema técnico, mas também uma combinação com indústrias e cenários. E através do código aberto, a capacidade de inovação de inteligência de grupo e colaboração profunda também pode ser significativamente melhorada, o que pode acelerar a transformação inteligente das empresas. “Entre os 10 grandes modelos lançados hoje, 7 são open source. Open source é o trabalho que Wenxin big model tem feito.” Wu Tian falou com as notícias.
Como lidar com os desafios de treinamento e raciocínio de grandes modelos
“Como tecnólogos de deep learning, percebemos claramente que o grande modelo de IA é um novo avanço na tecnologia de deep learning, o que aumenta ainda mais a universalidade da tecnologia de IA e traz novos paradigmas de I&D. Para a maioria dos desenvolvedores, com base no grande modelo de pré-treinamento, podemos desenvolver melhores modelos de IA com menor custo e menor limiar para cenários.” Wu Tian disse.
Ao mesmo tempo, como um membro importante da base de modelos industriais na plataforma de hélice, o modelo grande tornou-se uma capacidade essencial para a plataforma de hélice apoiar a inovação AI.
A grande escala de parâmetros do modelo e as diferenças nas características dos diferentes modelos e plataformas computacionais trazem desafios práticos para o treinamento de modelos grandes. A arquitetura distribuída da hélice considera essas diferenças como um todo, e usa uma arquitetura distribuída adaptativa end-to-end. De acordo com as características do modelo e da plataforma computacional, seleciona automaticamente a estratégia paralela, otimiza automaticamente e executa eficientemente. O esquema de implementação é universal e eficiente. Sua inovação na estratégia de treinamento paralelo é apoiar o treinamento paralelo adaptativo para hardware heterogêneo, criar uma solução de treinamento de modelo grande que combine framework com poder de computação e algoritmo, e realizar a otimização final de desempenho end-to-end.
Comparado com o treinamento, o raciocínio modelo grande enfrenta maiores desafios. Raciocínio eficiente de grandes modelos é a chave para a implementação de aplicações industriais de grandes modelos. No nível de implantação de pouso do modelo grande, a hélice lançou todo o esquema de implantação de processo de compressão, raciocínio e serviço para o modelo grande para ajudar o modelo grande a pousar melhor.
Primeiro, utiliza a tecnologia de compressão de modelos de precisão sem perdas para aliviar o modelo. Em seguida, utiliza a tecnologia de raciocínio distribuído adaptativo para mobilizar totalmente os recursos computacionais. Por exemplo, apenas o raciocínio distribuído pode ser executado em um modelo de cem bilhões de níveis. Finalmente, através da implantação de serviços em larga escala, o modelo grande pode ser realmente aplicado. O esquema geral é universal e extensível, pode suportar amplamente diferentes tipos de estruturas de modelos e realizar raciocínio de alta velocidade. Atualmente, ele tem suportado aplicações on-line em tempo real de grandes modelos, tais como compreensão de linguagem natural, diálogo, geração multimodal, etc.
Esses esforços visam aproximar o grande modelo da indústria e desembarcar na indústria, não apenas na tecnologia de laboratório.
Até agora, o modelo grande de Wenxin foi aplicado a indústrias como indústria, energia, educação, finanças, comunicação, mídia, etc., como inspeção de qualidade de peças no campo industrial, inspeção de linhas de transmissão no campo da energia, inspiração para composição na indústria da educação, extração de informações contratuais na indústria financeira, etc., que realmente ajudam as empresas a reduzir custos, aumentar a eficiência e estimular a inovação. Ao mesmo tempo, o modelo grande de Wenxin também é totalmente aplicado à pesquisa inteligente, fluxo de informações, alto-falantes inteligentes e outros produtos da Internet para melhorar a eficiência e o efeito do acesso dos usuários à informação, conhecimento e serviços.
Em geral, Wu Tian dá três caminhos-chave para apoiar o desembarque da grande indústria de modelos da hélice Wenxin: construir um grande sistema de modelos que seja mais adequado às necessidades da cena, fornecer ferramentas e métodos para apoiar o desembarque de aplicações durante todo o processo e construir uma ecologia aberta que estimule a inovação. Parte dessa construção ecológica é a comunidade Wenxin · mingu, que visa fazer com que mais pessoas tenham acesso à distância zero à tecnologia de grande modelo de IA e estimulem a inovação e a criatividade.