Desenvolvimento de IA no Brasil: LLMs e Embeddings – Panorama Robusto

Relatorio de pesquisa · Data: 2026-06-13 · Foco: desenvolvimento de Grandes Modelos de Linguagem (LLMs) e modelos de embeddings no Brasil.

Metodologia: levantamento web multiagente, 12 frentes amplas de mapeamento + 9 aprofundamentos dirigidos + verificacao de lacunas (8) + consolidacao em dossie + redacao por secoes. 665 fontes catalogadas.

Indice

Sumario Executivo
Panorama Geral e Contexto Estrategico
Politicas Publicas, Regulacao e Iniciativas Governamentais
Empresas e Startups
Universidades e Laboratorios de Pesquisa
Principais Pesquisadores
Modelos de Linguagem (LLMs): Desenvolvidos e em Desenvolvimento
Modelos de Embeddings, Encoders e Corpora
Arquiteturas Dominantes: From-Scratch vs. Fine-tuning
Infraestrutura Computacional
Financiamento e Investimento
Benchmarks e Metricas de Avaliacao
Aplicacoes e Setores de Uso
Ecossistema Internacional e Parcerias
Desafios, Lacunas e Tendencias Futuras
Tabelas-Resumo

1. Sumario Executivo

O desenvolvimento de Inteligência Artificial generativa em português brasileiro atravessou, entre 2020 e 2026, uma transição de embeddings estáticos (Word2Vec/FastText do NILC, 2017) para encoders contextuais (BERTimbau, 2020) e, finalmente, para LLMs generativos com raciocínio jurídico, multiturno e contextos de 128 mil tokens. Um mapeamento da UFG/CEIA, apresentado por Anderson Soares em nov/2025, identificou mais de 50 LLMs em português criados desde 2020, com pico em 2023–2024 (14–16/ano). O paradoxo central, contudo, é a tensão entre robustez acadêmica e dependência estrutural: o Brasil é o 3º maior usuário global do ChatGPT (~140 milhões de mensagens diárias), e o setor público gastou R$ 10,35 bilhões com big techs internacionais só entre jun/2024 e jun/2025 (Intercept Brasil), mais do que o Plano Brasileiro de IA prevê em infraestrutura para quatro anos.

Quem lidera e quais modelos

A liderança se divide entre indústria e academia. Em produção comercial, a Maritaca AI (Campinas, fundada em out/2022 por Rodrigo Frassetto Nogueira) é a única com produto generativo relevante via API, com a família Sabiá: o Sabiá-3 atinge 79,0% de média em 93 exames brasileiros (próximo de GPT-4o 80,8% e Claude 3.5 Sonnet 81,6%), e o Sabiá-4 (mar/2026, 128K tokens, colaboração com Jusbrasil) explora arquitetura MoE com ~1T de parâmetros totais e ~49B ativos [INCERTO, fonte é blog técnico, não confirmada em paper]. A Maritaca não divulga parâmetros nem arquitetura dos modelos a partir do Sabiá-2.

Em modelos abertos nativos (treinados do zero), o destaque é o Tucano (Universidade de Bonn, Nicholas Kluge Corrêa et al., publicado na Patterns/Cell Press), 162M a 2,44B de parâmetros sobre o corpus GigaVerbo (200B tokens), com transparência total de custo e energia; e o pioneiro TeenyTinyLlama, treinado por ~US$ 500. Outros atores: WideLabs/Amazônia IA (parâmetros não divulgados; from-scratch vs. fine-tuning [DISPUTADO]), NeuralMind (criadora do BERTimbau e do jurídico Jurema-7B), Semantix (Lloro), Amadeus AI (Amadeus-Verbo) e o CEIA-UFG (GAIA). Em soberania estatal, o Soberano 1 do Piauí (30B, mai/2026) é o primeiro LLM de um estado brasileiro, mas sem relatório técnico, sem benchmarks verificados e sem modelo no Hugging Face [NÃO VERIFICADO].

Embeddings: o segmento maduro

Em embeddings, a adoção é massiva e o ecossistema é dominante. O BERTimbau Large registra ~1,28 milhão de downloads/mês, em contraste gritante com LLMs generativos abertos (Tucano-630m ~475/mês; Bode-7B ~16/mês). O campo evoluiu para encoders especializados: RoBERTaLexPT (jurídico, 85,41% F1 no PortuLex), a família portuguesa Albertina/Serafim (PORTULAN, líder em RAG/IR) e o recente NorBERTo do Itaú (primeiro ModernBERT em PT, corpus Aurora-PT de 331B tokens).

Arquiteturas, infraestrutura e financiamento

A arquitetura predominante até 2024 foi continued pretraining sobre bases abertas (Llama, Qwen, Mistral, Gemma) por custo-benefício; a partir de 2025 emerge uma onda de from-scratch com corpora maiores (GigaVerbo-v2, 320B; ClassiCC-PT) e reescrita sintética como multiplicador de qualidade. A infraestrutura nacional avançou com o Santos Dumont (LNCC), que em nov/2024 chegou à posição 89 do TOP500 (Rmax 14,29 PFlop/s), além de instalações universitárias como o cluster Jairu (USP, 96 GPUs Blackwell B200, R$ 40 mi) e a frota privada da Petrobras (Pégaso, 21 PFlops). O supercomputador nacional do PBIA (R$ 1,8 bilhão, ~5.000 GPUs) seguia não licitado em meados de 2026.

No financiamento, o PBIA 2024–2028 prevê R$ 23,03 bilhões (≈ US$ 4 bi) em 54 iniciativas, com a Finep como principal financiadora (R$ 15 bi). Críticos do Instituto de Economia da Unicamp apontam que apenas ~2% dos recursos são genuinamente novos. BNDES, FINEP e EMBRAPII já aprovaram R$ 10,5 bilhões. O capital de risco privado, porém, evita LLMs: das 11 maiores rodadas de 2025, apenas 2 foram AI-first, e a Enter (legaltech, primeiro unicórnio de IA da AL, US$ 1,2 bi) não é um laboratório de LLMs fundacionais.

Benchmarks e gargalos

Os benchmarks nativos amadureceram: Open Portuguese LLM Leaderboard (Eduardo Garcia/CEIA), PoETa v2 (44 tarefas), OAB-Bench, Magis-Bench e CAPITU. O padrão é claro: modelos brasileiros são competitivos em tarefas especificamente nacionais (exames jurídicos, ENEM, saúde: o LLM do SUS de 14B supera GPT-5.2), mas o GPT-4o domina tarefas gerais.

Os gargalos centrais são: (1) computação, fator limitante mais citado; (2) opacidade comercial, Maritaca, WideLabs e SoberanIA omitem parâmetros, arquitetura e pegada de carbono; (3) adoção mínima de LLMs abertos em produção; (4) ausência de megarodadas privadas de VC em LLMs; e (5) dependência geopolítica crescente. Como vantagem estrutural, o Brasil oferece matriz elétrica com 88,2% renováveis e intensidade de carbono de 59,9 gCO₂/kWh (vs. ~384 nos EUA), atrativo para datacenters incentivados pelo REDATA.

Fontes-chave: PBIA, MCTI, Sabiá-3, Tucano/Patterns, BERTimbau, UFG/50 LLMs.

2. Panorama Geral e Contexto Estrategico

O desenvolvimento de modelos de linguagem de grande escala (LLMs) e de representações vetoriais (embeddings) em português brasileiro deixou de ser, ao longo da primeira metade da década de 2020, uma curiosidade acadêmica para se tornar uma questão de política industrial, científica e, cada vez mais, de soberania nacional. Esta seção situa esse movimento em três planos articulados: (i) a trajetória técnica do campo de Processamento de Linguagem Natural (PLN) no Brasil, dos embeddings estáticos aos LLMs generativos de contexto longo; (ii) a profunda dependência brasileira de modelos e infraestrutura estrangeiros, com seus custos fiscais e geopolíticos; e (iii) o posicionamento do país no tabuleiro global e latino-americano, em que a lacuna linguística e cultural converte-se em argumento estratégico para investir em capacidade própria.

Da euforia adotiva à pergunta sobre soberania

O ponto de partida do contexto estratégico é, paradoxalmente, o sucesso da tecnologia estrangeira no Brasil. O país é o 3º maior usuário global do ChatGPT, atrás apenas de Estados Unidos e Índia, e o 2º em desenvolvedores que utilizam a API da OpenAI, com cerca de 140 milhões de mensagens diárias enviadas por brasileiros, segundo relatório da própria OpenAI de agosto de 2025 (Softex). Essa adoção massiva tem contrapartida fiscal expressiva: o setor público brasileiro gastou pelo menos R$ 23 bilhões em software, nuvem e TIC estrangeiros entre 2014 e 2025, e somente entre junho de 2024 e junho de 2025 desembolsou R$ 10,35 bilhões com big techs internacionais, Microsoft (R$ 3,2 bi acumulados desde 2014), Oracle (R$ 1,02 bi), Google (R$ 938 mi) e Red Hat (R$ 909 mi), conforme estudo USP/UnB divulgado pelo Intercept Brasil e analisado pelo Jornal da USP.

Esse retrato de dependência adquiriu contornos geopolíticos explícitos a partir de 2025. Em novembro daquele ano, a OpenAI teria condicionado um "investimento bilionário" no Brasil a mudanças no PL 2338/2023, especificamente nos dispositivos sobre remuneração autoral, episódio que o Intercept Brasil noticiou em termos de pressão sobre o legislador. Ronaldo Lemos, um dos formuladores do Marco Civil da Internet, sintetizou em junho de 2026 a inquietação que move boa parte do ecossistema: "não podemos depender da OpenAI nem das chinesas" (Seu Dinheiro). A dependência, portanto, não é apenas tecnológica e fiscal: é também regulatória e diplomática, na medida em que decisões sobre dados, conteúdo e infraestrutura ficam sujeitas à alavancagem de atores externos.

A magnitude do desafio fica nítida quando se confronta a despesa com tecnologia estrangeira ao esforço público de internalização. O setor público gasta com big techs internacionais (R$ 10,35 bilhões em um único ano) praticamente o dobro do que o Plano Brasileiro de Inteligência Artificial (PBIA 2024–2028) prevê desembolsar em quatro anos para o eixo de Infraestrutura e Desenvolvimento de IA (R$ 5,79 bilhões). Essa assimetria é um dos fios condutores do debate brasileiro sobre soberania digital e enquadra a urgência de desenvolver modelos próprios não como nacionalismo tecnológico abstrato, mas como racionalidade orçamentária e estratégica.

Por que a língua importa: a lacuna linguística e cultural

A justificativa técnico-científica para investir em LLMs e embeddings nativos repousa sobre uma lacuna linguística e cultural concreta. Modelos treinados predominantemente em inglês sofrem de baixo desempenho relativo em português, e a literatura brasileira documenta esse problema em pelo menos duas dimensões mensuráveis.

A primeira é a fertilidade dos tokenizadores: tokenizadores treinados em inglês fragmentam palavras em português em mais subunidades, encarecendo inferência e degradando a representação. As respostas brasileiras a esse problema são quantificadas no dossiê: o TeenyTinyLlama adotou um tokenizador SentencePiece de 32K com 66% de melhoria frente ao do Llama 2; o Cabrita expandiu o vocabulário para 52K em modo bilíngue, com 35% de redução no número de tokens; e o Tucano 2 atingiu uma fertilidade de 1,51 (cerca de 2,88 caracteres por token, aproximadamente 30% de economia) (Tucano 2, arXiv:2603.03543; Cabrita, arXiv:2308.11878). A segunda dimensão é o desempenho em conhecimento e cultura locais: os modelos brasileiros tornam-se competitivos justamente em avaliações ancoradas em exames e contextos nacionais, ENEM, OAB, ENADE, CPNU, Revalida, onde codificam regras, jurisprudência e referências culturais que os modelos genéricos capturam de modo mais ralo. O Sabiá-3, por exemplo, alcançou 79,0% de média em 93 exames brasileiros, com 87,7% no ENEM e 76,4% na OAB (Sabiá-3, arXiv:2410.12049), e modelos jurídicos como Juru, Jurema e o próprio Sabiá-4 superam suas bases em benchmarks de direito brasileiro, ainda que ao custo de degradação em conhecimento geral.

É importante registrar, com cautela analítica, uma constatação recorrente nos próprios estudos brasileiros: vários trabalhos (como o do Napolab) observam que modelos especificamente em português nem sempre superam modelos multilíngues genéricos, e o domínio do GPT-4o em tarefas gerais em português persiste. Em outras palavras, a vantagem competitiva dos modelos nacionais concentra-se em nichos culturalmente densos (jurídico, exames, saúde pública), e não necessariamente em capacidade linguística geral: uma nuance que tempera reivindicações triunfalistas e orienta a especialização de domínio como estratégia mais promissora do que a competição frontal por modelos de propósito geral.

Evolução do campo de PLN no Brasil: dos embeddings estáticos ao raciocínio jurídico

A trajetória técnica brasileira pode ser lida em camadas geracionais sucessivas, cada uma marcando um salto de capacidade. O campo partiu de embeddings estáticos: o Repositório de Word Embeddings do NILC/ICMC-USP (2017), com Word2Vec e FastText sobre 1,39 bilhão de tokens em 17 corpora (NILC; STIL 2017, arXiv:1708.06025). Avançou para encoders contextuais com o BERTimbau (NeuralMind/Unicamp, 2020), apresentado por Souza, Nogueira e Lotufo no BRACIS 2020 em duas versões (Base, 110M; Large, 335M), treinadas sobre o corpus brWaC (BERTimbau, Springer). E culminou em LLMs generativos capazes de raciocínio jurídico, instrução multiturno e janelas de contexto de 128 mil tokens, como o Sabiá-4 (2026), apoiados em corpora de centenas de bilhões de tokens: o Aurora-PT do Itaú (331B), o GigaVerbo-v2 (~320B) e o ClassiCC-PT (~120–126B).

Essa evolução foi também quantitativamente expressiva. Um mapeamento da Universidade Federal de Goiás (UFG), apresentado em novembro de 2025 pelo professor Anderson Soares, gerente-geral do CEIA-UFG, identificou mais de 50 LLMs em português criados desde 2020 (Mobile Time; NeoFeed). A distribuição anual revela uma aceleração nítida a partir de 2023, ano da popularização do ChatGPT:

Ano	LLMs em português criados
2020	6
2021	6
2022	4
2023	14–15
2024	16
2025 (primeiros meses)	4

A tabela a seguir sintetiza os marcos geracionais do campo, com seus exemplos representativos:

Geração	Tecnologia	Marco brasileiro	Ano
Embeddings estáticos	Word2Vec / FastText	Repositório NILC (1,39B tokens)	2017
Encoders contextuais	BERT / DeBERTa / RoBERTa	BERTimbau (110M/335M)	2020
LLMs generativos (continued pretraining)	LLaMA / Mistral / Qwen adaptados	Sabiá-7B/65B	2023
LLMs nativos (from-scratch)	arquitetura Llama 2 do zero	TeenyTinyLlama, Tucano	2024
LLMs de contexto longo e raciocínio de domínio	MoE / pipelines multiestágio	Sabiá-4 (128K tokens)	2026

Pesquisa robusta, produção incipiente: a assimetria estrutural

Um traço definidor do ecossistema brasileiro, e que qualifica qualquer leitura otimista do mapeamento de 50+ modelos, é o descompasso entre vitalidade acadêmica e adoção em produção. Do lado da pesquisa, o campo é robusto: publicações em veículos de primeira linha como Patterns (Cell Press), o Journal of the Brazilian Computer Society (JBCS) e arXiv, além de laboratórios consolidados (NILC, C4AI/USP, CEIA-UFG, RECOD.ai/Unicamp). Do lado da produção, porém, o quadro é desigual e revelador:

Os embeddings (BERTimbau) têm adoção massiva: o BERTimbau Large registra cerca de 1,28 milhão de downloads/mês e o Base, 140 mil/mês, com centenas de modelos derivados (neuralmind/bert-large-portuguese-cased). É, de longe, o modelo brasileiro mais utilizado.
Os LLMs generativos abertos (Tucano, Bode, Amadeus-Verbo) permanecem largamente restritos ao âmbito de pesquisa, com adoção marginal em produção: o Tucano-630m registra cerca de 475 downloads/mês e o Bode-7B cerca de 16/mês, ordens de magnitude abaixo dos embeddings.
Apenas a Maritaca AI, via API fechada, mantém um produto generativo com presença comercial significativa, ancorado na família Sabiá e no chatbot MariTalk.

Essa assimetria explica por que o debate sobre soberania não se resolve apenas com a multiplicação de modelos publicados: o gargalo decisivo está em transformar capacidade de pesquisa em adoção produtiva, em escala e com sustentabilidade econômica: um desafio agravado pela ausência de megarrodadas de capital de risco em LLMs no Brasil, diferentemente do que ocorre nos Estados Unidos.

O Brasil no cenário global e latino-americano

No plano internacional, o Brasil ocupa uma posição peculiar: é simultaneamente um dos maiores mercados consumidores de IA do mundo (3º maior usuário do ChatGPT) e um produtor ainda emergente de modelos próprios. Frente às fronteiras tecnológicas dos Estados Unidos e da China, os modelos brasileiros são, em compute e parâmetros, ordens de magnitude menores, o que é coerente com a estratégia de nicho e eficiência adotada por boa parte do ecossistema (modelos pequenos como Tucano, TeenyTinyLlama e Sabiazinho).

Há, contudo, uma vantagem estrutural que reposiciona o país no debate sobre IA sustentável: sua matriz elétrica com 88,2% de fontes renováveis (2024) e intensidade de carbono de apenas 59,9 gCO₂eq/kWh, contra cerca de 384 nos EUA, 363 na Alemanha e uma média global em torno de 473 (BEN 2025, EPE). Estimativas do projeto Tucano: a única referência transparente em pegada de carbono no ecossistema, indicam que treinar o mesmo modelo no Brasil em vez da Alemanha reduziria as emissões em cerca de 84%. Essa "infraestrutura verde", aliada ao regime fiscal REDATA para datacenters, vem sendo articulada como diferencial competitivo do Brasil na atração de investimentos em computação intensiva.

No plano latino-americano, o Brasil é o polo dominante de infraestrutura, lidera a região em datacenters (cerca de 181 a 200 instalações, concentrando aproximadamente metade dos investimentos regionais, com São Paulo abrigando mais de 40 deles). Ao mesmo tempo, integra-se a iniciativas colaborativas regionais, com destaque para o LatamGPT, liderado pelo CENIA chileno (modelo baseado no Meta Llama 3.1 de 70B, corpus de cerca de 297–300B tokens, 65+ instituições de 15 países), ao qual o Brasil aderiu via Memorando de Entendimento assinado em 22 de abril de 2025 por Luciana Santos e Aisén Etcheverry (CENIA; MinCiencia Chile), embora a contribuição técnica brasileira efetiva ao projeto permaneça pouco documentada [INCERTO]. A própria disputa pelo título de "primeiro unicórnio de IA da América Latina", reivindicado tanto pela brasileira Enter (legaltech, valuation de US$ 1,2 bilhão em maio de 2026) quanto pela mexicana Kapital, ilustra a competição regional por liderança no setor.

A resposta institucional brasileira a esse cenário tem nome próprio: a soberania digital convertida em política de Estado. O PBIA 2024–2028 ("IA para o Bem de Todos"), coordenado pelo MCTI e com versão final publicada em 12 de junho de 2025, prevê R$ 23,03 bilhões (cerca de US$ 4 bilhões) em 54 iniciativas, incluindo um "LLM robusto em português" (R$ 1,1 bilhão) e uma nuvem soberana (R$ 1 bilhão) (MCTI). A esse arcabouço somam-se experiências como o Soberano 1 do Piauí, apresentado como o primeiro LLM desenvolvido por um estado brasileiro, com R$ 35 milhões do MCTI, e os esforços do SERPRO e da Dataprev em direção a uma nuvem 100% soberana, descrita como a única do Hemisfério Sul. Vale registrar a ressalva crítica do Instituto de Economia da Unicamp (Buainain, Bastos, Carvalho), para quem apenas cerca de 2% dos recursos do PBIA corresponderiam a ações genuinamente novas, sendo o restante reempacotamento orçamentário (IE-Unicamp), o que mantém em aberto a questão de fundo desta seção: se a ambição declarada de soberania em IA encontrará lastro em execução, infraestrutura computacional e adoção produtiva à altura do tamanho do mercado brasileiro.

3. Politicas Publicas, Regulacao e Iniciativas Governamentais

A construção de uma política nacional de inteligência artificial no Brasil consolidou-se entre 2021 e 2026 sobre dois pilares complementares: um marco estratégico (a EBIA, depois sucedida operacionalmente pelo PBIA) e um marco legal em tramitação (o PL 2338/2023), articulados pelo Ministério da Ciência, Tecnologia e Inovação (MCTI) e flanqueados por uma agenda emergente de soberania computacional. O pano de fundo dessa institucionalização é uma dependência crítica de tecnologia estrangeira: estudo da USP/UnB divulgado pelo Intercept Brasil estima que o setor público gastou ao menos R$ 23 bilhões com software, nuvem e TIC estrangeiros entre 2014 e 2025, sendo R$ 10,35 bilhões só entre junho de 2024 e junho de 2025 com grandes plataformas internacionais (Microsoft acumulando R$ 3,2 bilhões desde 2014; Oracle R$ 1,02 bilhão; Google R$ 938 milhões; Red Hat R$ 909 milhões). Esse contraste, em que o gasto anual com big techs já supera o orçamento quadrienal do PBIA para infraestrutura de IA, é a tensão central que as políticas a seguir tentam endereçar.

Estratégia Brasileira de IA (EBIA): o marco fundador

O ponto de partida formal é a Estratégia Brasileira de Inteligência Artificial (EBIA), instituída pela Portaria MCTI nº 4.617, de 6 de abril de 2021, posteriormente alterada pela Portaria nº 4.979, de 13 de julho de 2021. A EBIA estabeleceu os princípios norteadores da ação governamental, organizando-se em 9 eixos temáticos e 73 ações estratégicas. Sua revisão foi iniciada em 2024, com oficina de trabalho em 9 de abril daquele ano. O acompanhamento da implementação cabe ao Observatório Brasileiro de IA (OBIA), coordenado pelo NIC.br (OBIA). Embora a EBIA tenha definido a direção estratégica, ela carecia de orçamento vinculado e cronograma de execução, lacuna que o PBIA viria a preencher, ao menos no plano da intenção financeira.

Plano Brasileiro de IA (PBIA 2024–2028): "IA para o Bem de Todos"

O Plano Brasileiro de Inteligência Artificial (PBIA 2024–2028), batizado de "IA para o Bem de Todos", é a peça central da política industrial-tecnológica de IA. Foi coordenado pelo MCTI, à época sob a Ministra Luciana Santos, com apoio do CGEE, e construído com a participação de 117 instituições e mais de 300 especialistas. Sua trajetória institucional teve duas etapas: a proposta preliminar foi entregue ao presidente Lula em julho de 2024, durante a 5ª Conferência Nacional de Ciência, Tecnologia e Inovação (5CNCTI); a versão final foi publicada em 12 de junho de 2025 (MCTI, jun/2025).

O número que define a ambição do plano é o investimento total de R$ 23,03 bilhões (aproximadamente US$ 4 bilhões) distribuídos em 54 iniciativas ao longo de 2024–2028 (CREA-RJ; LNCC/Gov.br). Desse montante, 98,1% destinam-se a ações estruturantes e apenas 1,9% (R$ 435 milhões) a ações de impacto imediato. A distribuição por eixo temático revela a forte concentração na inovação empresarial e na infraestrutura:

Eixo	Tema	Valor
1	Infraestrutura e Desenvolvimento de IA	R$ 5,79 bilhões
2	Difusão, Formação e Capacitação	R$ 1,15 bilhões
3	IA para Melhoria dos Serviços Públicos	R$ 1,76 bilhões
4	IA para Inovação Empresarial	R$ 13,79 bilhões
5	Apoio Regulatório e Governança	R$ 103,25 milhões

Chama atenção que o Eixo 5 (Apoio Regulatório e Governança) representa apenas R$ 103,25 milhões, menos de 0,5% do total, indicando que o esforço regulatório está deliberadamente desacoplado do esforço de financiamento, ficando a cargo do Legislativo (PL 2338/2023) e da ANPD.

Estrutura de financiamento. O PBIA é majoritariamente um instrumento de crédito, e não de subvenção direta. A composição aproximada das fontes é: ~55% em crédito reembolsável (FINEP/BNDES, cerca de R$ 12,7 bilhões); ~24% em recursos não reembolsáveis do FNDCT (cerca de R$ 5,57 bilhões); ~12,5% em Orçamento (LOA) (R$ 2,90 bilhões); ~4,6% em estatais (R$ 1,06 bilhão); e ~1,5% em setor privado (R$ 360 milhões). A Finep confirmou-se como principal financiadora, responsável por R$ 15 bilhões, cerca de 65% do total do plano (Finep).

Componentes de LLM nacional e nuvem soberana. Entre as iniciativas estruturantes do PBIA está, de forma explícita, o desenvolvimento de um "LLM robusto em português", orçado em R$ 1,1 bilhão com prazo originalmente previsto de 12 meses, meta não cumprida até 2025, e uma nuvem soberana orçada em R$ 1 bilhão. Uma distribuição alternativa do eixo estruturante, frequentemente citada, detalha: Algoritmos/modelos R$ 11,3 bilhões (46%), Dados R$ 4,8 bilhões (20%), Capacidade computacional R$ 4,8 bilhões (20%), Educação R$ 2,8 bilhões (11%), Energia R$ 500 milhões (2%) e Cibersegurança R$ 185 milhões (1%).

Balanço de execução (setembro de 2025). O balanço oficial do MCTI reportou, como primeiros resultados: a ampliação do supercomputador Santos Dumont; a seleção de 7 INCTs de IA; cerca de R$ 6 bilhões mobilizados em crédito e subsídios; e o lançamento do OBIA. Vale notar que esse valor mobilizado corresponde a aproximadamente um quarto do total anunciado, sugerindo execução parcial nos primeiros 15 meses.

Crítica acadêmica. O plano recebeu objeções substantivas do Instituto de Economia da Unicamp (Buainain, Bastos e Carvalho), em análise intitulada "O PBIA: da euforia à inquietação". O argumento central é que apenas cerca de 2% dos recursos correspondem a ações genuinamente novas, sendo o restante reempacotamento de rubricas orçamentárias preexistentes. Os autores apontam ainda a ausência de instrumentos de demand-side, de indicadores mensuráveis e de hierarquia de prioridades, com mais de 90 iniciativas pulverizadas, sem foco claro. Essa crítica conversa diretamente com o número de execução: dos R$ 23 bilhões, cerca de R$ 10,5 bilhões foram efetivamente aprovados até meados de 2026 (~46%), em sua maioria ainda não desembolsados.

PL 2338/2023: o Marco Legal da IA

No plano regulatório, a peça central é o PL 2338/2023, apresentado em 3 de maio de 2023 pelo então presidente do Senado, Rodrigo Pacheco (PSD/MG) (Senado Federal). O projeto consolidou 7 propostas anteriores, incluindo o PL 21/2020. Sua tramitação foi intensa: recebeu 244 emendas e passou por consulta pública (com 35.806 votos "SIM" contra 31.547 "NÃO"). O substitutivo do Senador Eduardo Gomes (PL/TO) foi aprovado na Comissão Temporária Interna sobre IA (CTIA) em 5 de dezembro de 2024, e o plenário do Senado aprovou o texto em 10 de dezembro de 2024 (Senado Notícias). O projeto foi remetido à Câmara dos Deputados em 17 de março de 2025, onde, em junho de 2026, ainda permanecia pendente em Comissão Especial, com risco de postergação para 2027.

Arquitetura de risco. O PL adota uma estrutura baseada em risco, similar à do AI Act europeu (análise da Data Privacy Brasil):

Sistemas de risco excessivo (proibidos): manipulação subliminar, social scoring, armas autônomas letais e biometria facial em tempo real, entre outros;
Sistemas de alto risco: exigem Avaliação de Impacto Algorítmico obrigatória.

As sanções previstas chegam a R$ 50 milhões por infração ou 2% da receita. A governança institucional designa a ANPD (Autoridade Nacional de Proteção de Dados) como reguladora residual, coordenando o Sistema Nacional de IA (SIA), com o apoio do CECIA.

Tensão geopolítica sobre o texto. Em novembro de 2025, segundo o Intercept Brasil, a OpenAI teria condicionado um "investimento bilionário" no Brasil a mudanças no PL 2338, especificamente nos dispositivos de remuneração autoral. Ronaldo Lemos, criador do Marco Civil da Internet, alertou em junho de 2026 que "não podemos depender da OpenAI nem das chinesas" (Seu Dinheiro), articulando a discussão regulatória diretamente à agenda de soberania.

ANPD, LGPD e Sandbox Regulatório

A ANPD, já antes de sua eventual consagração como reguladora pelo PL 2338, vem construindo capacidade institucional a partir da LGPD. Em 29 de novembro de 2024, publicou um Estudo Preliminar sobre IA Generativa ("Radar Tecnológico"), que destaca a natureza dual da proteção de dados, equilibrando direitos e inovação (análise da FPF). Em 27 de junho de 2025, a ANPD publicou o edital de Sandbox Regulatório em IA, com foco em transparência algorítmica (ANPD). Foram selecionadas três iniciativas, com vigência até dezembro de 2026:

Iniciativa	Nota
Metatext	17,24
Synapse Artificial Intelligence	16,33
IA Greenworld	14,10

O papel do MCTI e a articulação multilateral

O MCTI funciona como o órgão articulador transversal de toda a política: coordena a EBIA, o PBIA e os instrumentos de fomento, além de liderar a frente de soberania. No plano da diplomacia, o Brasil posicionou a governança da IA em foros multilaterais durante 2024–2026: na presidência brasileira do G20 (2024), a Declaração de Líderes do Rio (19 de novembro de 2024) instituiu uma Força-Tarefa de Alto Nível sobre Governança da IA (G20 Rio Declaration); no BRICS 2024 (Kazan), firmou-se um framework de cooperação em IA e a criação de um Centro de Pesquisa e Inovação em IA do BRICS; e no plano da ONU/UNESCO, o país alinha-se à Recomendação sobre Ética da IA (2021) e ao Pacto Digital Global. Em 12 de junho de 2026, o Itamaraty firmou com a União Europeia uma Parceria Digital Estratégica, cobrindo governança de IA, semicondutores e HPC.

Agenda de soberania: datacenter, nuvem soberana e LLMs estatais

A face mais concreta da política de soberania concentra-se na infraestrutura computacional e em LLMs desenvolvidos por entes públicos.

Nuvem soberana. A Nuvem de Governo, operada por SERPRO e Dataprev, é descrita como a única nuvem 100% soberana do Hemisfério Sul (SERPRO; Agência Gov). Lançada em abril de 2024 com investimento de R$ 324 milhões, atendia mais de 250 órgãos do Executivo Federal até junho de 2025, com datacenters em São Paulo e Brasília sob regime da LGPD. O SERPRO gerencia 170 milhões de usuários do GOV.BR e a Dataprev administra 96 milhões de cadastros do CadÚnico, o que dá a escala dos dados sensíveis em jogo.

Incentivo a datacenters (REDATA). O Regime Especial de Tributação para Datacenters (REDATA) foi instituído pela MP 1.318/2025 (Ministério da Fazenda) e prevê a suspensão de PIS/Cofins/IPI/II por 5 anos, com renúncia fiscal estimada em R$ 5,2 bilhões em 2026. O texto foi aprovado na Câmara em 25 de fevereiro de 2026 (Câmara), com contrapartidas de destinação de 10% da capacidade ao mercado interno e uso de energia renovável.

Supercomputador nacional do PBIA. Prevista para 2026, a aquisição de um supercomputador nacional, orçado em R$ 1,8 bilhão, contemplaria cerca de 5.000 GPUs (com arquitetura RISC-V em fases futuras) e mais de 500 PFlops, com a meta de figurar entre os 5 maiores do mundo (Convergência Digital). A operação caberia ao LNCC, com manutenção estimada em US$ 50 milhões/ano. Sintomaticamente, o edital foi postergado de outubro de 2025 para março-abril de 2026, atraso que reforça as críticas sobre o gargalo computacional como entrave à execução do plano.

LLMs soberanos estatais. Três frentes públicas merecem registro como instrumentos diretos da agenda de soberania:

SoberanIA / Soberano 1 (Piauí + MCTI): primeiro LLM desenvolvido por um estado brasileiro, com aporte de R$ 35 milhões do MCTI anunciado em 4 de novembro de 2025, em parceria com a UFPI, o PIT e a ETIPI (MCTI, nov/2025). O programa foi lançado nacionalmente em dezembro de 2025 (Gov.br), entrando em operação comercial em 19 de maio de 2026.
SERPRO, LLM soberano: em 5 de novembro de 2025, o SERPRO anunciou um LLM próprio em português, hospedado em infraestrutura própria (SERPRO). A plataforma ConversAÍ Studio (novembro de 2025) opera modelos open source (Mistral, Llama, Gemma, DeepSeek) via SerproLLM com RAG, enquanto se desenvolve internamente a LLM Tupi Guarani (ConversAÍ Studio). Um piloto na Receita Federal e no IBGE analisou mais de 20.000 documentos que regem 1,3 milhão de servidores.
LLM nacional do PBIA: a meta de um "LLM robusto em português" (R$ 1,1 bilhão), embora prevista no plano, não havia sido cumprida no prazo de 12 meses originalmente estabelecido.

Instrumentos de fomento associados

Embora detalhados em outras seções, vale sinalizar que a política se materializa também por uma rede de agências de fomento que, somadas, aprovaram R$ 10,5 bilhões para projetos de IA entre 2023 e fevereiro de 2026 (BNDES ~R$ 5,05 bilhões; FINEP ~R$ 4,25 bilhões; EMBRAPII ~R$ 1,2 bilhão) (Correio Braziliense). Um instrumento recente é o Fundo de IA (FIP) lançado conjuntamente por BNDES e FINEP em abril de 2026, com R$ 205 milhões (até R$ 125 milhões via BNDESPAR e até R$ 80 milhões via FNDCT, dos quais 30% reservados às regiões Norte, Nordeste e Centro-Oeste), com prazo de propostas em 28 de maio de 2026 (Agência BNDES).

Síntese crítica

A política pública brasileira de IA, vista em conjunto, exibe uma assimetria reveladora: o discurso de soberania (nuvem própria, LLMs estatais, supercomputador nacional, REDATA) é robusto, mas o gap entre anúncio e execução é considerável: o supercomputador de R$ 1,8 bilhão ainda não fora licitado em meados de 2026, o LLM nacional de R$ 1,1 bilhão não cumpriu seu prazo, e menos da metade dos R$ 23 bilhões do PBIA foi efetivamente aprovada. No plano regulatório, o PL 2338/2023, apesar de aprovado no Senado desde dezembro de 2024, segue travado na Câmara, com risco de chegar a 2027 sem sanção. O número que melhor sintetiza o desafio estrutural é o contraste entre os R$ 5,79 bilhões do PBIA para infraestrutura de IA em quatro anos e os R$ 10,35 bilhões gastos pelo setor público com big techs estrangeiras em um único ano: um indicador de que, por ora, a dependência externa ainda supera, em ordem de grandeza, a capacidade de fomento doméstico.

4. Empresas e Startups

O ecossistema empresarial brasileiro de IA voltado a LLMs e embeddings em português apresenta uma dualidade marcante: convivem startups de pesquisa de ponta, empresas de software consolidadas em reposicionamento e iniciativas de soberania de capital público. Apesar de a Universidade Federal de Goiás (UFG) ter mapeado mais de 50 LLMs em português criados desde 2020, a tradução desse esforço acadêmico em produtos comerciais é estreita: até meados de 2026, apenas a Maritaca AI opera um LLM generativo nativo com produto comercial significativo em produção (via API fechada), enquanto a adoção massiva real concentra-se nos modelos de embeddings (sobretudo o BERTimbau, da NeuralMind). O que segue é um perfil das principais empresas e uma leitura analítica da maturidade desse mercado.

Tabela-resumo das principais empresas e startups

Empresa	Fundação	Sede	Fundadores	Produto(s)/Modelo(s) principal(is)	Modelo de negócio	Financiamento	Diferencial
Maritaca AI	out/2022	Campinas (SP)	Rodrigo Frassetto Nogueira; Roberto Lotufo (cofundador/CTO)	Família Sabiá (Sabiá-7B/65B a Sabiá-4); chatbot MariTalk; LLM jurídico Juru	API proprietária (pay-per-token) + MariTalk Local on-premises	~US$ 1 mi em créditos Google; aporte da Jusbrasil (valor não divulgado); sem rodada formal de VC com valor confirmado [INCERTO]	Único LLM generativo BR com produto comercial relevante; desempenho de ponta em exames nacionais
WideLabs	mai/2020	Porto Alegre (RS)	Nelson Leoni (CEO); Marcelo Chapper (CIO); Rodrigo Malossi (CTO)	LLM Amazônia IA + família (Guará/ASR, Harpia/multimodal, Golia); Amazônia 360 (PaaS)	SaaS/PaaS soberana, API e plataforma corporativa	Break-even no 4T2025; receita 10x em 2025; Série A buscando US$ 50 mi	Ecossistema de 24 modelos; internacionalização (Chile, El Salvador)
NeuralMind	n/d	SP, Campinas, BH e Canadá	Patrícia Tavares (CEO); Roberto Lotufo	BERTimbau (encoder mais adotado em PT-BR); Jurema-7B; Neuroscience; PrioScan	Software/serviços de NLP e visão computacional B2B	Projeto L³M/Jurema com R$ 10 mi da FINEP (via Escavador)	Criadora do BERTimbau; residente no Parque Científico da Unicamp
Semantix	2010	São Paulo (SP)	Leonardo Santos	Lloro (LLM 7B para código de análise de dados); plataforma de dados/IA generativa	Plataforma de dados + IA generativa; consultoria	IPO Nasdaq ago/2022 (valuation US$ 1 bi); deslistada em 2024	Aliança com CEIA-UFG; supercomputador NVIDIA DGX B200
Clarice.ai	2020	n/d	Felipe Iszlaji (professor FIAP)	Ferramenta de correção de texto inteligente; LLM próprio em desenvolvimento	SaaS (freemium/assinatura)	Pré-seed de R$ 2,5 mi (Raio Capital, Veredas Capital, PIPE Invest/FAPESP)	Primeira ferramenta de correção de texto inteligente em PT; 500+ mil usuários

Maritaca AI: a única vendedora generativa em escala comercial

Fundada em outubro de 2022 em Campinas (SP) por Rodrigo Frassetto Nogueira (CEO), a Maritaca AI é, no horizonte do levantamento, a única empresa brasileira com um LLM generativo nativo em produção comercial relevante. Nogueira é Ph.D. em Ciência da Computação pela NYU (orientação de Kyunghyun Cho), com passagens por Microsoft Research, Google Research e pela própria NeuralMind, além de professor adjunto na Unicamp; o cofundador e CTO Roberto Alencar Lotufo é professor da Unicamp e ex-diretor da Inova Unicamp: o mesmo Lotufo que cofundou a NeuralMind, evidenciando como o ecossistema de Campinas concentra a genealogia técnica do setor. A equipe de pesquisa inclui nomes recorrentes na literatura nacional, como Hugo Abonizio, Thales Sales Almeida, Ramon Pires e Celio Larcher.

O produto central é a família Sabiá, que evoluiu de modelos abertos por continued pretraining sobre LLaMA-1 (Sabiá-7B/65B, abr/2023, arXiv:2304.07880) para uma estratégia integralmente proprietária a partir do Sabiá-2 (mar/2024): os autores explicitamente recusam-se a revelar arquitetura e metodologia. O Sabiá-3 (set/2024) atingiu 79,0% de média em 93 exames brasileiros (próximo do GPT-4o, 80,8%, e do Claude 3.5 Sonnet, 81,6%) por um custo 3–4x menor por token, e o Sabiá-4 (mar/2026) é especializado em raciocínio jurídico com contexto de 128 mil tokens. O modelo de negócio é o de API proprietária com cobrança por token: pelos preços oficiais (jun/2026), o Sabiá-4 custa R$ 5,00 (entrada) e R$ 20,00 (saída) por milhão de tokens, e o econômico Sabiazinho-4, R$ 1,00 e R$ 4,00. A API é totalmente compatível com a da OpenAI e suporta function calling, streaming e upload de PDFs/imagens; o chatbot gratuito MariTalk (chat.maritaca.ai) funciona como vitrine de aquisição.

O caso comercial mais expressivo é a parceria com o Jusbrasil, que resultou no Jus IA (mar/2025), assistente jurídico com RAG sobre 1,2 bilhão de documentos e 30 milhões de usuários mensais, em modelo freemium. O financiamento da Maritaca, contudo, é atípico para uma empresa de fronteira: combina cerca de US$ 1 milhão em créditos do Google, um aporte da Jusbrasil de valor não divulgado e, segundo o dossiê, nenhuma rodada formal de venture capital com valor confirmado [INCERTO]. Esse perfil enxuto é coerente com a defesa pública de Nogueira de que o Brasil pode treinar modelos de fronteira a custos baixos, ele estima o ciclo completo de um modelo MoE de ~1T parâmetros em cerca de R$ 7,2 milhões, e com sua proposta de plano nacional de R$ 266 milhões para treinar LLMs do zero. O foco é exclusivamente o mercado brasileiro.

WideLabs/Amazônia IA: aposta comercial e controvérsia técnica

Fundada em maio de 2020 com sede em Porto Alegre (RS), a WideLabs é liderada pelo CEO e cofundador Nelson Leoni (ex-oficial do Exército, atleta paralímpico, FGV), com Marcelo Chapper (CIO) e Rodrigo Malossi (CTO). Em 30 de julho de 2024, na 5ª CNCTI, lançou o LLM Amazônia IA, apresentado como um dos maiores modelos de IA brasileiros, treinado em infraestrutura NVIDIA H100 via Oracle Cloud, com janela de contexto de 64 mil tokens. A empresa construiu um ecossistema de 24 modelos, incluindo Guará (ASR), Harpia (multimodal/OCR de laudos) e Golia (texto compacto/tradução), além da plataforma soberana Amazônia 360 (mar/2025, com RAG) e do dataset aberto Nemotron Personas Brasil (com a NVIDIA, 6 milhões de personas, CC BY 4.0).

O modelo de negócio combina SaaS, API e plataforma corporativa, com carteira de clientes robusta, Raízen, Coca-Cola, Pfizer, Dataprev e o MPRS, e uma estratégia agressiva de internacionalização (PatagonIA no Chile, set/2025, e operações em El Salvador). Os indicadores financeiros são promissores: break-even no 4T2025, receita 10x maior em 2025 e uma Série A buscando US$ 50 milhões. Há, porém, uma controvérsia técnica relevante e bem documentada: a WideLabs não divulga o número de parâmetros (a cifra de "8,8 bilhões" circulante não tem respaldo em fonte primária) e a alegação de desenvolvimento "100% brasileiro" do zero é [DISPUTADA], veículos como TechTudo e Capital Digital descrevem o produto como fine-tuning de modelo existente, e Rodrigo Nogueira (Maritaca) questionou publicamente a alegação. Não há paper técnico nem modelo público no perfil da WideLabs no Hugging Face ("None public yet"). Trata-se, portanto, da aposta comercial mais ambiciosa do setor convivendo com a menor transparência metodológica.

NeuralMind: a infraestrutura de embeddings do país

Embora não seja uma fabricante de LLMs generativos em produção, a NeuralMind é, sob a métrica de adoção, possivelmente a empresa brasileira de IA de maior impacto. Liderada por Patrícia Tavares (CEO) e Roberto Lotufo (40+ anos em IA, também cofundador da Maritaca), com cerca de 30 funcionários e escritórios em SP, Campinas, BH e no Canadá, é residente no Parque Científico da Unicamp. Sua criação seminal, o BERTimbau (2020, com Souza, Nogueira e Lotufo), é o modelo de embeddings mais adotado para PT-BR: a versão Large registra cerca de 1,28 milhão de downloads mensais no Hugging Face e a Base, ~140 mil/mês, com centenas de modelos derivados: uma adoção que contrasta radicalmente com a dos LLMs generativos abertos (Tucano-630m ~475/mês; Bode-7B ~16/mês). O portfólio comercial inclui o Neuroscience (busca semântica) e o PrioScan (triagem hospitalar), atendendo direito, regulação e saúde, com posições de destaque no ranking 100 Open Startups (TOP 4 em Big Data em 2024, TOP 3 em 2025). Em parceria com o Escavador, a NeuralMind desenvolve o projeto L³M e lançou o modelo jurídico Jurema-7B (ago/2025), com R$ 10 milhões de financiamento da FINEP, reivindicado como "primeiro LLM jurídico open source nativo": uma reivindicação [DISPUTADA] com o Juru, da Maritaca/USP.

Semantix: software consolidado em pivô para IA generativa

Diferentemente das demais, a Semantix (fundada em 2010 por Leonardo Santos, sede em SP) é uma empresa de dados consolidada que migra para IA generativa. Foi listada na Nasdaq em agosto de 2022 com valuation de US$ 1 bilhão, mas retirou-se da bolsa em 2024: uma trajetória que ilustra os limites da maturidade financeira do setor. Em fevereiro de 2024 lançou o Lloro, LLM open source de 7B parâmetros para geração de código de análise de dados em português (roda em uma GPU H100). Sua estratégia distintiva é a aliança com o CEIA-UFG (700+ pesquisadores) e a montagem de um laboratório conjunto de IA generativa em Goiânia (nov/2025) com supercomputador NVIDIA DGX B200. O plano "Semantix AI 2030" mira R$ 1 bilhão de receita anual, com crescimento via aquisições (Elemeno nos EUA, GAVB Consulting, operações da Atos na América do Sul).

A cauda longa: Clarice.ai e outras empresas

A Clarice.ai (2020, fundada por Felipe Iszlaji, professor da FIAP) é a primeira ferramenta de correção de texto inteligente em português, com 500+ mil usuários, receita anual acima de R$ 1 milhão e rodada pré-seed de R$ 2,5 milhões (Raio Capital, Veredas Capital, PIPE Invest/FAPESP), com LLM próprio em desenvolvimento. O restante do tecido empresarial divide-se entre players de NLP "clássico" e healthtechs maduras:

Stilingue (2014, Campinas): líder em social listening com motor de NLP proprietário (SNLP, ferramenta WarRoom), adquirida pelo Grupo Blip.
Blip (ex-Take Blip) (1999, BH): plataforma de chatbots que integra OpenAI GPT e Google DialogFlow, modelo de orquestração, não de desenvolvimento de LLM próprio.
Amadeus AI (William Cruz-Castañeda e Marcellus Amadeus): família open source Amadeus-Verbo (Qwen2.5, custo >US$ 130 mil em GPUs AWS) e embeddings JabuticaBERT.
NoHarm.ai (Porto Alegre/PUCRS): aplicação madura de NLP em saúde, com 150+ unidades, 90M+ prescrições e R$ 30M+ em economia, referência de produto em produção real.
Sofya (Hospital Sírio-Libanês, 2022): IA por voz para documentação clínica.
Sagui NLP: criadora do encoder DeBERTinha, que supera o BERTimbau-Large em NER e sentimento com apenas ~40M parâmetros.
Nama (SP): parceira do projeto GAIA, com clientes como Prefeitura de SP, Canon e Magalu.

Cabe um esclarecimento de escopo: a Enter (legaltech, SP, 2023) e a Solfintec (agro), embora aparecam como os grandes casos de captação ("primeiro unicórnio de IA da América Latina", Série B de US$ 100 mi e valuation de US$ 1,2 bi), são aplicadoras de IA, não desenvolvedoras de LLMs nativos. Essa distinção é central para entender a maturidade do mercado.

Leitura analítica: maturidade do mercado

O panorama empresarial sugere um mercado em transição, com três descompassos estruturais. Primeiro, há um descolamento entre pesquisa e produção: o vigor acadêmico (50+ LLMs mapeados, publicações em Patterns/Cell) não se converte em produtos generativos comerciais, somente a Maritaca tem oferta relevante, enquanto o uso massivo se dá em embeddings (BERTimbau). Segundo, há uma lacuna de capital de risco específico para LLMs: as grandes rodadas de 2025 (apenas 2 das 11 maiores foram AI-first) e o próprio unicórnio Enter referem-se a aplicadores, não a fabricantes de modelos fundacionais; a Maritaca cresce sem VC formal e a WideLabs ainda busca sua Série A, não há, no Brasil, megarodadas privadas em LLMs como nos EUA. Terceiro, há uma opacidade comercial sistêmica: Maritaca, WideLabs e a iniciativa pública SoberanIA não divulgam parâmetros, arquitetura, tokens de treino ou pegada de carbono, o que dificulta a verificação independente das alegações de desempenho e até de origem ("100% brasileiro").

Por outro lado, alguns sinais de amadurecimento são concretos: a WideLabs aproxima-se da sustentabilidade financeira (break-even, receita 10x, internacionalização) e a Maritaca demonstrou viabilidade técnica de competir com modelos de fronteira em domínios brasileiros específicos (jurídico, exames nacionais) a custo baixo. A genealogia técnica do setor é notavelmente concentrada, Roberto Lotufo, a Unicamp e o eixo Campinas–USP aparecem na origem de Maritaca, NeuralMind e Sabiá/Juru, o que confere coesão intelectual ao ecossistema, mas também revela sua dependência de poucos núcleos. Em síntese, o mercado brasileiro de empresas de LLMs/embeddings é tecnicamente competente e comercialmente incipiente: maduro em embeddings e em aplicações verticais (jurídico, saúde, finanças), porém ainda dependente de financiamento público (FINEP, BNDES, créditos de big techs) e carente de capital privado de escala para sustentar o desenvolvimento de modelos fundacionais nacionais.

5. Universidades e Laboratorios de Pesquisa

A consolidação de um ecossistema acadêmico robusto foi, indiscutivelmente, o motor que viabilizou o salto do português brasileiro de embeddings estáticos (Word2Vec/FastText do NILC, 2017) para LLMs generativos com contexto de 128 mil tokens em meados da década de 2020. Diferentemente do setor produtivo, onde apenas a Maritaca AI mantém produto generativo comercial relevante, é nas universidades e laboratórios que se concentram a produção de corpora massivos, encoders de adoção mundial (BERTimbau) e os benchmarks que estruturam toda a avaliação de modelos em PT-BR. Esta seção mapeia esses polos, seu foco de pesquisa, os modelos e datasets que produziram e seu papel articulador no ecossistema, incluindo a colaboração técnica, não formalizada como acordo bilateral, com a infraestrutura portuguesa do PORTULAN CLARIN.

O eixo paulista: C4AI/USP, NILC/ICMC-USP e RECOD.ai/Unicamp

O estado de São Paulo concentra os laboratórios mais estabelecidos e produtivos do país, sustentados por um arranjo institucional singular envolvendo a FAPESP.

O C4AI – Centro de Inteligência Artificial foi criado em agosto de 2020 na InovaUSP como um Engineering Research Center da FAPESP (processo FAPESP 2019/07665-4), sob coordenação do Prof. Fabio Cozman (Poli-USP), tendo ITA, PUC-SP e FEI como parceiros. Seu modelo de financiamento é tripartite e de longo prazo: FAPESP e IBM aportam R$ 2 milhões por ano cada, e a USP contribui com R$ 4 milhões anuais, totalizando cerca de R$ 8 milhões por ano por cinco anos (agosto de 2020 a julho de 2025). O centro foi o primeiro da América Latina a integrar a IBM AI Horizons Network. Suas iniciativas de PLN estão concentradas no NLP2 (POeTiSA, TaRSila, Carolina) e no projeto Pirá, este último um dataset de perguntas e respostas bilíngue (PT-EN) sobre o oceano. O C4AI é, sobretudo, o guardião do Corpus Carolina (v1.2 com 823 milhões de palavras; v2.0.1 com 15 GB), produzido com o LaViHD e o PORTULAN sob licença CC BY-NC-SA 4.0, que serviu de base para encoders como o PeLLE e o DeBERTinha (C4AI/FAPESP; Carolina, site oficial; Carolina arXiv:2303.16098). O centro também ancora boa parte do esforço em fala (CORAA, TaRSila, ver adiante).

O NILC – Núcleo Interinstitucional de Linguística Computacional, sediado no ICMC-USP em São Carlos e coordenado por Thiago Pardo e Sandra Aluísio, é um dos laboratórios de PLN mais antigos do Brasil e funciona como infraestrutura de base para toda a comunidade. Seu Repositório de Word Embeddings (2017), com 1,39 bilhão de tokens distribuídos em 17 corpora e 31 modelos, estabeleceu o baseline histórico de representações distribucionais para o português (Portuguese Word Embeddings, STIL 2017, arXiv:1708.06025; Repositório NILC). Além disso, o NILC mantém o Corpus NILC (40 milhões de palavras), o NILC-Metrix (200 métricas de complexidade textual), o corpus de fala CORAA, o nlpnet e, crucialmente para a avaliação: os datasets ASSIN e ASSIN2 (similaridade semântica e inferência), que permanecem entre as tarefas mais utilizadas em praticamente todos os leaderboards de PT-BR (NILC; ASSIN2).

O RECOD.ai, fundado em 2009 no Instituto de Computação da Unicamp pelo Prof. Anderson Rocha, evoluiu de um laboratório de visão computacional e forense digital para um NVIDIA AI Joint Lab (2022–2023), passando a operar cerca de 80 GPUs com mais de 240 colaboradores. Seu modelo de sustentação combina aporte industrial e de fundações, Shell, Equinor, Samsung, Motorola, Santander, Fundação Serrapilheira e FAPESP, sinalizando um padrão de financiamento orientado à aplicação que se replica em outros centros (RECOD.ai NVIDIA Blog). A Unicamp, vale notar, é também o berço informal de grande parte dos modelos PT-BR de ponta: o BERTimbau, o PTT5/PTT5-v2, a família Sabiá (via Maritaca, fundada por professores da Unicamp) e os modelos Curió e o corpus ClassiCC-PT nasceram de pesquisadores ligados à instituição.

CEIA-UFG: o polo de IA aplicada e a infraestrutura de avaliação

O CEIA-UFG (Centro de Excelência em Inteligência Artificial da Universidade Federal de Goiás), sob gestão geral do professor Anderson Soares, posiciona-se como o principal polo de IA aplicada do país. Sua relevância no ecossistema é dupla. Primeiro, como produtor de infraestrutura de avaliação: o pesquisador Eduardo A. S. Garcia, vinculado ao CEIA, mantém o Open Portuguese LLM Leaderboard (hospedado no Hugging Face), que rastreia mais de 1.000 modelos sobre nove tarefas generativas em PT-BR (ENEM, BLUEX, OAB Exams, ASSIN2 RTE/STS, FaQuAD-NLI, HateBR, PT Hate Speech, TweetSentBR) rodando em A100-80GB do próprio centro, com motor lm-evaluation-harness-pt (fork do EleutherAI) (Open PT LLM Leaderboard; lm-evaluation-harness-pt). É também no CEIA-UFG que se origina o encoder jurídico RoBERTaLexPT (PROPOR 2024), com cerca de 100–125M de parâmetros, que atinge 85,41% de F1-macro no benchmark PortuLex, superando o BERTimbau-base (84,29%) e o Albertina-xlarge (85,08%) com aproximadamente nove vezes menos parâmetros (RoBERTaLexPT, ACL Anthology).

Segundo, como articulador de parcerias estratégicas: o CEIA-UFG firmou aliança com a Semantix (que reúne 700+ pesquisadores e inaugurou em novembro de 2025 um laboratório conjunto de IA generativa em Goiânia) e com o Itaú, manteve parceria com a Meta para avaliação de LLMs, recebeu o Prêmio Embrapii de Projeto Mais Inovador de 2024, e será sede do único supercomputador NVIDIA DGX B200 do país dedicado à pesquisa de IA (CEIA-UFG; Semantix e UFG, IT Forum). Foi do mapeamento do CEIA-UFG, apresentado por Anderson Soares em novembro de 2025, que emergiu o número-síntese do ecossistema: mais de 50 LLMs em português criados desde 2020 (UFG mapeia mais de 50 LLMs, Mobile Time). O centro também participa, com ABRIA, Nama, Amadeus AI e Google, do modelo GAIA (Gemma-3-4b com continued pretraining, jun/2025).

O eixo mineiro: DCC/UFMG e a Rede de PLN

O Departamento de Ciência da Computação da UFMG (DCC/UFMG), com os professores Adriano Veloso, Wagner Meira Jr. e Marcos André Gonçalves, é hoje o centro de gravidade institucional do PLN responsável no Brasil. Sedia dois INCTs de IA (TILD-IAR e IACiber) e abriga a Rede Brasileiras em PLN, coordenada pela Profa. Adriana Pagano, que articula mais de 200 pesquisadoras (DCC/UFMG INCT TILD-IAR).

O INCT TILD-IAR (Inteligência Artificial Responsável para Linguística Computacional), coordenado por Marcos André Gonçalves, é o INCT de maior foco explícito em PLN dentre os oito INCTs de IA aprovados na Chamada CNPq 46/2024. Recebeu R$ 14,66 milhões (nota 9,78) e reúne mais de 80 pesquisadores em mais de 30 instituições, com linhas em NLP/LLMs, recuperação de informação, desinformação e sustentabilidade ambiental de LLMs (o programa "Towards Greener NLP", com apoio da NVIDIA). Seus parceiros incluem IBM, Google, Petrobras e JusBrasil (Portal INCT TILD-IAR; CNPq aprova 143 INCTs). A UFMG é ainda sede do CIIA-Saúde, um dos dez Centros de Pesquisa Aplicada FAPESP/MCTI/CGI.br em IA, com bolsas específicas em "NLP e LLMs" aplicados à saúde (CIIA-Saúde).

UFRGS: a infraestrutura de dados de base

A contribuição da UFRGS é frequentemente subestimada por ser de infraestrutura, mas é estrutural para todo o ecossistema. O laboratório de PLN da universidade produziu o brWaC (Brazilian Web as Corpus), com 2,68 bilhões de tokens e 3,53 milhões de documentos (17,5 GB), coletados da web brasileira entre 2014 e 2018 (brWaC, UFRGS PLN; brWaC, Hugging Face). Este corpus foi o substrato de pré-treinamento tanto do BERTimbau quanto das variantes brasileiras do Albertina, ou seja, dos dois encoders mais influentes em PT-BR. Sua licença de uso restrito acadêmico, contudo, é um dos exemplos mais citados do problema de corpora que limitam o uso comercial dos modelos derivados (ver §18). A UFRGS aparece ainda como parceira acadêmica da WideLabs, sediada em Porto Alegre.

As PUCs: RAIES/PUCRS, PUCPR e o eixo de saúde

As pontifícias universidades católicas concentram-se em nichos específicos de alto impacto. A PUCRS, por meio da rede RAIES (financiada por FAPERGS e CNPq), com os professores Nythamar de Oliveira e o pesquisador Nicholas Kluge Corrêa, está na origem do TeenyTinyLlama (jan/2024), modelos de 160M e 460M de parâmetros treinados do zero na arquitetura Llama 2, que reivindicam ser o "primeiro autorregressivo gerador nativo PT-BR" [DISPUTADO]. O TeenyTinyLlama é notável pela transparência radical e pelo custo irrisório: cerca de US$ 500 de custo total de treinamento, em uma única A100-40GB (36h para o 160m, 280h para o 460m), corpus Pt-Corpus de 4,1 bilhões de tokens, tokenizer SentencePiece de 32K (66% de melhoria de fertilidade sobre o Llama 2), publicado em Machine Learning With Applications (TeenyTinyLlama arXiv:2401.16640; ScienceDirect). Cabe a nota de cautela do dossiê: o trabalho subsequente do mesmo grupo (família Tucano) está afiliado à Universidade de Bonn (Alemanha), e não à PUCRS, o que demanda atribuição cuidadosa. Nythamar de Oliveira Jr. coordena ainda o INCT-IAS na PUCRS (R$ 11,60 milhões, nota 9,80), embora sem foco central em PLN.

A PUCPR, por meio do HAILab, é referência em PLN clínico, tendo produzido o BioBERTpt (2020), um BERT clínico que melhora em 2,72% o F1 no benchmark SemClinBr, além de manter os datasets clínicos SemClinBr (1.000 notas, 65.117 entidades) e contribuir, com a NoHarm.ai, para o BRATECA (BioBERTpt, GitHub; SemClinBr, Journal of Biomedical Semantics). A PUCRS também figura como parceira da NoHarm.ai (aplicação madura de NLP em saúde, com 150+ unidades e 90M+ prescrições).

NIC.br: governança, observação e medição do ecossistema

O NIC.br (Núcleo de Informação e Coordenação do Ponto BR) ocupa um papel distinto dos laboratórios de modelagem: o de articulação, observação e medição de políticas. É o NIC.br quem coordena o OBIA – Observatório Brasileiro de Inteligência Artificial, instrumento de acompanhamento tanto da Estratégia Brasileira de IA (EBIA) quanto do Plano Brasileiro de IA (PBIA 2024–2028), provendo a base empírica para o monitoramento do ecossistema e das políticas públicas de soberania (OBIA, Sobre). Seu papel é, portanto, o de infraestrutura de governança e dados, complementar, e não concorrente, ao dos centros de pesquisa técnica.

Outros laboratórios relevantes

O dossiê registra uma constelação de núcleos com contribuições específicas que merecem menção: o LaPS/UFPA (processamento de sinais), que abriga o grupo FalaBrasil com datasets de fala e o LapsBenchmark; o CIn/UFPE, um dos maiores centros de computação da América Latina, de onde emergem outputs como o RoBERTaLexPT e que sedia o INES.IA (R$ 14,38 mi); e a UNESP (Bauru), cujo grupo Recogna NLP (professores João Paulo Papa, Gabriel Lino Garcia e outros) é responsável pela família Bode (jan/2024), fine-tuning via LoRA sobre LLaMA-2 7B/13B, treinado no supercomputador Santos Dumont, com desdobramentos como GemBode, PhiBode e Mistral-Bode (Bode arXiv:2401.02909; The Bode Family, JBCS). A USP, além do C4AI e do NILC, participou, junto a IBM Research e PUC-Rio, do PeLLE (fev/2024), família de encoders treinados sobre o Carolina (PeLLE arXiv:2402.19204).

A tabela a seguir sintetiza os principais polos acadêmicos e seu papel funcional no ecossistema:

Laboratório/Centro	Sede	Liderança	Foco de pesquisa	Principais produtos	Papel no ecossistema
C4AI	InovaUSP (São Paulo)	Fabio Cozman	PLN, NLP2, corpora	Corpus Carolina, Pirá, CORAA/TaRSila	Produtor de corpora e datasets de fala; R$ 8 mi/ano FAPESP-IBM-USP
NILC	ICMC-USP (São Carlos)	Thiago Pardo, Sandra Aluísio	Linguística computacional	NILC Embeddings (1,39B tokens), ASSIN/ASSIN2, NILC-Metrix, CORAA	Infraestrutura histórica de embeddings e avaliação
RECOD.ai	IC-Unicamp	Anderson Rocha	Visão, forense, IA	NVIDIA AI Joint Lab (~80 GPUs)	Polo de computação e aplicação industrial
CEIA-UFG	UFG (Goiânia)	Anderson Soares	IA aplicada, avaliação	RoBERTaLexPT, Open PT LLM Leaderboard, GAIA	Avaliação, mapeamento (50+ LLMs), parcerias (Semantix, Meta)
DCC/UFMG	UFMG (Belo Horizonte)	Marcos A. Gonçalves, Wagner Meira Jr.	NLP responsável, RI	INCT TILD-IAR (R$ 14,66 mi), CIIA-Saúde	Maior foco institucional em PLN responsável
RAIES/PUCRS	PUCRS (Porto Alegre)	Nythamar de Oliveira, N. Kluge Corrêa	LLMs nativos pequenos	TeenyTinyLlama, INCT-IAS	Modelos from-scratch de baixo custo e alta transparência
HAILab/PUCPR	PUCPR (Curitiba)	—	PLN clínico	BioBERTpt, SemClinBr	Referência em saúde
UFRGS (PLN)	UFRGS (Porto Alegre)	—	Corpora de base	brWaC	Substrato de dados (BERTimbau, Albertina)
NIC.br	São Paulo	—	Governança e observação	OBIA	Monitoramento de políticas (EBIA, PBIA)

O papel estruturante dos INCTs e Centros de Pesquisa Aplicada

A capilaridade desses laboratórios foi reforçada por dois grandes mecanismos de financiamento. A Chamada CNPq 46/2024 resultou em 143 INCTs aprovados (jul/2025, R$ 1,63 bilhão no total), dos quais 8 INCTs com foco explícito em IA receberam R$ 92,8 milhões, concentrados, como visto, em ICMC-USP (IAPROBEM, R$ 14,99 mi), UFPE (NeuroComp, INES.IA), PUCRS (INCT-IAS), UFMG (TILD-IAR e IACiber), UFPA (IAmazônia) e UFAL/NEES (IA.Edu). Paralelamente, os 10 Centros de Pesquisa Aplicada (CPAs) em IA da FAPESP/MCTI/CGI.br (editais de 2021 e 2022) destinam R$ 1 milhão por ano por até 10 anos a cada centro, somando, com a contrapartida privada, R$ 200 milhões e mobilizando 95 pesquisadores-principais e 739 associados. Dentre eles, CIIA-Saúde (UFMG), IARA (USP) e PRAIA (UFPE) mantêm linhas dedicadas a "NLP e LLMs" (Agência FAPESP, Centros de Pesquisa Aplicada; FAPESP, 10 centros). Esses arranjos explicam por que a produção acadêmica brasileira é descrita no dossiê como "robusta", com publicações em veículos de primeira linha, Patterns (Cell Press), Journal of the Brazilian Computer Society (JBCS) e arXiv.

A colaboração com Portugal: PORTULAN CLARIN e NOVA LINCS

Embora as instituições portuguesas estejam fora do território brasileiro, sua relevância para o PT-BR é direta, já que muitos de seus modelos cobrem explicitamente a variante brasileira. O dossiê é cuidadoso em qualificar essa relação como colaboração técnica, e não como acordo bilateral formal.

O PORTULAN CLARIN (Universidades de Lisboa e do Porto), liderado por António Branco, funciona como infraestrutura de PLN para todas as variedades do português (PORTULAN, Rationale). Produziu três famílias de modelos que aparecem recorrentemente nos leaderboards e aplicações brasileiras:

Albertina PT-*, encoders DeBERTa de 100M, 900M e 1,5B de parâmetros. A variante Albertina 900M PT-BR (treinada sobre o No-brWaC, 3,7B tokens) atinge ASSIN2 RTE 0,8950 e STS 0,8547; a Albertina 1.5B PT-BR (48 camadas, CulturaX 36B tokens) atinge ExtraGLUE RTE 0,8676 e STS-B 0,9007. Notavelmente, as variantes brasileiras do Albertina foram treinadas sobre o brWaC da UFRGS, exemplificando a circularidade técnica entre os dois lados do Atlântico (Albertina arXiv:2403.01897; PORTULAN/albertina-1b5-ptbr).
Serafim PT*, sentence encoders de 100M/335M/900M (jul/2024), em que a variante serafim-900m-ir atinge MRR@10 de 0,8539 no mMARCO (este último, um dataset multilíngue produzido por Unicamp/NeuralMind em 2021), sendo descrita como estado da arte para recuperação de informação e RAG em português (Serafim arXiv:2407.19527).
Gervásio (LLaMA-2 7B, Llama 3.1 8B, Llama 3.3 70B, licença MIT) e, no NOVA LINCS, GlórIA (1,3B/2,7B GPT-Neo treinado do zero sobre 35,5B tokens PT-PT).

O NOVA LINCS (Universidade NOVA de Lisboa), liderado por João Magalhães e David Semedo, é o responsável pelo GlórIA e por benchmarks como o ALBA. A interseção mais formalizada com o Brasil, contudo, ocorre via LatamGPT/CENIA Chile, com o qual o Brasil assinou um MoU em 22/04/2025 (Luciana Santos pelo lado brasileiro), além de um acordo separado entre CENIA e USP, embora o dossiê registre como [INCERTO] a efetiva contribuição técnica brasileira documentada a esse projeto.

Síntese: o papel dos laboratórios no ecossistema

Three observações analíticas fecham o mapeamento. Primeiro, há uma divisão de trabalho clara: laboratórios como NILC, UFRGS e C4AI produzem a camada de dados e avaliação (corpora, embeddings, benchmarks), o CEIA-UFG opera a camada de medição e articulação (leaderboard, mapeamentos, parcerias industriais), e centros como RAIES/PUCRS, Recogna/UNESP e os grupos da Unicamp produzem os modelos propriamente ditos, frequentemente em colaboração com startups spin-off (Maritaca, NeuralMind, Sagui NLP, Amadeus AI). Segundo, o financiamento é institucionalmente diversificado mas estruturalmente dependente de agências públicas (FAPESP, CNPq, FINEP, FAPERGS) e de parcerias com big techs (IBM, NVIDIA, Google, Meta), o que se reflete tanto na potência dos centros quanto nas tensões de soberania apontadas no dossiê. Terceiro, persiste o contraste entre produção acadêmica e adoção em produção: os encoders acadêmicos (BERTimbau, com 1,28 milhão de downloads mensais para a versão Large) têm penetração massiva, ao passo que os LLMs generativos abertos produzidos por esses mesmos laboratórios (Bode, Tucano) permanecem majoritariamente restritos a pesquisa, com poucas centenas de downloads mensais: um descompasso que define o desafio central do ecossistema.

6. Principais Pesquisadores

O ecossistema brasileiro de IA para o português é, antes de tudo, uma rede de pessoas. A maior parte dos marcos técnicos descritos neste relatório, do BERTimbau aos modelos Sabiá, passando pelos corpora de embeddings do NILC e pelos benchmarks que hoje estruturam a avaliação de LLMs em PT-BR, concentra-se em torno de um conjunto relativamente pequeno de pesquisadores, frequentemente articulados em eixos institucionais bem definidos: a Unicamp (com sua diáspora para a Maritaca AI e a NeuralMind), o ICMC-USP/NILC (linguística computacional clássica), o CEIA-UFG (avaliação e mapeamento do ecossistema), a Universidade de Bonn (Tucano/TeenyTinyLlama, com raízes na PUCRS) e a USP/C4AI (corpora e encoders). A seguir, perfilamos os pesquisadores mais influentes, organizando-os por núcleo de atuação e detalhando afiliação, linhas de trabalho e contribuições verificáveis.

Visão geral comparativa

A tabela abaixo sintetiza os perfis. As linhas seguintes aprofundam cada um de forma analítica.

Pesquisador(a)	Afiliação principal	Linha de trabalho	Contribuição-chave
Rodrigo Frassetto Nogueira	Maritaca AI (CEO) / Unicamp (prof. adjunto)	LLMs generativos, recuperação de informação, ranqueamento neural	Família Sabiá (1 a 4); coautor do BERTimbau; criador de monoBERT/monoT5
Roberto Alencar Lotufo	Unicamp / NeuralMind (cofundador) / Maritaca AI (cofundador, CTO)	IA aplicada, encoders, transferência de tecnologia	Cofundador da NeuralMind (BERTimbau) e da Maritaca; coautor do BERTimbau
Fábio Souza	NeuralMind / Unicamp	Encoders contextuais para PT-BR	Primeiro autor do BERTimbau (2020)
Nicholas Kluge Corrêa	Universidade de Bonn (Alemanha) / PUCRS-RAIES (origem)	LLMs nativos from-scratch, IA responsável, ética	Tucano, Tucano 2, TeenyTinyLlama, corpus GigaVerbo, ViTucano
Sandra Aluísio	NILC / ICMC-USP	Linguística computacional, simplificação textual, corpora	Coordenação do NILC; recursos de embeddings, NILC-Metrix, CORAA
Thiago Pardo	NILC / ICMC-USP	PLN, sumarização, recursos linguísticos	Coordenação do NILC; repositório de word embeddings, ASSIN/ASSIN2
Helena Caseli	UFSCar (Rede Brasileiras em PLN, contexto)	PLN, tradução automática, recursos para PT	Pesquisa em PLN para português; articulação comunitária [INCERTO — detalhamento limitado no dossiê]
Eduardo A. S. Garcia	CEIA-UFG / INF-UFG	Avaliação de LLMs, encoders jurídicos	Open Portuguese LLM Leaderboard; RoBERTaLexPT; harness `lm-evaluation-harness-pt`
Anderson Soares	CEIA-UFG (gerente-geral)	IA aplicada, infraestrutura, política de IA	Mapeamento de 50+ LLMs brasileiros; liderança do principal polo de IA aplicada
Fabio Cozman	Poli-USP / C4AI	Raciocínio probabilístico, governança de IA, PLN	Coordenação do C4AI; iniciativas Carolina, Pirá, POeTiSA
Anderson Rocha	IC-Unicamp / RECOD.ai	Visão computacional, forense digital, IA	Fundação e direção do RECOD.ai / NVIDIA AI Joint Lab

O eixo Unicamp–Maritaca–NeuralMind

O vetor mais influente do ecossistema generativo brasileiro tem origem na Faculdade de Engenharia Elétrica e de Computação e no Instituto de Computação da Unicamp, e se ramifica em duas empresas: a NeuralMind (2018, encoders) e a Maritaca AI (2022, LLMs generativos).

Rodrigo Frassetto Nogueira é, sem disputa, o pesquisador mais central da geração generativa. Bacharel e mestre em Engenharia pela Unicamp, doutorou-se em Ciência da Computação na New York University (2014–2019) sob orientação de Kyunghyun Cho, com pós-doutorado na Universidade de Waterloo (2020–2022) sob Jimmy Lin (site pessoal). Passou por Microsoft Research, Google Research e NeuralMind antes de fundar a Maritaca AI em outubro de 2022, da qual é CEO, mantendo posição de professor adjunto na Unicamp. Sua contribuição técnica é dupla: no campo da recuperação de informação, é criador dos modelos monoBERT e monoT5, hoje referências globais em ranqueamento neural; e, no campo dos LLMs em português, lidera a família Sabiá, do Sabiá-7B/65B (arXiv:2304.07880) ao Sabiá-4 (arXiv:2603.10213). É também coautor do BERTimbau (BRACIS 2020) e figura recorrente na autoria dos benchmarks Maritaca (Juru, BLUEX, OAB-Bench, PoETa v2, CAPITU). Fora do plano técnico, tornou-se uma voz de política pública: defende um plano nacional de R$ 266 milhões em 1,5 ano para treinar LLMs do zero (Maritaca AI blog) e questionou publicamente a alegação de "100% brasileiro" do Amazônia IA da WideLabs.

Roberto Alencar Lotufo é o elo institucional que conecta as duas empresas. Professor da Unicamp com mais de 40 anos de atuação em IA, foi diretor da Inova Unicamp por uma década, o que ajuda a explicar o forte vínculo do ecossistema com a transferência de tecnologia. É cofundador da NeuralMind (onde atua ao lado da CEO Patrícia Tavares) e cofundador e CTO da Maritaca AI, além de coautor do BERTimbau. Sua trajetória conecta o mundo dos encoders (NeuralMind/BERTimbau) ao dos LLMs generativos (Maritaca/Sabiá).

Fábio Souza (Fabio Souza) é o primeiro autor do BERTimbau (Souza, Nogueira, Lotufo, 2020), o modelo de embeddings mais adotado para o português brasileiro: o BERTimbau Large registra cerca de 1,28 milhão de downloads/mês no Hugging Face. Ligado à NeuralMind e à Unicamp, é o nome técnico por trás do recurso que, paradoxalmente, tem adoção massiva em produção enquanto os LLMs generativos abertos permanecem restritos à pesquisa.

A equipe de pesquisa da Maritaca constitui, por si só, um celeiro de coautores que aparecem repetidamente na literatura: Hugo Abonizio, Thales Sales Almeida, Thiago Laitz, Roseval Malaquias Junior, Giovana Kerche Bonás, Ramon Pires, Marcos Piau, Celio Larcher e Ramon Pires. Vale destacar:

Thales Sales Almeida, primeiro autor do corpus ClassiCC-PT (arXiv:2509.08824), dos modelos Curió/Curió-Edu (arXiv:2512.12770) e do benchmark PoETa v2 (arXiv:2511.17808), todos em colaboração Unicamp/Maritaca.
Ramon Pires e Roseval Malaquias Junior, coautores do LLM jurídico Juru (arXiv:2403.18140, com Roseli Romero da USP) e do OAB-Bench (arXiv:2504.21202).
Giovana Kerche Bonás e Marcos Piau, coautores do CAPITU (arXiv:2603.22576), benchmark de seguimento de instruções sobre literatura brasileira, e do BLUEX (arXiv:2307.05410).
Celio Larcher, associado à adaptação Cabrita/openCabrita-3B (arXiv:2308.11878).

O eixo NILC / ICMC-USP: a linguística computacional clássica

O NILC – Núcleo Interinstitucional de Linguística Computacional (ICMC-USP, São Carlos) é um dos laboratórios de PLN mais antigos do Brasil e representa a tradição "pré-LLM" que pavimentou o campo. É coordenado por Thiago Pardo e Sandra Aluísio.

Sandra Aluísio e Thiago Pardo respondem por uma infraestrutura de recursos que serve de baseline para praticamente todo o ecossistema: o Repositório de Word Embeddings do NILC (1,39 bilhão de tokens, 17 corpora, 31 modelos, STIL 2017, arXiv:1708.06025), o Corpus NILC (40M palavras), o NILC-Metrix (200 métricas de complexidade textual), o corpus de fala CORAA e a ferramenta nlpnet. O NILC é também a casa dos datasets ASSIN e ASSIN2 (site oficial), referências de similaridade semântica textual (STS) e inferência (NLI/RTE) que aparecem em praticamente todos os leaderboards de PT-BR. A linha de Aluísio em simplificação textual e complexidade linguística é particularmente influente para aplicações de acessibilidade e educação.

Helena Caseli é citada no dossiê como uma das pesquisadoras de referência em PLN para o português, no contexto da comunidade acadêmica brasileira (incluindo a articulação da Rede Brasileiras em PLN). [INCERTO] O dossiê não traz detalhamento específico de sua afiliação atual, datasets ou modelos sob sua liderança direta, de modo que seu perfil aqui se limita ao reconhecimento de seu papel histórico em tradução automática e recursos para o português; recomenda-se cautela ao atribuir contribuições pontuais sem fonte primária adicional.

O eixo Bonn / PUCRS-RAIES: LLMs nativos e IA responsável

A vertente de modelos treinados do zero (from-scratch) com transparência total de custos e energia tem um protagonista claro: Nicholas Kluge Corrêa. Embora sua origem esteja na PUCRS e no centro RAIES (Rede de Inteligência Artificial Ética e Segura, financiada por FAPERGS+CNPq), suas contribuições mais recentes têm afiliação à Universidade de Bonn (Alemanha): uma nuance importante, já que os model cards e a imprensa frequentemente atribuem os modelos à PUCRS (ver Anexo de verificação do dossiê). Seu portfólio é o mais completo entre os modelos abertos nativos:

TeenyTinyLlama (jan/2024, arXiv:2401.16640; com Sophia Falk, Shiza Fatimah, Aniket Sen e Nythamar de Oliveira), família de 160M/460M parâmetros treinada do zero por ~US$ 500, publicada em Machine Learning With Applications. Reivindica o título de "primeiro autorregressivo gerador nativo PT-BR" [DISPUTADO].
Tucano (nov/2024, arXiv:2411.07854; com Aniket Sen, Sophia Falk, Shiza Fatimah), família 160M–2,44B treinada sobre o corpus GigaVerbo (200B tokens), publicada na prestigiada Patterns (Cell Press) em jul/2025. É o único projeto que publica métricas verificáveis de energia (15.615 kWh) e CO₂ (6.168 kg CO₂eq).
Tucano 2 (mar/2026, arXiv:2603.03543) e os assistentes visuais ViTucano (ago/2025), primeiros VLMs nativos em PT-BR.

Corrêa combina, assim, excelência técnica com a agenda de IA responsável e sustentabilidade computacional, sendo o caso mais transparente do ecossistema em contraste com a opacidade comercial de Maritaca, WideLabs e SoberanIA.

Nythamar de Oliveira (PUCRS) é figura institucional relevante neste eixo: coautor do TeenyTinyLlama e coordenador do INCT-IAS (PUCRS, nota 9,80, R$ 11,60 milhões na chamada CNPq 46/2024).

O eixo CEIA-UFG: avaliação, leaderboards e mapeamento

O Centro de Excelência em IA da UFG (CEIA-UFG) consolidou-se como o polo de avaliação e curadoria do ecossistema.

Anderson Soares, gerente-geral do CEIA-UFG, é responsável pelo mapeamento de mais de 50 LLMs em português criados desde 2020 (Mobile Time, nov/2025), apresentado em novembro de 2025, referência factual central deste relatório. Sob sua gestão, o CEIA articula parcerias com Semantix, Itaú e Meta e receberá o único supercomputador NVIDIA DGX B200 do país dedicado à pesquisa de IA.

Eduardo A. S. Garcia (CEIA-UFG / INF-UFG) é o pesquisador que estrutura a infraestrutura de avaliação do português. Mantém o Open Portuguese LLM Leaderboard (HF Space), que rastreia mais de 1.000 modelos em 9 tarefas generativas em PT-BR, e desenvolveu o fork lm-evaluation-harness-pt (GitHub). É ainda primeiro autor do encoder jurídico RoBERTaLexPT (PROPOR 2024), que atinge 85,41% F1-macro no benchmark PortuLex com ~9x menos parâmetros que concorrentes, combinando, portanto, papel de avaliador e de construtor de modelos de domínio.

O eixo USP / C4AI: corpora, encoders e governança

O C4AI – Centro de Inteligência Artificial (USP/IBM/FAPESP), criado em ago/2020, é coordenado por Fabio Cozman (Poli-USP), pesquisador de raciocínio probabilístico e governança de IA. Sob sua coordenação, o C4AI abriga iniciativas de PLN como o corpus Carolina (arXiv:2303.16098; 823M palavras, base de PeLLE e DeBERTinha), o dataset bilíngue Pirá (arXiv:2202.02398) e os projetos POeTiSA, TaRSila e NLP2. No campo dos encoders sobre o Carolina, destacam-se ainda Marcelo Finger, Guilherme Mello e Felipe Serras (USP), coautores da família PeLLE (arXiv:2402.19204, com Paulo Cavalin e Pedro H. Domingues, da IBM/PUC-Rio).

Na fronteira da fala (ASR/TTS), Edresson Casanova (hoje NVIDIA, com vínculos ao CEIA-UFG) é o nome de referência: criador do YourTTS (ICML 2022), do XTTS (Interspeech 2024) e do corpus CML-TTS, com forte impacto em síntese de voz multilíngue zero-shot.

O eixo DCC-UFMG e RECOD.ai/Unicamp

Em visão computacional e IA forense, Anderson Rocha fundou (2009) e dirige o RECOD.ai no IC-Unicamp, transformado em NVIDIA AI Joint Lab (2022–2023), com ~80 GPUs e 240+ colaboradores (NVIDIA Blog).

No DCC/UFMG, Marcos André Gonçalves coordena o INCT TILD-IAR (IA Responsável para Linguística Computacional, nota 9,78, R$ 14,66 milhões), o INCT de maior foco em PLN do país, com 80+ pesquisadores em 30+ instituições e linhas em LLMs, recuperação de informação, desinformação e sustentabilidade ("Towards Greener NLP"). O departamento concentra também Adriano Veloso, Wagner Meira Jr. e, na articulação da Rede Brasileiras em PLN (200+ pesquisadoras), Adriana Pagano.

Pesquisadores de domínio e empreendedores-pesquisadores

O campo brasileiro tem ainda figuras que combinam pesquisa e empreendedorismo:

Marcellus Amadeus e William Cruz-Castañeda (Amadeus AI), autores do survey cronológico de LLMs em PT-BR (JBCS 2025), da família Amadeus-Verbo (arXiv:2506.00019), dos embeddings JabuticaBERT e da curadoria do dataset Jabuticaba (base do Soberano 1 do Piauí).
João Paulo Papa e Gabriel Lino Garcia (Recogna NLP / UNESP-Bauru), criadores da família Bode (arXiv:2401.02909), o modelo de instrução por LoRA mais conhecido entre os abertos, e do DrBode para o domínio médico.
Ruan Chaves Rodrigues, criador do Napolab (2023), suíte de 7 datasets de avaliação, e do FaQuAD-NLI.
Francielle Vargas, primeira autora do HateBR (arXiv:2103.14972), dataset de discurso de ódio amplamente usado nos leaderboards.
Henrique Godoy, autor do Alvorada-Bench (arXiv:2508.15835), com 4.515 questões de cinco vestibulares.

No plano internacional, é importante registrar António Branco (Universidade de Lisboa / PORTULAN CLARIN), líder das famílias Albertina, Gervásio e Serafim, e João Magalhães e David Semedo (NOVA LINCS), responsáveis pelo GlórIA, pesquisadores portugueses cujo trabalho cobre variedades do português, inclusive PT-BR, e que dialogam diretamente com a produção brasileira em benchmarks como o CLARIN-PT-LDB.

Síntese analítica

Três padrões emergem desta cartografia. Primeiro, a centralidade da Unicamp: Nogueira, Lotufo, Souza e boa parte da equipe Maritaca derivam de uma mesma linhagem institucional, o que concentra capacidade técnica mas também risco de dependência de poucos atores. Segundo, a divisão de trabalho entre construtores de modelos (Nogueira, Corrêa, Souza), curadores de avaliação (Garcia, Soares) e guardiões de recursos linguísticos clássicos (Aluísio, Pardo, Cozman): uma especialização saudável, ainda que pouco integrada. Terceiro, o contraste de transparência: enquanto Corrêa (Tucano) e Garcia (leaderboards) operam em regime aberto e auditável, os líderes dos modelos comerciais mais relevantes (Maritaca, WideLabs, SoberanIA) optam pela opacidade de arquitetura, parâmetros e custos, tensão que o próprio Nogueira reconhece ao defender, simultaneamente, produtos fechados e um plano público de capacitação nacional.

7. Modelos de Linguagem (LLMs): Desenvolvidos e em Desenvolvimento

O período de 2020 a 2026 consolidou uma "fauna" surpreendentemente diversa de modelos de linguagem voltados ao português brasileiro. Conforme o mapeamento da Universidade Federal de Goiás (UFG), apresentado em novembro de 2025 pelo professor Anderson Soares, gerente-geral do CEIA-UFG, foram identificados mais de 50 LLMs em português criados desde 2020, distribuídos em 6 modelos em 2020, 6 em 2021, 4 em 2022, 14 a 15 em 2023, 16 em 2024 e 4 nos primeiros meses de 2025 (UFG mapeia mais de 50 LLMs brasileiros, Mobile Time; Brasil tem 50 ChatGPTs com sotaque brasileiro, NeoFeed). Esse catálogo, contudo, esconde um contraste fundamental: enquanto modelos de embeddings (encoders) como o BERTimbau têm adoção massiva, e a Maritaca AI opera o único produto generativo comercialmente relevante via API fechada, a maioria dos LLMs generativos abertos (Tucano, Bode, Amadeus-Verbo) permanece restrita ao ambiente de pesquisa. Esta seção privilegia os modelos generativos (decoder-only / LLMs), remetendo os encoders contextuais à seção sobre embeddings.

Um esforço acadêmico de sistematização desse panorama é o survey cronológico de William Cruz-Castañeda e Marcellus Amadeus (Amadeus AI), publicado no Journal of the Brazilian Computer Society (JBCS), que organiza a evolução dos LLMs em português (Large Language Models in Brazilian Portuguese: A Chronological Survey, JBCS; ver também Exploring Brazil's LLM Fauna, JBCS).

Catálogo de LLMs brasileiros e para o português

A tabela a seguir consolida os principais modelos generativos. Quando um valor não foi divulgado pelos criadores, isso está sinalizado explicitamente, pois a opacidade comercial (parâmetros, base e arquitetura não revelados) é uma característica marcante dos modelos da Maritaca, da WideLabs e da SoberanIA.

Modelo	Criador	Parâmetros	Base/Origem	Tipo	Licença	Ano
Sabiá-7B / Sabiá-65B	Maritaca AI	7B / 65B	LLaMA-1	Continued pretraining	Restrita (pesquisa); artigo CC BY 4.0	abr/2023
Sabiá-2 Small/Medium	Maritaca AI	Não divulgados	Não divulgada	Proprietário (continued)	Proprietária (API)	mar/2024
Sabiá-3 / Sabiazinho-3	Maritaca AI	Não divulgados	Não divulgada	Proprietário	Proprietária	set/2024 – fev/2025
Sabiazinho-4 / Sabiá-4	Maritaca AI	Não divulgados (MoE ~1T/49B ativos [INCERTO])	Não divulgada	Proprietário (4 estágios)	Proprietária	jan – mar/2026
Cabrita / openCabrita-3B	22h (Larcher et al.)	3B	OpenLLaMA-3B	Tokenizer adaptado + continued	Apache 2.0	ago/2023
Caramelinho	Bruno (indep.)	7B	Falcon-7B	Fine-tune (QLoRA)	n/d	jun/2023
Canarim-7B	Maicon Domingues	7B	LLaMA-2	Continued pretraining	Llama 2 CLA	set/2023
TeenyTinyLlama	Univ. Bonn / PUCRS / RAIES	160M / 460M	Arquitetura Llama 2	From-scratch	Apache 2.0	jan/2024
Bode	Recogna NLP / UNESP / LNCC	7B / 13B	LLaMA-2	Fine-tune (LoRA)	MIT / CC BY 4.0	jan/2024
Lloro	Semantix	7B	—	Fine-tune (código/dados)	Open source	fev/2024
Juru	USP / Maritaca	7B	Mistral-7B-v0.3	Continued pretraining	CC BY 4.0	mar/2024
GlórIA	NOVA LINCS (PT-PT)	1,3B / 2,7B	GPT-Neo	From-scratch	CC BY 4.0 (research-only)	fev/2024
Gervásio PT-BR/PT-PT	Univ. Lisboa / PORTULAN	7B / 8B / 70B	LLaMA-2 / 3.1 / 3.3	Fine-tune (decoder)	MIT	fev/2024+
Amazônia IA	WideLabs	Não divulgado	Não divulgada [DISPUTADO]	Nativo (afirmado) / fine-tune (terceiros)	Proprietária	jul/2024
Tucano (160m–2b4)	Univ. Bonn	162M – 2,44B	Arquitetura Llama 2	From-scratch	Apache 2.0 (pesos)	nov/2024
Amadeus-Verbo	Amadeus AI	0,5B – 72B	Qwen2.5	Fine-tune (full-parameter)	Apache 2.0 / Qwen	jun/2025
GAIA	CEIA-UFG / ABRIA / Nama / Amadeus / Google	4B	Gemma-3-4b	Continued pretraining	Gemma Terms	jun/2025
Jurema-7B	NeuralMind / Escavador	7B	Qwen2.5-7B-Instruct	Fine-tune (SFT)	Apache 2.0	ago–set/2025
Curió / Curió-Edu	Unicamp / Maritaca	7B (e 1.1B)	LLaMA-2 / TinyLlama	Continued pretraining	CC BY 4.0	dez/2025
Tucano 2	Univ. Bonn / Polygl0t	0,5B – 3,7B	Qwen 2.5 / 3	Continued pretraining + SFT	Apache 2.0	mar/2026
Soberano 1	SoberanIA / Piauí	30B	Não divulgada	Indeterminado [INCERTO]	API (dataset CC-BY-SA)	mai/2026

Observação metodológica: o BERTimbau (NeuralMind/Unicamp, 2020) e o PTT5 antecedem todos os modelos generativos acima e são frequentemente citados como "primeiros modelos de linguagem brasileiros", mas são encoders (e seq2seq), não LLMs generativos autorregressivos, e estão detalhados na seção de embeddings.

Família Sabiá (Maritaca AI): o estado da arte comercial brasileiro

A Maritaca AI, startup de Campinas (SP) fundada em outubro de 2022 por Rodrigo Frassetto Nogueira (PhD pela NYU, ex-Microsoft e ex-Google Research) e Roberto Lotufo (Unicamp), é o ator central do ecossistema generativo. Sua família Sabiá representa a única linha brasileira com produto comercial relevante, distribuído via API compatível com OpenAI e pelo chatbot MariTalk (chat.maritaca.ai) (Maritaca AI; Documentação API).

A trajetória técnica é progressivamente fechada. O Sabiá-7B/65B (abril de 2023) foi o ponto de partida transparente: continued pretraining sobre LLaMA-1, treinado com cerca de 10B de tokens adicionais em português do ClueWeb22, consumindo menos de 3% do orçamento de pré-treino original. O Sabiá-65B equiparou-se ao GPT-3.5-turbo no benchmark Poeta (14 datasets), atingindo 55,07% no ENEM Challenge (Sabiá, arXiv:2304.07880; maritaca-ai/sabia-7b, HF). A partir do Sabiá-2 (março de 2024), os autores passaram a recusar explicitamente revelar arquitetura, base e número de parâmetros; ainda assim, o Sabiá-2 Medium igualou ou superou o GPT-4 em 23 de 64 exames brasileiros a um custo cerca de 10x menor, com fraquezas reconhecidas em matemática e código (Sabiá-2, arXiv:2403.09887).

O Sabiá-3 (setembro de 2024), treinado em TPUs v5 com JAX, alcançou média de 79,0% em 93 exames brasileiros, competitivo com modelos de fronteira (GPT-4o 80,8%; Claude 3.5 Sonnet 81,6%) e superando o Llama 3.1 405B (77,0%), incluindo 87,7% no ENEM e 76,4% na OAB, a um custo 3 a 4x menor por token (Sabiá-3, arXiv:2410.12049). A geração mais recente, o Sabiá-4 (março de 2026), introduziu janela de contexto de 128.000 tokens (com 256K planejado) e um pipeline de quatro estágios (continued pretraining em corpus jurídico, extensão de contexto, SFT e alinhamento por preferência), em colaboração com a Jusbrasil. Obteve 7,49/10 no OAB-Bench, 97,4% em Leis Federais e 53,8% de win rate contra o GPT-4o no BRACEval (Sabiá-4, arXiv:2603.10213). É importante registrar uma incerteza: a arquitetura Mixture of Experts (MoE) com aproximadamente 1 trilhão de parâmetros totais (~49B ativos) atribuída ao Sabiá-4 provém de blog técnico da Maritaca, não confirmada no artigo (Escalando treinamento de LLMs na Maritaca). A versão compacta Sabiazinho-4 (preview em 5 de janeiro de 2026) elevou drasticamente as capacidades agênticas (de 14,1% para 55,2%) em relação ao Sabiazinho-3 (Sabiazinho-4, Canaltech).

Os preços atuais da API (junho de 2026) refletem o posicionamento custo-competitivo: o Sabiá-4 custa R$ 5,00/R$ 20,00 por milhão de tokens (entrada/saída) e o Sabiazinho-4, R$ 1,00/R$ 4,00, com descontos de cache (75%), horário noturno (30%) e Flex Tier (50%) (Preços API Maritaca).

Amazônia IA (WideLabs): ambição comercial e controvérsia técnica

A WideLabs, fundada em maio de 2020 em Porto Alegre (RS) e liderada por Nelson Leoni (CEO), lançou o Amazônia IA em 30 de julho de 2024, na 5ª CNCTI, com chatbot gratuito disponibilizado em agosto e API em setembro (Widelabs lança Amazônia IA, Startupi; Mobiletime). O modelo roda em GPUs NVIDIA H100 via Oracle Cloud (região São Paulo), com janela de contexto de 64.000 tokens, e a empresa relata break-even no 4T2025, crescimento de receita de 10x em 2025 e uma Série A buscando US$ 50 milhões (WideLabs avança na AL, Mobile Time).

Há, porém, disputas factuais relevantes que exigem cautela. O número de parâmetros nunca foi divulgado: a cifra de "8,8 bilhões" que circula não tem respaldo em fonte primária. Mais importante, a alegação de "100% brasileiro" treinado do zero é contestada: TechTudo e Capital Digital descrevem o produto como fine-tuning de modelo existente, e Rodrigo Nogueira (Maritaca) questionou publicamente a alegação (Amazônia IA: fine-tuning, TechTudo; debate sobre o 'DNA', Capital Digital). Não há paper técnico, o modelo base nunca foi revelado e o perfil da WideLabs no Hugging Face não possui modelos públicos. A empresa mantém um ecossistema mais amplo, Guará (ASR), Harpia (multimodal/OCR), Golia (texto compacto) e a plataforma Amazônia 360 (PaaS soberana com RAG), além do dataset sintético aberto Nemotron Personas Brasil (6 milhões de personas, ~1,4B tokens, CC BY 4.0), produzido com a NVIDIA (WideLabs Trains One of the Largest Brazilian AI Models on OCI, Oracle/PR Newswire; Nemotron-Personas-Brazil, HF/NVIDIA).

Modelos abertos treinados do zero (from-scratch)

A vanguarda da transparência está nos modelos pré-treinados nativamente. O Tucano (novembro de 2024) é a referência mais completa: uma família decoder-only (160m a 2,44B parâmetros) com arquitetura Llama 2, desenvolvida por Nicholas Kluge Corrêa, Aniket Sen, Sophia Falk e Shiza Fatimah, afiliados à Universidade de Bonn (Alemanha), não à PUCRS, correção importante frente a fontes secundárias. Foi treinado sobre o corpus GigaVerbo (200B tokens), publicado em Patterns (Cell Press) em julho de 2025, com licença de pesos Apache 2.0 e divulgação verificável de energia e CO₂: o único projeto a publicar tais métricas (Tucano, arXiv:2411.07854; Patterns/Cell Press). Sua sucessora, Tucano 2 (março de 2026), migrou para continued pretraining sobre base Qwen 2.5/3 (modelos de 0,5B a 3,7B, em variantes Base/Instruct/Think), usando o GigaVerbo-v2 (~320B tokens) acrescido de 9,3B tokens sintéticos; o Tucano2-qwen-3.7-Instruct supera o Qwen3-4B e o SmolLM3-3B em conhecimento e raciocínio na faixa de 3-4B, consumindo 92% menos energia que o Tucano-2b4 original (Tucano 2, arXiv:2603.03543; Building Tucano 2, HF Blog).

O TeenyTinyLlama (janeiro de 2024), dos mesmos autores junto a Nythamar de Oliveira (Bonn/PUCRS/RAIES), é um par de modelos pequenos (160M e 460M) treinados do zero a um custo total de apenas ~US$ 500 em uma única GPU A100, com tokenizer SentencePiece de 32K que reduziu a fertilidade em 66% frente ao Llama 2 (TeenyTinyLlama, arXiv:2401.16640; Machine Learning With Applications). Ele reivindica ser o "primeiro autorregressivo gerador nativo PT-BR open source treinado do zero", embora essa reivindicação seja [DISPUTADA] dependendo do critério adotado. No campo português europeu, mas relevante por cobrir o idioma, o GlórIA (NOVA LINCS) é um modelo GPT-Neo de 1,3B/2,7B treinado do zero em 35,5B tokens PT-PT (GlórIA, arXiv:2402.12969).

Continued pretraining e fine-tuning: o padrão dominante de custo-benefício

A maior parte dos modelos brasileiros adota continued pretraining ou fine-tuning sobre bases abertas, abordagem que predominou até 2024 por seu custo-benefício. O Canarim-7B (setembro de 2023, Maicon Domingues) fez continued pretraining sobre LLaMA-2 (não Mistral, correção de confusão comum) com 16B tokens do Common Crawl (dominguesm/canarim-7b, HF). O Curió/Curió-Edu (dezembro de 2025, Unicamp/Maritaca) ilustra a tese de "qualidade de dados sobre quantidade": o Curió-Edu-7B superou o Curió-7B usando apenas 10% dos dados e 20% do compute, com base LLaMA-2-7B e o corpus ClassiCC-PT (Curió-Edu 7B, arXiv:2512.12770).

No fine-tuning por instrução, o Bode (janeiro de 2024, Recogna NLP/UNESP, Profs. João Paulo Papa e Gabriel Lino Garcia) aplicou LoRA sobre LLaMA-2-7B/13B com o dataset Alpaca traduzido, treinado no supercomputador Santos Dumont, alcançando média 53,21 no Open PT e originando uma extensa família (GemBode, PhiBode, QwenBode, entre outros) (Bode, arXiv:2401.02909; The Bode Family of LLMs, JBCS). O Cabrita/openCabrita-3B (agosto de 2023, Larcher et al.) é notável pela adaptação de tokenizer (52K bilíngue, com redução de 35% nos tokens) sobre OpenLLaMA 3B (Cabrita, arXiv:2308.11878). O Caramelinho (junho de 2023) é um fine-tune QLoRA do Falcon-7B (Caramelinho, GitHub). Já o Amadeus-Verbo (junho de 2025, Amadeus AI) realizou fine-tuning de parâmetros completos sobre Qwen2.5 (0,5B a 72B) com ~600 mil instruções, a um custo superior a US$ 130.000 (Amadeus-Verbo, arXiv:2506.00019), e o GAIA (junho de 2025, CEIA-UFG/Nama/Amadeus/Google) fez continued pretraining sobre Gemma-3-4b, atingindo 0,70 no ENEM 2024 (GAIA, Google DeepMind).

Especialização de domínio: a frente jurídica

Um vetor claro de evolução é a especialização jurídica, com trade-off conhecido em conhecimento geral. O Juru (USP/Maritaca, março de 2024) fez continued pretraining sobre Mistral-7B-v0.3 (confirmado na v2 do artigo de julho de 2025; há ambiguidade em fontes secundárias que citam Sabiá-2 Small) com 1,9 bilhão de tokens jurídicos únicos, elevando a média jurídica para 72,0% (Juru, arXiv:2403.18140). O Jurema-7B (NeuralMind/Escavador, agosto-setembro de 2025), financiado com R$ 10 milhões da FINEP, aplicou SFT sintético sobre Qwen2.5-7B-Instruct e reivindica ser o "primeiro LLM jurídico open source nativo", reivindicação [DISPUTADA] com o próprio Juru (Jurema 7B, Blog do Escavador). O próprio Sabiá-4 incorpora forte especialização jurídica via colaboração com a Jusbrasil.

Em desenvolvimento: soberania estatal e iniciativas regionais

Entre os esforços mais recentes e politicamente carregados está o Soberano 1 da SoberanIA, executado pelo estado do Piauí (PIT/ETIPI sob a SIA-PI), apresentado como o primeiro LLM desenvolvido por um estado brasileiro. Possui 30 bilhões de parâmetros e 500 bilhões de tokens, com cronologia que vai do preview estadual (junho de 2025) à operação comercial (19 de maio de 2026), financiado com R$ 35 a 40 milhões do MCTI (MCTI investe R$ 35 milhões no Piauí; SoberanIA lança IA generativa, Teletime). Contudo, requer forte cautela: a arquitetura não foi divulgada (impossível determinar se é from-scratch ou fine-tune), não há relatório técnico ou arXiv, não há modelo no Hugging Face (apenas o dataset Jabuticaba, 669 GB/~139B tokens, CC-BY-SA 4.0), e a afirmação de superar Qwen, DeepSeek e Maritaca e equiparar-se ao "Gemini 3.1" é [NÃO VERIFICADA], sem benchmarks padronizados publicados. O roadmap prevê um Soberano II multimodal (1 trilhão de tokens) para dezembro de 2026 (Jabuticaba, SciELO Preprints; dataset Jabuticaba, HF).

Outros desenvolvimentos relevantes em curso incluem: o LLM soberano do SERPRO (a "Tupi Guarani", anunciada em 5 de novembro de 2025, hospedada em infraestrutura própria) (SERPRO avança com modelo próprio de IA em português); o "LLM robusto em português" previsto no PBIA (R$ 1,1 bilhão, com prazo de 12 meses ainda não cumprido até 2025); o LLM próprio da Clarice.ai em desenvolvimento; e o LatamGPT (CENIA Chile), modelo colaborativo latino-americano baseado em Llama 3.1 70B com participação brasileira via MoU assinado em abril de 2025, embora a contribuição técnica efetiva do Brasil esteja não documentada [INCERTO] (LatamGPT, CENIA; Brookings).

A disputa do "primeiro LLM brasileiro"

Vale registrar que a reivindicação de pioneirismo varia conforme o critério: o Sabiá-65B (abril de 2023) foi o primeiro LLM de grande escala com desempenho de ponta, mas via continued pretraining e fechado; o TeenyTinyLlama (janeiro de 2024) reivindica o primeiro gerador autorregressivo nativo PT-BR open source treinado do zero; o Amazônia IA (julho de 2024) autodeclara-se "primeiro LLM conversacional feito em PT-BR" (descrição [DISPUTADA]); o Tucano (novembro de 2024) foi o primeiro pré-treinado nativo open source com corpus massivo e transparência total (ainda que com afiliação alemã); e o Soberano 1 (2026) reivindica ser o primeiro desenvolvido por um estado brasileiro.

Síntese sobre adoção: apesar da diversidade, persiste uma lacuna entre pesquisa e produção. Em métricas de downloads no Hugging Face, modelos generativos abertos como o Tucano-630m (~475/mês) e o Bode-7B (~16/mês) têm uso marginal, em contraste com a adoção massiva dos embeddings (BERTimbau Large ~1,28M/mês). Em produção comercial significativa, apenas a Maritaca AI, via API fechada, sustenta um produto generativo de escala.

8. Modelos de Embeddings, Encoders e Corpora

A consolidação do português brasileiro como língua de primeira classe no processamento de linguagem natural (PLN) começou, na prática, pelos modelos de representação, primeiro embeddings estáticos, depois encoders contextuais. Essa camada é, paradoxalmente, a de maior maturidade e adoção real em produção no ecossistema brasileiro: enquanto os LLMs generativos abertos (Tucano, Bode, Amadeus-Verbo) permanecem majoritariamente restritos à pesquisa, os encoders do tipo BERT têm adoção massiva, sendo a espinha dorsal de pipelines de busca semântica, classificação e Retrieval-Augmented Generation (RAG) em português. O percurso tecnológico partiu dos embeddings estáticos do NILC/ICMC-USP (Word2Vec/FastText, 2017), passou pelos encoders contextuais a partir do BERTimbau (2020) e culminou, em 2026, em encoders de nova geração baseados em ModernBERT (NorBERTo) e em corpora de centenas de bilhões de tokens (Aurora-PT, 331 bilhões).

Embeddings estáticos: a base histórica (NILC)

O ponto de partida do ecossistema foi o Repositório de Word Embeddings do NILC (Núcleo Interinstitucional de Linguística Computacional, ICMC-USP, São Carlos), lançado em 2017 e descrito no STIL 2017 (arXiv:1708.06025). O repositório reúne 31 modelos treinados sobre 17 corpora somando 1,39 bilhão de tokens, cobrindo as principais técnicas de embeddings estáticos (Word2Vec, FastText, GloVe, Wang2Vec). Coordenado por Thiago Pardo e Sandra Aluísio, o NILC permanece um dos laboratórios de PLN mais antigos do Brasil e segue mantendo recursos estruturantes como o repositório oficial na USP. Esses embeddings estáticos hoje funcionam essencialmente como baseline, superados pelos encoders contextuais, mas historicamente fundamentais.

Encoders contextuais brasileiros

O modelo definidor da categoria é o BERTimbau, desenvolvido pela NeuralMind em parceria com a Unicamp e apresentado no BRACIS 2020 (Souza, Nogueira e Lotufo). É, isoladamente, o modelo brasileiro de PLN mais adotado: segundo os dados de uso do Hugging Face citados no dossiê, a versão Large registra 1.283.651 downloads/mês (com 63 derivados) e a Base 140.177 downloads/mês (212 derivados, 67 spaces): uma ordem de magnitude acima de qualquer LLM generativo aberto brasileiro (o Tucano-630m, por comparação, registra ~475 downloads/mês). O BERTimbau foi treinado do zero sobre o corpus brWaC (2,68 bilhões de tokens) com whole-word masking por 1 milhão de steps, e atinge desempenho de referência em similaridade textual semântica (ASSIN2 STS Pearson de 0,836 na Base e 0,852 na Large) e inferência (ASSIN2 RTE F1 de 89,2 e 90,0). É licenciado sob MIT, o que explica em parte sua difusão, e foi aplicado em casos reais como o projeto INA2 para o Tribunal de Contas da União (TCU). Uma versão estendida foi publicada em Applied Soft Computing (2023). Os pesos estão disponíveis para a Base e a Large.

A partir do BERTimbau, surgiu uma família crescente de encoders, com tendências claras de eficiência paramétrica e especialização de domínio:

DeBERTinha (Sagui NLP, 2023, arXiv:2309.16844): adaptação do DeBERTa-V3 XSmall com apenas ~40M de parâmetros que, segundo os autores, supera o BERTimbau-Large (335M) em NER e análise de sentimento: uma demonstração precoce de que arquitetura e qualidade de dados podem superar escala bruta.
PeLLE (USP/IBM Research/PUC-Rio, fev/2024, arXiv:2402.19204): família de encoders treinada sobre o corpus Carolina (823M palavras, v1.2), incluindo as variantes pPeLLE (RoBERTa do zero), xPeLLE (XLM-R) e mPeLLE (mBERT). A variante pPeLLE atinge F1 de 0,82 na classificação de Acórdãos do TCU e a xPeLLE F1 de 0,91 no HateBR. Licença CC BY 4.0.
RoBERTaLexPT (INF-UFG, PROPOR 2024 / ACL Anthology, Eduardo Garcia, Nadia Silva et al.): encoder de domínio jurídico com ~100–125M de parâmetros, treinado sobre os corpora LegalPT (>24M de documentos, até 125 GiB) e CrawlPT (29,2B tokens) com deduplicação MinHash. É um caso emblemático de eficiência: atinge 85,41% de F1-macro no benchmark PortuLex, superando tanto o BERTimbau-base (84,29%) quanto a Albertina-xlarge (85,08%) com cerca de 9× menos parâmetros. Pesos em eduagarcia/RoBERTaLexPT-base.
NorBERTo (Itaú Unibanco, 2026, arXiv:2605.00086, PROPOR 2026): o primeiro encoder em português baseado na arquitetura ModernBERT, em versões base (100M) e large. Foi treinado sobre o Aurora-PT (331 bilhões de tokens GPT-2), descrito como o maior corpus monolíngue aberto em português, embora ainda não disponível em jun/2026. Apresenta resultados fortes (PLUE/MRPC F1 0,9191; ASSIN2 Entailment ~0,904), mas adota a licença CC BY-NC-SA 4.0, que veda uso comercial: uma limitação relevante para um modelo de origem corporativa. Disponível em Itau-Unibanco/NorBERTo.

Além desses, o ecossistema inclui uma "longa cauda" de encoders especializados: LegalBERT-pt (BRACIS 2023, 10 tribunais), GovBERT-BR (BRACIS 2024, compras governamentais), BERTugues (UEL), BioBERTpt (PUCPR/HAILab, clínico, ver aplicações em saúde), BERTweet.BR (2025), DeB3rta (financeiro, 2025) e o modernJabuticaBERT (Amadeus AI). O PTT5 (NeuralMind/Unicamp, arXiv:2008.09144) e o PTT5-v2 (arXiv:2406.10806) cobrem ainda a vertente sequence-to-sequence (T5) em português.

Encoders portugueses (PORTULAN) e sentence-transformers para RAG

O ecossistema brasileiro é tecnicamente inseparável do português europeu produzido pelo consórcio PORTULAN CLARIN (Universidade de Lisboa/Porto), liderado por António Branco, cujos modelos cobrem explicitamente a variante PT-BR. Duas famílias são centrais:

A família Albertina PT-* (arXiv:2305.06721 e arXiv:2403.01897) baseia-se em DeBERTa e oferece tamanhos de 100M, 900M e 1,5B de parâmetros. A Albertina 900M PT-BR foi treinada sobre uma versão deduplicada do brWaC (No-brWaC) e 3,7B tokens do OSCAR (licença MIT), atingindo ASSIN2 RTE de 0,8950 e STS de 0,8547. A Albertina 1.5B PT-BR (48 camadas) usa 36B tokens do CulturaX e atinge ExtraGLUE RTE de 0,8676 e STS-B de 0,9007.

Para busca semântica e RAG, contudo, o recurso mais relevante é a família Serafim PT* (arXiv:2407.19527), de sentence encoders (sentence-transformers) lançada em julho de 2024 nas escalas 100M, 335M e 900M, com variantes otimizadas para similaridade textual (STS) e para recuperação de informação (IR). O pipeline de treinamento tem 4 estágios (CT Loss, GISTEmbed/NLI, CoSENT/AnglE/STS e mMARCO/IR). O modelo serafim-900m-ir atinge MRR@10 de 0,8539 no mMARCO, descrito no dossiê como estado da arte para RAG em português, o que o torna a escolha de referência para a etapa de recuperação de documentos em pipelines generativos. Há também variantes leves voltadas a IR, como serafim-100m-portuguese-pt-sentence-encoder-ir. É importante notar que o achado do projeto Napolab (Ruan Chaves Rodrigues, 2023) alerta que, em diversas tarefas, modelos multilíngues genéricos não são superados pelos modelos específicos de português: uma ressalva relevante ao escolher embeddings para produção.

Tabela-resumo: modelos de embeddings/encoders para português

Modelo	Tipo / Arquitetura	Parâmetros	Corpus de treino	Licença	Desempenho-chave	Criador / Ano
Embeddings NILC	Word2Vec/FastText/GloVe (estáticos)	—	1,39B tokens (17 corpora)	Uso acadêmico	Baseline histórico	NILC/ICMC-USP, 2017
BERTimbau Base/Large	BERT encoder (do zero)	110M / 335M	brWaC (2,68B tokens)	MIT	ASSIN2 STS Pearson 0,836/0,852; RTE F1 89,2/90,0	NeuralMind/Unicamp, 2020
DeBERTinha	DeBERTa-V3 XSmall (adaptado)	~40M	Carolina	—	Supera BERTimbau-Large em NER/sentimento	Sagui NLP, 2023
PeLLE (p/x/mPeLLE)	RoBERTa/XLM-R/mBERT	—	Carolina v1.2 (823M palavras)	CC BY 4.0	pPeLLE F1 0,82 (Acórdãos TCU); xPeLLE F1 0,91 (HateBR)	USP/IBM/PUC-Rio, 2024
RoBERTaLexPT	RoBERTa-base (jurídico)	~100–125M	LegalPT + CrawlPT (29,2B tokens)	CC BY 4.0	PortuLex 85,41% F1-macro (supera Albertina-xlarge com ~9× menos params)	INF-UFG, 2024
Albertina 900M PT-BR	DeBERTa	900M	No-brWaC + OSCAR (3,7B)	MIT	ASSIN2 RTE 0,8950; STS 0,8547	PORTULAN, 2023+
Albertina 1.5B PT-BR	DeBERTa (48 camadas)	1,5B	CulturaX (36B tokens)	CC BY 4.0/MIT	ExtraGLUE RTE 0,8676; STS-B 0,9007	PORTULAN
Serafim PT*	sentence-transformers (STS/IR)	100M / 335M / 900M	NLI + STS + mMARCO	MIT / CC BY 4.0	serafim-900m-ir MRR@10 0,8539 (SOTA RAG); STS Spearman até 0,8570	PORTULAN/Univ. Lisboa, jul/2024
NorBERTo Base/Large	ModernBERT (1º em PT)	100M / large	Aurora-PT (331B tokens)	CC BY-NC-SA 4.0 (sem uso comercial)	PLUE/MRPC F1 0,9191; ASSIN2 Entailment ~0,904	Itaú Unibanco, 2026
LegalBERT-pt / GovBERT-BR / BioBERTpt / DeB3rta	BERT (domínios)	variados	corpora setoriais	variadas	NER e classificação de domínio	diversos, 2020–2025

Corpora e datasets

A escalada de qualidade dos modelos brasileiros acompanha de perto a evolução dos corpora de pré-treinamento. O percurso vai do brWaC (2,68 bilhões de tokens, base do BERTimbau e da Albertina) e do Carolina (USP/C4AI) até os corpora massivos da virada de 2024–2026: GigaVerbo (200B tokens, base do Tucano), GigaVerbo-v2 (~320B), ClassiCC-PT (~120–126B, base dos modelos Curió) e o Aurora-PT (331B). Uma tensão recorrente é a de licenciamento: corpora estruturantes como o brWaC têm uso restrito acadêmico, o Carolina é CC BY-NC-SA 4.0 (não comercial) e o próprio Aurora-PT/NorBERTo herda restrições não comerciais: um fator que, conforme o dossiê, limita o uso comercial de boa parte da pilha de dados e modelos. A tendência observada, evidenciada pelo experimento do Curió-Edu e pela literatura de reescrita sintética (arXiv:2603.24826), é a de que qualidade de dados supera quantidade, e de que a reescrita sintética amplifica a curadoria em vez de substituí-la.

Corpora de pré-treinamento

Corpus	Tamanho	Origem	Licença	Usado por
brWaC	2,68B tokens / 3,53M docs (17,5 GB)	UFRGS (web .br)	Restrito acadêmico	BERTimbau, Albertina
Carolina	823M palavras (v1.2); 15 GB (v2.0.1)	USP/C4AI/LaViHD + PORTULAN	CC BY-NC-SA 4.0	PeLLE, DeBERTinha
Embeddings NILC	1,39B tokens (17 corpora)	NILC/ICMC-USP (2017)	Uso acadêmico	baseline
GigaVerbo	200B tokens / 145M docs (780 GB)	Univ. Bonn (Corrêa)	Permissiva	Tucano
GigaVerbo-v2	~320B tokens / 372M docs	Univ. Bonn	Permissiva	Tucano 2
ClassiCC-PT	~120–126B tokens / 116M docs	Unicamp/Maritaca	—	Curió
CrawlPT	>52M docs (deduplicado)	brWaC+CC100+OSCAR	—	GigaVerbo, RoBERTaLexPT
LegalPT	>24M docs / 125 GiB	INF-UFG	—	RoBERTaLexPT
Aurora-PT	331B tokens GPT-2	Itaú Unibanco	Aberta (futura)	NorBERTo
OSCAR-2301 (PT)	~2,7B palavras / 39,4 GB	INRIA/ALMAnaCH	—	Albertina, CrawlPT
CulturaX (PT)	36B tokens selecionados	mC4+OSCAR	—	Albertina 1.5B
mMARCO	8,8M passagens / 13 idiomas	Unicamp/NeuralMind (2021)	Apache 2.0	Serafim (IR/RAG)

O GigaVerbo (TucanoBR/GigaVerbo, Universidade de Bonn) merece destaque por ser, segundo o dossiê, um dos maiores corpora abertos em português com transparência total de pipeline; dos 200B tokens originais, ~129B sobreviveram à filtragem por um classificador BERTimbau. O Carolina (arXiv:2303.16098), produzido no âmbito do C4AI/USP, é o "corpus geral do português brasileiro contemporâneo" e base dos encoders PeLLE. O mMARCO (arXiv:2108.13897), versão multilíngue do MS MARCO produzida pela Unicamp/NeuralMind, é o ativo-chave para treinar e avaliar recuperação de passagens em português, sendo um dos estágios do pipeline do Serafim e a métrica (MRR@10) usada para aferir qualidade de RAG.

Datasets de avaliação (STS, NLI, QA, classificação)

Dataset	Tarefa	Tamanho	Origem / Ano	Notas
ASSIN	STS + NLI (PT-BR/PT-PT)	—	NILC/USP	Pioneiro em similaridade/inferência semântica
ASSIN2	STS + entailment	—	NILC	Benchmark padrão de encoders (RTE/STS)
mMARCO	Recuperação de passagens (IR)	8,8M passagens / 13 idiomas	Unicamp/NeuralMind, 2021	Núcleo de avaliação de RAG; MRR@10
Pirá	QA bilíngue (PT-EN) sobre o oceano	—	C4AI/USP, 2022	arXiv:2202.02398; domínio oceânico/clima
FaQuAD / FaQuAD-NLI	QA extrativo / NLI	900 questões	BRACIS 2019	Compreensão de leitura acadêmica
HateBR	Detecção de discurso de ódio	7.000 comentários (Instagram)	Francielle Vargas et al., 2021	arXiv:2103.14972
TweetSentBR	Análise de sentimento	15.000 tweets	arXiv:1712.08917	Sentimento em redes sociais
GigaVerbo	Pré-treinamento (não avaliação)	200B tokens	Univ. Bonn	Filtrado por classificador BERTimbau

Os benchmarks ASSIN e ASSIN2 (NILC/USP, site oficial) são os instrumentos canônicos para medir a qualidade de embeddings e encoders em português, cobrindo similaridade textual semântica (STS) e inferência/entailment (RTE), daí sua presença recorrente como métrica de comparação de praticamente todos os encoders aqui listados, e também sua incorporação (15-shot) ao Open Portuguese LLM Leaderboard. O Pirá (GitHub C4AI/Pira), dataset de QA bilíngue PT-EN sobre o oceano e mudanças climáticas, é um recurso de avaliação de domínio especializado produzido no C4AI. O HateBR (repositório de Francielle Vargas) e o TweetSentBR são os datasets de referência para classificação de discurso de ódio e sentimento, embora o HateBR também figure entre os corpora com licenciamento restritivo, conforme apontado nos desafios do ecossistema.

Síntese analítica

Três padrões estruturam esta camada. Primeiro, a dominância prática dos encoders sobre os geradores: o BERTimbau, com mais de 1,28 milhão de downloads mensais na versão Large, é o caso de maior penetração real de qualquer modelo de PLN brasileiro, sustentando busca semântica e RAG em produção em setores como o jurídico (INA2/TCU). Segundo, a convergência para eficiência: DeBERTinha (~40M) supera o BERTimbau-Large (335M) em tarefas específicas e o RoBERTaLexPT atinge estado da arte jurídico com ~9× menos parâmetros que concorrentes, sinalizando que, nesta camada, arquitetura e curadoria de dados pesam mais que escala. Terceiro, para RAG especificamente, o ativo de ponta é o serafim-900m-ir (MRR@10 de 0,8539 no mMARCO), apoiado no mMARCO da Unicamp/NeuralMind como infraestrutura de recuperação. A principal fragilidade transversal é o licenciamento: corpora fundacionais (brWaC, Carolina, HateBR) e encoders recentes de origem corporativa (NorBERTo, CC BY-NC-SA) carregam restrições que limitam o uso comercial: um gargalo que pode condicionar a transferência efetiva da robustez acadêmica desta camada para aplicações de mercado.

9. Arquiteturas Dominantes: From-Scratch vs. Fine-tuning

A análise do catálogo de mais de 50 LLMs em português brasileiro mapeados pela UFG revela um padrão arquitetural inequívoco: a esmagadora maioria dos modelos brasileiros não é treinada do zero, mas construída por adaptação de bases estrangeiras, sobretudo as famílias LLaMA (Meta), Mistral, Qwen (Alibaba) e Gemma (Google). O treino from-scratch (pré-treino nativo) é a exceção, restrita a um punhado de iniciativas acadêmicas e a alguns encoders. Essa dependência estrutural de foundation models importados é, simultaneamente, a estratégia mais racional do ponto de vista de custo-benefício e o principal limitador da autonomia tecnológica nacional.

Uma taxonomia de três abordagens

O ecossistema pode ser organizado segundo três estratégias de construção, com perfis muito distintos de custo computacional e risco de degradação de conhecimento (o "esquecimento catastrófico"):

Abordagem	Custo computacional	Risco de esquecimento catastrófico	Exemplos brasileiros
From-scratch (pré-treino nativo)	Muito alto	Nenhum	Tucano, TeenyTinyLlama, GlórIA, BERTimbau, NorBERTo
Continued pretraining	Alto	Moderado	Sabiá-1/2/3/4, Curió, Canarim, Juru, GAIA, LLM2GovBR
Fine-tuning / instrução	Baixo-médio	Baixo	Bode, Amadeus-Verbo, Jurema, Cabrita, Caramelinho

A tendência temporal é reveladora: até 2024, o continued pretraining dominou pela sua relação custo-benefício, permitindo aproveitar bilhões de dólares em pré-treino estrangeiro a uma fração do custo. A partir de 2025, ganha força uma segunda onda de from-scratch apoiada em corpora maiores (Tucano 2, com ~320B tokens) e em técnicas de reescrita sintética de dados, sinalizando uma busca por maior autonomia, ainda que minoritária.

A predominância do continued pretraining e do fine-tuning

O caso mais emblemático do continued pretraining é a família Sabiá, da Maritaca AI. O Sabiá-7B/65B (abr/2023, arXiv:2304.07880) foi obtido por continuação do pré-treino do LLaMA-1, consumindo apenas 7B tokens em português do ClueWeb22 mais 10B adicionais: o equivalente a menos de 3% do orçamento de pré-treino original do modelo base. O resultado: o Sabiá-65B equiparou-se ao GPT-3.5-turbo no benchmark Poeta. Essa eficiência ilustra a lógica econômica fundamental: reaproveitar o conhecimento já codificado num modelo de fronteira é ordens de magnitude mais barato do que recriá-lo. A partir do Sabiá-2 (mar/2024, arXiv:2403.09887), a empresa passou a recusar explicitamente revelar arquitetura, base e metodologia, tornando os modelos comerciais fechados: uma das opacidades mais sensíveis do ecossistema, repetida no Sabiá-3 e Sabiá-4.

Outros exemplos de continued pretraining sobre bases abertas reforçam o padrão. O Canarim-7B (Maicon Domingues, set/2023) adapta o LLaMA-2 com 16B tokens do Common Crawl em português, vale notar a correção registrada no dossiê de que sua base é LLaMA-2, e não Mistral, uma confusão recorrente. O GAIA (CEIA-UFG/Google, jun/2025) continua o pré-treino do Gemma-3-4b com ~13B tokens, elevando o desempenho no ENEM 2024 de 0,6556 (base) para 0,70. O Curió/Curió-Edu (Unicamp/Maritaca, dez/2025) parte do LLaMA-2-7B com 100B tokens do corpus ClassiCC-PT.

No espectro do fine-tuning/instrução: o mais barato, concentra-se grande parte da produção acadêmica. O Bode (Recogna NLP/UNESP, jan/2024) aplica LoRA (alpha=32, dropout=0,05) sobre LLaMA-2-7B/13B com o dataset Alpaca traduzido (~52K exemplos), treinado no supercomputador Santos Dumont. O Amadeus-Verbo (Amadeus AI, jun/2025) faz full-parameter fine-tuning da família Qwen2.5 (0,5B a 72B) com ~600K instruções, a um custo declarado de mais de US$ 130.000 em GPUs H100/H200 da AWS. O Cabrita/openCabrita-3B (Larcher et al./22h, ago/2023) combina adaptação de tokenizer e continued pretraining do OpenLLaMA 3B.

As poucas iniciativas de treino do zero

Apenas um pequeno conjunto de projetos treina modelos generativos nativamente, do zero, e quase todos têm raiz acadêmica. O caso mais maduro é o Tucano (arXiv:2411.07854, nov/2024), família decoder-only (arquitetura Llama 2: RMSNorm, RoPE, GQA) com modelos de 160M a 2,44B parâmetros, treinada do zero sobre o corpus GigaVerbo (200B tokens; ~129B após filtragem por classificador BERTimbau). É notável por dois motivos: a transparência total, publicado em Patterns (Cell Press) em jul/2025, com pesos sob licença Apache 2.0, e a afiliação institucional, a Universidade de Bonn (Alemanha), e não a PUCRS como frequentemente se atribui. Seu antecessor, o TeenyTinyLlama (arXiv:2401.16640, jan/2024), de 160M e 460M parâmetros, treinado do zero sobre o Pt-Corpus (4,1B tokens), reivindica ser o "primeiro autorregressivo gerador nativo PT-BR" [DISPUTADO], com custo total de apenas **~US$ 500** em uma única A100-40GB. O Tucano 2 (mar/2026, arXiv:2603.03543), embora rotulado pelo dossiê como continued pretraining sobre Qwen 2.5/3, marca a transição para corpora ainda maiores (GigaVerbo-v2, ~320B tokens, mais 9,3B sintéticos).

No campo dos encoders, o treino do zero é mais comum: o BERTimbau (NeuralMind/Unicamp, 2020) foi pré-treinado do zero sobre o brWaC (2,68B tokens) e é, de longe, o modelo brasileiro mais adotado: o BERTimbau Large registra cerca de 1,28 milhão de downloads/mês. Mais recentemente, o NorBERTo (Itaú Unibanco, 2026), primeiro encoder PT baseado em ModernBERT, foi treinado do zero sobre o Aurora-PT (331 bilhões de tokens), descrito como o maior corpus monolíngue PT aberto.

No contexto luso-brasileiro, o GlórIA (NOVA LINCS, fev/2024) é um decoder GPT-Neo (1,3B/2,7B) treinado do zero com 35,5B tokens de PT-PT, embora em variante europeia.

Vale registrar o contraste sintomático dos modelos comerciais opacos: o Amazônia IA (WideLabs, jul/2024) afirma desenvolvimento nativo, mas a própria atribuição "do zero vs. fine-tuning" está [DISPUTADA], veículos como TechTudo e Capital Digital o descrevem como fine-tuning de modelo existente, e Rodrigo Nogueira (Maritaca) questionou publicamente a alegação de modelo "100% brasileiro". Não há paper técnico, base revelada nem modelos públicos no Hugging Face. O Soberano 1 (SoberanIA/Piauí, mai/2026, 30B parâmetros) tem arquitetura não divulgada, sendo impossível determinar se é from-scratch ou fine-tune de base aberta [INCERTO].

Tokenizers para o português: o problema da fertilidade

Um eixo técnico central que diferencia as abordagens é o tratamento dos tokenizers. O problema da fertilidade, tokenizers treinados predominantemente em inglês fragmentam palavras em português em mais tokens, encarecendo inferência e treino e reduzindo o contexto útil, motivou três estratégias:

Tokenizer novo do zero: o TeenyTinyLlama treinou um SentencePiece de 32K, alcançando 66% de melhoria sobre o tokenizer do Llama 2; o Tucano 2 atingiu fertility de 1,51 (2,88 caracteres/token), cerca de 30% de economia.
Tokenizer adaptado/expandido: o Cabrita expandiu para um vocabulário bilíngue de 52K, com 35% de redução no número de tokens.
Manter o tokenizer da base: Juru e Curió preservam o tokenizer original do modelo-base, priorizando compatibilidade.

Os algoritmos predominantes são BPE e SentencePiece com byte-fallback, e os vocabulários variam de 32K–52K (modelos brasileiros) a 128K (Llama 3, Gervásio 70B). A escolha do tokenizer é especialmente decisiva para quem treina do zero, onde há liberdade total para otimizar o vocabulário ao português: uma vantagem técnica que parcialmente compensa o custo muito mais alto dessa via.

Qualidade de dados: a evidência de que "qualidade > quantidade"

Talvez o achado mais robusto e contraintuitivo do ecossistema seja a primazia da qualidade dos dados sobre o volume bruto. O caso Curió-Edu é exemplar: o modelo treinado com dados educacionais/STEM cuidadosamente selecionados supera o Curió-7B usando apenas 10% dos dados e 20% do compute (~1.400 vs. ~7.000 horas de TPU), com ganho de +8,4 pontos no PoETa V2 (arXiv:2512.12770). Complementarmente, um estudo de reescrita sintética (arXiv:2603.24826) demonstrou que reescrever dados de alta qualidade do ClassiCC-PT com um modelo instrucional 7B gera +3,4 NPM no PoETa V2, ao passo que reescrever dados de baixa qualidade rende apenas +0,5, concluindo que a reescrita sintética amplifica a curadoria, mas não a substitui.

Esse ganho depende de pipelines sofisticados de construção de corpora. O ClassiCC-PT (Unicamp/Maritaca, ~120–126B tokens) emprega filtragem em múltiplos estágios (CLD2 → Trafilatura → MinHash, com ~40% removido → filtros C4/MassiveWeb → três classificadores BERTimbau para qualidade educacional, STEM e toxicidade, com F1 entre 0,76 e 0,78). O GigaVerbo do Tucano também usa classificador BERTimbau, reduzindo de 200B para ~129B tokens efetivos. A disponibilidade de corpora abertos e bem curados (GigaVerbo, ClassiCC-PT, Carolina, brWaC) é, portanto, um pré-requisito tão crítico quanto o poder computacional, e a maioria sofre de licenças restritivas (brWaC restrito a uso acadêmico; Carolina e NorBERTo/Aurora-PT sob CC BY-NC-SA, vedando uso comercial), o que limita a transição da pesquisa para a produção.

Custo computacional e o gargalo estrutural

A assimetria de custos entre as abordagens é dramática e explica a predominância do continued pretraining e do fine-tuning. Nas faixas menores, o custo é acessível: o TeenyTinyLlama foi treinado por ~US$ 500, e o Tucano por ~US$ 5.990 (Tucano 1; ~15.615 kWh de energia). Já o fine-tuning de larga escala, como o Amadeus-Verbo, custou mais de US$ 130.000.

Mas o salto para modelos de fronteira treinados do zero é o verdadeiro obstáculo. O próprio blog técnico da Maritaca estima que um ciclo completo de treino de um modelo de ~1 trilhão de parâmetros (MoE, ~49B ativos) sobre 500B tokens consome ~45.000 GPU-horas e custa ~R$ 7,2 milhões (~US$ 1,5M) por ciclo completo, com runs finais entre R$ 1,0 e 2,7 milhões, usando GPUs B200 a R$ 22/h (neoclouds) ou R$ 60/h (grandes provedores). Para escalar nacionalmente, Rodrigo Nogueira propôs um plano de R$ 266 milhões em 1,5 ano (Maritaca, "Why Brazil needs to train its own AIs from scratch"), em três fases (20 equipes × R$ 4M; 8 × R$ 12M; 3 × R$ 30M), com 32 GPUs B200 por equipe.

O dossiê identifica explicitamente o gargalo de computação como o fator limitante mais citado para o treino from-scratch em grande escala, e o supercomputador nacional previsto pelo PBIA (R$ 1,8 bilhão, ~5.000 GPUs, >500 PFlops), que viabilizaria essa escala, ainda não havia sido licitado em meados de 2026. É justamente esse limite que torna o continued pretraining a estratégia dominante: ele permite competir em benchmarks brasileiros sem arcar com o custo proibitivo do pré-treino completo.

Trade-offs de cada abordagem

A escolha arquitetural envolve compromissos bem definidos:

From-scratch: elimina o risco de esquecimento catastrófico e dá controle total sobre tokenizer, dados e licença (Tucano e TeenyTinyLlama são Apache 2.0, plenamente abertos), além de garantir autonomia e soberania tecnológica. O custo, porém, é muito alto e o gargalo de compute restringe a escala, daí os modelos nativos brasileiros serem majoritariamente pequenos (≤2,44B no Tucano; ≤460M no TeenyTinyLlama).
Continued pretraining: oferece o melhor custo-benefício, capturando o conhecimento do modelo de fronteira a baixo custo (o Sabiá usou <3% do orçamento original). O risco é o esquecimento catastrófico moderado e a dependência de uma base estrangeira cuja licença pode restringir uso (LLaMA Community License) ou que pode ser descontinuada. Há ainda o trade-off da especialização de domínio: o Juru, ao se especializar em direito sobre o Mistral-7B-v0.3, ganhou na média jurídica (72,0% vs. 65,2% da base) mas degradou em conhecimento geral, padrão recorrente nos modelos de domínio.
Fine-tuning/instrução: é o mais barato e de menor risco de esquecimento, ideal para adaptar comportamento e seguir instruções, mas herda integralmente as limitações de cobertura linguística e cultural da base, sem ampliar o conhecimento fundamental do português.

Em síntese, o ecossistema brasileiro de LLMs generativos é, hoje, predominantemente derivativo: construído por adaptação eficiente de LLaMA, Mistral, Qwen e Gemma. O treino do zero permanece confinado a iniciativas acadêmicas de pequena e média escala (Tucano, TeenyTinyLlama) e a encoders (BERTimbau, NorBERTo), enquanto os atores comerciais ou optam pela opacidade (Maritaca, WideLabs, SoberanIA) ou pela adaptação de bases abertas. Sem a infraestrutura computacional prometida pelo PBIA, e dadas as evidências de que a curadoria de dados rende mais do que o volume bruto, o caminho realista de curto prazo aponta para o aprofundamento do continued pretraining sobre bases abertas como o padrão dominante de custo-benefício, com o from-scratch reservado a apostas estratégicas de soberania ainda à espera de viabilização.

10. Infraestrutura Computacional

A infraestrutura computacional é, simultaneamente, o ativo mais visível e o gargalo mais citado do ecossistema brasileiro de IA. O dossiê é explícito ao apontar que a capacidade de computação é "o grande gargalo" para o desenvolvimento de LLMs nativos em larga escala (IAs brasileiras começam a nascer, Brazil Journal), e a fotografia de meados de 2026 confirma essa tensão: o país possui um parque de HPC respeitável e crescente, liderado pela Petrobras e pelo LNCC, mas a peça central planejada para a soberania computacional em IA, o supercomputador nacional de R$ 1,8 bilhão, ainda não havia sido licitada. Esta seção detalha o estado dessa infraestrutura, organizada do supercomputador acadêmico de referência até a nuvem soberana e a discussão do gargalo de compute.

Santos Dumont (LNCC, Petrópolis-RJ): a referência nacional

O supercomputador Santos Dumont, operado pelo Laboratório Nacional de Computação Científica (LNCC) em Petrópolis-RJ, é a principal máquina pública de HPC do Brasil e a espinha dorsal computacional do meio acadêmico. Sua configuração foi profundamente expandida em duas etapas, com arquitetura BullSequana XH3000 da Eviden (Atos) e tecnologia NVIDIA.

Os números devem ser citados com cuidado, pois há confusão recorrente entre as métricas Rmax, Rpeak e os valores anunciados pelo fabricante (alerta sinalizado no próprio dossiê). Ancorando sempre na edição do ranking TOP500:

Edição/Marco	Posição TOP500	Rmax	Rpeak	Observações
Configuração original (2015)	178	~0,36 PFlop/s	—	Linha de base
Expansão nov/2024	89	14,29 PFlop/s	20,26 PFlop/s	GREEN500 39; 68.064 cores; US$ 19,4 mi (cooperação Petrobras)
Após ampliação PBIA (jun/2025)	107	18,85 PFlop/s (anunciado pela Eviden)	—	GREEN500 52; aumento de ~575% vs. 2015

A configuração de novembro de 2024 combina 62 blades XH3145-H (4× NVIDIA H100 cada), 36 blades XH3515-H (4× NVIDIA Grace Hopper GH200), 20 blades AMD EPYC 9684X, 6 blades AMD MI300A e 4 nós Grace Superchip, interconectados por InfiniBand NDR 400 Gbps e resfriamento líquido direto que captura mais de 98,5% do calor (HPCwire, Eviden Upgrades Santos Dumont; LNCC, Santos Dumont no Top 100; TOP500, perfil). A ampliação de 2025 foi formalmente apresentada como "o primeiro passo do PBIA" (Blog NVIDIA, ampliação 4x).

O Santos Dumont não é apenas uma vitrine: tem papel operacional comprovado no treinamento de LLMs brasileiros. O modelo Bode (Recogna NLP/UNESP) foi treinado nele via auxílio Fundunesp (Bode, arXiv:2401.02909), e o projeto Carcará demonstrou a implantação do DeepSeek V3-0324 (685 bilhões de parâmetros) na máquina, via quantização dinâmica distribuída em 4 nós H100, com foco em soberania de dados (Carcará, Research Square).

O supercomputador nacional do PBIA: a aposta soberana ainda não materializada

A peça mais ambiciosa do Plano Brasileiro de IA (PBIA 2024–2028) é um supercomputador nacional dedicado de R$ 1,8 bilhão, projetado para abrigar cerca de 5.000 GPUs, com arquitetura RISC-V prevista para fases futuras, visando ultrapassar 500 PFlops e colocar o Brasil no top 5 mundial, com custo de manutenção estimado em ~US$ 50 milhões/ano. A operação caberá ao LNCC, mas o local ainda estava em definição em meados de 2026: Petrópolis foi descartada pelo custo energético, com o Rio de Janeiro e o datacenter da Telebras em Brasília como candidatos. Os parceiros consultivos incluem Unicamp, o Barcelona Supercomputing Center (BSC) e o Instituto Eldorado (Convergência Digital, Supercomputador do PBIA terá 5 mil GPUs e RISC-V).

O ponto crítico, e o sintoma mais eloquente do gargalo de compute, é o atraso: o edital foi postergado de outubro de 2025 para março-abril de 2026, e o dossiê registra que, em meados de 2026, a licitação ainda não havia ocorrido. Esse atraso é apontado como um dos principais entraves à execução do PBIA, sobretudo porque o eixo de "Infraestrutura e Desenvolvimento de IA" concentra R$ 5,79 bilhões do plano.

Petrobras: a maior frota privada de HPC da América Latina

A capacidade computacional mais robusta do país não está na academia, mas na Petrobras, cuja frota de HPC, dedicada primordialmente a processamento sísmico do pré-sal e da Margem Equatorial, é a maior da América Latina e supera, em escala, o parque acadêmico nacional.

Máquina	Lançamento	Capacidade	GPUs	Investimento	Status/Local
Pégaso	dez/2022	21 PFlops	2.016 NVIDIA A100-80GB	R$ 300 milhões	Vargem Grande-RJ; TOP500 33º (2022); 233.856 cores AMD EPYC 7513; 678 TB RAM
Dragão	jun/2021	~14 PFlops (8,9 no TOP500)	2.000 V100-32GB	—	Em desativação; 200 TB RAM
Tatu	mar/2023	2,4 PFlops	224 A100-80GB	R$ 36 milhões	Cenpes-RJ; primeiro HPC da Petrobras exclusivo de IA
Novo HPC (Lenovo)	2024–2025	maior com ~73 PFlops	—	R$ 500 milhões (5 máquinas; R$ 435 mi a maior)	Substitui Fênix, Atlas e Dragão; ~50 toneladas

O Pégaso (Atos/Eviden) é descrito como o supercomputador mais potente e ecoeficiente da América Latina (Agência Petrobras, Pégaso é tetracampeão; Tecnoblog, 678 TB de RAM). O Tatu marcou a entrada da estatal no HPC voltado especificamente a IA (Agência Petrobras, Tatu), e o novo investimento de R$ 500 milhões em cinco supercomputadores Lenovo consolida a liderança da empresa (Agência Petrobras, R$ 500 milhões). É relevante notar que a Petrobras é também co-financiadora indireta do Santos Dumont (a cooperação cobriu parte dos US$ 19,4 milhões da expansão de 2024) e parceira de pesquisa do INCT TILD-IAR, criando uma ponte entre o HPC corporativo e a pesquisa pública.

SENAI CIMATEC: o polo de supercomputação industrial

Em Salvador (BA), o SENAI CIMATEC opera o maior polo de supercomputação industrial da América Latina (Centro de Supercomputação CS2I), integrado ao SINAPAD. Seu carro-chefe é o OGBON (nov/2019): 1,605 PFlops com 312 GPUs V100 NVLink distribuídas em 78 nós, financiado pela Petrobras/Cenpes a um custo de ~R$ 30 milhões (SENAI CIMATEC, Inauguração OGBON). O parque inclui ainda máquinas tipicamente vinculadas a parceiros do setor de energia: Yemoja (2015, 400 TFlops, Shell), Airis (800 TFlops, Repsol), Ògún (2018, 104 TFlops, FINEP/Atos) e Omolu (SENAI CIMATEC, Infraestrutura oficial). O perfil do CIMATEC reforça um padrão estrutural do HPC brasileiro: boa parte da capacidade instalada nasce vinculada a demandas de óleo e gás, e não a IA generativa em língua portuguesa.

Universidades: a nova onda de clusters Blackwell e a chegada da B200

Entre 2025 e 2026, o ecossistema acadêmico passou por uma renovação acelerada de infraestrutura de IA, com a chegada das GPUs NVIDIA Blackwell B200 e H200 a instituições de ponta:

USP, Jairu (fev/2026): ao inaugurar, foi anunciado como o maior cluster de IA em operação na América Latina, com 96 GPUs NVIDIA Blackwell B200 (12 nós × 8 GPUs HGX), ~300 TB e custo de R$ 40 milhões, no CIAAM-USP, em parceria com Scherm, NVIDIA e Positivo (Hardware.com.br, Jairu; Inforchannel, USP inaugura cluster B200).
Unicamp, Abaporu (3/11/2025): 28 GPUs NVIDIA H200/L40s, ~US$ 1 milhão, financiado por Shell Brasil/ANP, no IC-Unicamp; a Unicamp também opera o Coaraci (dez/2023, Dell, ~388–801 TFlops, 42 GPUs, CCES) (Jornal da Unicamp, Abaporu; Unicamp, Coaraci).
CEIA-UFG: receberá o único supercomputador NVIDIA DGX B200 do país dedicado à pesquisa de IA, em parceria com a Semantix, cujo laboratório conjunto de IA generativa em Goiânia (nov/2025) também opera um DGX B200 (Semantix e UFG criam laboratório).
UnB, LmiSUP (2025): aceleradores Intel Gaudi, uma das poucas apostas em hardware não-NVIDIA (CNN Brasil, Supercomputador na UnB).
RECOD.ai/Unicamp (NVIDIA AI Joint Lab, 2022–2023): ~80 GPUs.

Esse movimento, novamente, evidencia a dependência quase total da NVIDIA (H100, GH200, A100, V100, B200, H200, DGX B200), com a exceção pontual dos Gaudi da Intel na UnB e da arquitetura RISC-V planejada (em fases futuras) para o supercomputador do PBIA.

Nuvem soberana e datacenters

A frente de soberania computacional ganhou corpo com a Nuvem de Governo, operada por SERPRO e Dataprev e descrita como a única nuvem 100% soberana do Hemisfério Sul. Lançada em abril de 2024, atendia mais de 250 órgãos do Executivo Federal em junho de 2025, com datacenters em SP e Brasília sob a LGPD e investimento de R$ 324 milhões (2024). O modelo é híbrido, integrando AWS/Azure/Oracle/Google em datacenters nacionais; o SERPRO gerencia o GOV.BR (170M usuários) e a Dataprev, 96M cadastros do CadÚnico (SERPRO, nuvem 100% soberana; Agência Gov, Nuvem de Governo). O PBIA prevê, ainda, R$ 1 bilhão para uma nuvem soberana específica de IA.

No plano dos incentivos a datacenters, o instrumento central é o REDATA (MP 1.318/2025), Regime Especial de Tributação para Datacenters, que suspende PIS/Cofins/IPI/II por 5 anos, com renúncia fiscal estimada em R$ 5,2 bilhões em 2026 e contrapartidas de 10% da capacidade ao mercado interno e uso de energia renovável; foi aprovado na Câmara em 25/02/2026 (Câmara aprova REDATA; MP cria o REDATA, Fazenda). Grandes projetos de capacidade já se desenham, sobretudo no Nordeste e no Sul, ancorados em energia renovável: o Scala AI City (Eldorado do Sul-RS) reserva 500 MW (até 4,75 GW planejados, R$ 3 bilhões iniciais), e o projeto TikTok/Casa dos Ventos (Pecém-CE) projeta 1,5 GW e R$ 150 bilhões. O Brasil já lidera o mercado de datacenters da América Latina (~181–200 instalações, ~50% dos investimentos regionais; SP concentra 40+ datacenters), com projeção de US$ 6,5 bilhões/ano entre 2025 e 2030.

Aquisição de GPUs, nuvem hyperscaler e os anúncios das big techs

A aquisição de capacidade de computação no Brasil se dá em dois canais: compra direta de GPUs NVIDIA para clusters on-premises (Petrobras, USP/Jairu, Unicamp, CIMATEC, etc.) e uso de nuvem hyperscaler (AWS, GCP, Azure, Oracle). Os anúncios de investimento das big techs, ainda que incluam capacitação e não apenas GPUs, dão a dimensão do aporte estrangeiro em infraestrutura:

Provedor	Anúncio	Valor	Detalhe
Microsoft (Azure)	26/09/2024	R$ 14,7 bi (US$ 2,7 bi) em 3 anos	Datacenters em SP; programa ConectAI (5M capacitados)
AWS	11/09/2024	R$ 10,1 bi (US$ 1,8 bi) até 2034	Região SP (8ª global); acumulado 2011–2023: R$ 19,2 bi
Google Cloud	2025	AL 2022–2027 > US$ 1,2 bi (BR não divulgado)	SP recebe TPU Trillium (6ª geração), 1ª região da AL; datacenter em Cajamar
Oracle (OCI)	—	—	Região SP; base de treinamento da WideLabs

(Microsoft, R$ 14,7 bilhões; AWS investirá R$ 10 bilhões; Google Cloud, nova era de IA no Brasil).

O padrão de uso de nuvem pelos desenvolvedores brasileiros é ilustrativo da heterogeneidade do ecossistema. A Maritaca AI treina seus modelos Sabiá majoritariamente em TPUs do Google Cloud (v5p/v6e Trillium) para pré-treino e SFT, recorrendo a GPUs B200 em "neoclouds" para a fase de RL (blog técnico Maritaca). A WideLabs treinou o Amazônia IA em GPUs NVIDIA H100 via Oracle Cloud (OCI Supercluster), com datacenters Ascenty em SP e servidores Supermicro montados pela Positivo (WideLabs trains on OCI, Oracle/PR Newswire). A Semantix roda seu LLM Lloro em uma única GPU NVIDIA H100, e a Amadeus AI treinou o Amadeus-Verbo em GPUs H100/H200 na AWS (custo > US$ 130.000). Já os modelos acadêmicos transparentes optam por hardware mais modesto: o Tucano foi treinado em 8–16 GPUs A100-80GB (cluster Marvin, Universidade de Bonn) e o TeenyTinyLlama em uma única A100-40GB, a um custo total de apenas ~US$ 500.

A economia do compute e a dimensão do gargalo

O dossiê traz uma rara estimativa quantitativa da economia de treinamento de um LLM de fronteira no Brasil, vinda do blog técnico da Maritaca. Para um modelo de ~1 trilhão de parâmetros (arquitetura MoE, ~49B ativos), treinado em 500B tokens, estima-se ~45.000 GPU-horas, custo de R$ 1,0–2,7 milhões por run final e ciclo completo de **~R$ 7,2 milhões (~US$ 1,5M)** e ~1,47×10²³ FLOPs. O preço de aluguel de uma B200 varia de R$ 22/h em "neoclouds" a R$ 60/h em grandes provedores, diferença que explica a estratégia de combinar TPUs (pré-treino) e neoclouds (RL) para conter custos.

A partir dessa economia, o cofundador da Maritaca, Rodrigo Nogueira, propôs um plano nacional de R$ 266 milhões em 1,5 ano, estruturado em três fases (20 equipes × R$ 4M; 8 × R$ 12M; 3 × R$ 30M), com 32 GPUs B200 por equipe (Why Brazil needs to train its own AIs from scratch, Maritaca). É instrutivo o contraste de ordens de grandeza: esse plano custaria menos que o orçamento anual de manutenção (~US$ 50 milhões) projetado para o supercomputador do PBIA, sinalizando que o gargalo é tanto de capital quanto de arranjo e prioridade, crítica que ecoa a análise do Instituto de Economia da Unicamp sobre a pulverização das iniciativas do PBIA.

A magnitude do gargalo fica mais nítida quando confrontada com a dependência externa: o dossiê destaca que o setor público brasileiro gastou R$ 10,35 bilhões em um único ano (jun/2024–jun/2025) com big techs internacionais, mais do que os R$ 5,79 bilhões que o PBIA destina à infraestrutura de IA ao longo de quatro anos (Intercept Brasil, R$ 10 bilhões com big techs). Esse descompasso é a expressão financeira do gargalo de compute: o país consome capacidade computacional estrangeira em ritmo muito superior ao que constrói capacidade soberana.

Conectividade, energia e a vantagem estrutural verde

O tecido que conecta esse parque é a RNP Rede e-Ciência (mínimo 100 Gb/s), interligando LNCC, SENAI CIMATEC, CPTEC-INPE e o Cenpes da Petrobras, com o programa "Conecta e Capacita" do MCTI (R$ 640 milhões até 2026). O SINAPAD foi reorganizado pela Portaria MCTI nº 9.445 (set/2025), que cria os Cenapads-IA, e o INPE investe R$ 200 milhões (projeto RISC, via FNDCT) para atingir 8 PFlops até 2028 (INPE, supercomputador de R$ 200 milhões; Jornal USP, nova estrutura do SINAPAD).

Por fim, vale registrar a principal vantagem estrutural do Brasil em infraestrutura de IA: a matriz elétrica com 88,2% de fontes renováveis (2024) e intensidade de carbono de apenas 59,9 gCO₂eq/kWh, frente a ~384 nos EUA, ~363 na Alemanha e ~473 da média global (BEN 2025, EPE). O dossiê estima que treinar o Tucano-2b4 no Brasil (~60 gCO₂/kWh) em vez da Alemanha (~370) reduziria as emissões em ~84% (de 4.536 kg para ~711 kg de CO₂). Essa energia limpa e relativamente barata é justamente o que torna o Nordeste e o Sul atraentes para os megaprojetos de datacenter (Pecém, Eldorado do Sul) e o que justifica a contrapartida de energia renovável exigida pelo REDATA. Em síntese, o Brasil dispõe de um diferencial energético competitivo e de uma base de HPC em expansão, mas a conversão dessa vantagem em soberania computacional de IA permanece travada pelo atraso na execução do supercomputador nacional e pela dependência persistente de GPUs e nuvem estrangeiras.

Notas de cautela sobre os dados desta seção: (i) as métricas do Santos Dumont devem sempre referenciar a edição do TOP500, dada a confusão recorrente entre Rmax 14,29, Rpeak 20,26 e o valor de 18,85 PFlops anunciado pelo fabricante; (ii) a arquitetura MoE de ~1T parâmetros do modelo de referência da Maritaca, base do cálculo de custo, provém de blog técnico, não confirmado em paper revisado; (iii) os valores de investimento das big techs incluem capacitação e operações gerais de nuvem, não exclusivamente GPUs para IA; (iv) o supercomputador nacional do PBIA, em meados de 2026, era um projeto ainda não licitado, e suas capacidades (5.000 GPUs, >500 PFlops, top 5 mundial) são metas anunciadas, não capacidade instalada.

11. Financiamento e Investimento

O financiamento do desenvolvimento de IA no Brasil articula-se em três camadas que operam em escalas e lógicas distintas: (i) o aparato de fomento público estruturado em torno do Plano Brasileiro de IA (PBIA) e de suas agências executoras (FINEP, BNDES, EMBRAPII, CNPq, FAPESP, FNDCT); (ii) o capital de risco privado (venture capital), historicamente escasso em LLMs nativos; e (iii) o investimento em infraestrutura das big techs estrangeiras, que paradoxalmente supera, em fluxo anual, o que o próprio Estado planeja desembolsar em infraestrutura nacional de IA. Esta seção mapeia essas fontes, quantifica os valores comprometidos até o horizonte de junho de 2026 e discute a sustentabilidade do arranjo, em particular a tensão entre um volume nominal expressivo (R$ 23 bilhões anunciados) e a execução efetiva, ainda parcial e fortemente baseada em crédito reembolsável.

O PBIA como espinha dorsal do financiamento público

O instrumento central de financiamento é o Plano Brasileiro de IA (PBIA 2024–2028), "IA para o Bem de Todos", coordenado pelo MCTI, com versão final publicada em 12 de junho de 2025 e investimento total anunciado de R$ 23,03 bilhões (≈ US$ 4 bilhões) distribuídos em 54 iniciativas (Publicação da Versão Final do PBIA, Gov.br; Brasil lança versão final do PBIA com R$ 23 bilhões, CREA-RJ). Desse total, 98,1% destinam-se a ações estruturantes e apenas 1,9% (R$ 435 milhões) a ações de impacto imediato. A distribuição por eixo concentra-se fortemente em inovação empresarial e infraestrutura:

Eixo	Tema	Valor
1	Infraestrutura e Desenvolvimento de IA	R$ 5,79 bilhões
2	Difusão, Formação e Capacitação	R$ 1,15 bilhões
3	IA para Melhoria dos Serviços Públicos	R$ 1,76 bilhões
4	IA para Inovação Empresarial	R$ 13,79 bilhões
5	Apoio Regulatório e Governança	R$ 103,25 milhões
Total		≈ R$ 23,03 bilhões

Fonte: PBIA 2024–2028, MCTI/Gov.br.

O ponto crítico para avaliar a sustentabilidade não está no valor de fachada, mas na estrutura de financiamento, majoritariamente reembolsável. Segundo o detalhamento do plano, aproximadamente 55% (~R$ 12,7 bilhões) correspondem a crédito reembolsável (FINEP/BNDES); ~24% (~R$ 5,57 bilhões) a recursos não reembolsáveis do FNDCT; ~12,5% (R$ 2,90 bilhões) ao Orçamento (LOA); ~4,6% (R$ 1,06 bilhão) a estatais; e apenas ~1,5% (R$ 360 milhões) ao setor privado. A FINEP é a principal financiadora, responsável por R$ 15 bilhões (65% do total) (Finep será a principal financiadora do PBIA). Essa composição implica que a maior parte do "investimento" é, na prática, oferta de crédito que precisa ser demandada, contratada e devolvida pelas empresas, e não dispêndio direto a fundo perdido.

Dentro do PBIA, dois componentes têm relevância direta para LLMs e embeddings: a previsão de desenvolvimento de um "LLM robusto em português" com R$ 1,1 bilhão (prazo de 12 meses não cumprido até 2025) e de uma nuvem soberana com R$ 1 bilhão. Uma distribuição alternativa do eixo estruturante citada no plano aloca R$ 11,3 bilhões (46%) em algoritmos/modelos, R$ 4,8 bilhões (20%) em dados, R$ 4,8 bilhões (20%) em capacidade computacional, R$ 2,8 bilhões (11%) em educação, R$ 500 milhões (2%) em energia e R$ 185 milhões (1%) em cibersegurança.

A análise mais incisiva sobre a sustentabilidade vem do Instituto de Economia da Unicamp (Buainain, Bastos, Carvalho), que estima que apenas ~2% dos recursos correspondem a ações genuinamente novas, sendo o restante "reempacotamento orçamentário" de programas pré-existentes. A crítica aponta ainda ausência de instrumentos de demand-side, de indicadores mensuráveis e de hierarquia de prioridades, com mais de 90 iniciativas pulverizadas (O PBIA: da euforia à inquietação, Instituto de Economia Unicamp). O balanço oficial de setembro de 2025 reportou ~R$ 6 bilhões mobilizados em crédito/subsídios, a ampliação do Santos Dumont, a seleção de 7 INCTs de IA e o lançamento do OBIA (MCTI apresenta Balanço do PBIA), ou seja, uma fração do total comprometido foi efetivamente acionada no primeiro ano.

Agências públicas: o consolidado BNDES + FINEP + EMBRAPII

O fluxo financeiro mais concreto e verificável é o conjunto de aprovações das três principais agências de fomento, que somam R$ 10,5 bilhões para projetos de IA no período 2023–início de 2026 (BNDES, Finep e Embrapii somam R$ 10,5 bilhões, Correio Braziliense):

Instituição	Total aprovado (IA)	Composição / detalhe
BNDES	~R$ 5,05 bilhões	R$ 4,1 bi crédito + R$ 947 mi equity (BNDESPAR)
FINEP	~R$ 4,25 bilhões	R$ 2,5 bi crédito + R$ 1,1 bi não reembolsável + R$ 636 mi subvenção
EMBRAPII	~R$ 1,2 bilhão	Coinvestimento não reembolsável (632 projetos de IA)
Total	~R$ 10,5 bilhões

Fonte: Correio Braziliense (mai/2026); BNDES soma R$ 4,7 bilhões aprovados para IA, Agência Gov.

BNDES. Em doze meses (jun/2024–jun/2025), o banco aprovou R$ 1 bilhão em crédito de IA via BNDES Mais Inovação, com beneficiárias como Positivo Tecnologia (R$ 330 milhões, fev/2024), Quality Digital (R$ 35,7 milhões) e Squadra Tecnologia (R$ 20 milhões) (Em um ano, BNDES aprovou crédito de R$ 1 bilhão para IA, Agência Brasil). A distribuição setorial favoreceu integradores/desenvolvedores (R$ 561 mi), hardware (R$ 258 mi) e infraestrutura (R$ 180 mi). Para datacenters, o BNDES dispõe de uma linha de R$ 2 bilhões dentro do programa Nova Indústria Brasil, da qual R$ 233 milhões já foram destinados à Tecto Data Centers (V.tal/Ceará). É importante notar, do ponto de vista de impacto sobre LLMs e embeddings, que essas aprovações privilegiam hardware, integração e infraestrutura, e não diretamente o treinamento de modelos fundacionais nativos.

FINEP. Além de ser a financiadora-âncora do PBIA (R$ 15 bilhões até 2028), a FINEP havia aprovado R$ 3,4 bilhões em projetos do plano até outubro de 2025 (Finep já aprovou R$ 3,4 bilhões, MobileTime). Operou ainda o programa "Soluções de IA para o Poder Público" (3ª rodada em fev/2025, R$ 24 milhões) e um edital de Tecnologias Digitais Avançadas (abr/2026, R$ 300 milhões). É também via FINEP que se canalizam aportes específicos para LLMs especializados: o modelo jurídico Jurema 7B (NeuralMind/Escavador) recebeu R$ 10 milhões da FINEP.

EMBRAPII. Bateu recorde em 2024 com 610 projetos e R$ 1 bilhão financiado, sendo a IA responsável por 31% das tecnologias mais demandadas; a carteira ativa alcança 1.059 projetos (R$ 2,4 bilhões) (Embrapii bate recorde e financia R$ 1 bilhão em 2024).

Novos instrumentos (2026). Dois mecanismos sinalizam um esforço de diversificar os instrumentos para além do crédito tradicional. O Fundo de IA (FIP) BNDES+FINEP, cujo edital para seleção de gestor foi lançado em abril de 2026, prevê R$ 205 milhões (até R$ 125 milhões do BNDES via BNDESPAR e até R$ 80 milhões da FINEP via FNDCT), com obrigação de 30% para Norte/Nordeste/Centro-Oeste e prazo de propostas até 28/05/2026 (BNDES e Finep lançam edital FIP-IA de R$ 205 milhões, Agência BNDES; Agência Brasil). Trata-se da primeira tentativa relevante de equity público estruturado em IA, embora o montante seja modesto frente ao porte das rodadas internacionais. No plano da pesquisa, a FAPESP abriu em dezembro de 2025 a primeira chamada do Programa Estratégico em Ciência da Computação com IA (ProCiêncIA), com até R$ 2,5 milhões por proposta e 60 meses de vigência (FAPESP ProCiêncIA).

FNDCT e CNPq. O FNDCT sustenta as linhas "IA Brasil" e "SOS Clima Brasil" (mai/2025), com LOA 2025 de R$ 14,66 bilhões e estimativa de ~R$ 96 bilhões para 2025–2029. Pelo lado do CNPq, a Chamada INCT 46/2024 resultou em 143 INCTs aprovados (jul/2025, R$ 1,63 bilhão total), dos quais 8 INCTs com foco explícito em IA receberam R$ 92,8 milhões (CNPq aprova 143 novos INCTs, MCTI). O mais relevante para PLN é o INCT TILD-IAR (DCC-UFMG, R$ 14,66 milhões), central em NLP/LLMs. A esse arranjo somam-se os 10 Centros de Pesquisa Aplicada (CPAs) em IA financiados por FAPESP/MCTI/CGI.br (R$ 1 milhão/ano por até 10 anos cada, ~R$ 200 milhões totais com contrapartida privada) (FAPESP, 10 centros de pesquisa em IA) e o financiamento tripartite do C4AI (USP/IBM/FAPESP), de ~R$ 8 milhões anuais por 5 anos (ago/2020–jul/2025) (C4AI, FAPESP).

Capital de risco e financiamento privado: a lacuna em LLMs

O contraste entre o robusto fomento público à pesquisa e a escassez de capital privado destinado a LLMs nativos é uma das marcas estruturais do ecossistema. O panorama de venture capital mostra um mercado vigoroso em IA aplicada, mas praticamente ausente em modelos fundacionais:

Em 2024, o VC brasileiro movimentou R$ 13,9 bilhões em 366 transações (+50% vs. 2023), com startups de IA captando 37% dos aportes (Startups de IA recebem 37% dos aportes em 2024, Finsiders).
Em 2025, o total caiu 13% para US$ 4,5 bilhões em 459 rodadas; startups de IA representaram 39% do capital (US$ 867,7 milhões em 120 rodadas de IA), mas das 11 maiores rodadas do ano apenas 2 eram AI-first, Solfintec e Enter (Captação de startups cai 13%, Bloomberg Línea; Das 10 maiores rodadas de 2025, minoria é AI-first, Startups.com.br).

A conclusão central, frente aos EUA, é a ausência de megarodadas privadas em LLMs no Brasil. Os grandes cheques de VC vão para legaltechs e agtechs de aplicação, não para empresas que treinam modelos fundacionais. As principais rodadas privadas mapeadas:

Empresa	Setor / foco	Rodada	Valor	Investidores	Valuation
Enter	Legaltech (IA para litígios)	Série B (mai/2026)	US$ 100 mi (R$ 500 mi)	Founders Fund (líder), Ribbit, Sequoia, Kaszek, Atlantico, ONEVC	US$ 1,2 bi (1º unicórnio de IA da AL)
Enter	—	Série A (out/2025)	US$ 35 mi	Founders Fund	~US$ 350 mi
Enter	—	Seed	US$ 5,5 mi	Sequoia	—
Solfintec	IA para agronegócio	Série D (2025)	US$ 52,8 mi	YvY Capital / Paulo Guedes	—
Advolve	IA marketing	Seed (fev/2025)	US$ 5,3 mi	Canary	—
Maritaca AI	LLM nativo (Sabiá)	—	Sem rodada formal de VC confirmada [INCERTO]	Aporte Jusbrasil (não divulgado) + ~US$ 1 mi créditos Google	—
WideLabs	LLM (Amazônia IA)	Série A (em captação)	buscando US$ 50 mi	—	—
Clarice.ai	Correção de texto / LLM próprio	Pré-seed	R$ 2,5 mi	Raio Capital, Veredas, PIPE Invest/FAPESP	—

Fontes: Enter capta R$ 500M, Startups.com.br; [Enter 100MSeriesB, GreenbergTraurig](https : //www.gtlaw.com/en/news/2026/05/press − releases/greenberg − traurig − represents − enter − in−100m-series-b--creating-latin-americas-first-ai-unicorn); WideLabs busca US$ 50 mi, Let's Money; Clarice.ai levanta R$ 2,5 mi, Exame.

O caso da Maritaca AI é emblemático e merece destaque: trata-se do único LLM generativo brasileiro com produto comercial relevante em produção (a família Sabiá, via API), e ainda assim não há registro de rodada formal de venture capital com valor confirmado: o financiamento conhecido limita-se a ~US$ 1 milhão em créditos Google e a um aporte não divulgado da Jusbrasil (Maritaca, Naturespace). Esse dado é a evidência mais clara da lacuna de financiamento privado em LLMs nativos: a empresa que mais avançou tecnicamente (Sabiá-3/4, com 128K de contexto) não atraiu, até o horizonte do levantamento, capital de risco em escala comparável às legaltechs de aplicação como a Enter. Vale registrar a disputa de prioridade sobre o título de "primeiro unicórnio de IA da AL" entre a brasileira Enter e a mexicana Kapital (US$ 100 mi Série C, valuation US$ 1,3 bi via Tribe Capital) [NOTA: reivindicações concorrentes].

Há ainda uma proposta alternativa de financiamento vinda do próprio setor: Rodrigo Nogueira (Maritaca) defende um plano nacional de R$ 266 milhões em 1,5 ano, estruturado em três fases (20 equipes × R$ 4 mi = R$ 80 mi; 8 × R$ 12 mi = R$ 96 mi; 3 × R$ 30 mi = R$ 90 mi), com 32 GPUs B200 por equipe (Why Brazil needs to train its own AIs from scratch, Maritaca AI). O argumento de viabilidade técnica é forte: o custo de um ciclo completo de treinamento de um modelo de ~1T parâmetros (MoE) é estimado pela própria empresa em **~R$ 7,2 milhões (~US$ 1,5 milhão)** por modelo, valor irrisório frente aos R$ 23 bilhões do PBIA, o que sugere que o gargalo não é financeiro em termos absolutos, mas de alocação e de acesso a computação.

Investimento privado em infraestrutura (big techs) e o paradoxo da dependência

Uma camada de "financiamento" frequentemente subestimada é o investimento das hyperscalers estrangeiras em infraestrutura física no Brasil, que dimensiona o tamanho real do capital fluindo para o setor, embora capture o país como mercado consumidor, não como produtor de modelos:

Empresa	Valor anunciado	Horizonte / detalhe
Microsoft	R$ 14,7 bilhões (US$ 2,7 bi)	3 anos (anúncio 26/09/2024); programa ConectAI; datacenters em SP
AWS	R$ 10,1 bilhões (US$ 1,8 bi)	até 2034 (anúncio 11/09/2024); acumulado 2011–2023: R$ 19,2 bi
Google Cloud	> US$ 1,2 bilhão (AL, 2022–2027)	TPU Trillium em SP; datacenter em Cajamar; valores específicos do Brasil não divulgados

Fontes: Microsoft anuncia R$ 14,7 bilhões; AWS investirá R$ 10 bilhões; Google Cloud Brings a New Era of AI Innovation to Brazil.

Daí decorre o paradoxo central da sustentabilidade: o setor público brasileiro gastou R$ 10,35 bilhões com big techs internacionais somente entre junho de 2024 e junho de 2025 (Microsoft R$ 3,2 bi acumulado desde 2014; Oracle R$ 1,02 bi; Google R$ 938 mi; Red Hat R$ 909 mi), e ao menos R$ 23 bilhões em software/nuvem/TIC estrangeiros entre 2014 e 2025 (Brasil torrou R$ 10 bilhões em um ano com Big Techs, Intercept Brasil; Setor público gasta bilhões com tecnologia estrangeira, Jornal USP). Em outras palavras, o gasto público anual com tecnologia estrangeira (R$ 10,35 bi/ano) é superior a todo o eixo de Infraestrutura e Desenvolvimento de IA do PBIA para quatro anos (R$ 5,79 bi). Esse desequilíbrio é o cerne da preocupação de soberania que motiva iniciativas como o SoberanIA do Piauí (R$ 35–40 milhões do MCTI) e o LLM próprio do SERPRO.

Síntese e avaliação da sustentabilidade

Reunindo as fontes em uma visão consolidada:

Fonte / instrumento	Valor	Natureza	Destino predominante
PBIA 2024–2028 (anunciado)	R$ 23,03 bilhões	~55% crédito reembolsável	Inovação empresarial (R$ 13,79 bi) e infraestrutura (R$ 5,79 bi)
BNDES + FINEP + EMBRAPII (aprovado 2023–2026)	R$ 10,5 bilhões	Crédito + subvenção + equity	Hardware, integradores, infraestrutura, projetos
Componente "LLM robusto em português" (PBIA)	R$ 1,1 bilhão	A definir	LLM nacional (prazo não cumprido)
Fundo FIP IA (BNDES+FINEP, 2026)	R$ 205 milhões	Equity	Startups (30% N/NE/CO)
INCTs de IA (CNPq 46/2024)	R$ 92,8 milhões	Não reembolsável	Pesquisa (8 INCTs)
CPAs em IA (FAPESP/MCTI/CGI.br)	~R$ 200 milhões	Não reembolsável + contrapartida	Pesquisa aplicada (10 centros)
SoberanIA (MCTI/Piauí)	R$ 35–40 milhões	Não reembolsável	LLM estadual
VC privado em IA (2025)	US$ 867,7 milhões (120 rodadas)	Equity privado	IA de aplicação (não LLMs)
Maior rodada AI-first (Enter, Série B)	US$ 100 milhões	Equity privado	Legaltech (não LLM fundacional)
Maritaca AI (LLM líder)	~US$ 1 mi créditos + aporte Jusbrasil n/d	Créditos + estratégico	LLM nativo — sem VC formal [INCERTO]

Três conclusões emergem quanto à sustentabilidade do financiamento:

Volume nominal alto, mas natureza reembolsável e execução parcial. Os R$ 23 bilhões do PBIA são em grande medida oferta de crédito (FINEP/BNDES), não dispêndio a fundo perdido; com apenas ~2% de ações genuinamente novas segundo a Unicamp e ~R$ 10,5 bilhões efetivamente aprovados (≈46% do total, em sua maioria não desembolsada), a sustentabilidade depende menos do anúncio e mais da capacidade de execução e de demanda qualificada das empresas.
Descasamento entre fomento e modelos fundacionais. O capital, tanto público (crédito a hardware/integradores) quanto privado (VC em legaltechs e agtechs), flui sobretudo para aplicação e infraestrutura, e não para o treinamento de LLMs e embeddings nativos. A inexistência de rodada formal de VC para a Maritaca, líder técnica do setor, é o sintoma mais agudo dessa lacuna. Dado que o custo de um ciclo completo de treinamento de um LLM de fronteira nacional é estimado em ~R$ 7,2 milhões, o problema de financiamento de modelos parece ser de arranjo e acesso a computação, não de escassez absoluta de recursos.
Dependência estrutural como risco de sustentabilidade. Enquanto o gasto público anual com tecnologia estrangeira supera o orçamento quadrienal de infraestrutura do PBIA, e enquanto a infraestrutura física relevante é majoritariamente capitalizada pelas big techs (Microsoft R$ 14,7 bi; AWS R$ 10,1 bi), a soberania financeira do ecossistema permanece frágil, o que confere às novas peças (Fundo FIP de IA, SoberanIA, supercomputador nacional do PBIA de R$ 1,8 bilhão ainda não licitado) um caráter de teste de viabilidade mais do que de consolidação.

Ressalvas de verificação: o aporte da Jusbrasil à Maritaca não tem valor divulgado e a empresa não registra rodada formal de VC [INCERTO]; a Série A da WideLabs (US$ 50 mi) estava em captação, não fechada, no horizonte do levantamento; e a disputa pelo "primeiro unicórnio de IA da AL" entre Enter (Brasil) e Kapital (México) tem reivindicações concorrentes [NOTA].

Arquivos/escopo: esta seção foi redigida exclusivamente a partir do dossiê fornecido (notadamente §6 "Financiamento e Investimentos", complementado por §1, §2.2, §3, §4.6–4.7 e §10), sem fontes externas adicionais.

12. Benchmarks e Metricas de Avaliacao

A avaliação de modelos de linguagem para o português brasileiro amadureceu de forma significativa entre 2023 e 2026, evoluindo de adaptações de benchmarks anglófonos para um ecossistema próprio de leaderboards públicos, suítes acadêmicas e provas oficiais usadas como instrumentos de medição. Esse arcabouço tornou-se especialmente importante porque, em tarefas gerais, os modelos brasileiros raramente superam os modelos de fronteira estrangeiros (como o GPT-4o), sendo competitivos sobretudo em benchmarks especificamente brasileiros, exames nacionais, conteúdo jurídico e variedades culturais do português. A seguir, descrevemos os principais leaderboards, as provas usadas como benchmark, as suítes e datasets, as métricas envolvidas, seus mantenedores e resultados notáveis, sempre sinalizando incertezas quando a fonte primária não as confirma.

Leaderboards públicos

O instrumento de referência para modelos abertos é o Open Portuguese LLM Leaderboard, hospedado no Hugging Face e mantido por Eduardo A. S. Garcia, pesquisador do CEIA-UFG (o mesmo autor do encoder jurídico RoBERTaLexPT). O leaderboard roda sobre o motor lm-evaluation-harness-pt, um fork brasileiro do lm-evaluation-harness da EleutherAI adaptado para avaliação generativa (e não por log-probabilidade), executado em GPUs A100-80GB da própria UFG. Segundo o dossiê, o sistema rastreia mais de 1.000 modelos e acumula 244 curtidas na plataforma. Sua composição combina nove tarefas em PT-BR que mesclam provas oficiais e datasets clássicos de PLN, com diferentes regimes de few-shot:

Tarefa	Tipo	Regime
ENEM	Exame (múltipla escolha)	3-shot
BLUEX	Vestibulares USP/Unicamp	3/5-shot
OAB Exams	Exame da Ordem (objetiva)	3-shot
ASSIN2 RTE	Inferência textual (entailment)	15-shot
ASSIN2 STS	Similaridade semântica textual	15-shot
FaQuAD-NLI	Inferência sobre QA acadêmico	5/15-shot
HateBR	Detecção de discurso de ódio	25-shot
PT Hate Speech	Discurso de ódio	25-shot
TweetSentBR	Análise de sentimento	25-shot

Essa estrutura mostra que o leaderboard não isola exames de provas: ele integra os exames nacionais (ENEM, BLUEX, OAB) com os datasets de NLI e similaridade (ASSIN2) e de QA (FaQuAD-NLI), formando uma média generativa única por modelo. É também o instrumento em que se registram resultados de modelos abertos brasileiros como o Bode (média Open PT 53,21), o Canarim-7B (média Open PT 47,36) e o openCabrita-3B.

Para o português europeu, o equivalente é o CLARIN-PT-LDB, mantido pela infraestrutura PORTULAN CLARIN (João Silva, Luís Gomes e António Branco), apresentado na PROPOR 2026 (arXiv:2603.12872). Com foco em PT-PT, reúne dez benchmarks, incluindo o Tuguesice-PT (cultura), o DoNotAnswer-PT (segurança), além de MuSR, MMLU/MMLU Pro, GPQA Diamond, CoPA, MRPC e RTE, rodando em GPUs NVIDIA L40S e RTX Pro 6000. Há ainda o SWEN.AI Benchmark, um leaderboard proprietário e independente, baseado em pontuação ELO, que segundo o dossiê cobre mais de 600 modelos em PT-BR.

Provas oficiais como benchmark (ENEM, BLUEX, ENADE, OAB)

A apropriação de provas brasileiras como benchmark é uma marca distintiva do ecossistema, pois oferece um padrão de dificuldade reconhecido, abrangência temática e (no caso de exames profissionais) relevância prática direta.

O ENEM é descrito no dossiê como o principal benchmark de exame. Para texto-imagem, o GPT-4 com visão e chain-of-thought (CoT) atingiu 93,85% no ENEM 2024, enquanto o Sabiá-3 da Maritaca alcançou 90,50%; o repositório de referência é o piresramon/gpt-4-enem. Como recurso histórico, há o ENEM Challenge (USP/IME, Denis Mauá), com 776 questões de 2009 a 2017: o mesmo conjunto em que o Sabiá-7B registrou 55,07% de acerto.

O BLUEX (arXiv:2307.05410), criado por Thales Almeida, Thiago Laitz, Giovana Bonás e Rodrigo Nogueira (equipe ligada à Maritaca), reúne questões de vestibulares da USP e da Unicamp, mais de 1.260 questões, cerca de 40% delas com imagens. A atualização BLUEX Revisited (2025) ampliou para 1.422 questões cobrindo 2018–2025, com legendas automáticas geradas via GPT-4o. Outro benchmark de vestibulares é o Alvorada-Bench (2025, Henrique Godoy), com 4.515 questões de cinco provas (IME, ITA, FUVEST, Unicamp e ENEM).

O OAB (Exame de Ordem) aparece em duas formas. Na versão objetiva, integra o Open Portuguese LLM Leaderboard (OAB Exams, 3-shot) e benchmarks de modelos jurídicos. Na versão dissertativa, deu origem ao OAB-Bench (2025, Ramon Pires, Roseval Malaquias Junior e Rodrigo Nogueira), com 105 questões da 2ª fase da OAB distribuídas em sete áreas, avaliadas por LLM-as-judge (usando o modelo o1, em escala de 0 a 10). Nesse benchmark, o Claude-3.5 Sonnet lidera com 7,93/10, seguido pelo Sabiá-4 (7,49) e pelo Sabiazinho-4 (7,02), este último uma evolução expressiva sobre o Sabiazinho-3 (6,01). Há também o Rabula (CEUR-WS), que aplica rubricas da FGV à avaliação dissertativa. Na variante objetiva, modelos jurídicos abertos reportam resultados como o Juru (62,5% no OAB-2023), o Jurema-7B (0,684, contra 0,5765 do Qwen2.5-7B-Instruct base) e o próprio Sabiá-3 (76,4% em OAB).

O ENADE é usado sobretudo na avaliação de domínio. O Sabiá-3 obteve 77,2% no ENADE, e modelos jurídicos foram avaliados especificamente no ENADE-2022 de Direito: o Juru atingiu 81,5% e o Jurema-7B reporta resultados elevados em exames correlatos. A literatura registra ainda avaliações de LLMs no ENADE médico (JMIR Medical Education, 2026).

Para dar dimensão à amplitude com que provas oficiais são usadas, vale destacar o panorama do Sabiá-3 (arXiv:2410.12049): avaliado em 93 exames brasileiros, alcançou média de 79,0%, abaixo do Claude 3.5 Sonnet (81,6%) e do GPT-4o (80,8%), mas acima do Llama 3.1 405B (77,0%). Nessa bateria, marcou ENEM 87,7%, ENADE 77,2%, OAB 76,4%, CPNU 90,6% e Revalida 83,5%. Outros benchmarks de exames incluem o magistério jurídico (Magis-Bench, 2026, com 74 questões de magistratura de 2023–2025, em que o Gemini-3-Pro lidera com 6,97/10), concursos jurídicos amplos (LegalScore, com 14 modelos) e o POSCOMP da pós-graduação em Computação (Gemini 2.5 Pro e o3-mini superam 90%).

ASSIN2 e FaQuAD: datasets de NLI, STS e QA

Para além das provas, dois datasets clássicos estruturam a avaliação semântica em português e são, inclusive, componentes do Open Portuguese LLM Leaderboard.

O ASSIN2 (mantido pelo NILC/USP, sucessor do ASSIN) avalia duas tarefas conjuntas: STS (Similaridade Semântica Textual, medida por correlação de Pearson) e RTE/entailment (inferência textual, medida por F1). É um dos benchmarks mais usados para encoders: o BERTimbau registra Pearson 0,836 (Base) e 0,852 (Large) em STS, e F1 de 89,2/90,0 em RTE; a Albertina 900M PT-BR alcança RTE 0,8950 e STS 0,8547; a Albertina 1.5B PT-BR chega a STS-B 0,9007 no ExtraGLUE; e o NorBERTo do Itaú reporta entailment em ASSIN2 de aproximadamente 0,904. No regime generativo do leaderboard, ASSIN2 RTE e STS entram em 15-shot.

O FaQuAD (BRACIS 2019, com 900 questões de QA extrativo no domínio acadêmico) deu origem ao FaQuAD-NLI (mantido por Ruan Chaves Rodrigues), versão de inferência usada no leaderboard em 5/15-shot. Os demais datasets que compõem o leaderboard também têm mantenedores identificáveis: HateBR (7.000 comentários do Instagram, Francielle Vargas et al.), TweetSentBR (15.000 tweets) e o PT Hate Speech.

Napolab e Poeta: suítes acadêmicas

O Napolab (Natural Portuguese Language Benchmark) foi criado em 2023 por Ruan Chaves Rodrigues e agrega sete datasets nativos: ASSIN, ASSIN2, RERELEM, HateBR, RELI-SA, FaQuAD-NLI e PorSimplesSent. Um achado relevante associado ao Napolab, e que tensiona toda a narrativa de "modelos nacionais", é que modelos especificamente treinados em português não superam, de forma consistente, modelos multilíngues genéricos nessas tarefas, um resultado também ecoado pelo dossiê na discussão sobre limitações. O conjunto está disponível também como dataset no Hugging Face.

O Poeta (também grafado POeTa/PoETa) é a suíte mais associada à Maritaca e ao desenvolvimento do Sabiá. A versão original (Poeta v1, 2023), apresentada junto com o Sabiá, reunia 14 datasets; nela, o Sabiá-65B mostrou-se equiparável ao GPT-3.5-turbo, e o Sabiá-7B registrou NPM (Normalized Preferred Metric) de 48,5. A evolução PoETa v2 (dez/2025, Thales Almeida, Ramon Pires, Hugo Abonizio, Rodrigo Nogueira e Hélio Pedrini) expandiu para 44 tarefas (12 nativas e 32 traduzidas), avaliando mais de 20 modelos. No PoETa v2, o GPT-4.1 lidera com 76,2, seguido por GPT-4o (75,2), Sabiá-3 (72,2) e Qwen 2.5 14B (71,0). A métrica NPM do PoETa também serve como referência em estudos de dados: o Curió-Edu superou seu baseline em +8,4 pontos no PoETa V2, e o trabalho sobre reescrita sintética (arXiv:2603.24826) demonstrou que reescrever dados de alta qualidade do ClassiCC-PT gera +3,4 NPM em modelos 7B, ao passo que reescrever dados de baixa qualidade rende apenas +0,5, evidência de que a reescrita sintética amplifica, mas não substitui, a curadoria.

A operacionalização do Poeta apoia-se em forks do lm-evaluation-harness (notadamente PoETaV2/PoETaV2), o mesmo ecossistema técnico que sustenta o eduagarcia/lm-evaluation-harness-pt e o surus-lat/portuguese-bench.

Benchmarks emergentes e LLM-as-judge

A partir de 2024–2026, a Maritaca consolidou uma família ampla de benchmarks próprios, muitos deles orientados a capacidades que provas de múltipla escolha não capturam: o BRACEval (2024, chat multiturno, 150 questões em 13 categorias), o TiEBe (2025, 23.000+ Q&A sobre eventos globais), o BRoverbs (2025, provérbios), o ClassiCC-PT, e os mais recentes CAPITU (mar/2026, 59 tipos de instrução em sete categorias sobre oito obras literárias brasileiras; GPT-5.2 98,5%, Sabiazinho-4 87,0%, Sabiá-4 84,5%), Prosa (mai/2026, 1.000 conversas reais extraídas do WildChat, avaliadas por LLM-as-judge com rubricas), o Magis-Bench já citado, o MARCA e o LLM Bias Bench. No BRACEval, o Sabiá-4 obteve 53,8% de win rate contra o GPT-4o, e o Sabiazinho-4 chegou a 66,5%.

Esse conjunto evidencia a adoção crescente do paradigma LLM-as-judge (modelo avaliador como juiz), presente no OAB-Bench (juiz o1), no Magis-Bench (quatro juízes, com altíssima concordância, Kendall's W = 0,984) e no Prosa. Para o português europeu, o equivalente literário-linguístico é o ALBA (mar/2026, NOVA LINCS), com 800 questões em oito dimensões linguísticas.

Métricas, mantenedores e quadro consolidado

As métricas variam conforme a natureza da tarefa: acurácia/percentual de acerto para exames de múltipla escolha (ENEM, BLUEX, OAB objetiva, ENADE); F1 para inferência textual (RTE), NER e classificação (HateBR); correlação de Pearson/Spearman para similaridade semântica (ASSIN2 STS, com Spearman também usado em encoders como o Serafim); MRR@10 para recuperação de informação (o Serafim-900m-ir atinge 0,8539 em mMARCO, descrito como estado da arte para RAG em PT); NPM nas suítes Poeta; e notas de 0 a 10 atribuídas por juízes-LLM nos benchmarks dissertativos (OAB-Bench, Magis-Bench, Prosa). Resumidamente:

Benchmark	Mantenedor/Autores	Foco	Métrica principal
Open Portuguese LLM Leaderboard	Eduardo A. S. Garcia (CEIA-UFG)	9 tarefas PT-BR (exames + NLI + sentimento)	Acurácia/F1/Pearson (média generativa)
CLARIN-PT-LDB	PORTULAN (Silva, Gomes, Branco)	10 benchmarks PT-PT	Variadas
SWEN.AI	swen.ia.br (independente)	600+ modelos PT-BR	ELO
Poeta v1 / PoETa v2	Maritaca/Unicamp (Almeida, Pires, Nogueira et al.)	14 → 44 tarefas	NPM
Napolab	Ruan Chaves Rodrigues	7 datasets nativos	Variadas
ENEM Challenge	USP/IME (Denis Mauá)	776 questões 2009–2017	Acurácia
BLUEX / BLUEX Revisited	Maritaca (Almeida et al.)	Vestibulares USP/Unicamp	Acurácia
OAB-Bench	Maritaca (Pires, Malaquias Jr., Nogueira)	105 questões dissertativas OAB	Nota 0–10 (LLM-as-judge o1)
Magis-Bench	Maritaca	74 questões de magistratura	Nota 0–10 (4 juízes)
CAPITU / Prosa	Maritaca	Instruções literárias / conversas reais	Acurácia / rubricas
ASSIN2	NILC/USP	STS + RTE	Pearson / F1
FaQuAD / FaQuAD-NLI	LIA/UFC; Ruan Chaves	QA acadêmico / NLI	F1

Limitações e cuidados de interpretação

O dossiê é explícito sobre fragilidades que devem qualificar a leitura desses números. Há risco de contaminação de dados: o Claude 3.5 Sonnet é apontado como de alto risco, e a Maritaca declara mitigar o problema usando apenas exames posteriores a meados de 2023. Persiste a dicotomia PT-BR vs. PT-PT, que torna leaderboards como o do CEIA-UFG e o CLARIN-PT-LDB complementares, não intercambiáveis. Há também a distinção metodológica entre avaliação generativa (adotada pelo lm-evaluation-harness-pt) e avaliação por log-probabilidade, que pode alterar rankings. Por fim, o projeto Tucano documentou um achado importante: vários benchmarks apresentam baixa correlação com o escalonamento de tokens, ou seja, mais dados de treino nem sempre se traduzem em ganho mensurável nessas provas: um alerta contra a interpretação ingênua de pontuações isoladas.

Cabe um cuidado final de soberania metodológica: o caso do Soberano 1 (SoberanIA/Piauí) ilustra por que benchmarks padronizados e públicos importam. Segundo o dossiê, a afirmação de que o modelo superaria Qwen, DeepSeek, Nemotron e Maritaca, equiparando-se ao "Gemini 3.1", permanece [NÃO VERIFICADA], não há avaliação independente, benchmarks padronizados publicados nem modelo disponível no Hugging Face (apenas o dataset Jabuticaba). Isso reforça o papel dos leaderboards abertos (Open Portuguese LLM Leaderboard) e das suítes auditáveis (PoETa v2, Napolab, OAB-Bench) como condição de credibilidade técnica no ecossistema brasileiro de IA.

13. Aplicacoes e Setores de Uso

A análise das aplicações setoriais de LLMs e embeddings em português revela um ecossistema de dois andares. No primeiro, encontram-se setores de adoção real, madura e em escala, sobretudo o financeiro, o jurídico e o atendimento ao cliente, geralmente alimentados por uma combinação de modelos estrangeiros (GPT-4o via Azure OpenAI, Gemini) e poucos produtos nacionais consolidados (MariTalk/Sabiá, BERTimbau via RAG e busca semântica). No segundo, estão domínios em que a pesquisa é robusta mas a produção é incipiente ou ausente, com destaque para o agronegócio, que carece de LLMs nativos especializados. Esta seção percorre cada setor com casos concretos, produtos nomeados e métricas de adoção, sinalizando, quando pertinente, a diferença entre o que está em pesquisa e o que está efetivamente em produção comercial.

Um dado de contexto enquadra toda a discussão: o Brasil é o 3º maior usuário global do ChatGPT (atrás de EUA e Índia) e o 2º em desenvolvedores usando a API da OpenAI, com cerca de 140 milhões de mensagens diárias enviadas por brasileiros, segundo relatório da OpenAI de agosto de 2025 (Softex). Ou seja, a adoção de IA generativa no país é massiva, mas predominantemente apoiada em modelos estrangeiros, o que torna os casos de uso de modelos nacionais que se seguem ainda mais relevantes como indicadores de soberania tecnológica.

Visão geral da adoção por setor

A tabela abaixo resume o quadro, contrastando o nível de maturidade tecnológica (TRL) e a presença ou não de modelos nativos especializados em cada vertical.

Setor	Modelos/produtos nacionais nativos	Adoção real	Observação
Jurídico	Jus IA (Jusbrasil+Maritaca), Sabiá-4, Juru, Jurema-7B, RoBERTaLexPT, LegalBERT-pt	Alta (produção)	55,1% dos advogados já usam IA generativa
Financeiro	NorBERTo (Itaú), nuFormer (Nubank), Bridge (Bradesco)	Alta (produção)	80%+ dos bancos usam GenAI (Febraban)
Atendimento/Telecom	Vivo I.Ajuda, Bradesco BIA, plataformas Blip/Nama	Alta (produção)	Em geral sobre Azure OpenAI/Salesforce
Saúde	BioBERTpt, DrBode, SUS-LLM, NoHarm.ai, Sofya	Média-alta (TRL 8–9)	62,5% das instituições usam IA
Governo/serviços públicos	Soberano 1, SERPRO LLM/ConversAÍ, BERTimbau (TCU)	Média (em maturação)	200+ projetos federais em 2025
Educação	Sabiá-3, Amazônia IA (treinados em ENEM/OAB)	Média (consumo difuso)	7 em 10 estudantes do médio usam IA
Agronegócio	(lacuna)	Baixa (TRL 3–5)	Embrapa usa modelos internacionais (Gemini)

Jurídico: o setor com modelos nativos mais maduros

O direito é, junto com a saúde, o domínio onde a especialização de LLMs brasileiros mais avançou, em parte porque os exames e corpora jurídicos nacionais (OAB, legislação federal LexML, decisões do STF) oferecem dados abundantes e benchmarks claros. O caso emblemático de produção é o Jus IA, lançado em 19 de março de 2025 pela parceria entre Jusbrasil e Maritaca AI (Jusbrasil). O produto combina os modelos Sabiá com RAG sobre uma base de 1,2 bilhão de documentos jurídicos e, em modelo freemium, alcança 30 milhões de usuários mensais: uma escala que faz dele provavelmente a maior aplicação de um LLM brasileiro em produção. A penetração da IA na advocacia é alta: 55,1% dos advogados brasileiros já usam IA generativa.

No lado dos modelos especializados, a colaboração entre a Maritaca e o Jusbrasil também sustenta o Sabiá-4 (mar/2026), cujo pipeline de quatro estágios inclui continued pretraining em corpus jurídico. O Sabiá-4 atinge 7,49/10 no OAB-Bench, 97,4% em Leis Federais e 5,08/10 no Magis-Bench (questões de magistratura), enquanto o Sabiazinho-4, modelo menor, sobe de 6,01 para 7,02 no OAB-Bench (Sabiá-4 Technical Report, arXiv:2603.10213). Há ainda duas iniciativas abertas relevantes: o Juru (USP/Maritaca, mar/2024), continued pretraining sobre Mistral-7B-v0.3 com 1,9 bilhão de tokens jurídicos únicos (artigos acadêmicos, LexML, decisões do STF), que eleva a média jurídica de 65,2% para 72,0% mas com degradação em conhecimento geral (arXiv:2403.18140); e o Jurema-7B (NeuralMind/Escavador, ago-set/2025, R$ 10 mi FINEP), fine-tuning de Qwen2.5-7B-Instruct que melhora o OAB-2023 de 0,5765 para 0,684, no contexto do projeto L³M (Blog do Escavador). Vale registrar que tanto Juru quanto Jurema reivindicam o título de "primeiro LLM jurídico open source nativo": uma disputa não resolvida.

No Poder Judiciário, a adoção é institucional e anterior à onda generativa atual: havia 140 iniciativas de IA em 62 tribunais em 2023 (alta de 26% sobre 2022), com projetos consolidados como o VICTOR (STF/UnB), o Poti (RN), o Radar (MG) e o Elis (PE). No campo dos embeddings, o BERTimbau é aplicado no projeto INA2 para o TCU, e encoders jurídicos como RoBERTaLexPT (INF-UFG, 85,41% F1-macro no PortuLex) e LegalBERT-pt sustentam tarefas de classificação e recuperação de informação legal.

Financeiro: maior volume de IA em produção, com modelo fundacional próprio

O setor financeiro concentra o maior volume de IA em produção do país, embora boa parte rode sobre infraestrutura estrangeira. Segundo a Febraban, mais de 80% dos bancos já usam IA generativa, com ganhos médios de produtividade de 11,4%, e os bancos investiram R$ 47,8 bilhões em TI em 2025 (Pesquisa Febraban/Dock). Os casos concretos:

Bradesco: a assistente BIA atinge 87% de resolutividade com mais de 25 milhões de interações; a BIA Corporativa fica em ~80%. O banco lançou em 2024 a plataforma Bridge de GenAI corporativa, com mais de 200 iniciativas (TI Inside).
Itaú: +141% de iniciativas de GenAI no 3T2025, com 1.800 modelos em produção e cerca de 500 cientistas de dados (Mobile Time). O Itaú é também produtor de tecnologia nativa: criou o encoder NorBERTo (2026), primeiro modelo PT baseado em ModernBERT, treinado sobre o corpus Aurora-PT (331 bilhões de tokens), embora sob licença CC BY-NC-SA 4.0, que veda uso comercial por terceiros (arXiv:2605.00086).
Nubank: desenvolve um modelo fundacional próprio, o nuFormer, e firmou parceria com a OpenAI para oferecer o ChatGPT Go a clientes (out/2025) (Nubank): um exemplo claro da convivência entre modelo nacional e modelo estrangeiro.
Banco do Brasil: primeiro banco a adotar IA em gerenciador de finanças (Minhas Finanças, +15 bilhões de lançamentos, 91% de precisão), com mais de 600 casos de uso e governança apoiada em IBM watsonx (Agência Brasil).

Note-se que essas plataformas de atendimento (BIA, assistentes do Itaú) tendem a integrar modelos da OpenAI e do Google, reforçando que a adoção massiva no setor não equivale a uso de LLMs generativos nacionais, exceto pelos embeddings (BERTimbau, NorBERTo) e pelo nuFormer.

Atendimento ao cliente e telecom

O atendimento é o setor onde a IA generativa primeiro escalou no Brasil, quase sempre via plataformas estrangeiras orquestradas por empresas locais. O caso de referência é o Vivo I.Ajuda (abr/2023), construído sobre Azure OpenAI em colaboração com a Microsoft: atende 11 mil agentes, reduziu o Tempo Médio de Atendimento em 9% (pessoa física) e 4% (pessoa jurídica), com 87% de uso (Microsoft). A Claro usa GenAI no atendimento desde meados de 2023 via Salesforce. No ecossistema de chatbots, a Blip (ex-Take Blip), de Belo Horizonte, integra OpenAI GPT e Google DialogFlow em sua plataforma, e adquiriu a Stilingue (social listening com NLP proprietário, motor SNLP). A Nama (parceira do projeto GAIA) atende clientes como Prefeitura de SP, Canon e Magalu. Aqui, o NLP proprietário nacional (motor SNLP da Stilingue) coexiste com modelos generativos importados.

Saúde: aplicações maduras de NLP e LLMs especializados competitivos

A saúde se destaca por aplicações de NLP em produção há anos e por LLMs especializados que, recentemente, passaram a rivalizar com modelos de fronteira. No nível de embeddings, o BioBERTpt (PUCPR/HAILab, 2020) é o BERT clínico de referência (ganho de +2,72% F1 no SemClinBr). No nível generativo, o DrBode (UNESP) é um ChatBode-7B fine-tuned para o domínio médico.

O caso mais notável de 2026 é o LLM treinado nas diretrizes do SUS (UNICAMP/Maritaca/NoHarm, mai/2026), um Qwen2.5-14B ajustado com 178 diretrizes do SUS e 70M de tokens sintéticos, que atinge 83,9% no HealthBench-BR e 85,4% no PCDT-QA, superando, com apenas 14B de parâmetros, modelos como GPT-5.2, Claude Sonnet 4.6 e Gemini 3.1 Pro (arXiv:2605.01077). É uma demonstração concreta de que a especialização de domínio com dados nacionais pode compensar a escala. No campo das aplicações em produção, três casos se sobressaem:

NoHarm.ai (Porto Alegre/PUCRS): a aplicação mais madura de NLP em saúde no país, presente em mais de 150 unidades, com mais de 90 milhões de prescrições processadas e mais de R$ 30 milhões em economia atribuída (NoHarm.ai).
Sofya (criada no Hospital Sírio-Libanês, 2022): IA por voz para documentação clínica, com redução de até 40% no tempo de documentação (Startups.com.br).
Hospital Israelita Albert Einstein: plataforma HStory.

A adoção setorial é relevante: 62,5% das instituições de saúde usam IA, ainda que apenas 17% dos médicos usem GenAI diretamente. O ecossistema é ancorado por datasets robustos, SemClinBr, BRATECA (73.040 admissões, 2,8M de notas, da NoHarm.ai/PUCRS), HealthQA-BR (5.632 questões do SUS), e por benchmarks como o Revalida, no qual, segundo estudo do BMJ (2025), o GPT-4o atingiu 86,8% e 10 de 31 LLMs superaram humanos.

Governo e serviços públicos: o eixo da soberania

O setor público é, ao mesmo tempo, o maior comprador de tecnologia estrangeira e o principal palco das iniciativas de soberania em IA. O contraste é gritante: o setor público gastou pelo menos R$ 23 bilhões em software/nuvem/TIC estrangeiros entre 2014 e 2025, sendo R$ 10,35 bilhões só entre jun/2024 e jun/2025 com big techs internacionais (Intercept Brasil). Em resposta, multiplicam-se projetos nacionais. O governo federal tinha mais de 200 projetos de IA em desenvolvimento em 2025 (eram 73 em 2023), coordenados por um Núcleo de IA Governamental (MGI, MCTI, SERPRO, Dataprev, FINEP, ENAP), com meta de capacitar 115 mil servidores e entregar 25 soluções até 2026 (Mobile Time).

Os dois eixos centrais de LLM soberano para o governo são:

Soberano 1 (SoberanIA/Piauí): primeiro LLM desenvolvido por um estado brasileiro (30B de parâmetros, 500B de tokens), com R$ 35–40 milhões do MCTI em parceria com a UFPI. Entrou em operação comercial em 19 de maio de 2026, com foco no setor público, oferecendo produtos como Gov Chat, BO Fácil, Seduc AI, Agentes SEI e Gerador de TR (Teletime). Cautela importante: a arquitetura do Soberano 1 não foi divulgada, não há relatório técnico nem modelo no Hugging Face (apenas o dataset Jabuticaba), e as afirmações de superar Qwen, DeepSeek e Maritaca e equiparar-se ao Gemini 3.1 não foram verificadas por avaliação independente.
SERPRO: anunciou em 5 de novembro de 2025 um LLM próprio em português hospedado em infraestrutura própria, com a plataforma ConversAÍ Studio (que usa modelos open source, Mistral, Llama, Gemma, DeepSeek, via SerproLLM com RAG) e o desenvolvimento interno da LLM Tupi Guarani. Um piloto na Receita Federal/IBGE analisou mais de 20.000 documentos que regem 1,3 milhão de servidores (SERPRO).

A esses se soma a Nuvem de Governo (SERPRO + Dataprev), descrita como a única nuvem 100% soberana do Hemisfério Sul, com mais de 250 órgãos do Executivo Federal (jun/2025). No nível de embeddings, o BERTimbau aplicado ao TCU e encoders como GovBERT-BR (MP-MG) e PeLLE (F1 0,82 em acórdãos do TCU) atendem demandas de classificação documental. A Receita Federal usa IA para detecção de sonegação e cruzamento de declarações de IR.

Educação: consumo difuso e modelos treinados em exames nacionais

A educação é menos um setor de produtos de IA dedicados e mais um campo de consumo difuso e de benchmarking. A adoção pelo usuário final é altíssima: 7 em cada 10 estudantes do ensino médio usam IA. Os modelos nacionais incorporam fortemente o universo educacional brasileiro: o Sabiá-3 e o Amazônia IA foram treinados/avaliados com ENEM, OAB e ENADE: o Sabiá-3 atinge 87,7% no ENEM, 77,2% no ENADE e 90,6% no CPNU (Sabiá-3 Technical Report, arXiv:2410.12049). Há aplicações pedagógicas pontuais como o EnemAI (simulados e correção de redações) e o Seduc AI, produto educacional da SoberanIA voltado a redes estaduais. Vale notar ainda o experimento de data selection Curió-Edu (Unicamp/Maritaca), que mostra que dados educacionais/STEM curados superam volume bruto, com implicações diretas para modelos de tutoria.

Agronegócio: a lacuna mais evidente do ecossistema

O agronegócio é o contraponto mais expressivo aos setores acima: apesar do peso econômico do setor, carece de LLMs nativos especializados, com maturidade tecnológica estimada em TRL 3–5 (contra 8–9 da saúde) e sem benchmarks específicos em português. A própria Embrapa recorre a modelos internacionais (notadamente o Gemini/Google) e mantém plataformas que não são LLMs generativos (AGLIBS, NET FLora, Uzum-UVA, Pasto Certo, Macaúba View) (Embrapa). Os trabalhos existentes apontam viabilidade técnica, mas não preenchem a lacuna nacional: um estudo de 2023 mostrou que o GPT-4 acerta 93% de questões agrícolas usando dados da Embrapa (arXiv:2310.06225), e o AgroLLM (2025, RAG, ChatGPT-4o Mini em 93%) é promissor, mas seus autores não são brasileiros e o trabalho não é específico para PT-BR (arXiv:2503.04788). Em investimento, o setor é forte: a Solfintec captou uma Série D de US$ 52,8 milhões em 2025, mas trata-se de IA aplicada ao agronegócio, não de um LLM de linguagem especializado.

O caso MariTalk/Sabiá e o nível de adoção real

O produto generativo nacional com presença comercial mais consolidada é a família Sabiá da Maritaca AI (Campinas, fundada em out/2022 por Rodrigo Frassetto Nogueira), acessível via o chatbot MariTalk (chat.maritaca.ai, gratuito) e por uma API totalmente compatível com a OpenAI (Maritaca AI). A API oferece streaming, function calling, chat multiturno, upload de imagens/PDFs e busca web, com integração LangChain; os modelos Sabiá-3/4 são API-only, enquanto o Sabiá-2 chegou a ter versão on-premises (MariTalk Local). Os preços, competitivos em relação aos modelos de fronteira (a empresa estima o Sabiá-3 como 3–4x mais barato por token que modelos frontier), praticados em junho de 2026, são:

Modelo	Entrada (R$/M tokens)	Saída (R$/M tokens)
Sabiá-4	R$ 5,00	R$ 20,00
Sabiazinho-4	R$ 1,00	R$ 4,00
Sabiá-3 / 3.1	R$ 5,00	R$ 10,00
Sabiazinho-3	R$ 1,00	R$ 3,00

A Maritaca atende clientes concretos sobretudo no jurídico, com o Jusbrasil como caso-âncora (Jus IA e colaboração no Sabiá-4), além do uso em saúde via parceria com UNICAMP e NoHarm.ai. É, de fato, o único LLM generativo brasileiro com produto comercial relevante em produção, financiado por créditos da Google (~US$ 1 milhão) e por aporte da Jusbrasil, sem rodada formal de VC com valor confirmado.

O nível de adoção real: o contraste pesquisa-produção

A leitura honesta da adoção exige separar três camadas. Primeira: os embeddings têm adoção massiva: o BERTimbau Large registra cerca de 1,28 milhão de downloads/mês (e o Base, ~140 mil), sendo o modelo brasileiro mais usado, com aplicações que vão de busca semântica a triagem hospitalar (NeuralMind: Neuroscience, PrioScan). Segunda: os LLMs generativos abertos (Tucano, Bode, Amadeus-Verbo) permanecem restritos à pesquisa, com adoção em produção mínima: o Tucano-630m faz cerca de 475 downloads/mês e o Bode-7B cerca de 16/mês. Terceira: apenas a Maritaca AI, via API fechada, tem produto generativo em produção comercial significativa, ao lado de aplicações setoriais consolidadas de NLP (NoHarm.ai na saúde, Stilingue no atendimento) e de modelos fundacionais corporativos próprios (nuFormer no Nubank, NorBERTo no Itaú).

O caso da WideLabs (Porto Alegre, Amazônia IA, lançado em 30/07/2024) ilustra os limites dessa adoção real. A empresa reporta tração comercial, break-even no 4T2025, receita 10x maior em 2025, Série A buscando US$ 50 milhões e clientes de peso como Raízen, Coca-Cola, Pfizer, Dataprev e MPRS (Mobile Time), mas não divulga o número de parâmetros do modelo (a cifra de "8,8 bilhões" não tem respaldo em fonte primária), não publica paper técnico, e a alegação de desenvolvimento "100% brasileiro" do zero é disputada: TechTudo e Capital Digital o descrevem como fine-tuning de modelo existente, e o perfil da empresa no Hugging Face não tem modelos públicos. Em síntese, o ecossistema de aplicações é vibrante na superfície de consumo (massivamente apoiado em modelos estrangeiros e em embeddings nacionais), mas a adoção em produção de LLMs generativos efetivamente brasileiros ainda se concentra em pouquíssimos fornecedores, com o jurídico (Jus IA/Sabiá), a saúde (NoHarm.ai, SUS-LLM) e o governo (SoberanIA, SERPRO) como as frentes onde modelos nacionais especializados começam a ganhar terreno competitivo.

14. Ecossistema Internacional e Parcerias

O desenvolvimento de modelos de linguagem e embeddings em português no Brasil não ocorre em isolamento: ele está profundamente imbricado em uma rede internacional de fornecedores de computação, modelos de base abertos, colaborações acadêmicas e fluxos de investimento estrangeiro. Essa inserção global é, a um só tempo, condição habilitadora e fonte de vulnerabilidade. O contexto-base é eloquente: o Brasil é o 3º maior usuário global do ChatGPT (atrás apenas de EUA e Índia) e o 2º país em número de desenvolvedores que usam a API da OpenAI, com cerca de 140 milhões de mensagens diárias enviadas por brasileiros, segundo relatório da OpenAI de agosto de 2025 (Softex). A dependência de modelos estrangeiros se reproduz no setor público: estudo de USP/UnB veiculado pelo Intercept Brasil calcula que, somente entre junho de 2024 e junho de 2025, o Estado brasileiro gastou R$ 10,35 bilhões com big techs internacionais, mais do que o Plano Brasileiro de IA (PBIA) prevê para infraestrutura de IA em quatro anos (R$ 5,79 bilhões). É contra esse pano de fundo que se discute o equilíbrio entre soberania e dependência.

Dependência tecnológica das big techs: NVIDIA, AWS, Microsoft, Google e Meta

A camada mais profunda e menos contornável de dependência é a de hardware de computação, dominada pela NVIDIA. Ela é a fornecedora central de aceleradores para praticamente todo o ecossistema brasileiro, H100, GH200, A100, V100 e, mais recentemente, B200, presentes desde a frota de HPC da Petrobras (Pégaso, com 2.016 NVIDIA A100-80GB) até os clusters universitários de IA inaugurados em 2025–2026, como o Jairu da USP (96 NVIDIA Blackwell B200, R$ 40 milhões) e o Abaporu da Unicamp (28 H200/L40s). A própria Maritaca AI, em seu blog técnico, descreve um pipeline que combina TPUs do Google Cloud (pré-treino e SFT) com GPUs B200 em "neoclouds" (RL), com preços de B200 oscilando entre R$ 22/h (neoclouds) e R$ 60/h (grandes provedores). A NVIDIA também atua como parceira institucional direta: o RECOD.ai da Unicamp tornou-se NVIDIA AI Joint Lab (2022–2023, ~80 GPUs), o CEIA-UFG receberá o único supercomputador NVIDIA DGX B200 do país dedicado à pesquisa, e a empresa apoia o eixo "Towards Greener NLP" do INCT TILD-IAR. Notável é também o dataset sintético aberto Nemotron Personas Brasil, produzido pela WideLabs com a NVIDIA (6 milhões de personas, ~1,4 bilhão de tokens, gerado com NeMo Data Designer + GPT-OSS-120B sobre dados do IBGE, licença CC BY 4.0) (Hugging Face/NVIDIA). A própria NVIDIA, via Bloomberg Línea, criticou o atraso regulatório brasileiro em torno do regime de datacenters (REDATA), sinalizando o interesse comercial do fornecedor na expansão da infraestrutura nacional.

A camada de nuvem é igualmente dominada por provedores estrangeiros, que anunciaram investimentos bilionários em infraestrutura no Brasil:

Provedor	Investimento anunciado	Janela	Detalhes
Microsoft	R$ 14,7 bilhões (US$ 2,7 bi)	3 anos (anúncio 26/09/2024)	Datacenters em SP; programa ConectAI (5 milhões capacitados); integra pacote de R$ 100 bi da Nova Indústria Brasil (Microsoft)
AWS	R$ 10,1 bilhões (US$ 1,8 bi)	até 2034 (anúncio 11/09/2024)	SP é a 8ª região global; acumulado 2011–2023: R$ 19,2 bi (About Amazon)
Google Cloud	> US$ 1,2 bi na AL (2022–2027)	valores do Brasil não divulgados	SP será a 1ª região da AL a receber TPU Trillium (6ª geração); Gemini 2.5 Flash no Vertex AI (SP, nov/2025); novo datacenter em Cajamar com Ada Infrastructure (Google Cloud)

Esses aportes consolidam o Brasil como líder regional em datacenters (~181–200 instalações, ~50% dos investimentos da América Latina, com São Paulo concentrando 40+ instalações), mas reforçam a assimetria: a infraestrutura física está em solo brasileiro, sob LGPD, porém sob controle operacional e proprietário de empresas dos EUA. O caso da WideLabs/Amazônia IA é ilustrativo dessa interdependência prática, embora se apresente como "100% brasileira", treina seus modelos em GPUs NVIDIA H100 via Oracle Cloud (OCI Supercluster), em datacenters Ascenty em São Paulo, com servidores Supermicro montados pela Positivo (PR Newswire/Oracle). Mesmo iniciativas de "nuvem soberana" como a Nuvem de Governo (SERPRO + Dataprev, lançada em abr/2024) operam em modelo híbrido com AWS, Azure, Oracle e Google em datacenters nacionais, e o ConversAÍ Studio do SERPRO (nov/2025) se apoia em modelos open source estrangeiros (Mistral, Llama, Gemma, DeepSeek) via RAG.

A dependência se estende à camada de modelos de base. Boa parte do catálogo brasileiro nasce de continued pretraining ou fine-tuning sobre pesos abertos estrangeiros, predominantemente o LLaMA da Meta e o Qwen da Alibaba:

Modelo brasileiro	Base estrangeira	Origem
Sabiá-7B / 65B (Maritaca)	LLaMA-1 (Meta)	EUA
Canarim-7B; Bode; Curió	LLaMA-2 (Meta)	EUA
TeenyTinyLlama; Tucano (arquitetura)	Llama 2 arch (Meta)	EUA
Gervásio (PORTULAN)	LLaMA-2/3.1/3.3 (Meta)	EUA
Juru (USP/Maritaca)	Mistral-7B-v0.3	França
Amadeus-Verbo; Jurema-7B; Tucano 2	Qwen 2.5/3 (Alibaba)	China
GAIA (CEIA-UFG/Google)	Gemma-3-4b (Google)	EUA

Essa estrutura traz licenciamento herdado das matrizes (Llama 2 Community License, Gemma Terms, restrição de pesquisa do LLaMA-1) e cria dependência de roadmaps decididos no exterior. Foi precisamente esse vínculo que motivou o CEO da Maritaca, Rodrigo Nogueira, a defender publicamente que o Brasil deve treinar suas próprias IAs "do zero", com uma proposta de plano nacional de R$ 266 milhões em 1,5 ano (Maritaca AI). A colaboração com a Meta também ocorre no plano avaliativo: o CEIA-UFG mantém parceria com a Meta para avaliação de LLMs, e o LatamGPT (ver adiante) é construído inteiramente sobre o Llama 3.1 70B.

Colaboração regional: LatamGPT e o CENIA (Chile)

A principal aposta de colaboração regional é o LatamGPT, primeiro LLM colaborativo da América Latina e Caribe, coordenado pelo CENIA (Chile). Trata-se de um modelo baseado em Meta Llama 3.1, 70 bilhões de parâmetros, treinado sobre corpus de ~297–300 bilhões de tokens (8+ TB, 20 países), em espanhol e português, com línguas indígenas planejadas, mobilizando 65+ instituições, 15 países e ~200 profissionais (CENIA). O financiamento inicial é modesto, US$ 550.000 (CAF, BID, AWS e ministérios), com treinamento inicial na AWS e um supercomputador futuro na Universidade de Tarapacá (US$ 10 milhões, 12 nós × 8 GPUs H200, previsto para o 1º semestre de 2026). A cronologia vai do anúncio (fev/2025) ao lançamento público em 10/02/2026, com pesos disponíveis no Hugging Face (latam-gpt/Llama-3.1-70B-LatamGPT-SFT-1.0, licença Llama 3.1 Community).

A inserção brasileira se deu por um Memorando de Entendimento (MoU) assinado em 22/04/2025, em Brasília, pela Ministra Luciana Santos (Brasil) e pela Ministra Aisén Etcheverry (Chile), além de um acordo separado CENIA–USP (MinCiencia). Cabe, porém, registrar com cautela que a contribuição técnica brasileira efetiva ao LatamGPT não está documentada [INCERTO]: o engajamento, até o horizonte do levantamento, parece mais diplomático do que técnico. A própria viabilidade do projeto é objeto de ceticismo: análise da Brookings (nov/2025) avalia que o projeto levará pelo menos uma década para representar adequadamente a diversidade regional e aponta a sustentabilidade financeira como desafio estrutural. Note-se, ainda, que a estratégia regional reitera a dependência da Meta: o "modelo soberano latino-americano" é, em sua base, um Llama estadunidense adaptado.

Cooperação com Portugal: PORTULAN, Albertina e Gervásio

A cooperação com Portugal tem natureza distinta, é majoritariamente técnico-acadêmica e de recursos compartilhados, não um acordo bilateral formal de Estado. O eixo é a infraestrutura PORTULAN CLARIN (Universidades de Lisboa e Porto), liderada por António Branco, que produz modelos cobrindo todas as variedades do português, incluindo o PT-BR. Entre seus ativos relevantes para o Brasil:

Albertina PT-* (família de encoders DeBERTa): nos tamanhos 100M, 900M e 1,5B. A variante Albertina 900M PT-BR (treinada sobre No-brWaC, 3,7B tokens do OSCAR, licença MIT) atinge ASSIN2 RTE 0,8950 e STS 0,8547; a Albertina 1.5B PT-BR (48 camadas, CulturaX 36B tokens) chega a ExtraGLUE RTE 0,8676 e STS-B 0,9007. Esses encoders são referência competitiva, no benchmark jurídico PortuLex, a Albertina-xlarge alcança 85,08% F1-macro, ombreando com modelos nativos brasileiros (arXiv:2403.01897).
Gervásio PT-* (decoder generativo, acrônimo "GPT-PT"): 7B (LLaMA-2), 8B (Llama 3.1) e 70B (Llama 3.3), licença MIT, com variantes PT-BR e PT-PT (arXiv:2402.18766).
Serafim PT-* (sentence encoders para STS e IR): de 100M a 900M; o serafim-900m-ir atinge MRR@10 de 0,8539 no mMARCO, considerado estado da arte para RAG em português (arXiv:2407.19527).

A complementaridade entre os ecossistemas é tão estreita que recursos circulam em ambas as direções: o corpus brasileiro brWaC (UFRGS) alimenta a Albertina, o mMARCO (Unicamp/NeuralMind) é base do Serafim, e o corpus Carolina é coproduzido por USP/C4AI e PORTULAN. Some-se a isso o NOVA LINCS (Universidade NOVA de Lisboa, líderes João Magalhães e David Semedo), responsável pelo GlórIA (GPT-Neo, 1,3B/2,7B, treinado em 35,5B tokens PT-PT). Há, contudo, uma fronteira analítica importante: a maioria dos modelos portugueses é otimizada para PT-PT e disponibilizada sob licenças research-only (GlórIA usa ClueWeb22, de uso restrito a pesquisa), o que limita seu uso comercial direto no Brasil e mantém a dicotomia PT-BR vs. PT-PT como questão técnica não resolvida. A própria estratégia portuguesa de soberania, exemplificada pelo Amália, financiado com €5,5 milhões do PRR, é deliberadamente PT-PT, evidenciando que, mesmo na cooperação luso-brasileira, soberania linguística e variedade nacional permanecem objetivos parcialmente distintos.

Outros vetores internacionais: China, União Europeia e financiamento multilateral

A diplomacia de IA brasileira é deliberadamente plural. Com a China, formalizou-se em maio de 2025 um Centro de Transferência de Tecnologia, a parceria Dataprev–Huawei (Consórcio Nordeste) e um Centro Virtual de Pesquisa em IA. Com a União Europeia, foi firmada em 12/06/2026 a Parceria Digital Estratégica (Itamaraty), cobrindo governança de IA, semicondutores e HPC. No plano multilateral, o Brasil articulou a Força-Tarefa de Alto Nível sobre Governança da IA na Declaração de Líderes do Rio (G20, 19/11/2024), aderiu ao framework de cooperação em IA do BRICS (Kazan, 2024) e se alinha à Recomendação sobre Ética da IA da UNESCO. A cooperação científica internacional também irriga a pesquisa nacional via FAPESP (FAPESP–NRC com o Canadá; FAPESP–UKRI/MRC em IA na Saúde, R$ 45,6 milhões; FAPESP–Ohio State).

O equilíbrio entre soberania e dependência

O quadro que emerge é de uma dependência estrutural em camadas combinada a uma busca ativa, porém subfinanciada, de soberania. A dependência é mais aguda nas camadas que o Brasil não controla, silício e aceleradores (NVIDIA), nuvem de fronteira (AWS/Azure/Google) e modelos de base (Meta/Llama, Alibaba/Qwen, Google/Gemma), e mais mitigável nas camadas onde há capacidade instalada: dados em português, encoders nativos (BERTimbau, com 1,28 milhão de downloads/mês) e LLMs de domínio (Sabiá-4 jurídico, SUS-LLM em saúde).

A tensão geopolítica tornou-se explícita em novembro de 2025, quando, segundo o Intercept Brasil, a OpenAI teria condicionado um "investimento bilionário" no Brasil a mudanças no PL 2338 (remuneração de direitos autorais), episódio que ilustra como o investimento estrangeiro pode converter-se em alavanca regulatória. É nesse contexto que Ronaldo Lemos, criador do Marco Civil da Internet, advertiu em junho de 2026 que "não podemos depender da OpenAI nem das chinesas" (Seu Dinheiro).

As respostas brasileiras combinam soberania de dados (Nuvem de Governo do SERPRO/Dataprev, apresentada como única nuvem 100% soberana do Hemisfério Sul, R$ 324 milhões em 2024), incentivo à infraestrutura física (REDATA, MP 1.318/2025, com renúncia fiscal estimada em R$ 5,2 bilhões em 2026, exigindo como contrapartida 10% da capacidade ao mercado interno e energia renovável) e modelos próprios (SoberanIA/Soberano 1, do Piauí; LLM Tupi Guarani do SERPRO). Há ainda uma vantagem estrutural genuína: a matriz elétrica brasileira é 88,2% renovável (2024), com intensidade de carbono de 59,9 gCO₂eq/kWh, frente a ~384 nos EUA e ~363 na Alemanha, atributo que ancora megaprojetos de datacenters orientados a IA, como o Scala AI City (Eldorado do Sul-RS, 500 MW reservados, até 4,75 GW planejados) e o complexo TikTok/Casa dos Ventos (Pecém-CE, 1,5 GW, R$ 150 bilhões).

A assimetria, porém, persiste em três frentes. Primeiro, a escala financeira: o gasto público anual com big techs (R$ 10,35 bilhões) supera o orçamento estruturante de infraestrutura do PBIA para todo o período (R$ 5,79 bilhões em quatro anos), e os aportes estrangeiros em nuvem (Microsoft R$ 14,7 bi; AWS R$ 10,1 bi) eclipsam os recursos públicos efetivamente aprovados para IA (~R$ 10,5 bilhões via BNDES/FINEP/EMBRAPII). Segundo, o gargalo de computação: o supercomputador nacional do PBIA (R$ 1,8 bilhão, ~5.000 GPUs) ainda não havia sido licitado em meados de 2026, e mesmo a frota nacional depende integralmente de GPUs NVIDIA importadas. Terceiro, a soberania regional embutida em base estrangeira: tanto o LatamGPT quanto a maioria dos modelos brasileiros constroem "soberania" por adaptação de pesos abertos de fornecedores estrangeiros, de modo que a autonomia obtida é de dados, idioma e domínio, não de arquitetura, tampouco de hardware. Em síntese, o ecossistema brasileiro opera hoje num equilíbrio pragmático: aproveita modelos abertos e nuvem global para acelerar, ao mesmo tempo em que tenta, com recursos descompassados em relação à escala do desafio, preservar controle sobre os elos da cadeia que considera estratégicos.

15. Desafios, Lacunas e Tendencias Futuras

O ecossistema brasileiro de IA generativa para o português atravessa, em meados de 2026, um momento de paradoxo estrutural: a produção acadêmica e o aparato regulatório amadureceram visivelmente, mas a soberania tecnológica efetiva permanece distante, limitada por gargalos de compute, financiamento e adoção. Esta análise prospectiva organiza-se em três frentes: os desafios estruturais, as lacunas concretas identificadas no levantamento e as tendências emergentes, todas ancoradas nos achados do dossiê.

Desafios estruturais

Soberania versus dependência: a assimetria fundamental

O desafio mais crítico do ecossistema é também o mais facilmente quantificável: o Brasil consome muito mais tecnologia de IA estrangeira do que investe em capacidade própria. O país é o 3º maior usuário global do ChatGPT (atrás apenas de EUA e Índia) e o 2º em desenvolvedores usando a API da OpenAI, com cerca de 140 milhões de mensagens diárias enviadas por brasileiros, segundo relatório da OpenAI de agosto de 2025 (Softex). Mais grave é o desequilíbrio fiscal: o setor público brasileiro gastou pelo menos R$ 23 bilhões com software, nuvem e TIC estrangeiros entre 2014 e 2025, e só entre junho de 2024 e junho de 2025 desembolsou R$ 10,35 bilhões com big techs internacionais, Microsoft (R$ 3,2 bi acumulados desde 2014), Oracle (R$ 1,02 bi), Google (R$ 938 mi) e Red Hat (R$ 909 mi), conforme estudo USP/UnB divulgado pelo Intercept Brasil.

A assimetria torna-se ainda mais nítida quando se compara esse gasto anual com a alocação do Plano Brasileiro de IA (PBIA 2024–2028): o R$ 10,35 bilhões/ano gastos com big techs superam os R$ 5,79 bilhões que o PBIA prevê para todo o Eixo 1 (Infraestrutura e Desenvolvimento de IA) ao longo de quatro anos (Publicação da versão final do PBIA, jun/2025). A dependência também adquiriu contornos geopolíticos: em novembro de 2025, a OpenAI teria condicionado um "investimento bilionário" no Brasil a mudanças no PL 2338 sobre remuneração autoral (Intercept Brasil), levando Ronaldo Lemos, criador do Marco Civil, a alertar em junho de 2026 que "não podemos depender da OpenAI nem das chinesas" (Seu Dinheiro).

Compute: o gargalo mais citado

O acesso à capacidade computacional é apontado de forma recorrente como o fator limitante mais decisivo para o treinamento de LLMs de grande escala a partir do zero (Brazil Journal). O sintoma mais agudo desse gargalo é a paralisia do supercomputador nacional previsto no PBIA: orçado em R$ 1,8 bilhão, com meta de ~5.000 GPUs, arquitetura RISC-V em fases futuras e ambição de superar 500 PFlops (top 5 mundial), seu edital foi postergado de outubro de 2025 para o intervalo de março-abril de 2026, e até meados de 2026 ainda não havia sido licitado (Convergência Digital). A infraestrutura existente, embora em expansão, é modesta para os padrões de fronteira: o Santos Dumont (LNCC), após a ampliação financiada pelo PBIA, alcançou Rmax anunciado de 18,85 PFlop/s e posição 107 no TOP500 de junho de 2025 (HPCwire). A maior frota privada de HPC ainda pertence à Petrobras, voltada predominantemente a dados sísmicos.

A dimensão econômica desse gargalo é ilustrada pela própria Maritaca AI. Segundo seu blog técnico, o custo de um ciclo completo de treinamento de um modelo de ~1T de parâmetros (MoE, 500B tokens) chega a **~R$ 7,2 milhões (~US$ 1,5M)**, e Rodrigo Nogueira propõe um plano nacional de R$ 266 milhões em 1,5 ano, em três fases (20 equipes × R$ 4M; 8 × R$ 12M; 3 × R$ 30M), com 32 GPUs B200 por equipe (Escalando treinamento de LLMs na Maritaca AI; Why Brazil needs to train its own AIs from scratch). Esses valores, ainda que expressivos, são modestos frente aos R$ 10,35 bi/ano gastos com big techs, o que sugere que o gargalo de compute é tanto de priorização quanto de capital absoluto.

Financiamento: aprovado abundante, desembolsado escasso, e a ausência de VC em LLMs

O financiamento público para IA é, no agregado, robusto: BNDES, FINEP e EMBRAPII somam R$ 10,5 bilhões aprovados para projetos de IA entre 2023 e fevereiro de 2026 (Correio Braziliense). O problema reside na execução e na qualidade desse financiamento. Os R$ 10,5 bilhões efetivamente aprovados representam apenas ~46% dos R$ 23,03 bilhões anunciados no PBIA, e a maior parte sequer foi desembolsada. A crítica mais incisiva vem do Instituto de Economia da Unicamp (Buainain, Bastos, Carvalho): apenas ~2% dos recursos do PBIA correspondem a ações genuinamente novas: o restante seria reempacotamento orçamentário, faltando instrumentos de demand-side, indicadores mensuráveis e hierarquia de prioridades entre as 90+ iniciativas pulverizadas (O PBIA: da euforia à inquietação). Sintomaticamente, o componente de "LLM robusto em português" (R$ 1,1 bilhão, prazo de 12 meses) não foi cumprido até o fim de 2025.

No capital de risco privado, o quadro é de uma lacuna específica e diagnóstica: não há megarodadas de VC em startups de LLM no Brasil, diferentemente dos EUA. Embora o ecossistema de IA capte volumes relevantes, em 2025, startups de IA absorveram 39% do capital de risco, com US$ 867,7 milhões em 120 rodadas (Bloomberg Línea), esse capital flui para IA aplicada, não para construção de modelos fundacionais. O primeiro unicórnio de IA da América Latina, a legaltech Enter (Série B de US$ 100 mi, valuation US$ 1,2 bi em maio de 2026, Startups.com.br), é uma aplicação sobre modelos de terceiros, não um laboratório de LLMs. A própria Maritaca, único produto generativo brasileiro em produção comercial relevante, não tem rodada formal de VC com valor confirmado [INCERTO], operando com créditos da Google (~US$ 1 mi) e aporte não divulgado da Jusbrasil.

Talento, dados em português e avaliação robusta

Embora o dossiê não quantifique diretamente a escassez de talento, ele evidencia uma concentração marcante de capital humano em poucos polos (CEIA-UFG com 700+ pesquisadores; RECOD.ai com 240+ colaboradores; Rede Brasileiras em PLN com 200+ pesquisadoras coordenada pela Profa. Adriana Pagano) e uma dependência crítica de pesquisadores-chave, com a notável anomalia de que parte dos modelos abertos nativos mais transparentes (Tucano, TeenyTinyLlama) foi desenvolvida na Universidade de Bonn (Alemanha) por Nicholas Kluge Corrêa e equipe, não em solo brasileiro.

No que tange aos dados em português, houve avanço expressivo em escala, de GigaVerbo (200B tokens) a GigaVerbo-v2 (~320B), ClassiCC-PT (~120–126B) e o anunciado Aurora-PT do Itaú (331 bilhões de tokens, descrito como o maior corpus monolíngue PT aberto, embora ainda indisponível em junho de 2026, NorBERTo, arXiv:2605.00086). Persiste, porém, um obstáculo de licenciamento: corpora fundacionais como brWaC (restrito acadêmico), Carolina (CC BY-NC-SA 4.0) e o encoder NorBERTo (CC BY-NC-SA 4.0, que veda uso comercial) limitam a transferência da pesquisa para a produção comercial.

A avaliação robusta evoluiu de forma notável (ver tendências abaixo), mas o dossiê sinaliza limitações ainda não resolvidas: risco de contaminação de dados (Claude 3.5 Sonnet apontado como de alto risco), a dicotomia PT-BR versus PT-PT, e o achado do próprio projeto Tucano de que vários benchmarks têm baixa correlação com o escalonamento de tokens, o que questiona a validade preditiva de parte das métricas em uso.

Opacidade comercial: um desafio transversal de governança

Um padrão preocupante atravessa os três principais players comerciais de LLMs nativos: Maritaca AI, WideLabs e SoberanIA não divulgam parâmetros, arquitetura, dataset em tokens, energia ou pegada de carbono de treinamento. No caso da Maritaca, os autores explicitamente recusam revelar a arquitetura desde o Sabiá-2 (a hipótese de MoE com ~1T de parâmetros totais e ~49B ativos para o Sabiá-4 vem de blog técnico, não de paper revisado [INCERTO]). A WideLabs nunca divulgou o número de parâmetros do Amazônia IA (a cifra de "8,8 bilhões" não tem respaldo em fonte primária), e há disputa pública sobre se o modelo foi treinado do zero ou é fine-tuning, questionamento levantado pelo próprio Rodrigo Nogueira e por veículos como TechTudo e Capital Digital, sem que a empresa publique paper técnico ou modelos no Hugging Face.

Lacunas atuais

O abismo entre pesquisa e produção

A lacuna mais reveladora do ecossistema é a distância entre a robustez acadêmica e a adoção real. Os modelos de embeddings têm adoção massiva: o BERTimbau Large registra ~1,28 milhão de downloads/mês (e a versão Base, ~140 mil/mês), enquanto os LLMs generativos abertos permanecem confinados à pesquisa, com números de adoção ínfimos: Tucano-630m ~475 downloads/mês e Bode-7B ~16/mês (neuralmind/bert-large-portuguese-cased; TucanoBR/Tucano-630m). Apenas a Maritaca, via API fechada, tem um produto generativo em produção comercial significativa. Em outras palavras: o Brasil produz dezenas de LLMs generativos abertos que quase ninguém usa em produção, enquanto a demanda real é atendida por modelos estrangeiros (GPT, Claude, Gemini) ou por encoders.

Competitividade restrita a benchmarks nacionais

Os modelos brasileiros são competitivos apenas em benchmarks especificamente nacionais. O Sabiá-3 alcança 79,0% de média em 93 exames brasileiros, ficando abaixo de GPT-4o (80,8%) e Claude 3.5 Sonnet (81,6%) (Sabiá-3, arXiv:2410.12049), e no benchmark geral PoETa v2 o Sabiá-3 (72,2) fica atrás de GPT-4.1 (76,2) e GPT-4o (75,2) (PoETa v2, arXiv:2511.17808). A vantagem nacional concentra-se em domínios e exames brasileiros (jurídico, ENEM, OAB), onde o conhecimento local e cultural é decisivo, o que delimita um nicho defensável, mas não uma paridade de fronteira em tarefas gerais.

Lacunas setoriais: o caso do agronegócio

A maturidade da IA aplicada é profundamente desigual entre setores. Enquanto a saúde apresenta modelos nativos maduros (TRL 8–9: BioBERTpt, DrBode, o LLM treinado nas diretrizes do SUS que supera GPT-5.2, Claude Sonnet 4.6 e Gemini 3.1 Pro com apenas 14B parâmetros, arXiv:2605.01077), o agronegócio, setor estratégico para a economia brasileira, carece de LLMs nativos especializados (TRL 3–5) e de benchmarks próprios em português. A Embrapa recorre a modelos internacionais (Gemini/Google), e iniciativas como o "GPT-4 como agrônomo" ou o AgroLLM não são nativas de PT-BR (Embrapa; AgroLLM, arXiv:2503.04788).

Multimodalidade e transparência ambiental incipientes

A multimodalidade nativa ainda é embrionária. O ViTucano é o primeiro VLM nativo em PT-BR (ago/2025), mas o próprio dossiê registra como [LACUNA] a ausência de benchmarks quantitativos padronizados para ele (ViTucano-2b8-v1). Quanto à transparência ambiental, apenas o projeto Tucano publica métricas verificáveis de energia e CO₂: uma lacuna de governança que contrasta com a vantagem estrutural do país e que dificulta valorizar essa vantagem de forma auditável.

Tendências futuras

Soberania de IA como vetor organizador

A soberania consolidou-se como prioridade estratégica e geopolítica, materializada em três frentes paralelas: o Soberano 1 do Piauí (primeiro LLM desenvolvido por um estado brasileiro, 30B parâmetros, R$ 35–40 milhões do MCTI, Gov.br); o LLM próprio do SERPRO e a "LLM Tupi Guarani" em infraestrutura soberana (SERPRO, nov/2025); e a aposta regional no LatamGPT do CENIA chileno (Llama 3.1 70B, MoU Brasil-Chile de 22/04/2025). Cabe a ressalva analítica de que essa tendência convive com fragilidades: o Soberano 1 não tem relatório técnico, benchmarks independentes ou modelo no Hugging Face (apenas o dataset Jabuticaba), e suas alegações de superar Qwen, DeepSeek, Nemotron e Maritaca permanecem [NÃO VERIFICADAS]. A própria sustentabilidade do LatamGPT é questionada pela Brookings, que estima ≥1 década para representar a diversidade regional (Brookings, nov/2025).

Qualidade de dados acima de quantidade

Uma das tendências técnicas mais bem fundamentadas é a primazia da curadoria sobre o volume bruto. O Curió-Edu-7B supera o Curió-7B usando apenas 10% dos dados e 20% do compute (~1.400 vs. ~7.000 horas de TPU, arXiv:2512.12770). Complementarmente, a reescrita sintética emerge como multiplicador de qualidade, não substituto da curadoria: reescrever dados de alta qualidade do ClassiCC-PT gera +3,4 NPM no PoETa V2, enquanto dados de baixa qualidade rendem apenas +0,5 (arXiv:2603.24826).

O retorno do treinamento "do zero" com corpora massivos

O dossiê identifica uma inflexão arquitetural. Até 2024, o continued pretraining sobre bases abertas (Llama, Mistral, Qwen, Gemma) dominava por custo-benefício e permanece o padrão dominante. A partir de 2025, porém, surge uma nova onda de modelos from-scratch com corpora maiores, exemplificada pelo Tucano 2 (GigaVerbo-v2, ~320B tokens) e pela ambição de "modelos maiores do zero" articulada pela Maritaca. A tabela a seguir sintetiza o trade-off central entre as três abordagens:

Abordagem	Custo computacional	Risco de esquecimento	Exemplos brasileiros
From-scratch	Muito alto	Nenhum	Tucano, TeenyTinyLlama, BERTimbau, NorBERTo
Continued pretraining	Alto	Moderado	Sabiá-1/2/3/4, Curió, Canarim, GAIA
Fine-tuning / instrução	Baixo-médio	Baixo	Bode, Amadeus-Verbo, Jurema, Cabrita

Especialização de domínio e modelos pequenos eficientes

A especialização vertical, sobretudo jurídica (Juru, Jurema-7B, Sabiá-4) e de saúde (SUS-LLM, BioBERTpt), consolida-se como estratégia de competitividade, ainda que ao custo conhecido de degradação em conhecimento geral. Paralelamente, ganham força os modelos pequenos e eficientes (Sabiazinho, Tucano, TeenyTinyLlama), otimizados para custo e latência, alinhados à evidência de que ganhos de qualidade vêm mais de dados curados do que de escala bruta. O caso emblemático é o LLM de saúde Qwen2.5-14B que supera modelos de fronteira em benchmarks do SUS, demonstrando que especialização + dados de qualidade podem superar escala genérica.

IA aplicada a setores e a vantagem da infraestrutura verde

A adoção setorial avança aceleradamente, ainda que majoritariamente sobre modelos estrangeiros: 200+ projetos de IA no governo federal (eram 73 em 2023), 80%+ dos bancos usando GenAI (Febraban), e aplicações maduras em saúde (NoHarm.ai com 90M+ prescrições) e jurídico (Jus IA com 30 milhões de usuários mensais). Por fim, desenha-se uma tendência de infraestrutura verde como vantagem competitiva: a matriz elétrica brasileira é 88,2% renovável (2024), com intensidade de carbono de 59,9 gCO₂eq/kWh, frente a ~384 nos EUA e ~473 na média global. O dossiê estima que treinar o Tucano-2b4 no Brasil em vez da Alemanha reduziria emissões em ~84% (~711 kg vs. 4.536 kg CO₂). Combinada ao regime fiscal REDATA (MP 1.318/2025, com renúncia estimada de R$ 5,2 bilhões em 2026) e a megaprojetos como Scala AI City (500 MW) e TikTok/Casa dos Ventos (1,5 GW, R$ 150 bi), essa matriz limpa pode converter-se no diferencial estrutural mais duradouro do Brasil na corrida global de IA, desde que a transparência ambiental, hoje restrita ao Tucano, se generalize.

Síntese prospectiva

O cenário de meados de 2026 pode ser lido como uma corrida entre dois relógios. De um lado, avança a maturação técnica e regulatória, benchmarks nativos robustos (PoETa v2, OAB-Bench, Magis-Bench, CAPITU), modelos especializados competitivos em nichos brasileiros, e o PL 2338 caminhando (embora ainda pendente na Câmara, com risco de postergação para 2027). De outro, persistem os gargalos estruturais, compute não licitado, financiamento fragmentado e majoritariamente não desembolsado, ausência de VC em LLMs e opacidade comercial. A resolução desse descompasso dependerá menos de capital absoluto: os R$ 266 milhões propostos por Nogueira são uma fração dos R$ 10,35 bi/ano gastos com big techs, e mais de priorização política, governança transparente e da capacidade de converter a vantagem energética e a robustez acadêmica em produtos efetivamente adotados em escala.

16. Tabelas-Resumo

Esta seção consolida, em formato de referência rápida, o conhecimento disperso nas seções anteriores. As cinco tabelas a seguir cobrem (1) os LLMs brasileiros/para português, (2) os modelos de embedding e encoders, (3) as empresas e startups, (4) a infraestrutura computacional e (5) os benchmarks. Cada tabela foi desenhada para ser autoexplicativa, priorizando colunas quantitativas (parâmetros, datas, valores, licenças) e marcações de incerteza onde a informação primária é ausente ou disputada. As fontes inline remetem aos documentos originais; pontos sinalizados como [INCERTO] ou [DISPUTADO] carecem de verificação independente.

Tabela 1: LLMs brasileiros e modelos generativos para português (2023–2026)

Esta primeira tabela ordena cronologicamente os principais modelos de linguagem generativos, distinguindo a abordagem de treino (from-scratch, continued pretraining ou fine-tuning): um eixo central de análise, dado que até 2024 dominava o continued pretraining por custo-benefício, com o from-scratch ressurgindo a partir de 2025 (Tucano, arXiv:2411.07854). Note-se a recorrência da marcação "NÃO DIVULGADO" nos modelos comerciais (Sabiá-2/3/4, Amazônia IA, Soberano 1), refletindo a opacidade apontada como desafio estrutural do ecossistema.

Modelo	Parâmetros	Base / Abordagem	Licença	Data	Criador
Sabiá-7B / 65B	7B / 65B	LLaMA-1, continued pretraining	Restrita (pesquisa)	abr/2023	Maritaca AI
Cabrita / openCabrita-3B	3B	OpenLLaMA-3B, adaptação tokenizer + CT	Apache 2.0	ago/2023	22h (Larcher et al.)
Canarim-7B	7B	LLaMA-2, continued PT (16B tokens)	Llama 2 CLA	set/2023	Maicon Domingues
TeenyTinyLlama	160M / 460M	Llama 2 arch, from-scratch	Apache 2.0	jan/2024	Univ. Bonn / PUCRS / RAIES
Bode	7B / 13B	LLaMA-2, LoRA (Alpaca-PT)	MIT / CC BY 4.0	jan/2024	Recogna NLP / UNESP / LNCC
Lloro	7B	geração de código de análise de dados	Open source	fev/2024	Semantix
Sabiá-2 Small/Medium	NÃO DIVULGADO	proprietária	Proprietária (API)	mar/2024	Maritaca AI
Juru	7B	Mistral-7B-v0.3, continued PT (jurídico)	CC BY 4.0	mar/2024	USP / Maritaca
Amazônia IA	NÃO DIVULGADO ("8,8B" sem respaldo)	proprietária; from-scratch vs. FT [DISPUTADO]	Proprietária	jul/2024	WideLabs
Sabiá-3 / Sabiazinho-3	NÃO DIVULGADO	proprietária	Proprietária	set/2024–fev/2025	Maritaca AI
Tucano (160m–2b4)	162M–2,44B	Llama 2 arch, from-scratch (515B tokens)	Apache 2.0 (pesos)	nov/2024	Univ. Bonn
Amadeus-Verbo	0,5B–72B	Qwen2.5, full-parameter FT	Apache 2.0 / Qwen	jun/2025	Amadeus AI
GAIA	4B	Gemma-3-4b, continued PT (~13B tokens)	Gemma Terms	jun/2025	CEIA-UFG / ABRIA / Nama / Amadeus / Google
Jurema-7B	7B	Qwen2.5-7B-Instruct, SFT (jurídico)	Apache 2.0	ago–set/2025	NeuralMind / Escavador
Curió / Curió-Edu	7B (e 1.1B)	LLaMA-2 / TinyLlama, continued PT (ClassiCC-PT)	CC BY 4.0	dez/2025	Unicamp / Maritaca
Sabiazinho-4 / Sabiá-4	NÃO DIVULGADO (MoE ~1T/49B ativos [INCERTO])	proprietária	Proprietária	jan–mar/2026	Maritaca AI
Tucano 2	0,5B–3,7B	Qwen 2.5/3, continued PT (~320B tokens)	Apache 2.0 (pesos)	mar/2026	Univ. Bonn / Polygl0t
Soberano 1	30B	NÃO DIVULGADA (from-scratch vs. FT [INCERTO])	API (dataset CC-BY-SA)	mai/2026	SoberanIA / Piauí

Para contexto comparativo, incluem-se ainda os principais modelos portugueses (PT-PT) que cobrem o português brasileiro: GlórIA (1,3B/2,7B, GPT-Neo from-scratch, NOVA LINCS), Gervásio (7B/8B/70B sobre LLaMA-2/3.1/3.3, MIT, Univ. Lisboa/PORTULAN) e Amália (Portugal, €5,5 milhões via PRR, beta abr/2025). No campo colaborativo regional, o LatamGPT (CENIA/Chile) baseia-se em Llama 3.1 70B com corpus de ~297–300B tokens, financiamento de US$ 550 mil e MoU com o Brasil firmado em 22/04/2025.

Preços da API Maritaca (jun/2026, R$ por milhão de tokens), o único produto generativo brasileiro com comercialização significativa (Maritaca, Preços):

Modelo	Entrada (R$/M)	Saída (R$/M)
Sabiá-4	5,00	20,00
Sabiazinho-4	1,00	4,00
Sabiá-3 / Sabiá-3.1	5,00	10,00
Sabiazinho-3	1,00	3,00

Descontos disponíveis: cache de input 75%, horário noturno (22h–06h BRT) 30%, Flex Tier 50% e Batch API.

Tabela 2: Modelos de embedding e encoders (BERT-like e sentence encoders)

Diferentemente dos LLMs generativos, os encoders têm adoção massiva em produção, com o BERTimbau Large registrando mais de 1,28 milhão de downloads mensais (BERTimbau, BRACIS 2020). A tabela destaca a métrica de desempenho mais representativa de cada modelo e sinaliza restrições de licença comercial, caso do NorBERTo (CC BY-NC-SA 4.0) e do corpus Carolina.

Modelo	Parâmetros	Arquitetura / Corpus	Métrica de destaque	Licença	Data	Criador
BERTimbau Base/Large	110M / 335M	BERT (scratch, brWaC 2,68B tokens)	ASSIN2 STS Pearson 0,852 (Large); ~1,28M downloads/mês	MIT	out/2020	NeuralMind / Unicamp
DeBERTinha	~40M	DeBERTa-V3 XSmall adaptado	supera BERTimbau-Large em NER e sentimento	n/d	2023	Sagui NLP
PeLLE (pPeLLE/xPeLLE/mPeLLE)	~125M	RoBERTa/XLM-R/mBERT (Carolina 823M palavras)	F1 0,91 HateBR (xPeLLE)	CC BY 4.0	fev/2024	USP / IBM / PUC-Rio
GlórIA encoder / família Albertina	100M / 900M / 1,5B	DeBERTa (OSCAR/CulturaX)	ExtraGLUE RTE 0,8676; STS-B 0,9007 (1.5B)	CC BY 4.0 / MIT	2023–2024	Univ. Lisboa/Porto (PORTULAN)
RoBERTaLexPT	~100–125M	RoBERTa-base, domínio jurídico (LegalPT/CrawlPT)	PortuLex 85,41% F1-macro (SOTA c/ ~9× menos params)	CC BY 4.0	2024	INF-UFG
Serafim PT*	100M / 335M / 900M	sentence encoder (CT Loss, GISTEmbed, CoSENT)	IR mMARCO MRR@10 0,8539 (SOTA RAG-PT)	MIT / CC BY 4.0	jul/2024	Univ. Lisboa (PORTULAN)
NorBERTo	100M (base) / large	ModernBERT (Aurora-PT, 331B tokens GPT-2)	PLUE/MRPC F1 0,9191; ASSIN2 Entailment ~0,904	CC BY-NC-SA 4.0 (veda uso comercial)	2026	Itaú Unibanco

Encoders adicionais de domínio específico incluem BioBERTpt (clínico, PUCPR/HAILab, 2020), LegalBERT-pt (BRACIS 2023), GovBERT-BR (BRACIS 2024), além de BERTugues (UEL), DeB3rta (financeiro), BERTweet.BR e modernJabuticaBERT (Amadeus AI). Como referência histórica, o Repositório de Word Embeddings do NILC (2017) oferece 31 modelos estáticos (Word2Vec/FastText) treinados em 1,39 bilhão de tokens, ainda usados como baseline.

Principais corpora de pré-treinamento (insumo dos modelos acima):

Corpus	Tamanho	Origem	Licença	Usado por
brWaC	2,68B tokens, 3,53M docs	UFRGS	Restrito acadêmico	BERTimbau, Albertina
Carolina	823M palavras (v1.2)	USP / C4AI	CC BY-NC-SA 4.0	PeLLE, DeBERTinha
GigaVerbo / -v2	200B / ~320B tokens	Univ. Bonn	Permissiva	Tucano, Tucano 2
ClassiCC-PT	~120–126B tokens	Unicamp / Maritaca	—	Curió
Aurora-PT	331B tokens GPT-2	Itaú Unibanco	aberta (futura)	NorBERTo
Jabuticaba	669 GB, ~139B tokens	SoberanIA / Piauí	CC-BY-SA 4.0	Soberano 1

Tabela 3: Empresas e startups do ecossistema de IA/LLM

A tabela sintetiza as empresas com atuação relevante em LLMs e PLN, com ênfase em fundação, financiamento e produto principal. O contraste estrutural é evidente: a Maritaca AI é a única com produto generativo em produção comercial significativa, enquanto a Enter (legaltech) é o primeiro unicórnio de IA da América Latina, embora aplique IA sem desenvolver LLM próprio em larga escala. Persiste a ausência de megarodadas privadas em LLMs no Brasil.

Empresa	Fundação / Sede	Fundadores	Financiamento	Produto principal	Status
Maritaca AI	out/2022, Campinas-SP	Rodrigo F. Nogueira, Roberto Lotufo	~US$ 1 mi créditos Google; aporte Jusbrasil; sem VC confirmado [INCERTO]	Família Sabiá + MariTalk (API)	Produção comercial
WideLabs	mai/2020, Porto Alegre-RS	Nelson Leoni, M. Chapper, R. Malossi	Série A buscando US$ 50 mi; break-even 4T2025	Amazônia IA (24 modelos)	Comercial; HF sem modelos públicos
NeuralMind	SP/Campinas/BH/Canadá	Patrícia Tavares, Roberto Lotufo	R$ 10 mi FINEP (Jurema)	BERTimbau, Jurema 7B, Neuroscience	Ativa; TOP 3 Big Data 2025
Semantix	2010, SP	Leonardo Santos	Nasdaq 2022 (US$ 1 bi val.); saiu da bolsa 2024	Lloro (7B); lab c/ CEIA-UFG	Meta R$ 1 bi/ano (2030)
Clarice.ai	2020	Felipe Iszlaji	Pré-seed R$ 2,5 mi (Raio, Veredas, PIPE/FAPESP)	Correção de texto PT; LLM próprio em dev.	500+ mil usuários
Amadeus AI	—	W. Cruz-Castañeda, M. Amadeus	—	Amadeus-Verbo, JabuticaBERT	Open source
Enter	set/2023, SP	—	Série B US$ 100 mi (mai/2026), val. US$ 1,2 bi	Legaltech (litígios)	1º unicórnio de IA da AL
Solfintec	—	—	Série D US$ 52,8 mi (2025)	IA para agronegócio	Ativa
NoHarm.ai	Porto Alegre / PUCRS	—	—	NLP em farmácia clínica	150+ unidades; 90M+ prescrições
Stilingue	2014, Campinas	—	Adquirida pelo Grupo Blip	Social listening (motor SNLP)	Integrada à Blip
Sofya	2022, Hospital Sírio-Libanês	—	—	IA por voz para documentação clínica	-40% tempo documentação
SERPRO	estatal	—	infraestrutura própria	LLM Tupi Guarani; ConversAÍ Studio	LLM soberano (nov/2025)

Panorama de venture capital: em 2024 o VC brasileiro movimentou R$ 13,9 bilhões em 366 transações (IA = 37% dos aportes); em 2025 caiu 13% para US$ 4,5 bilhões em 459 rodadas, com startups de IA captando 39% do capital (US$ 867,7 milhões em 120 rodadas) (Bloomberg Línea).

Tabela 4: Infraestrutura computacional (supercomputadores e clusters de IA)

A tabela reúne os principais sistemas de HPC e clusters de IA, com capacidade (PFlops ou nº de GPUs), aceleradores, investimento e operador. O destaque é o Santos Dumont, cujos números exigem atenção, pois há confusão frequente entre Rmax (14,29 PFlop/s, nov/2024), Rpeak (20,26) e o valor de 18,85 anunciado pela Eviden em jun/2025. A Petrobras opera a maior frota privada de HPC do país, e o supercomputador nacional do PBIA (R$ 1,8 bilhão, ~5.000 GPUs) ainda não fora licitado em meados de 2026.

Sistema	Operador / Local	Capacidade	Aceleradores	Investimento	Data	Observações
Santos Dumont (expandido)	LNCC, Petrópolis-RJ	Rmax 14,29 / Rpeak 20,26 PFlop/s	248× H100 + 144× GH200 + AMD MI300A	US$ 19,4 mi (coop. Petrobras)	nov/2024	TOP500 #89; jun/2025 #107
Supercomputador PBIA	LNCC (local a definir)	>500 PFlops (meta top 5)	~5.000 GPUs + RISC-V	R$ 1,8 bilhão	previsto 2026	Edital postergado p/ mar–abr/2026
Pégaso	Petrobras, Vargem Grande-RJ	21 PFlops	2.016× A100-80GB	R$ 300 milhões	dez/2022	TOP500 #33 (2022)
Novo HPC Petrobras	Petrobras (5 sistemas)	maior ~73 PFlops	— (vencedor Lenovo)	R$ 500 milhões (maior: R$ 435 mi)	2024–2025	Dados sísmicos pré-sal
Tatu	Petrobras, Cenpes-RJ	2,4 PFlops	224× A100-80GB	R$ 36 milhões	mar/2023	1º HPC Petrobras exclusivo IA
OGBON	SENAI CIMATEC, Salvador-BA	1,605 PFlops	312× V100 NVLink	~R$ 30 milhões	nov/2019	Maior polo industrial de HPC da AL
Jairu	USP (CIAAM)	maior cluster de IA da AL ao inaugurar	96× Blackwell B200	R$ 40 milhões	fev/2026	12 nós × 8 GPUs HGX
Abaporu	Unicamp (IC)	—	28× H200/L40s	~US$ 1 milhão (Shell/ANP)	nov/2025	Também opera o Coaraci

Nuvem soberana e datacenters: a Nuvem de Governo (SERPRO + Dataprev), descrita como a única nuvem 100% soberana do Hemisfério Sul, atende 250+ órgãos com investimento de R$ 324 milhões (2024). O REDATA (MP 1.318/2025) concede suspensão de PIS/Cofins/IPI/II por 5 anos, com renúncia estimada de R$ 5,2 bilhões em 2026. Big techs anunciaram aportes relevantes: Microsoft (R$ 14,7 bi/3 anos) e AWS (R$ 10,1 bi até 2034).

Custo de treino e pegada de carbono: o único projeto plenamente transparente é o Tucano: o Tucano 1 consumiu ~15.615 kWh e emitiu 6.168 kg CO₂eq (~US$ 5.990), enquanto o TeenyTinyLlama custou apenas ~US$ 500 (arXiv:2401.16640). Maritaca, WideLabs e SoberanIA não divulgam energia nem CO₂. A matriz elétrica brasileira (88,2% renovável, 59,9 gCO₂eq/kWh em 2024) representa vantagem estrutural: o mesmo Tucano-2b4 emitiria ~711 kg no Brasil vs. 4.536 kg na Alemanha (redução de ~84%).

Tabela 5: Benchmarks e leaderboards para LLMs em português

A tabela final organiza os principais instrumentos de avaliação por tipo (leaderboard, suíte acadêmica, exame, domínio), indicando o número de tarefas/questões e o melhor resultado conhecido. O ecossistema de benchmarks nativos amadureceu fortemente em 2025–2026 (PoETa v2, OAB-Bench, CAPITU, Magis-Bench), com adoção crescente de LLM-as-judge. O achado recorrente é que modelos brasileiros são competitivos sobretudo em benchmarks especificamente nacionais (jurídico, exames), enquanto o GPT-4o e sucessores dominam tarefas gerais.

Benchmark / Leaderboard	Tipo	Tarefas / Questões	Mantenedor	Melhor resultado conhecido	Referência
Open Portuguese LLM Leaderboard	Leaderboard	9 tarefas generativas PT-BR	Eduardo Garcia (CEIA-UFG)	rastreia 1.000+ modelos	HF Space
CLARIN-PT-LDB	Leaderboard (PT-PT)	10 benchmarks	PORTULAN (Branco et al.)	—	arXiv:2603.12872
SWEN.AI Benchmark	Leaderboard (ELO)	600+ modelos	independente	—	swen.ia.br
PoETa v2	Suíte acadêmica	44 tarefas (12 nativas + 32 traduzidas)	Maritaca/Unicamp	GPT-4.1 76,2; Sabiá-3 72,2	arXiv:2511.17808
Napolab	Suíte acadêmica	7 datasets	Ruan Chaves Rodrigues	—	GitHub
ENEM Challenge	Exame	776 questões (2009–2017)	USP/IME	GPT-4 (visão/CoT) 93,85% no ENEM 2024	USP/IME
BLUEX / BLUEX Revisited	Exame (vestibular)	1.260+ / 1.422 questões	Maritaca	—	arXiv:2307.05410
Alvorada-Bench	Exame (vestibular)	4.515 questões (5 vestibulares)	Henrique Godoy	—	arXiv:2508.15835
OAB-Bench	Domínio jurídico	105 questões dissertativas	Maritaca	Claude-3.5 Sonnet 7,93; Sabiá-4 7,49	arXiv:2504.21202
Magis-Bench	Domínio jurídico	74 questões de magistratura	Maritaca	Gemini-3-Pro 6,97/10	arXiv:2605.08437
LegalScore	Domínio jurídico	concursos jurídicos (14 modelos)	—	—	arXiv:2502.08652
CAPITU	Instrução / literário	59 tipos de instrução, 8 obras	Maritaca	GPT-5.2 98,5%; Sabiá-4 84,5%	arXiv:2603.22576
Prosa	Conversa real	1.000 conversas (WildChat)	Maritaca	— (LLM-as-judge)	arXiv:2605.01630
BRACEval	Chat multiturno	150 questões, 13 categorias	Maritaca	usado como win rate vs. GPT-4o	Maritaca research
Revalida	Domínio saúde	exame médico	—	GPT-4o 86,8%; 10/31 LLMs > humanos	BMJ/PubMed
HealthBench-BR / PCDT-QA	Domínio saúde (SUS)	diretrizes SUS	Unicamp/Maritaca/NoHarm	SUS-LLM (14B) 83,9% / 85,4%, supera GPT-5.2	arXiv:2605.01077

Datasets de avaliação subjacentes mais citados: ASSIN/ASSIN2 (STS+NLI, NILC), FaQuAD (900 questões), HateBR (7.000 comentários), TweetSentBR (15.000 tweets) e Pirá (QA bilíngue sobre oceano). O framework técnico predominante é o lm-evaluation-harness (EleutherAI), com o fork eduagarcia/lm-evaluation-harness-pt consolidando a avaliação generativa de 9 tarefas. As principais limitações apontadas são a contaminação de dados (modelos frontier com risco alto) e a dicotomia PT-BR vs. PT-PT, que reduz a comparabilidade entre suítes.

Nota de leitura das tabelas. Os valores refletem o horizonte de levantamento de junho de 2026; identificadores arXiv com prefixos 2603., 2605. e 2606.* correspondem a publicações desse mesmo horizonte. Para o Santos Dumont, sempre citar a edição do TOP500 (nov/2024: #89, Rmax 14,29; jun/2025: #107). Parâmetros e arquiteturas dos modelos comerciais Sabiá-2/3/4, Amazônia IA e Soberano 1 não foram divulgados; a estimativa de MoE para o Sabiá-4 e o número de "8,8 bilhões" para o Amazônia IA carecem de respaldo em fonte primária e estão sinalizados como [INCERTO]/sem respaldo.

Referencias

Nota metodologica e limitacoes

Este relatorio foi produzido por uma pesquisa automatizada multiagente sobre fontes publicas da web (papers, Hugging Face, sites oficiais, agencias de fomento e noticias) entre 2023 e 2026. O campo de IA no Brasil evolui rapidamente; numeros de financiamento, parametros de modelos e disponibilidade podem ter mudado apos a coleta. Afirmacoes controversas (ex.: "primeiro LLM brasileiro") foram sinalizadas quando identificadas. Recomenda-se verificar dados criticos nas fontes primarias listadas nas Referencias antes de uso em decisao.

Anexo A: Infraestrutura Computacional: O Que o IFSP Pode Acessar

Contexto: análise derivada da Seção 10 (Infraestrutura Computacional) aplicada ao perfil de um(a) pesquisador(a) do IFSP, Instituto Federal de São Paulo (instituição pública federal, sediada no estado de São Paulo). Objetivo: separar, entre as infraestruturas mapeadas no relatório, quais estão efetivamente disponíveis para uso acadêmico, quais são fechadas e quais ainda não existem. Data da análise: 2026-06-13.

A.1: Separação por acessibilidade

A leitura central é distinguir três categorias: aberto à academia, corporativo/fechado e ainda não existe.

Infraestrutura (do relatório)	Aberta ao IFSP?	Via de acesso	Evidência de uso para LLM/IA
Santos Dumont (LNCC)	✅ Sim — "a principal máquina pública de HPC" e espinha dorsal acadêmica	Alocação de projeto via LNCC / SINAPAD	Treinou o Bode (UNESP, via auxílio Fundunesp) e rodou o Carcará (DeepSeek V3 685B em 4 nós H100)
SINAPAD / Cenapads-IA	✅ Sim — gateway formal da supercomputação nacional	Submissão de projeto; rede reorganizada pela Portaria MCTI nº 9.445/2025, que criou os Cenapads-IA	Porta de entrada institucional para o HPC público
Clusters universitários (USP Jairu 96×B200; Unicamp Abaporu/Coaraci; CEIA-UFG DGX B200)	⚠️ Via colaboração	Parceria / projeto conjunto com o grupo proprietário	Jairu anunciado como "maior cluster de IA da AL"; proximidade geográfica (SP)
RNP (Rede e-Ciência)	✅ Sim (conectividade e serviços)	Vínculo institucional; programa "Conecta e Capacita" (R$ 640 mi)	Interliga LNCC, CIMATEC e Cenpes a ≥100 Gb/s
SENAI CIMATEC (OGBON)	⚠️ Via parceria	Projeto/parceria; integrado ao SINAPAD	Polo de supercomputação industrial (viés óleo & gás)
Nuvem hyperscaler (GCP / AWS / Azure / OCI)	✅ Sim (paga ou créditos de pesquisa)	Cartão/fomento ou créditos acadêmicos	Maritaca (GCP TPU), WideLabs (OCI H100), Amadeus (AWS H100/H200), Semantix (1×H100)
Petrobras (Pégaso, Tatu, Dragão…)	❌ Corporativa	Apenas via parceria de pesquisa (ex.: INCT TILD-IAR)	Maior frota de HPC da AL, porém fechada
Supercomputador nacional do PBIA	⏳ Ainda não	—	R$ 1,8 bi, ~5.000 GPUs; não licitado em meados de 2026
Nuvem soberana (SERPRO/Dataprev)	⚠️ Só cargas de governo	Como órgão federal, em tese elegível, mas orientada a workloads governamentais — não a treino de modelos	250+ órgãos do Executivo Federal

A.2: Mapa por caso de uso (com a régua de realidade do próprio relatório)

A Seção 10 mostra que a maioria dos modelos brasileiros não precisou de um supercomputador nacional:

Pesquisa de embeddings / fine-tuning leve (LoRA) / inferência / RAG → cabe em 1 GPU. O TeenyTinyLlama foi treinado em 1× A100-40GB (~US$ 500) e o Lloro (Semantix) roda em 1× H100. → Cluster universitário parceiro (USP/Unicamp) ou créditos de nuvem resolvem. É, provavelmente, onde a maioria das demandas do IFSP se encaixa.
Fine-tuning / continued pretraining de LLM médio → 8–16 GPUs A100 (referência: Tucano). → Partição GPU do Santos Dumont via alocação, CENAPAD/Cenapads-IA, ou créditos de nuvem.
Treino do zero em larga escala → ~45.000 GPU-horas, R$ 1–2,7 mi por run, ~R$ 7,2 mi no ciclo (estimativa Maritaca para 1T MoE); o plano de Rodrigo Nogueira pressupõe 32× B200 por equipe. → Só faz sentido com alocação grande no SDumont + financiamento, nuvem (TPU/neoclouds) ou, futuramente, o supercomputador do PBIA.
Inferência / RAG em produção → recurso modesto (1× H100, como o Lloro) ou nuvem sob demanda.

A.3: Recomendação para o perfil IFSP/SP

Aposta principal: Santos Dumont (LNCC) via SINAPAD/Cenapads-IA. Recurso público desenhado para isso, com partição H100/GH200 e histórico comprovado de treino de LLM brasileiro.
Complemento de baixo atrito: parceria com cluster universitário em SP (USP Jairu / Unicamp Abaporu-Coaraci), proximidade institucional e geográfica.
Burst sob demanda: nuvem com créditos de pesquisa/fomento (GCP, agora com TPU Trillium em SP, AWS, OCI, Azure), caminho efetivamente usado por Maritaca, WideLabs e Amadeus.

A.4: Como aplicar na prática

Levantamento de procedimentos práticos realizado por pesquisa dirigida (somente Sonnet) em 2026-06-13. Destaque: o IFSP mantém acordo de cooperação com o LNCC (Programa Embaixadores do SDumont), criando um canal interno direto via SUAP. Verifique prazos e disponibilidade nos links oficiais antes de submeter.

1. Como aplicar, opcao por opcao

Via A: Santos Dumont (SDumont/LNCC) pelo Edital Interno do IFSP (Rota Preferencial)

O que e: O Supercomputador Santos Dumont, operado pelo LNCC em Petropolis-RJ, e o principal supercomputador brasileiro. Em julho de 2025 concluiu upgrade que elevou a capacidade de 1,5 para 18,85 petaflops, adicionando 62 nos com 4x NVIDIA H100 SXM 80GB cada, nos Grace Hopper Superchips (GH200) e AMD Instinct MI300A. O IFSP possui acordo de cooperacao formal com o LNCC no ambito do Programa Embaixadores do SDumont, o que cria um canal institucional direto, sem concorrencia com pesquisadores de todo o Brasil.

Elegibilidade do IFSP: Servidores efetivos e ativos do IFSP (docentes e TAEs) com Curriculo Lattes atualizado no semestre da submissao. Alunos e bolsistas nao podem ser coordenadores, mas integram a equipe. Cada docente pode usar o Programa Embaixadores uma unica vez por esta rota.

Passo a passo de candidatura:

Acesse o SUAP do IFSP (suap.ifsp.edu.br) com login institucional.
Va em PESQUISA > Projetos > Submeter Projetos.
Localize o edital "Selecao de propostas para utilizacao do supercomputador Santos Dumont" (Edital PRP n. 06/2026).
Clique em "Adicionar Projeto", preencha os dados basicos e salve.
Faca upload do Anexo I assinado (PDF assinado pelo proponente).
Clique em "Enviar Projeto".
Apos aprovacao pela PRP/IFSP, o LNCC emite credenciais por canal seguro (senha entregue por telefone); configure VPN e acesse via SSH login.sdumont.lncc.br.

O que se ganha: 100.000 Unidades de Alocacao (UAs) por 6 meses + 2 TB de armazenamento Scratch + 500 GB em area Home. Acesso as filas GPU (H100, GH200, V100 legado) via SLURM.

Custo: Gratuito (coberto pelo acordo institucional IFSP-LNCC).

Prazo/recorrencia: Fluxo continuo ate 04/12/2026. O edital e recorrente: o IFSP lanca chamadas anuais desde 2023 (Edital 487/2023, Edital 12/2024, PRP 06/2026). Nova chamada esperada em 2027.

Links: Edital PRP n. 06/2026 no portal IFSP | Acordo IFSP-LNCC

Via B: Santos Dumont (SDumont/LNCC) por Chamada Direta

O que e: Qualquer pesquisador vinculado a instituicao brasileira de ensino/pesquisa pode submeter proposta diretamente ao LNCC, independentemente do canal interno do IFSP. Volume de recursos maior que a via interna, mas com avaliacao mais demorada.

Elegibilidade do IFSP: Professor do IFSP com vinculo empregaticio efetivo e elegivel diretamente. Pos-doutorando, professor visitante e pesquisador especial precisam de carta de anuencia institucional. Alunos de pos-graduacao nao podem ser coordenadores.

Passo a passo de candidatura:

Baixe o formulario de proposta SDumont (PDF).
Elabore a proposta descrevendo: problema cientifico, justificativa da demanda computacional (escalabilidade, paralelismo, uso de GPU), estimativa de UAs necessarias e financiamento vinculado (projetos com CNPq/FAPESP tem prioridade).
Submeta via sistema JEMS/SBC.
Avaliacao em 2 a 3 meses; implementacao em ~15 dias apos aprovacao.

O que se ganha:

Modalidade Educacional: ate 150.000 UAs (para disciplinas, treinamentos, eventos).
Modalidade Standard: 750.000 a 7.499.999 UAs por ate 12 meses (renovavel). Exige projeto com merito tecnico-cientifico documentado.
Modalidade Premium: 7.500.000+ UAs por ate 18 meses, exclusiva para renovacao de projetos Standard/Premium ja aprovados.

Custo: Gratuito para pesquisa academica.

Prazo/recorrencia: Fluxo continuo permanente, sem prazo limite de submissao.

Links: Portal SDumont, Chamada 2026 | JEMS/SBC

Via C: CENAPAD-SP (Unicamp)

O que e: Centro Nacional de Processamento de Alto Desempenho em Sao Paulo, sediado na Unicamp e integrante do SINAPAD. Dispoe do Ambiente Dell Lovelace: 5 nos GPU com 2x NVIDIA Tesla A100 40GB cada, 128 CPUs e 512 GB RAM por no (~97 TFlops em GPU). E geograficamente proximo ao IFSP e aceita pesquisadores externos.

Elegibilidade do IFSP: Professor ou Pesquisador com titulo de Doutor e vinculo empregaticio no IFSP pode ser PI (responsavel). Alunos de pos-graduacao e colaboradores podem ser incluidos como participantes. Para explorar o ambiente sem proposta formal, qualquer pesquisador/estudante pode solicitar conta experimental.

Passo a passo de candidatura:

Conta Experimental (ate 3 meses, 25 UAs ~100 horas, para testar o ambiente):
- Acesse cenapad.unicamp.br/abertura-de-contas.
- Baixe o formulario na secao Formularios.
- Preencha, assine e envie para cenapadsp@cenapad.unicamp.br.
Conta-Projeto (acesso pleno, permanente):
- Prepare: Formulario "Solicitacao de Abertura de Conta" + Formulario "Proposta de Projeto" (assinado pelo PI Doutor).
- Envie para avaliacao por referees do CENAPAD-SP via o mesmo e-mail.
- Apos aprovacao: 75.000 UAs nos primeiros 6 meses + 75.000 UAs nos 6 meses seguintes (nao cumulativo). Relatorio semestral no 1o ano, anual a partir do 2o.

O que se ganha: Acesso ao Ambiente Lovelace (A100 40GB), filas CPU e armazenamento em paralelo compartilhado. Alocacao inicial de 150.000 UAs no primeiro ano.

Custo: Gratuito para pesquisa academica.

Prazo/recorrencia: Sem prazo fixo, submissao continua ao longo do ano.

Links: Abertura de contas | Formularios | Ambiente Lovelace (A100) | Contato: cenapadsp@cenapad.unicamp.br

Via D: CENAPAD-UFC (Universidade Federal do Ceara)

O que e: Centro integrante do SINAPAD, com novo cluster Apollo inaugurado em abril de 2025. Dispoe de 1 no GPU com 2x NVIDIA A100 80GB PCIe, 6 nos CPU com AMD EPYC 7713 64-core e 512 GB RAM cada, ~240 TB de armazenamento e rede InfiniBand HDR100/Ethernet 100Gb. SO Rocky Linux 9.5 com PyTorch, TensorFlow e Gromacs pre-instalados. Aceita explicitamente pesquisadores externos a UFC.

Elegibilidade do IFSP: Professores, pesquisadores e estudantes de universidades publicas e privadas e institutos de pesquisa, inclui IFSP.

Passo a passo de candidatura:

Acesse cenapad.ufc.br/servicos/cadastro-projeto.
Preencha as 5 etapas online: Projeto > Instituicao > Coordenador > Participantes > Descricao.
Anexe: Termo de Responsabilidade assinado por TODOS os participantes (PDF/DOC) + comprovante de vinculo institucional de cada participante.
Aguarde avaliacao; credenciais chegam por e-mail.

O que se ganha: Acesso ao cluster Apollo (A100 80GB, maior que o A100 40GB do CENAPAD-SP), nos CPU de alto desempenho e grande capacidade de armazenamento.

Custo: Gratuito (sem informacao de cobranca no portal).

Prazo/recorrencia: Sem prazo fixo, submissao continua. Projetos nao renovados em 30 dias apos termino sao removidos.

Links: Cadastro de projeto | Recursos computacionais | Contato: suporte@cenapad.ufc.br | (85) 3366-9472

Via E: CENAPAD-MG (UFMG)

O que e: Centro integrante do SINAPAD, sediado no LCC/UFMG em Belo Horizonte. Dispoe de clusters HPC (incluindo o Cluster Veredas) com nos CPU e GPU. Aceita pesquisadores externos.

Elegibilidade do IFSP: Novos projetos exigem PI com titulo de Doutor e vinculo empregaticio. Membros da equipe (incluindo pos-graduandos e externos) podem ser vinculados a projeto ja cadastrado por um PI aprovado.

Passo a passo de candidatura:

Acesse lcc.ufmg.br/abertura-de-conta.
Baixe o formulario adequado: Formulario_Novo_Projeto.doc (para novo PI) ou Formulario_Nova_Conta.doc (para vincular a projeto existente).
Assine e envie para computacaocientifica@lcc.ufmg.br ou presencialmente na sala 2040, ICEx/UFMG.

O que se ganha: Acesso aos clusters HPC do LCC/UFMG. Especificacoes de GPU nao detalhadas nos achados, recomenda-se confirmar com o centro.

Custo: Informacao nao confirmada nos achados, verificar com o centro.

Prazo/recorrencia: Sem prazo fixo, submissao continua.

Links: Abertura de conta | Formularios | Contato: computacaocientifica@lcc.ufmg.br | (31) 3409-4909

Via F: RNP: Servicos e Programas de PD&I

O que e: A Rede Nacional de Ensino e Pesquisa (RNP) oferece tres caminhos relevantes: (1) servico comercial de nuvem para pesquisadores (LAB+), (2) programa de PD&I com GTs que recebem acesso ao Laboratorio Nacional Multiusuario (LNMU) e verba de ate R$ 300.000, e (3) bolsas de PD&I para pos-graduandos e pesquisadores. O IFSP e membro do Sistema RNP e ja usa a Federacao CAFe.

Elegibilidade do IFSP: Pesquisadores, grupos de pesquisa e a propria instituicao sao potencialmente elegiveis para todos os programas.

Passo a passo por sub-rota:

F1, LAB+ Nuvem para Pesquisadores (pago):

Acesse rnpmais.rnp.br/lab/nuvempesquisador.
Preencha o formulario "Fale com um especialista".
A equipe RNP entra em contato para apresentar o servico e discutir contratacao.

Custo: modelo de consumo pago (sem tabela publica). Pode ser custeado com verba de projeto de pesquisa (FAPESP, CNPq etc.).

F2, PD&I Servicos Avancados (GTs com infraestrutura + verba):

Monitore rnp.br/pesquisa-e-desenvolvimento/chamadas-publicas, edital para GTs 2027 esperado em outubro/novembro de 2026 (padrao historico).
Baixe o "Modelo de Referencia para Submissao de Propostas" quando a chamada abrir.
Submeta pelo portal da Plataforma RNP.

O que se ganha: ate R$ 300.000 para pessoal (bolsas PD&I) + ate R$ 50.000 para infraestrutura + acesso ao LNMU por 12 meses.
Custo: subsidiado pela RNP/FNDCT.
O edital 2026 (GTs) encerrou submissoes em 02/02/2026, aguardar o ciclo 2027.

F3, Bolsas PD&I RNP (para pos-graduandos e pesquisadores):

Monitore rnp.br/pesquisa-e-desenvolvimento/chamadas-publicas: a Chamada 01/2026 encerrou em 29/05/2026.
Aguardar nova chamada tecnica (provavelmente em 2027).

O que se ganha: bolsas de R$ 1.600 a R$ 2.200/mes para atuacao em projetos de HPC, nuvem e IA dentro da RNP.

Links: LAB+ Nuvem | Chamadas publicas RNP | ESR/RNP (capacitacao gratuita)

Via G: FAPESP: Financiamento para Aquisicao de GPU ou Nuvem

O que e: A FAPESP nao oferece GPUs diretamente, mas financia a aquisicao de servidores GPU (material permanente) ou creditos de nuvem (servicos de terceiros) dentro de projetos de pesquisa. O IFSP e elegivel: a Biblioteca Virtual da FAPESP registra 45 projetos historicos do IFSP Campus Sao Paulo; o IFSP confirmou 5 Auxilios Regulares ativos em 2024. O proprio IFSP lancou edital interno (PRP/IFSP n. 02/2026) para capacitar pesquisadores a submeter projetos de IC a FAPESP.

Elegibilidade do IFSP: PI deve ter titulo de Doutor e vinculo empregaticio em instituicao sediada no estado de Sao Paulo: o IFSP se enquadra.

Passo a passo de candidatura (Auxilio Regular, rota mais acessivel):

Crie conta no SAGe ("Sem cadastro?").
Cadastre o campus IFSP se nao estiver no sistema (Solicitacoes > Cadastro de Instituicao).
Obtenha a "Manifestacao assinada pelo Dirigente da Instituicao Sede" (Pro-Reitor de Pesquisa do IFSP).
Elabore a proposta no SAGe incluindo no orcamento: servidor GPU como "Material Permanente" (ate R$ 150k/unidade; acima disso, processo EMU separado) ou creditos de nuvem (AWS/Google/Azure/interNuvem USP) como "Servicos de Terceiros".
Inclua plano de gestao de dados (ate 2 paginas) e orcamento detalhado com justificativas.
Use "Validar" no SAGe antes de submeter.

Prazo de analise: ~120 dias.

Modalidades e recursos:

Auxilio Regular (APR): ate R$ 600.000, ate 36 meses, fluxo continuo. Porta de entrada para quem nao tem historico FAPESP.
Primeiros Projetos: ate R$ 600.000, 36 meses, exclusivo para quem nunca teve Auxilio FAPESP. Edital 2025 encerrado; aguardar 2026.
Projeto Inicial Pi: ate R$ 1,5 milhao, 60 meses, para contratados ha menos de 8 anos. Edital 2025 encerrado; aguardar 2026.
ProCiencIA (Redes FAPESP IA/HPC): ate R$ 2,5 milhoes, 60 meses. Exige que o PI ja tenha Auxilio vigente (Tematico/CEPID/etc.), nao e porta de entrada. Prazo da chamada inicial: 08/04/2026 (ja encerrado em junho de 2026); resultado previsto novembro/2026.
EMU (Equipamentos Multiusuarios): para GPU acima de R$ 100k compartilhada entre grupos. Sem chamada aberta em 2026.

Custo: O fomento FAPESP e gratuito para o pesquisador; a GPU/nuvem e paga com a verba do projeto.

Prazo/recorrencia: APR e fluxo continuo. Primeiros Projetos e Pi sao editais anuais (ciclos em mai/ago).

Via H: Creditos de Nuvem: AWS, Google Cloud, Oracle, NVIDIA

AWS Cloud Credit for Research

O que e: Programa da Amazon Web Services que concede creditos para pesquisa academica em instancias com GPU (P3/P4/P5 com V100/A100/H100).

Elegibilidade do IFSP: Professores e pesquisadores de instituicoes de ensino e pesquisa acreditadas, com e-mail institucional. O IFSP qualifica. Estudantes de pos-graduacao tambem podem aplicar (ate US$ 5.000). Projetos devem ter escopo finito e resultados publicaveis.

Passo a passo:

Acesse pages.awscloud.com/aws-cloud-credit-for-research.html.
Submeta proposta descrevendo: problema de pesquisa, servicos AWS especificos que serao usados, cronograma e plano de divulgacao de resultados.
Avaliacao em fluxo continuo; resposta em 30 a 60 dias.

O que se ganha: Ate US$ 5.000 para estudantes; sem teto declarado para docentes/pesquisadores (dependente da proposta). Creditos validos por 1 ano.

Custo: Gratuito.

Prazo/recorrencia: Aberto o ano todo, sem prazo fixo.

Links: Portal de candidatura | FAQ

Google Cloud Research Credits

O que e: Programa do Google que concede creditos para pesquisa em infraestrutura Google Cloud (incluindo GPUs e TPUs). Brasil e pais elegivel confirmado.

Elegibilidade do IFSP: Professores e pesquisadores pos-doutorais de instituicoes acreditadas + doutorandos. Mestrandos regulares NAO sao elegiveis.

Passo a passo:

Crie uma conta de faturamento Google Cloud previamente (obrigatoria para aplicar).
Acesse edu.google.com/intl/ALL_us/programs/credits/research.
Submeta proposta de pesquisa (max. 250 palavras) com estimativa de custo via Google Pricing Calculator.
Resposta em 6 a 8 semanas.

O que se ganha: Ate US$ 5.000 para professores e pos-doutorais; ate US$ 1.000/ano para doutorandos. Creditos expiram em 365 dias.

Custo: Gratuito.

Prazo/recorrencia: Aberto continuamente, sem prazo fixo.

Links: Portal de candidatura | Informacoes do programa

Oracle for Research

O que e: Programa da Oracle que concede creditos de Oracle Cloud Infrastructure (incluindo GPU Compute, HPC, ML/AI). Aplicacao disponivel em portugues; Brasil elegivel sem restricao geografica.

Elegibilidade do IFSP: Pesquisadores de qualquer instituicao de ensino e pesquisa. Sem restricao de pais (exceto China).

Passo a passo:

Acesse go.oracle.com/research-project-award.
Preencha o formulario com dados institucionais, descricao do projeto, ate 10 marcos, requisitos de infraestrutura cloud e planos de publicacao.

O que se ganha: Creditos Oracle Cloud (valor variavel conforme proposta). Research Fellows selecionados recebem adicionalmente suporte de marketing e apoio para conferencias.

Custo: Gratuito.

Prazo/recorrencia: Aberto continuamente, sem prazo fixo.

Links: Portal de candidatura

NVIDIA Academic Grant Program

O que e: Programa trimestral da NVIDIA que concede horas de GPU em nuvem (H100 80GB) ou hardware fisico (DGX Spark). A UFMG ja foi selecionada com 32.000 horas de GPU A100 em ciclo anterior.

Elegibilidade do IFSP: Professores em tempo integral em instituicoes academicas acreditadas com programa de doutorado. Sem restricao de pais. Importante: o IFSP nao oferece programas de doutorado proprio, verificar se isso afeta a elegibilidade ou se a exigencia se refere a afiliacao com instituicao que os ofereca.

Passo a passo:

Acesse academicgrants.nvidia.com.
Submeta proposta dentro da janela trimestral ativa. Prazo tipico: 30 de junho (resultado em setembro). Verificar no portal se ha ciclo aberto.
Requer uso de modelos de ai.nvidia.com e software NVIDIA; assistir ao webinar "Level Up Your Proposal" no NVIDIA On-Demand antes de submeter e recomendado.

O que se ganha (por categoria):

Simulacao e Modelagem: ate 30.000 horas de GPU H100 80GB.
Treinamento de IA e Desenvolvimento de Modelos: ate 30.000 horas de GPU H100 80GB.
Inferencia, Agentes e Software: 2 DGX Sparks + ate 30.000 horas de GPU H100.

Custo: Gratuito.

Prazo/recorrencia: Janelas trimestrais; pode estar em pausa entre ciclos, verificar no portal.

Links: Portal NVIDIA Academic Grant | Candidatura

Via I: Alternativas de Free Tier e Ferramentas Leves

Para prototipagem, experimentos com embeddings, fine-tuning leve e inferencia com LLMs de pequeno porte, sem necessidade de candidatura formal:

Kaggle Notebooks: Tesla P100 (16 GB) ou 2x T4 (16 GB cada); 30 horas/semana gratuitas; sessao maxima de 9 horas. Sem cadastro institucional. Acesso em kaggle.com.
Google Colab (tier gratuito): T4 16 GB; sessoes curtas sem garantia de GPU, instavel para tarefas longas. Util para testes rapidos.
Hugging Face ZeroGPU Spaces: NVIDIA H200 (alocacao dinamica); 3,5 min/dia gratis (x5 com plano PRO). Ideal para inferencia e demos; inadequado para treinamento longo. Acesso em huggingface.co.
Lambda Labs Research Grant: Ate US$ 5.000 em creditos de GPU cloud (B200, H100, A100, A6000); sem restricao de pais aparente. Candidatura em fluxo continuo via lambda.ai/research.
Together AI Research Credits: Creditos para inferencia, fine-tuning e clusters GPU. Formulario em together.ai/research-credits-program-request.

Custo: Gratuito (dentro dos limites de cada plataforma).

Via J: SENAI CIMATEC e Parcerias Universitarias

SENAI CIMATEC (Salvador-BA): Opera o maior centro de supercomputacao privado do Brasil, incluindo o supercomputador OGBON (inaugurado em 2022). Em 2020, abriu acesso gratuito a pesquisadores externos como resposta a Covid-19. Nao ha evidencia de chamada aberta e ativa para 2025-2026 com processo formal de candidatura. O portal mencionado em 2020 (hpc2covid19.fieb.org.br) pode estar desativado. Para tentar acesso, o caminho atual recomendado e contato direto via universidadesenaicimatec.edu.br/editais-e-documentos ou parceria formal de P&D (via EMBRAPII ou contrato direto).

USP Cluster Jairu (96 GPUs NVIDIA B200): Inaugurado em fevereiro de 2026, e o maior cluster de IA da America Latina. Nao ha processo publico de acesso externo documentado: o portal HPC da USP exige numero USP ativo. Para pesquisadores do IFSP, seria necessaria parceria formal com professor da USP. Contato: hpc@usp.br ou atendimentosti.usp.br.

Cluster Coaraci (IFGW/Unicamp, 42 GPUs NVIDIA A30): 14 nos Dell EMC PowerEdge R7525 com 3x NVIDIA A30 por no; fila gpu-x com walltime de 168 horas. Pesquisadores externos ao CEPID CCES podem submeter projetos via portal. Financiado pela FAPESP; publicacoes devem agradece-la. Portal Coaraci.

2. Tabela: passo a passo de candidatura

Via	Elegibilidade IFSP	Onde aplicar (link)	Recurso tipico	Custo	Prazo/recorrencia
SDumont via Edital PRP n. 06/2026 (IFSP)	Servidores efetivos e ativos IFSP, Lattes atualizado	SUAP do IFSP > Pesquisa > Projetos	100.000 UAs / 6 meses + 2 TB Scratch + 500 GB Home; GPU H100/V100	Gratuito	Fluxo continuo ate 04/12/2026; edital recorrente anual
SDumont — Chamada Direta LNCC	Professor/pesquisador com vinculo em inst. brasileira	sdumont.lncc.br/call.php via JEMS/SBC	750k–7,5M UAs (Standard); ate 150k UAs (Educacional); GPU H100/GH200/V100	Gratuito	Fluxo continuo permanente; avaliacao 2–3 meses
CENAPAD-SP (Unicamp)	Professor/Doutor com vinculo em inst. de ensino/pesquisa	cenapad.unicamp.br/abertura-de-contas — e-mail para cenapadsp@cenapad.unicamp.br	75k UAs/semestre (conta-projeto); GPU A100 40GB	Gratuito	Continuo; sem prazo fixo
CENAPAD-UFC	Professores, pesquisadores e estudantes com vinculo institucional (inclui externos a UFC)	cenapad.ufc.br/servicos/cadastro-projeto	GPU A100 80GB; ~240 TB storage	Gratuito	Continuo; sem prazo fixo
CENAPAD-MG (UFMG)	Professor/Doutor (PI); membros vinculados ao PI	lcc.ufmg.br/abertura-de-conta — e-mail para computacaocientifica@lcc.ufmg.br	Clusters HPC (GPU nao especificada — confirmar)	Nao confirmado — verificar com o centro	Continuo; sem prazo fixo
RNP LAB+ Nuvem	Pesquisadores e grupos do Sistema RNP (IFSP e membro)	rnpmais.rnp.br/lab/nuvempesquisador — formulario de contato	Nuvem computacional (GPU nao detalhada — consultar RNP)	Pago por consumo	Permanente
RNP PD&I — GTs 2027	Pesquisadores de inst. publicas ou privadas (coord. academico)	rnp.br/pesquisa-e-desenvolvimento/chamadas-publicas	Ate R$ 300k bolsas + R$ 50k infraestrutura + acesso LNMU / 12 meses	Subsidiado RNP/FNDCT	Edital 2027 esperado out/nov 2026
FAPESP — Auxilio Regular (APR)	Doutor com vinculo em inst. sediada em SP (IFSP elegivel)	sage.fapesp.br — fapesp.br/apr	Ate R$ 600k / 36 meses; GPU/nuvem como material permanente ou servicos de terceiros	Fomento gratuito; GPU/nuvem paga com verba do projeto	Fluxo continuo; analise ~120 dias
FAPESP — Primeiros Projetos	Doutor com vinculo em inst. SP; nunca teve Auxilio FAPESP	sage.fapesp.br — fapesp.br/17465 (referencia 2025)	Ate R$ 600k / 36 meses	Fomento gratuito	Edital anual (ciclos mai/ago); aguardar Edital 2026
AWS Cloud Credit for Research	Professores/pesquisadores e pos-graduandos de inst. acreditadas; e-mail institucional	pages.awscloud.com/aws-cloud-credit-for-research.html	Ate US$ 5k (estudantes); sem teto para docentes; GPU V100/A100/H100	Gratuito	Continuo; resposta 30–60 dias
Google Cloud Research Credits	Professores, pos-doutorais, doutorandos de inst. acreditadas; Brasil elegivel	edu.google.com/intl/ALL_us/programs/credits/research	Ate US$ 5k (prof/pos-doc); ate US$ 1k/ano (doutorando)	Gratuito	Continuo; resposta 6–8 semanas
Oracle for Research	Pesquisadores de qualquer inst. de ensino/pesquisa; Brasil elegivel	go.oracle.com/research-project-award	Creditos Oracle Cloud (GPU, HPC, ML/AI — valor conforme proposta)	Gratuito	Continuo; sem prazo fixo
NVIDIA Academic Grant	Professores em tempo integral em inst. com programa de doutorado	academicgrants.nvidia.com	Ate 30.000 horas GPU H100 ou DGX Spark	Gratuito	Trimestral; verificar se ciclo esta aberto
Lambda Labs Research Grant	Pesquisadores com afiliacao institucional	lambda.ai/research	Ate US$ 5k em creditos GPU (B200/H100/A100)	Gratuito	Continuo
Free Tier (Kaggle, Colab, HF)	Qualquer pessoa com cadastro na plataforma	kaggle.com / colab.research.google.com / huggingface.co	P100/T4/H200; sessoes curtas; limite semanal	Gratuito	Imediato; sem candidatura
SENAI CIMATEC	Pesquisadores e institutos de pesquisa (processo informal)	universidadesenaicimatec.edu.br/editais-e-documentos — contato direto	HPC (recursos nao especificados para externos)	Historicamente gratuito; verificar	Sem chamada ativa confirmada em 2026

3. Roteiro recomendado para o IFSP

A sequencia abaixo e ordenada do mais acessivel para o mais demorado ou dependente de pre-requisitos, e pode ser executada em paralelo em varias frentes:

Semana 1, Acoes imediatas (sem espera, sem burocracia externa):

Comece usando Kaggle Notebooks (P100 ou 2x T4, 30h/semana) ou Google Colab para prototipagem enquanto os outros processos correm. Nao substitui HPC, mas permite validar hipoteses e pipelines.
Abra uma conta experimental no CENAPAD-SP enviando o formulario por e-mail, processo simples, sem avaliacao formal de proposta, e da acesso a GPU A100 40GB em dias a semanas.

Semana 1–2, Submissao prioritaria (mais facil para servidor do IFSP): 3. Acesse o SUAP do IFSP e submeta proposta no Edital PRP n. 06/2026, e o caminho institucional mais direto, com acordo ja estabelecido, sem concorrencia nacional, e gratuito. Prazo ate 04/12/2026.

Semana 2–4, Creditos de nuvem (processamento em paralelo, resposta rapida): 4. Submeta candidatura ao AWS Cloud Credit for Research, resposta em 30 a 60 dias, sem prazo fixo, acesso a instancias GPU de alto desempenho. 5. Submeta ao Google Cloud Research Credits, crie a conta de faturamento previamente; resposta em 6 a 8 semanas. 6. Submeta ao Oracle for Research, processo simples, continuo, sem prazo.

Mes 1–3, Acesso HPC adicional (para projetos de maior escala): 7. Formalize o projeto no CENAPAD-SP (saindo da conta experimental para Conta-Projeto com 75.000 UAs/semestre). 8. Para necessidades de armazenamento e GPU diferentes (A100 80GB), submeta cadastro no CENAPAD-UFC. 9. Se o projeto ja tem financiamento de agencia (CNPq, FAPESP), submeta chamada direta ao SDumont via JEMS/SBC para modalidade Standard (750k+ UAs), avaliacao em 2 a 3 meses.

Mes 3–12, Acoes de medio e longo prazo: 10. Se o professor nao tem historico FAPESP: submeter Auxilio Regular (APR) ou aguardar abertura do edital "Primeiros Projetos 2026" para obter verba que financie GPU propria ou creditos de nuvem dentro do projeto. 11. Monitorar abertura do edital RNP PD&I para GTs 2027 (esperado out/nov 2026), permite combinar acesso a LNMU com ate R$ 300.000 em bolsas para equipe. 12. Verificar janelas do NVIDIA Academic Grant (trimestral) para horas de GPU H100 em nuvem. 13. Se ha interesse em parceria com professor da USP, explorar acesso ao Cluster Jairu (B200) via colaboracao formal.

Combinacao otima para projeto de IA/LLMs em escala media:

SDumont via IFSP (100.000 UAs, GPU H100) + creditos AWS ou Google Cloud (US$ 5.000 em nuvem) + CENAPAD-SP (conta experimental para prototipagem rapida). Essa combinacao pode ser ativada em 1 a 3 meses, completamente gratuita, e cobre tanto treinamento em HPC quanto workloads elasticos em nuvem.

4. Avisos e incertezas

Editais encerrados que podem ter nova edicao:

A chamada ProCiencIA/FAPESP encerrou em 08/04/2026; resultado previsto para novembro/2026. Uma segunda chamada pode ser lancada em 2027, mas nao ha confirmacao nos achados. Pesquisadores interessados devem monitorar fapesp.br/chamadas.
O edital Primeiros Projetos FAPESP 2025 (ciclos mai/ago) encerrou; aguardar abertura do Edital 2026 (esperado meados de 2026 com base no historico, mas nao confirmado).
O edital Projeto Inicial Pi FAPESP 2025 tambem encerrou; aguardar 2026.
O edital RNP PD&I Servicos Avancados, GTs 2026 encerrou submissoes em 02/02/2026; o proximo ciclo (GTs 2027) deve abrir em outubro/novembro de 2026, mas sem confirmacao oficial ainda.
A Chamada 01/2026 de Bolsas PD&I da RNP encerrou em 29/05/2026; nova chamada tecnica esperada em 2027.

Informacoes nao confirmadas ou com incerteza:

CENAPAD-MG (UFMG): Os achados descrevem o processo de candidatura, mas nao especificam os recursos GPU disponiveis nem o custo. Recomenda-se confirmar diretamente com computacaocientifica@lcc.ufmg.br ou (31) 3409-4909 antes de submeter.
SENAI CIMATEC: O acesso gratuito para pesquisadores externos foi documentado em 2020. Nao ha evidencia de chamada formal ativa em 2025-2026. O portal original pode estar desativado. Verificar diretamente com a instituicao antes de planejar uso.
USP Cluster Jairu: Inaugurado em fevereiro de 2026, sem processo de acesso externo documentado. Acesso para pesquisadores do IFSP dependeria de parceria com professor USP, informacao nao confirmada nos achados.
NVIDIA Academic Grant: O programa opera em janelas trimestrais e pode estar em pausa entre ciclos. Verificar no portal se ha ciclo aberto antes de submeter. A exigencia de "instituicao com programa de doutorado" pode afetar professores do IFSP, nao ha confirmacao nos achados sobre como isso e interpretado para IFs.
Cenapads-IA (Portaria MCTI n. 9.445/2025): A portaria criou o marco regulatorio em setembro de 2025, mas nenhum Cenapad-IA foi formalmente credenciado ate junho de 2026. O Conselho Diretor (presidido pela Setad/MCTI) publica os credenciamentos no site oficial, monitorar para identificar novos centros especializados em IA que abram acesso externo.
Microsoft Azure: O programa historico "Azure for Research" foi encerrado. Os creditos Azure Research estao disponiveis atualmente apenas para pesquisadores dos EUA. Pesquisadores brasileiros nao tem acesso a esta via em junho de 2026: o Microsoft Research Fellowship (US$ 27.000, prazo dezembro/2025 para o ciclo passado) e uma alternativa distinta e mais restrita.
CNPq/AWS: Uma chamada conjunta CNPq/AWS foi realizada em 2022 (Chamada n. 64/2022, US$ 1,2 milhao para 34 projetos). Nao ha nova edicao anunciada ate junho de 2026. Monitorar gov.br/cnpq para eventual nova chamada.
Disponibilidade das novas particoes H100/GH200 no SDumont para o publico geral: O upgrade foi concluido em julho de 2025, mas os achados nao detalham se todas as particoes com hardware novo (H100, Grace Hopper) ja estao abertas para chamadas gerais ou se ha periodo de estabilizacao. Confirmar com helpdesk-sdumont@lncc.br ou sdumont@lncc.br.
Restricao de uso unico da Via Embaixadores pelo IFSP: Os achados indicam que cada docente pode usar o Programa Embaixadores (via SUAP/IFSP) uma unica vez. Isso significa que, apos o primeiro projeto aprovado por esta rota, o pesquisador deve migrar para a chamada direta LNCC (Via B) para projetos subsequentes.