Anthropic e Claude: A empresa que aposta que segurança em IA é um bom negócio - Toolsify AI Blog

Em janeiro de 2021, Dario Amodei deixou seu cargo de vice-presidente de pesquisa na OpenAI. Sua irmã Daniela fez o mesmo. Eles levaram consigo algumas das mentes mais brilhantes do aprendizado de máquina — pessoas que haviam ajudado a construir o GPT-3, co-escrito alguns dos artigos sobre segurança mais citados do campo, e que estavam profundamente desconfortáveis com a direção que seu empregador estava tomando. A empresa que fundaram no mesmo ano, a Anthropic, arrecadaria mais de 7,3 bilhões de dólares em financiamento, alcançaria uma avaliação superior a 60 bilhões de dólares e construiria um dos modelos de IA mais discutidos do mundo: o Claude.

É uma trajetória notável para uma empresa cuja proposta central é essencialmente "vamos fazer isso com mais cuidado do que todo mundo."

A aposta na segurança primeiro

A maioria das empresas de IA trata a segurança como um centro de custo — algo que se acrescenta depois que o produto é construído. A Anthropic inverteu essa lógica. Desde o início, a pesquisa em segurança não era um departamento; era o próprio processo de desenvolvimento do produto. A equipe desenvolveu o Constitutional AI, uma metodologia de treinamento que incorpora princípios como utilidade, inofensividade e honestidade diretamente no comportamento do modelo por meio de um processo de autocrítica e revisão.

O que diferencia o Constitutional AI do RLHF padrão (Reinforcement Learning from Human Feedback)? No RLHF tradicional, rotuladores humanos classificam as saídas do modelo, e ele aprende a produzir saídas que recebem classificações mais altas. Funciona, mas escala mal — é necessário um exército de rotuladores, e seus julgamentos introduzem inconsistências. O Constitutional AI substitui grande parte desse feedback humano por um conjunto de princípios escritos. O modelo avalia suas próprias saídas contra esses princípios, as revisa, e a versão revisada se torna o sinal de treinamento. O resultado é um modelo mais alinhado com os valores declarados e significativamente mais barato para treinar.

É perfeito? Não. Críticos apontaram que um modelo treinado em autocrítica pode desenvolver pontos cegos que refletem os vieses da "constituição" que se escreve. É uma preocupação legítima. Mas a abordagem se saiu bem na prática, e o Claude consistentemente se classifica entre os melhores modelos de IA em benchmarks de segurança como a suíte de avaliação HELM.

Claude: Uma família de modelos, não um único produto

Em março de 2024, a Anthropic havia lançado o Claude 3, uma família de três modelos com perfis de compromisso genuinamente diferentes. A linha confundiu alguns no início — por que lançar três modelos quando a OpenAI tinha essencialmente dois (GPT-4 e GPT-3.5)?

A resposta está no preço e na latência. O Claude 3 Opus é o peso pesado, comparável ao GPT-4 Turbo em benchmarks de raciocínio, mas custa 15 dólares por milhão de tokens de entrada e 75 dólares por milhão de tokens de saída. O Claude 3 Sonnet fica no meio — aproximadamente 80% da capacidade do Opus a cerca de um quinto do custo. E o Claude 3 Haiku é o demônio da velocidade: processa consultas em menos de um segundo e custa apenas 0,25 dólares por milhão de tokens de entrada.

O verdadeiro gênio dessa linha é que ela permite que desenvolvedores tomem decisões granulares de custo-benefício sem trocar de provedor. Precisa de uma tarefa de classificação rápida? Haiku. Escrevendo um parecer jurídico que exige raciocínio cuidadoso? Opus. A maioria dos casos de uso em produção? Sonnet dá conta. Pessoalmente, usei os três em diferentes projetos, e a diferença entre Sonnet e Opus é mais estreita do que se esperaria para a maioria das aplicações reais.

Mais tarde em 2024, a Anthropic foi além com o Claude 3.5 Sonnet, que realmente superou o Opus original em vários benchmarks de programação enquanto manteve o ponto de preço intermediário. Foi um sinal forte de que a pesquisa de arquitetura da empresa estava rendendo frutos de maneiras inesperadas.

A vantagem do contexto longo

Uma das características mais distintivas do Claude é sua janela de contexto. Quando o Claude 3 foi lançado, ele suportava até 200.000 tokens de entrada — aproximadamente 150.000 palavras, ou cerca de três romances completos. Em comparação, o GPT-4 Turbo oferecia 128K tokens no lançamento.

Por que o comprimento do contexto importa? Porque muitas tarefas do mundo real envolvem o processamento de grandes documentos. A descoberta jurídica envolve a leitura de milhares de páginas de contratos. A revisão de código requer a compreensão de repositórios inteiros, não apenas de funções individuais. A pesquisa acadêmica significa a síntese de artigos que, coletivamente, somam centenas de páginas.

Uma vez alimentei o Claude 3 Opus com um contrato SaaS completo de 180 páginas e pedi que ele identificasse cada cláusula que pudesse criar exposição à responsabilidade para o comprador. Ele encontrou 14 problemas, incluindo dois que nossa equipe jurídica havia perdido em sua primeira revisão. Foi tão minucioso quanto um advogado sênior? Não exatamente — ele perdeu uma sutileza de indenização na Seção 12.3. Mas fez em 45 segundos o que teria levado a um advogado dois dias inteiros, e o custo foi inferior a um dólar.

O compromisso é a latência. Processar 200K tokens leva tempo, mesmo com a pilha de inferência otimizada da Anthropic. Para aplicativos de chat em tempo real, geralmente é melhor usar uma janela de contexto menor e manter os prompts concisos. Mas para processamento em lote, análise de documentos e fluxos de pesquisa, o contexto longo é um verdadeiro divisor de águas.

A estratégia empresarial

A estratégia comercial da Anthropic tem sido notavelmente diferente da da OpenAI. Enquanto a OpenAI buscava adoção do consumidor com o ChatGPT e construía um marketplace para GPTs, a Anthropic se concentrou na integração empresarial e nas ferramentas para desenvolvedores.

A parceria com a Amazon, anunciada em setembro de 2023, foi crucial. A Amazon investiu até 4 bilhões de dólares na Anthropic e tornou o Claude disponível via AWS Bedrock. Esse acordo deu à Anthropic acesso à enorme base de clientes empresariais da Amazon — empresas que já executavam sua infraestrutura na AWS e queriam adicionar capacidades de IA sem gerenciar uma relação com fornecedor separado.

O Google seguiu com seu próprio investimento de 2 bilhões de dólares. O apoio duplo da Amazon e do Google deu à Anthropic algo raro no Vale do Silício: alavancagem com dois dos maiores provedores de nuvem simultaneamente, sem ser totalmente de propriedade de nenhum dos dois.

Do lado do desenvolvedor, a precificação da API da Anthropic tem sido competitiva. A API do Claude foi lançada a preços que superavam significativamente os do GPT-4, particularmente para workloads intensivos em entrada. Combinado com a abordagem de família de modelos, isso fez do Claude uma opção atraente para startups e empresas de médio porte que não podiam arcar com os preços premium do GPT-4.

As limitações honestas

Seria desonesto escrever sobre a Anthropic sem reconhecer suas restrições. As capacidades de compreensão de imagem do Claude, embora sólidas, historicamente ficaram atrás dos recursos multimodais do GPT-4V. O modelo pode analisar imagens que você carrega, mas não pode gerar imagens — uma limitação que importa para fluxos de trabalho criativos.

As datas de corte de conhecimento do Claude também têm sido um ponto de dor. Durante meses, os dados de treinamento do Claude tinham um corte rígido que significava que ele não podia discutir eventos recentes. A Anthropic melhorou isso com a integração de busca na web, mas ainda não é tão fluido quanto as abordagens de alguns concorrentes.

Também há a questão filosófica: uma empresa que prioriza a segurança pode acompanhar concorrentes dispostos a se mover mais rápido e aceitar mais risco? Até agora, a Anthropic conseguiu manter-se competitiva — o Claude 3.5 Sonnet igualou ou superou o GPT-4 em vários benchmarks padrão. Mas a pressão é implacável, e a cada trimestre surgem novos modelos da OpenAI, Google, Meta e cada vez mais de laboratórios chineses como DeepSeek e a equipe Qwen da Alibaba.

Para onde a Anthropic está indo

No início de 2025, a Anthropic está trabalhando no Claude 4 e se aventurando na IA agêntica — sistemas que podem executar ações, não apenas gerar texto. Sua capacidade de uso do computador, lançada no final de 2024, permite ao Claude controlar um ambiente de desktop, clicar em botões, preencher formulários e navegar em sites. Ainda é grosseiro — a taxa de erro em tarefas complexas de múltiplas etapas é mais alta do que a maioria dos desenvolvedores gostaria — mas aponta para um futuro onde assistentes de IA fazem trabalho real em vez de apenas falar sobre ele.

A empresa também tem sido vocal sobre política de IA, publicando políticas detalhadas de escalonamento responsável e defendendo regulamentações que acredita nivelariam o campo de jogo com concorrentes menos conscientes em termos de segurança. Se essa defesa se traduzirá em políticas eficazes ainda resta ver, mas é um diferenciador genuíno em uma indústria que frequentemente trata a regulamentação como um obstáculo.

A aposta da Anthropic é, em última instância, simples: que à medida que os sistemas de IA se tornam mais poderosos, as empresas que provarem que podem ser confiáveis com esse poder ganharão. É uma aposta que ainda não foi resolvida, mas os primeiros resultados são promissores. O Claude conquistou a confiança de desenvolvedores e empresas que precisam de IA confiável e segura. E em um mercado que cresce em centenas de bilhões de dólares por ano, a confiança pode ser o ativo mais valioso de todos.