O Mercado em Números • E-commerce como Mercado de Dados

Mercado de E-commerce

mercado de dados e conteúdo

Estamos acostumados a medir o e-commerce em pedidos e receita. Mas por trás de cada pedido existe uma infraestrutura: especificações, descrições, imagens, formatos, traduções e inúmeras aprovações. Esta página documenta a escala do mercado em números e processos.

Escala Chave
ordens de magnitude
28 milhões+
lojas online no mundo
14 milhões
destas nos EUA
350–600 milhões
SKUs dos líderes de mercado
15–25%
perdas devido a dados
Um único SKU se transforma em dezenas de versões de dados: canais de venda, idiomas, formatos, requisitos das plataformas.

Como ler esta página

Este artigo é intencionalmente detalhado. Não reduzimos o material a 'alguns pontos-chave', pois a dimensão do problema só é revelada através da combinação de números, cadeias e efeitos operacionais.

Não descrevemos a arquitetura de soluções e tecnologias. Para isso, existem outras páginas. Aqui estão os fundamentos: como o mercado de dados está estruturado hoje e por que ele está deixando de ser escalável em sua forma atual.

Abordagem
Dados + Processos

Não é uma «opinião», mas sim a mecânica observável do mercado.

Foco
Logística de Conteúdo

Onde o tempo é gasto e onde os dados são perdidos.

Resultado
Compreensão da Escala

Por que esta é uma tarefa sistêmica, e não apenas local.

Nos próximos anos, o custo de publicação de um produto online se igualará e, em seguida, excederá o custo de sua entrega física. A logística foi otimizada ao longo de décadas, mas a logística de conteúdo ainda é manual e fragmentada.
Seção 1

Escala do mercado de dados

Quantos participantes estão envolvidos

Existem cerca de 28 milhões de lojas virtuais operando no mundo. Destas, aproximadamente 14 milhões estão nos EUA, e vários milhões na Europa (por exemplo, Reino Unido ≈ 1,1 milhão, Alemanha ≈ 0,7 milhão, França ≈ 0,6 milhão).

Além do varejo, milhões de fabricantes e fornecedores estão envolvidos nas cadeias de e-commerce. Apenas na Europa, há cerca de 2,3 milhões de empresas de manufatura que potencialmente fornecem dados de produtos.

Mundo
≈ 28 milhões
sites de e-commerce
EUA
≈ 14 milhões
cerca de 50% do mundo
Europa
milhões
UK 1,1 / DE 0,7 / FR 0,6
Infográfico: Lojas por região (aproximado)
escala ilustrativa
EUA
≈ 14 milhões
Europa
≈ 5–7 milhões
Resto do mundo
≈ 7–9 milhões
*Europa e o resto do mundo são estimativas aproximadas de distribuição, pois diferentes fontes agregam sites de maneiras distintas.
O principal efeito de escala
1 SKU → dezenas de versões de dados

Mesmo que o produto seja fisicamente o mesmo, digitalmente ele se multiplica: diferentes canais de venda, diferentes requisitos de vitrine, diferentes idiomas e formatos.

Infográfico: a fórmula
1 SKU × 5–10 canais × 5–20 idiomas
= 25–200+ versões
O mesmo produto em formato digital é produzido dezenas de vezes. Um único SKU é reescrito e recodificado em cada etapa da cadeia, em vez de se tornar uma única fonte de dados confiável.
Quantos SKUs e fichas de produto
Tipo de participante Catálogo típico
Pequenas empresas 100–1 000 SKU
Varejista de médio porte 10 000–100 000 SKU
Grandes varejistas 100 000–500 000 SKU
Marketplaces centenas de milhões de SKUs
Os maiores players têm uma escala diferente: 350–600 milhões de SKUs entre os líderes de mercado.

Quantas unidades de informação existem

Considerando idiomas, formatos e canais (site, marketplaces, publicidade, feeds), o número de unidades únicas de informação de produto (SKU × idioma × formato × canal) chega a centenas de bilhões de fragmentos de dados.

Para referência: catálogos abertos como o Icecat contêm mais de 25 milhões de fichas técnicas em 77 idiomas — isso ilustra a escala das versões multilíngues.

Infográfico: Multiplicadores de Complexidade
SKU base
Idiomas 5–20
Canais de Venda 5–10
Formatos / Requisitos muitos
Resultado: 25 a 200+ versões de dados por produto (ordem de magnitude).
Até 80% do conteúdo de produtos no e-commerce ainda é transferido via Excel e formatos similares. Na era das APIs, da nuvem e da inteligência artificial, o mercado ainda se apoia em práticas dos anos 90: cópias manuais, erros e perdas de dados a cada etapa.
Seção 2

Cadeia de Fluxo do Conteúdo

Onde os dados se perdem

A informação do produto raramente vai diretamente do fabricante ao comprador. A cadeia típica é: fabricante → distribuidor → fornecedor → loja → CMS → marketing.

Em cada etapa, os dados são transformados, os formatos mudam, parte da informação é descartada e parte é reescrita manualmente. Se o fabricante definiu cerca de 20 atributos, muitas vezes chegam à vitrine apenas 10 a 15.

Infográfico: perdas na cadeia
Fabricante
100%
Distribuidor
80–90%
Fornecedor
70–80%
CMS
50–70%
Marketing
40–60%
Resultado: o mesmo produto é frequentemente reescrito manualmente 3 a 5 vezes por diferentes participantes da cadeia.
O que acontece nas etapas
Fabricante

Cria os dados de origem: atributos, SKUs, imagens. Muitas vezes, em uma única versão de idioma e com padrões internos.

Distribuidor / Fornecedor

Mapeia os dados para os seus próprios templates, adiciona campos (stock/códigos), perde detalhes de marketing, altera o formato.

Loja / CMS

Importa para a sua estrutura, adiciona SEO e categorias. O trabalho manual gera erros de digitação, omissões e inconsistências.

Canais / Marketing

Exigem feeds separados e restrições de formato. Qualquer desalinhamento resulta na não publicação do produto no canal ou em erros.

O mercado automatizou há muito tempo pagamentos e logística, mas ainda não automatizou os dados. Pagamentos e armazéns funcionam como uma indústria, mas o conteúdo de produto ainda é um trabalho artesanal.
Infográfico: onde o significado é 'perdido'
Incompatibilidade de formatos alto
Edições Manuais alto
Perdas nos Canais médio
Avaliação de qualidade: onde ocorrem mais erros e omissões.
Seção 3

Custo do Conteúdo como Processo

Trabalho Manual

No e-commerce de massa, o processamento de um único produto sem automação geralmente leva de 5 a 20 minutos, com um custo direto na faixa de US$ 1 a US$ 5. Existem categorias mais complexas, mas essa faixa é típica para o fluxo de trabalho.

Cenário A
5 min
$1 / SKU
Cenário B
10 min
$3 / SKU
Cenário C
20 min
$5 / SKU
Infográfico: o que significam 1.000 SKUs
A: 5 мин
≈ 83 hora
≈ $1 000
B: 10 мин
≈ 167 horas
≈ $3 000
C: 20 мин
≈ 333 hora
≈ $5 000
E isso é apenas o processamento inicial. As atualizações repetem esses custos repetidamente.
Outra escala: a verificação manual
Para pequenas empresas, são típicas 8 a 12 horas de trabalho manual por semana para verificação e correção. Isso equivale a US$ 10.000–18.000 por ano em custos diretos de tempo.
Os custos indiretos de publicação de produtos tornam-se comparáveis aos da logística. Onde a logística de produtos é otimizada, a logística de conteúdo muitas vezes permanece manual e descontrolada.
O Custo dos Erros

A má qualidade dos dados leva a perdas mensuráveis: 15-25% da receita é perdida devido ao conteúdo; até 25% dos devoluções estão ligadas à não correspondência com as expectativas.

Busca Ineficaz8–12%
Devoluções / Não Conformidades5–8%
Erros de Dados e Disponibilidade5–7%
As barras representam a visualização das proporções dentro das perdas totais (ilustrativo).
O que consome tempo
Coleta de dados
arquivos / e-mails
Normalização
formatos / unidades
Qualidade
verificações / correções
Canais
feeds / regras
Cada participante do mercado hoje é sua própria 'usina de energia' e sua própria 'rede elétrica'. Em indústrias maduras, existem provedores de infraestrutura separados. No conteúdo de e-commerce, quase não há essa camada — por isso, cada um faz tudo sozinho.
Secção 4

Pequenas empresas e grandes players

Um problema — oportunidades diferentes

Grandes empresas podem impor formatos aos fornecedores e investir em infraestrutura. Pequenas e médias empresas são mais forçadas a se adaptar aos dados recebidos e limitar o sortimento devido à incapacidade de processar o conteúdo.

Grandes players
  • ditam requisitos aos fornecedores
  • investem em PIM e integrações
  • mantêm equipas de qualidade de dados
  • suportam erros devido à escala
Pequenas / médias empresas
  • trabalha com os formatos dos fornecedores
  • não tem orçamento para infraestrutura
  • reduz o sortimento devido ao conteúdo
  • publica fichas incompletas 'como estão'
O conteúdo torna-se uma barreira oculta ao crescimento: sem recursos suficientes, o catálogo não cresce.
Infográfico: onde reside o poder do formato
Grandes
exigem formato
Pequenos
adaptam-se ao que recebem
Na economia digital, a escala de um negócio é cada vez mais determinada pela escala dos seus dados. Se o catálogo não pode ser publicado de forma rápida e com qualidade, o crescimento é limitado não pela demanda, mas pelas operações.
Seção 5

Fornecedores como gargalo sistêmico

Fornecedor — ponto de partida do conteúdo

Fornecedores e fabricantes são a fonte primária de informações de produtos: especificações, SKUs, imagens, embalagens, certificações e descrições técnicas. No entanto, a posse dos dados não significa que estejam prontos para o mercado: os dados raramente são estruturados desde o início para percorrer toda a cadeia até a vitrine sem perdas.

Na logística existem padrões e papéis definidos (transportadora, armazém, fulfillment). Nos dados, muitas vezes faltam tanto padrões quanto um «operador de rede»: o fornecedor é forçado a ser tanto o produtor quanto o integrador dos dados — sem a infraestrutura adequada.

Causa principal

Diversidade de formatos e pontos de verdade

Para o mesmo sortimento, o fornecedor frequentemente possui várias fontes paralelas: parte dos dados está no ERP, parte em planilhas, parte em PDFs, e parte em e-mails e aprovações. Para o varejo, isso se traduz em constantes «complementos», validação e correções manuais.

Infográfico: Onde residem os dados do fornecedor
Sistemas
ERP / Armazém / Tabela de Preços

Códigos, estoque, embalagem, parte dos atributos.

Arquivos
Excel / CSV

Templates para clientes, edições manuais.

Documentos
PDF / Catálogos

Descrições de marketing e especificações.

Comunicações
E-mails / Mensagens

Esclarecimentos, fotos em falta, exceções.

Atributos não padronizados

Os fornecedores geralmente não padronizam os dados de acordo com um dicionário de atributos unificado do mercado. Eles fornecem o que têm: seus próprios nomes de campos, unidades de medida diferentes e níveis de detalhe variados. Por isso, a 'padronização' é, na prática, realizada pelo varejista ou marketplace.

Um único significado Como aparece nos dados O que o varejo faz
Cor Color / Colour / Col / Cor / Tonalidade Mapeia, normaliza
Tamanho Tamanho / Dimensões Padroniza unidades e formatos
Material Material / Composição Cria catálogos de valores
Repetitividade: milhares de empresas fazem a mesma normalização em paralelo — e pagam por isso repetidamente.

Um fornecedor — até 5 a 10 formatos

Na prática, um fornecedor que trabalha com um grande número de parceiros é forçado a manter até 5 a 10 modelos diferentes e sistemas de atributos. A partir daí, o custo de manutenção começa a crescer mais rápido do que o benefício — e o fornecedor ou reduz a qualidade ou recorre a intermediários, perdendo o controle.

≈ até 5
Ainda funciona

Suporte manual e atualizações esporádicas.

≈ 5–10
Zona de sobrecarga

O risco de erros e dessincronização aumenta.

≈ 10+
Falha na escalabilidade

Surgem intermediários e perda de controle.

Por que o fornecedor não consegue 'se adaptar a todos'

As razões geralmente não estão na "falta de vontade", mas sim na economia do processo: dar suporte a múltiplos formatos torna-se um produto à parte. Abaixo estão as limitações típicas.

Dados distribuídos em múltiplas fontes

ERPs, tabelas de preços, arquivos, catálogos e comunicações raramente são consolidados em uma estrutura única — a 'fonte da verdade' está ausente.

Excesso de exceções por categoria

Categorias distintas exigem profundidade e atributos diferentes; um modelo universal 'para tudo' não existe.

Recursos de TI limitados e prioridades

Para muitos fornecedores, o 'conteúdo' é um processo secundário em relação à produção e vendas, não recebendo, portanto, investimentos sistêmicos.

O aumento do número de clientes multiplica o custo das atualizações

Cada atualização se transforma em uma cadeia de e-mails e correções em múltiplos layouts; a dessincronização torna-se a norma.

Infográfico: degradação dos dados no percurso

Da 'matéria-prima' à vitrine — através de perdas e cópias

O fornecedor entrega "no estado em que se encontra"
Campos próprios, unidades, versões, nem sempre com estrutura completa.
O varejo retrabalha
Mapeamento de atributos, normalização, controle de qualidade.
Os canais exigem seus próprios formatos
Feeds e restrições criam versões adicionais dos dados.
Resultado: o mercado paga várias vezes pelo mesmo item
O sentido se perde, o trabalho é duplicado, as atualizações reiniciam o ciclo.

Conclusão da seção

O conteúdo dos fornecedores é a “matéria-prima” do e-commerce. O mercado trata-o como um produto finalizado, embora entre a matéria-prima e a vitrine exista uma camada de transformação: dicionários, normalização, localização, controle de qualidade e atualizações.

Enquanto essa camada não existir como infraestrutura, cada participante do mercado a constrói de forma independente — e é por isso que o problema não é resolvido localmente.

O fornecedor não é o 'culpado' pelo caos. Ele não tem incentivo para se tornar o integrador de todo o mercado. Mas o mercado exige sistemicamente isso dele.
Quem controla o formato
Grandes redes exigem um padrão
Pequenas lojas aceitam o que chega
A assimetria de formato amplia a lacuna de qualidade dos dados entre os segmentos.
Em métricas objetivas
Versões por SKU 25–200+
Cópias em cadeia 3–5
Perdas devido a dados 15–25%
O que o mercado exige
  • camada neutra de transformação de dados
  • dicionários unificados de atributos e unidades
  • automação de atualizações e controle de qualidade
Conclusão

O que estes números revelam

1) Conteúdo é logística, mas sem a indústria

No e-commerce, o dinheiro e a entrega estão industrializados há muito tempo. Mas os dados do produto ainda são movidos manualmente, de forma fragmentada e com perdas — em dezenas de versões e formatos.

2) O problema é sistêmico — e, portanto, não é resolvido «dentro de uma única empresa»

Cada player é forçado a construir sua própria camada de transformação de dados: mapeamento de atributos, normalização, controle de qualidade, localização, feeds. Mas isso não escala no nível do mercado — o trabalho é duplicado por milhares de empresas em paralelo.

3) O fosso entre grandes e pequenos está a aumentar

Grandes players podem impor formatos aos fornecedores e investir em infraestrutura. Os pequenos são mais frequentemente forçados a publicar 'como está', reduzir o sortimento e perder eficiência devido à incapacidade de processar o fluxo de conteúdo.

Por que o NotPIM surgiu Vemos esse problema como infraestrutural: o mercado precisa de uma camada neutra que reduza a duplicação, minimize a perda de dados e automatize a logística de conteúdo sem tentar 'forçar o mercado à sua maneira'. Não 'mais uma vitrine', nem 'mais um formato', mas uma forma de conectar os participantes do mercado no nível dos dados.
A formulação chave
O mercado precisa de infraestrutura de dados — tal como precisa de infraestrutura logística.

É por isso que soluções 'isoladas' não proporcionam efeito de escala, mas uma abordagem ao nível do ecossistema, sim.

Transparência

Todos os valores na página são estimativas de ordens de grandeza e faixas típicas do mercado internacional. Eles podem variar por país e categoria, mas a mecânica geral do mercado (duplicação, perdas, trabalho manual) permanece inalterada.

Os dados e as estimativas nesta página são atuais a partir de dezembro de 2025.