De markt in cijfers • E-commerce als datamarkt

De e-commerce markt

de data- en contentmarkt

We are used to measuring e-commerce in orders and revenue. But behind every order lies an infrastructure: specifications, descriptions, images, formats, translations, and endless approvals. This page captures the scale of the market in figures and processes.

Belangrijkste schaalcijfers
orde van grootte
28 miljoen+
webshops wereldwijd
14 miljoen
waarvan in de VS
350–600 miljoen
SKU's bij marktleiders
15–25%
verlies door datakwaliteit
Eén SKU resulteert in tientallen datavarianten: verkoopkanalen, talen, formaten, platformvereisten.

Hoe deze pagina te lezen

Dit artikel is opzettelijk gedetailleerd. We reduceren de materie niet tot 'enkele punten', omdat de omvang van het probleem alleen duidelijk wordt door de combinatie van cijfers, ketens en operationele effecten.

We beschrijven hier niet hoe oplossingen en technologieën werken. Daarvoor zijn andere pagina's. Hier vindt u de fundamenten: hoe de datamarkt er vandaag uitziet en waarom deze in zijn huidige vorm niet langer schaalbaar is.

Aanpak
Cijfers + processen

Geen 'mening', maar de observeerbare marktdynamiek.

Focus
Contentlogistiek

Waar tijd wordt verspild en data verloren gaat.

Resultaat
Inzicht in de schaal

Waarom dit een systeemopgave is, en geen lokale kwestie.

De komende jaren zal de kostprijs voor het online publiceren van een product gelijk worden aan, en vervolgens de fysieke verzendkosten overtreffen. Logistiek wordt al decennialang geoptimaliseerd, terwijl contentlogistiek nog steeds handmatig en gefragmenteerd is.
Sectie 1

Omvang van de datamarkt

Hoeveel deelnemers zijn betrokken

Er zijn wereldwijd ongeveer 28 miljoen webwinkels actief. Ongeveer 14 miljoen daarvan bevinden zich in de VS, en enkele miljoenen in Europa (bijvoorbeeld het VK ≈ 1,1 miljoen, Duitsland ≈ 0,7 miljoen, Frankrijk ≈ 0,6 miljoen).

Naast de detailhandel zijn miljoenen fabrikanten en leveranciers betrokken bij e-commerceketens. Alleen al in Europa zijn er ongeveer 2,3 miljoen productiebedrijven die potentieel productgegevens aanleveren.

Wereldwijd
≈ 28 miljoen
e-commerce websites
VS
≈ 14 miljoen
ongeveer 50% van de wereld
Europa
miljoenen
UK 1,1 / DE 0,7 / FR 0,6
Infographic: winkels per regio (bij benadering)
schaal is indicatief
VS
≈ 14 miljoen
Europa
≈ 5–7 miljoen
Rest van de wereld
≈ 7–9 miljoen
*Europa en de rest van de wereld is een ruwe schatting van de verdeling, aangezien verschillende bronnen websites anders aggregeren.
Het cruciale schaalvoordeel
1 SKU → tientallen datavarianten

Zelfs als het product fysiek hetzelfde is, vermenigvuldigt het zich digitaal: verschillende verkoopkanalen, verschillende vereisten voor etalages, verschillende talen en formaten.

Infographic: formule
1 SKU × 5–10 kanalen × 5–20 talen
= 25–200+ versies
Hetzelfde product wordt tientallen keren digitaal geproduceerd. Eén SKU wordt bij elke stap in de keten herschreven en opnieuw gecodeerd, in plaats van één keer een betrouwbare databron te worden.
Aantal SKU's en productkaarten
Type speler Typische catalogus
Kleine bedrijven 100–1 000 SKU
Middelgrote retailer 10 000–100 000 SKU
Grote retailers 100 000–500 000 SKU
Marketplaces honderden miljoenen SKU's
De grootste platforms hebben een andere schaal: 350–600 miljoen SKU's bij marktleiders.

Hoeveel informatie-eenheden er bestaan

Als we rekening houden met talen, formaten en kanalen (website, marktplaatsen, advertenties, feeds), dan loopt het aantal unieke eenheden productinformatie (SKU × taal × formaat × kanaal) op tot honderden miljarden datapunten.

Ter oriëntatie: openbare catalogi zoals Icecat bevatten 25+ miljoen datasheets in 77 talen — dit illustreert de schaal van meertalige versies.

Infographic: complexiteitsvermenigvuldigers
SKU basis
Talen 5–20
Verkoopkanalen 5–10
Formaten / vereisten veel
Resultaat: 25–200+ datavarianten per product (orde van grootte).
Tot 80% van de productcontent in e-commerce wordt nog steeds overgedragen via Excel en vergelijkbare formaten. In het tijdperk van API's, clouds en kunstmatige intelligentie steunt de markt op praktijken uit de jaren '90: handmatig kopiëren, fouten en dataverlies bij elke stap.
Sectie 2

De contentstroom

Waar data verloren gaat

Productinformatie gaat zelden rechtstreeks van de fabrikant naar de koper. De typische keten is: fabrikant → distributeur → leverancier → winkel → CMS → marketing.

In elke fase worden gegevens getransformeerd, formaten gewijzigd, informatie weggelaten en een deel handmatig herschreven. Als een fabrikant ongeveer 20 kenmerken heeft opgegeven, bereiken vaak maar 10 tot 15 de etalage.

Infographic: verlies in de keten
Fabrikant
100%
Distributeur
80–90%
Leverancier
70–80%
CMS
50–70%
Marketing
40–60%
Resultaat: hetzelfde product wordt vaak handmatig 3 tot 5 keer herschreven door verschillende schakels in de keten.
Wat gebeurt er in de fasen
Fabrikant

Creëert de brondata: kenmerken, artikelnummers, afbeeldingen. Vaak in één taalversie en volgens interne standaarden.

Distributeur / leverancier

Vertaalt gegevens naar eigen sjablonen, voegt velden toe (voorraad/codes), verliest marketingdetails, wijzigt het formaat.

Winkel / CMS

Importeert in eigen structuur, voegt SEO en categorieën toe. Handmatig werk leidt tot typefouten, weglatingen en inconsistenties.

Kanalen / Marketing

Vereisen afzonderlijke feeds en formaatbeperkingen. Elke discrepantie leidt tot het niet publiceren van het product op het kanaal of tot fouten.

De markt heeft betalingen en logistiek al lang geautomatiseerd, maar productgegevens nog steeds niet. Betalingen en magazijnen functioneren als een industrie, terwijl productcontent nog steeds als handwerk wordt behandeld.
Infographic: waar de betekenis 'verloren' gaat
Incompatibiliteit van formaten hoog
Handmatige aanpassingen hoog
Verliezen op kanalen gemiddeld
Kwalitatieve beoordeling: waar fouten en weglatingen het vaakst voorkomen.
Sectie 3

Kosten van content als proces

Handmatig werk

In grootschalige e-commerce duurt het verwerken van één productkaart zonder automatisering doorgaans 5 tot 20 minuten, met directe kosten variërend van $1 tot $5. Hoewel er complexere categorieën zijn, is dit het typische bereik voor een productstroom.

Scenario A
5 min
$1 / productkaart
Scenario B
10 min
$3 / productkaart
Scenario C
20 min
$5 / productkaart
Infographic: wat betekent 1.000 SKU's
A: 5 мин
≈ 83 uur
≈ $1 000
B: 10 мин
≈ 167 uren
≈ $3 000
C: 20 мин
≈ 333 uur
≈ $5 000
En dit is slechts de initiële verwerking. Updates herhalen deze kosten keer op keer.
Nog een schaal: handmatige controle
Voor het MKB is 8-12 uur handmatig werk per week typisch voor controle en correcties. Dit komt neer op $10.000–18.000 aan directe tijdskosten per jaar.
De overheadkosten voor productpublicatie worden vergelijkbaar met die van logistiek. Waar productlogistiek is geoptimaliseerd, blijft contentlogistiek vaak handmatig en ongecontroleerd.
De kosten van fouten

Slechte datakwaliteit leidt tot meetbare verliezen: 15-25% van de omzet gaat verloren door content; tot 25% van de retouren is gerelateerd aan het niet voldoen aan de verwachtingen.

Slechte zoekresultaten8–12%
Retouren / discrepanties5–8%
Data- en voorraadfouten5–7%
Balken — visualisatie van de aandelen binnen het totale verlies (indicatief).
Wat tijd 'opeet'
Dataverzameling
bestanden / e-mails
Normalisatie
formaten / eenheden
Kwaliteit
controles / correcties
Kanalen
feeds / regels
Elke marktdeelnemer is vandaag zijn eigen 'elektriciteitscentrale' en 'elektriciteitsnetwerk'. In volwassen industrieën zijn er aparte infrastructuurproviders. In e-commerce content ontbreekt zo'n laag bijna volledig – daarom doet iedereen alles zelf.
Sectie 4

Kleine bedrijven en grote spelers

Eén probleem — verschillende mogelijkheden

Grote bedrijven kunnen formaten opleggen aan leveranciers en investeren in infrastructuur. MKB moet zich vaker aanpassen aan inkomende data en het assortiment beperken omdat ze de content niet kunnen verwerken.

Grote spelers
  • leggen eisen op aan leveranciers
  • investeren in PIM en integraties
  • hebben teams voor datakwaliteit
  • vangen fouten op door schaalgrootte
Kleine / middelgrote bedrijven
  • werkt met leveranciersformaten
  • heeft geen budget voor infrastructuur
  • beperkt assortiment vanwege content
  • publiceert onvolledige kaarten 'as is'
Content wordt een verborgen groeibarrière: te weinig middelen betekent geen catalogusgroei.
Infographic: waar de kracht van het formaat ligt
Grote spelers
eisen een specifiek formaat
Kleine spelers
passen zich aan de inkomende data aan
In de digitale economie wordt de schaal van een bedrijf steeds vaker bepaald door de schaal van zijn data. Als een catalogus niet snel en kwalitatief kan worden gepubliceerd, wordt groei beperkt door operaties, niet door de vraag.
Sectie 5

Leveranciers als systemische bottleneck

Leverancier – het startpunt van de content

Leveranciers en fabrikanten zijn de oorspronkelijke bron van productinformatie: specificaties, artikelnummers, afbeeldingen, verpakking, certificaten en technische beschrijvingen. Maar het bestaan van gegevens betekent niet dat ze klaar zijn voor marktgebruik: gegevens zijn zelden vanaf het begin zo gestructureerd dat ze de hele keten tot aan de etalage zonder verliezen kunnen doorlopen.

In de logistiek zijn er standaarden en rollen (vervoerder, magazijn, fulfillment). In de gegevens ontbreken vaak zowel standaarden als een 'netwerkoperator': de leverancier is gedwongen om zowel de producent als de integrator van de gegevens te zijn — zonder de juiste infrastructuur.

De belangrijkste oorzaak

Diversiteit aan formaten en waarheidspunten

Voor hetzelfde assortiment heeft de leverancier vaak meerdere parallelle bronnen: een deel van de gegevens zit in het ERP, een deel in spreadsheets, een deel in PDF's, en een deel in e-mails en goedkeuringen. Voor de detailhandel mondt dit uit in constante 'aanvullingen', validatie en handmatige correcties.

Infographic: waar leveranciersgegevens zich bevinden
Systemen
ERP / magazijn / prijslijst

Codes, voorraden, verpakking, een deel van de attributen.

Bestanden
Excel / CSV

Klantspecifieke sjablonen, handmatige aanpassingen.

Documenten
PDF / catalogi

Marketingbeschrijvingen en specificaties.

Communicatie
E-mails / Berichten

Verduidelijkingen, ontbrekende foto's, uitzonderingen.

Niet-gestandaardiseerde attributen

Leveranciers stemmen hun gegevens doorgaans niet af op een uniforme marktstandaard voor kenmerken. Ze leveren wat ze hebben: hun eigen veldnamen, verschillende meeteenheden en verschillende detailniveaus. Daarom wordt de 'standaardisatie' feitelijk uitgevoerd aan de kant van de retailer of de marktplaats.

Eén betekenis Zoals het in de data voorkomt Wat de retailer doet
Kleur Color / Colour / Col / Kleur / Tint Matcht, normaliseert
Maat Afmetingen / Maatvoering Normaliseert eenheden en formaten
Materiaal Materiaal / Samenstelling Creëert waardereferentietabellen
Herhaling: Duizenden bedrijven voeren dezelfde normalisatie parallel uit — en betalen er keer op keer voor.

Eén leverancier — tot 5-10 formaten

In de praktijk moet een leverancier die met veel partners werkt, **tot 5-10 verschillende sjablonen** en attribuutsystemen onderhouden. Vanaf dat punt stijgen de onderhoudskosten sneller dan de voordelen – en de leverancier verlaagt ofwel de kwaliteit, of schakelt tussenpersonen in, waardoor hij de controle verliest.

≈ tot 5
Werkt nog net

Handmatige ondersteuning en zeldzame updates.

≈ 5–10
Overbelastingszone

Het risico op fouten en desynchronisatie neemt toe.

≈ 10+
Schaalbaarheidsproblemen

Tussenpersonen en verlies van controle ontstaan.

Waarom een leverancier zich niet 'voor iedereen kan aanpassen'

De redenen liggen meestal niet in 'onwil', maar in de economie van het proces: het ondersteunen van meerdere formaten wordt een op zichzelf staand product. Hieronder vindt u de typische beperkingen.

Gegevens verspreid over verschillende bronnen

ERP, prijslijsten, bestanden, catalogi en communicatie zijn zelden samengebracht in één structuur — de 'single source of truth' ontbreekt.

Te veel uitzonderingen per categorie

Verschillende categorieën vereisen verschillende diepgang en attributen; een universeel sjabloon 'voor alles' bestaat niet.

Beperkte IT-middelen en prioriteiten

Voor veel leveranciers is 'content' een nevenproces ten opzichte van productie en verkoop, waardoor het geen systematische investeringen ontvangt.

Groeiend klantenbestand vermenigvuldigt de kosten van updates

Elke update mondt uit in een keten van e-mails en correcties via talloze sjablonen; desynchronisatie wordt de norm.

Infographic: datadegradatie onderweg

Van 'ruwe data' naar de etalage — via verlies en duplicatie

Leverancier levert 'as is'
Eigen velden, eenheden, versies, niet altijd een volledige structuur.
Retail herschrijft/verwerkt
Attribuutmapping, normalisatie, kwaliteitscontrole.
Kanalen vereisen hun eigen formaten
Feeds en beperkingen creëren extra datavarianten.
Resultaat: de markt betaalt meermaals voor hetzelfde
Betekenis gaat verloren, werk wordt gedupliceerd, updates herhalen de cyclus opnieuw.

Conclusie van dit gedeelte

Leverancierscontent is de 'grondstof' van e-commerce. De markt behandelt het als een eindproduct, terwijl er tussen de grondstof en de etalage een transformatielaag ligt: woordenboeken, normalisatie, lokalisatie, kwaliteitscontrole en updates.

Zolang deze laag als infrastructuur ontbreekt, bouwt elke marktdeelnemer deze zelf – en daarom wordt het probleem niet lokaal opgelost.

De leverancier is niet 'schuldig' aan de chaos. Hij heeft geen stimulans om de integrator van de hele markt te worden. Maar de markt eist dit systeemtechnisch wel van hem.
Wie het formaat beheert
Grote ketens eisen een standaard
Kleine winkels accepteren de inkomende data
De formaat-asymmetrie vergroot de kloof in datakwaliteit tussen de segmenten.
In harde cijfers
Versies per SKU 25–200+
Kopieeracties in de keten 3–5
Dataverliezen 15–25%
Wat de markt vereist
  • neutrale datatransformatielaag
  • uniforme attributen- en eenhedenwoordenboeken
  • automatisering van updates en kwaliteitscontrole
Conclusie

Wat deze cijfers aantonen

1) Content is logistiek, maar dan zonder de industrie

In e-commerce zijn geld en levering al lang geïndustrialiseerd. Maar productgegevens worden nog steeds handmatig, gefragmenteerd en met verlies verplaatst — in tientallen versies en formaten.

2) Het probleem is systemisch – en kan daarom niet 'binnen één bedrijf' worden opgelost

Elke speler is gedwongen zijn eigen datatransformatielaag op te bouwen: attribuutmatching, normalisatie, kwaliteitscontrole, lokalisatie, feeds. Maar dit schaalt niet op marktniveau — het werk wordt parallel gedupliceerd door duizenden bedrijven.

3) De kloof tussen grote en kleine spelers wordt groter

Grote spelers kunnen leveranciers een formaat opleggen en investeren in infrastructuur. Kleinere spelers moeten vaker 'as is' publiceren, hun assortiment beperken en efficiëntie verliezen omdat ze de contentstroom niet kunnen verwerken.

Waarom NotPIM is ontstaan Wij zien dit probleem als een infrastructureel probleem: de markt heeft een neutrale laag nodig die duplicatie vermindert, dataverlies minimaliseert en contentlogistiek automatiseert zonder te proberen 'de markt naar zich toe te buigen'. Geen 'nog een etalage', geen 'nog een formaat', maar een manier om marktpartijen op dataniveau met elkaar te verbinden.
De kernboodschap
De markt heeft data-infrastructuur nodig, net zoals deze logistieke infrastructuur nodig heeft.

Daarom leveren 'op zichzelf staande' oplossingen geen schaalvoordelen op, maar een ecosysteem-aanpak wel.

Transparantie

Alle waarden op de pagina zijn schattingen van de orde van grootte en typische bereiken voor de internationale markt. Ze kunnen per land en categorie verschillen, maar de algemene marktdynamiek (duplicatie, verlies, handmatig werk) blijft onveranderd.

De gegevens en beoordelingen op deze pagina zijn actueel per december 2025.