De markt in cijfers • E-commerce als datamarkt

De e-commerce markt
—
de data- en contentmarkt

We are used to measuring e-commerce in orders and revenue. But behind every order lies an infrastructure: specifications, descriptions, images, formats, translations, and endless approvals. This page captures the scale of the market in figures and processes.

Marktomvang Dataketen Kosten van content Resultaten

Belangrijkste schaalcijfers

orde van grootte

28 miljoen+

webshops wereldwijd

14 miljoen

waarvan in de VS

350–600 miljoen

SKU's bij marktleiders

15–25%

verlies door datakwaliteit

Eén SKU resulteert in tientallen datavarianten: verkoopkanalen, talen, formaten, platformvereisten.

Navigatie op de pagina

1) Schaal van de datamarkt 2) Hoeveel informatie-eenheden 3) Waar data verloren gaat 4) De kosten van content 5) Kleine bedrijven versus grote ondernemingen 6) Leveranciers als knelpunt (bottleneck) 7) Grensoverschrijdende transformatie 8) Systematische conclusie

De gegevens zijn schattingen van de orde van grootte. Ze kunnen per markt verschillen, maar het algemene beeld blijft stabiel.

Hoe deze pagina te lezen

Dit artikel is opzettelijk gedetailleerd. We reduceren de materie niet tot 'enkele punten', omdat de omvang van het probleem alleen duidelijk wordt door de combinatie van cijfers, ketens en operationele effecten.

We beschrijven hier niet hoe oplossingen en technologieën werken. Daarvoor zijn andere pagina's. Hier vindt u de fundamenten: hoe de datamarkt er vandaag uitziet en waarom deze in zijn huidige vorm niet langer schaalbaar is.

Aanpak

Cijfers + processen

Geen 'mening', maar de observeerbare marktdynamiek.

Focus

Contentlogistiek

Waar tijd wordt verspild en data verloren gaat.

Resultaat

Inzicht in de schaal

Waarom dit een systeemopgave is, en geen lokale kwestie.

De komende jaren zal de kostprijs voor het online publiceren van een product gelijk worden aan, en vervolgens de fysieke verzendkosten overtreffen. Logistiek wordt al decennialang geoptimaliseerd, terwijl contentlogistiek nog steeds handmatig en gefragmenteerd is.

Sectie 1

Omvang van de datamarkt

cijfers — ordes van grootte

Hoeveel deelnemers zijn betrokken

Er zijn wereldwijd ongeveer 28 miljoen webwinkels actief. Ongeveer 14 miljoen daarvan bevinden zich in de VS, en enkele miljoenen in Europa (bijvoorbeeld het VK ≈ 1,1 miljoen, Duitsland ≈ 0,7 miljoen, Frankrijk ≈ 0,6 miljoen).

Naast de detailhandel zijn miljoenen fabrikanten en leveranciers betrokken bij e-commerceketens. Alleen al in Europa zijn er ongeveer 2,3 miljoen productiebedrijven die potentieel productgegevens aanleveren.

Wereldwijd

≈ 28 miljoen

e-commerce websites

≈ 14 miljoen

ongeveer 50% van de wereld

Europa

miljoenen

UK 1,1 / DE 0,7 / FR 0,6

Infographic: winkels per regio (bij benadering)

schaal is indicatief

≈ 14 miljoen

Europa

≈ 5–7 miljoen

Rest van de wereld

≈ 7–9 miljoen

*Europa en de rest van de wereld is een ruwe schatting van de verdeling, aangezien verschillende bronnen websites anders aggregeren.

Het cruciale schaalvoordeel

1 SKU → tientallen datavarianten

Zelfs als het product fysiek hetzelfde is, vermenigvuldigt het zich digitaal: verschillende verkoopkanalen, verschillende vereisten voor etalages, verschillende talen en formaten.

Infographic: formule

1 SKU × 5–10 kanalen × 5–20 talen

= 25–200+ versies

Hetzelfde product wordt tientallen keren digitaal geproduceerd. Eén SKU wordt bij elke stap in de keten herschreven en opnieuw gecodeerd, in plaats van één keer een betrouwbare databron te worden.

Aantal SKU's en productkaarten

Type speler	Typische catalogus
Kleine bedrijven	100–1 000 SKU
Middelgrote retailer	10 000–100 000 SKU
Grote retailers	100 000–500 000 SKU
Marketplaces	honderden miljoenen SKU's

De grootste platforms hebben een andere schaal: 350–600 miljoen SKU's bij marktleiders.

Hoeveel informatie-eenheden er bestaan

Als we rekening houden met talen, formaten en kanalen (website, marktplaatsen, advertenties, feeds), dan loopt het aantal unieke eenheden productinformatie (SKU × taal × formaat × kanaal) op tot honderden miljarden datapunten.

Ter oriëntatie: openbare catalogi zoals Icecat bevatten 25+ miljoen datasheets in 77 talen — dit illustreert de schaal van meertalige versies.

Infographic: complexiteitsvermenigvuldigers

SKU basis

Talen 5–20

Verkoopkanalen 5–10

Formaten / vereisten veel

Resultaat: 25–200+ datavarianten per product (orde van grootte).

Tot 80% van de productcontent in e-commerce wordt nog steeds overgedragen via Excel en vergelijkbare formaten. In het tijdperk van API's, clouds en kunstmatige intelligentie steunt de markt op praktijken uit de jaren '90: handmatig kopiëren, fouten en dataverlies bij elke stap.

Sectie 2

De contentstroom

Waar data verloren gaat

Productinformatie gaat zelden rechtstreeks van de fabrikant naar de koper. De typische keten is: fabrikant → distributeur → leverancier → winkel → CMS → marketing.

In elke fase worden gegevens getransformeerd, formaten gewijzigd, informatie weggelaten en een deel handmatig herschreven. Als een fabrikant ongeveer 20 kenmerken heeft opgegeven, bereiken vaak maar 10 tot 15 de etalage.

Infographic: verlies in de keten

Fabrikant

100%

Distributeur

80–90%

Leverancier

70–80%

CMS

50–70%

Marketing

40–60%

Resultaat: hetzelfde product wordt vaak handmatig 3 tot 5 keer herschreven door verschillende schakels in de keten.

Wat gebeurt er in de fasen

Fabrikant

Creëert de brondata: kenmerken, artikelnummers, afbeeldingen. Vaak in één taalversie en volgens interne standaarden.

Distributeur / leverancier

Vertaalt gegevens naar eigen sjablonen, voegt velden toe (voorraad/codes), verliest marketingdetails, wijzigt het formaat.

Winkel / CMS

Importeert in eigen structuur, voegt SEO en categorieën toe. Handmatig werk leidt tot typefouten, weglatingen en inconsistenties.

Kanalen / Marketing

Vereisen afzonderlijke feeds en formaatbeperkingen. Elke discrepantie leidt tot het niet publiceren van het product op het kanaal of tot fouten.

De markt heeft betalingen en logistiek al lang geautomatiseerd, maar productgegevens nog steeds niet. Betalingen en magazijnen functioneren als een industrie, terwijl productcontent nog steeds als handwerk wordt behandeld.

Infographic: waar de betekenis 'verloren' gaat

Incompatibiliteit van formaten hoog

Handmatige aanpassingen hoog

Verliezen op kanalen gemiddeld

Kwalitatieve beoordeling: waar fouten en weglatingen het vaakst voorkomen.

Sectie 3

Kosten van content als proces

Handmatig werk

In grootschalige e-commerce duurt het verwerken van één productkaart zonder automatisering doorgaans 5 tot 20 minuten, met directe kosten variërend van $1 tot $5. Hoewel er complexere categorieën zijn, is dit het typische bereik voor een productstroom.

Scenario A

5 min

$1 / productkaart

Scenario B

10 min

$3 / productkaart

Scenario C

20 min

$5 / productkaart

Infographic: wat betekent 1.000 SKU's

A: 5 мин

≈ 83 uur

≈ $1 000

B: 10 мин

≈ 167 uren

≈ $3 000

C: 20 мин

≈ 333 uur

≈ $5 000

En dit is slechts de initiële verwerking. Updates herhalen deze kosten keer op keer.

Nog een schaal: handmatige controle

Voor het MKB is 8-12 uur handmatig werk per week typisch voor controle en correcties. Dit komt neer op $10.000–18.000 aan directe tijdskosten per jaar.

De overheadkosten voor productpublicatie worden vergelijkbaar met die van logistiek. Waar productlogistiek is geoptimaliseerd, blijft contentlogistiek vaak handmatig en ongecontroleerd.

De kosten van fouten

Slechte datakwaliteit leidt tot meetbare verliezen: 15-25% van de omzet gaat verloren door content; tot 25% van de retouren is gerelateerd aan het niet voldoen aan de verwachtingen.

Slechte zoekresultaten8–12%

Retouren / discrepanties5–8%

Data- en voorraadfouten5–7%

Balken — visualisatie van de aandelen binnen het totale verlies (indicatief).

Wat tijd 'opeet'

Dataverzameling

bestanden / e-mails

Normalisatie

formaten / eenheden

Kwaliteit

controles / correcties

Kanalen

feeds / regels

Elke marktdeelnemer is vandaag zijn eigen 'elektriciteitscentrale' en 'elektriciteitsnetwerk'. In volwassen industrieën zijn er aparte infrastructuurproviders. In e-commerce content ontbreekt zo'n laag bijna volledig – daarom doet iedereen alles zelf.

Sectie 4

Kleine bedrijven en grote spelers

Eén probleem — verschillende mogelijkheden

Grote bedrijven kunnen formaten opleggen aan leveranciers en investeren in infrastructuur. MKB moet zich vaker aanpassen aan inkomende data en het assortiment beperken omdat ze de content niet kunnen verwerken.

Grote spelers

leggen eisen op aan leveranciers
investeren in PIM en integraties
hebben teams voor datakwaliteit
vangen fouten op door schaalgrootte

Kleine / middelgrote bedrijven

werkt met leveranciersformaten
heeft geen budget voor infrastructuur
beperkt assortiment vanwege content
publiceert onvolledige kaarten 'as is'

Content wordt een verborgen groeibarrière: te weinig middelen betekent geen catalogusgroei.

Infographic: waar de kracht van het formaat ligt

Grote spelers

eisen een specifiek formaat

Kleine spelers

passen zich aan de inkomende data aan

In de digitale economie wordt de schaal van een bedrijf steeds vaker bepaald door de schaal van zijn data. Als een catalogus niet snel en kwalitatief kan worden gepubliceerd, wordt groei beperkt door operaties, niet door de vraag.

Sectie 5

Leveranciers als systemische bottleneck

databron ≠ datainfrastructuur

Leverancier – het startpunt van de content

Leveranciers en fabrikanten zijn de oorspronkelijke bron van productinformatie: specificaties, artikelnummers, afbeeldingen, verpakking, certificaten en technische beschrijvingen. Maar het bestaan van gegevens betekent niet dat ze klaar zijn voor marktgebruik: gegevens zijn zelden vanaf het begin zo gestructureerd dat ze de hele keten tot aan de etalage zonder verliezen kunnen doorlopen.

In de logistiek zijn er standaarden en rollen (vervoerder, magazijn, fulfillment). In de gegevens ontbreken vaak zowel standaarden als een 'netwerkoperator': de leverancier is gedwongen om zowel de producent als de integrator van de gegevens te zijn — zonder de juiste infrastructuur.

De belangrijkste oorzaak

Diversiteit aan formaten en waarheidspunten

Excel / CSV XML PDF-catalogi portalen API

Voor hetzelfde assortiment heeft de leverancier vaak meerdere parallelle bronnen: een deel van de gegevens zit in het ERP, een deel in spreadsheets, een deel in PDF's, en een deel in e-mails en goedkeuringen. Voor de detailhandel mondt dit uit in constante 'aanvullingen', validatie en handmatige correcties.

Infographic: waar leveranciersgegevens zich bevinden

Systemen

ERP / magazijn / prijslijst

Codes, voorraden, verpakking, een deel van de attributen.

Bestanden

Excel / CSV

Klantspecifieke sjablonen, handmatige aanpassingen.

Documenten

PDF / catalogi

Marketingbeschrijvingen en specificaties.

Communicatie

E-mails / Berichten

Verduidelijkingen, ontbrekende foto's, uitzonderingen.

Niet-gestandaardiseerde attributen

Leveranciers stemmen hun gegevens doorgaans niet af op een uniforme marktstandaard voor kenmerken. Ze leveren wat ze hebben: hun eigen veldnamen, verschillende meeteenheden en verschillende detailniveaus. Daarom wordt de 'standaardisatie' feitelijk uitgevoerd aan de kant van de retailer of de marktplaats.

Eén betekenis	Zoals het in de data voorkomt	Wat de retailer doet
Kleur	Color / Colour / Col / Kleur / Tint	Matcht, normaliseert
Maat	Afmetingen / Maatvoering	Normaliseert eenheden en formaten
Materiaal	Materiaal / Samenstelling	Creëert waardereferentietabellen

Herhaling: Duizenden bedrijven voeren dezelfde normalisatie parallel uit — en betalen er keer op keer voor.

Eén leverancier — tot 5-10 formaten

In de praktijk moet een leverancier die met veel partners werkt, **tot 5-10 verschillende sjablonen** en attribuutsystemen onderhouden. Vanaf dat punt stijgen de onderhoudskosten sneller dan de voordelen – en de leverancier verlaagt ofwel de kwaliteit, of schakelt tussenpersonen in, waardoor hij de controle verliest.

Schaalinschatting

5–10

sjablonen/formaten

≈ tot 5

Werkt nog net

Handmatige ondersteuning en zeldzame updates.

≈ 5–10

Overbelastingszone

Het risico op fouten en desynchronisatie neemt toe.

≈ 10+

Schaalbaarheidsproblemen

Tussenpersonen en verlies van controle ontstaan.

Waarom een leverancier zich niet 'voor iedereen kan aanpassen'

De redenen liggen meestal niet in 'onwil', maar in de economie van het proces: het ondersteunen van meerdere formaten wordt een op zichzelf staand product. Hieronder vindt u de typische beperkingen.

Gegevens verspreid over verschillende bronnen ▾

ERP, prijslijsten, bestanden, catalogi en communicatie zijn zelden samengebracht in één structuur — de 'single source of truth' ontbreekt.

Te veel uitzonderingen per categorie ▾

Verschillende categorieën vereisen verschillende diepgang en attributen; een universeel sjabloon 'voor alles' bestaat niet.

Beperkte IT-middelen en prioriteiten ▾

Voor veel leveranciers is 'content' een nevenproces ten opzichte van productie en verkoop, waardoor het geen systematische investeringen ontvangt.

Groeiend klantenbestand vermenigvuldigt de kosten van updates ▾

Elke update mondt uit in een keten van e-mails en correcties via talloze sjablonen; desynchronisatie wordt de norm.

Infographic: datadegradatie onderweg

Van 'ruwe data' naar de etalage — via verlies en duplicatie

Leverancier levert 'as is'

Eigen velden, eenheden, versies, niet altijd een volledige structuur.

Retail herschrijft/verwerkt

Attribuutmapping, normalisatie, kwaliteitscontrole.

Kanalen vereisen hun eigen formaten

Feeds en beperkingen creëren extra datavarianten.

Resultaat: de markt betaalt meermaals voor hetzelfde

Betekenis gaat verloren, werk wordt gedupliceerd, updates herhalen de cyclus opnieuw.

Conclusie van dit gedeelte

Leverancierscontent is de 'grondstof' van e-commerce. De markt behandelt het als een eindproduct, terwijl er tussen de grondstof en de etalage een transformatielaag ligt: woordenboeken, normalisatie, lokalisatie, kwaliteitscontrole en updates.

Zolang deze laag als infrastructuur ontbreekt, bouwt elke marktdeelnemer deze zelf – en daarom wordt het probleem niet lokaal opgelost.

De leverancier is niet 'schuldig' aan de chaos. Hij heeft geen stimulans om de integrator van de hele markt te worden. Maar de markt eist dit systeemtechnisch wel van hem.

Wie het formaat beheert

Grote ketens eisen een standaard

Kleine winkels accepteren de inkomende data

De formaat-asymmetrie vergroot de kloof in datakwaliteit tussen de segmenten.

In harde cijfers

Versies per SKU 25–200+

Kopieeracties in de keten 3–5

Dataverliezen 15–25%

Wat de markt vereist

neutrale datatransformatielaag
uniforme attributen- en eenhedenwoordenboeken
automatisering van updates en kwaliteitscontrole

Conclusie

Wat deze cijfers aantonen

1) Content is logistiek, maar dan zonder de industrie

In e-commerce zijn geld en levering al lang geïndustrialiseerd. Maar productgegevens worden nog steeds handmatig, gefragmenteerd en met verlies verplaatst — in tientallen versies en formaten.

2) Het probleem is systemisch – en kan daarom niet 'binnen één bedrijf' worden opgelost

Elke speler is gedwongen zijn eigen datatransformatielaag op te bouwen: attribuutmatching, normalisatie, kwaliteitscontrole, lokalisatie, feeds. Maar dit schaalt niet op marktniveau — het werk wordt parallel gedupliceerd door duizenden bedrijven.

3) De kloof tussen grote en kleine spelers wordt groter

Grote spelers kunnen leveranciers een formaat opleggen en investeren in infrastructuur. Kleinere spelers moeten vaker 'as is' publiceren, hun assortiment beperken en efficiëntie verliezen omdat ze de contentstroom niet kunnen verwerken.

Waarom NotPIM is ontstaan Wij zien dit probleem als een infrastructureel probleem: de markt heeft een neutrale laag nodig die duplicatie vermindert, dataverlies minimaliseert en contentlogistiek automatiseert zonder te proberen 'de markt naar zich toe te buigen'. Geen 'nog een etalage', geen 'nog een formaat', maar een manier om marktpartijen op dataniveau met elkaar te verbinden.

De kernboodschap

De markt heeft data-infrastructuur nodig, net zoals deze logistieke infrastructuur nodig heeft.

Daarom leveren 'op zichzelf staande' oplossingen geen schaalvoordelen op, maar een ecosysteem-aanpak wel.

Transparantie

Alle waarden op de pagina zijn schattingen van de orde van grootte en typische bereiken voor de internationale markt. Ze kunnen per land en categorie verschillen, maar de algemene marktdynamiek (duplicatie, verlies, handmatig werk) blijft onveranderd.

De gegevens en beoordelingen op deze pagina zijn actueel per december 2025.

De e-commerce markt— de data- en contentmarkt