Een kijkje achter de schermen bij het bouwen van een AI-gestuurde pijplijn voor het sorteren van attributen voor miljoenen SKU's.Een kijkje achter de schermen bij het bouwen van een AI-gestuurde pijplijn voor het sorteren van attributen voor miljoenen SKU's.

Hoe Ik AI Gebruikte om Inconsistente Attribuutwaarden op Schaal in E-commerce te Corrigeren

Wanneer mensen praten over het opschalen van e-commerce, richten ze zich op grote technische uitdagingen: gedistribueerd zoeken, realtime voorraad, aanbevelingsmachines en checkout-optimalisatie. Maar daaronder ligt een stiller, hardnekkiger probleem waarmee bijna elke retailer worstelt: attribuutwaarden.

Attributen vormen de ruggengraat van productontdekking. Ze voeden filters, vergelijkingen, zoekrangschikking en aanbevelingslogica. Maar in echte catalogi zijn attribuutwaarden zelden schoon. Ze zijn inconsistent, gedupliceerd, verkeerd geformatteerd of semantisch dubbelzinnig.

Neem iets simpels als Maat. Je zou kunnen zien:

Code

["XL", "Small", "12cm", "Large", "M", "S"]

Of Kleur:

Code

["RAL 3020", "Crimson", "Red", "Dark Red"]

Individueel lijken deze inconsistenties onschuldig. Maar vermenigvuldig ze over meer dan 3 miljoen SKU's, elk met tientallen attributen, en het probleem wordt systemisch. Filters gedragen zich onvoorspelbaar, zoekmachines verliezen relevantie, merchandisers verdrinken in handmatig opruimwerk, en productontdekking wordt langzamer en frustrerender voor klanten.

Dit was de uitdaging waarmee ik werd geconfronteerd als full-stack software engineer bij Zoro, een probleem dat gemakkelijk over het hoofd werd gezien maar elke productpagina beïnvloedde.

Mijn Aanpak: Hybride AI Ontmoet Determinisme

Ik wilde geen mysterieuze black box AI die simpelweg dingen sorteert. Systemen als die zijn moeilijk te vertrouwen, debuggen of op te schalen. In plaats daarvan streefde ik naar een pipeline die:

  • uitlegbaar
  • voorspelbaar
  • schaalbaar
  • controleerbaar door mensen

Het resultaat was een hybride AI-pipeline die contextuele redenering van LLM's combineert met duidelijke regels en merchandiser-controles. Het handelt slim wanneer nodig, maar blijft altijd voorspelbaar. Dit is AI met vangrails, geen AI die uit de hand loopt.

Achtergrondtaken: Gebouwd voor Doorvoer

Alle attribuutverwerking gebeurt in offline achtergrondtaken, niet in realtime. Dit was geen compromis; het was een strategische architectuurkeuze.

Realtime pipelines klinken aantrekkelijk, maar op e-commerce schaal introduceren ze:

  • onvoorspelbare latentie
  • broze afhankelijkheden
  • dure rekenpieken
  • operationele kwetsbaarheid

Offline taken gaven ons daarentegen:

  • Hoge doorvoer: enorme batches verwerkt zonder live systemen te beïnvloeden
  • Veerkracht: storingen beïnvloedden nooit klantverkeer
  • Kostenbeheersing: rekenkracht kon worden ingepland tijdens periodes met weinig verkeer
  • Isolatie: LLM-latentie beïnvloedde nooit productpagina's
  • Consistentie: updates waren atomair en voorspelbaar

Het gescheiden houden van klantgerichte systemen en gegevensverwerkende pipelines is essentieel bij het werken met miljoenen SKU's.

Opschoning & Normalisatie

Voordat ik AI op de gegevens toepaste, voerde ik een duidelijke voorverwerkingsstap uit om ruis en verwarring te verwijderen. Deze stap klinkt misschien simpel, maar verbeterde de redenering van de LLM aanzienlijk.

De opschoningspipeline omvatte:

  • witruimte bijsnijden
  • lege waarden verwijderen
  • waarden dedupliceren
  • categorie-breadcrumbs afvlakken tot een contextuele string

Dit zorgde ervoor dat de LLM schone, duidelijke input ontving, wat essentieel is voor consistente resultaten. Rommel erin, rommel eruit. Op deze schaal kunnen zelfs kleine fouten later tot grotere problemen leiden.

LLM-Service met Context

De LLM sorteerde niet alleen alfabetisch waarden. Het redeneerde erover.

De service ontving:

  • opgeschoonde attribuutwaarden
  • categorie-breadcrumbs
  • attribuut-metadata

Met deze context kon het model begrijpen:

  • Dat "Voltage" in Elektrisch gereedschap numeriek is
  • dat "Maat" in Kleding een bekende progressie volgt
  • dat "Kleur" in Verf mogelijk RAL-normen volgt
  • dat "Materiaal" in IJzerwaren semantische relaties heeft

Het model retourneerde:

  • geordende waarden
  • verfijnde attribuutnamen
  • een beslissing: deterministische of contextuele ordening

Dit laat de pipeline verschillende attribuuttypes afhandelen zonder voor elke categorie regels hard te coderen.

Deterministische Fallbacks

Niet elk attribuut heeft AI nodig.

Sterker nog, veel attributen worden beter afgehandeld door deterministische logica.

Numerieke bereiken, eenheid-gebaseerde waarden en eenvoudige sets profiteren vaak van:

  • snellere verwerking
  • voorspelbare ordening
  • lagere kosten
  • nul dubbelzinnigheid

De pipeline detecteerde deze gevallen automatisch en gebruikte deterministische logica ervoor. Dit hield het systeem efficiënt en vermeed onnodige LLM-aanroepen.

Handmatig vs LLM Tagging

Merchandisers hadden nog steeds controle nodig, vooral voor bedrijfsgevoelige attributen.

Dus elke categorie kon worden getagd als:

  • LLM_SORT — laat het model beslissen
  • MANUAL_SORT — merchandisers bepalen de volgorde

Dit dual-tag systeem laat mensen de uiteindelijke beslissingen nemen terwijl AI het meeste werk deed. Het bouwde ook vertrouwen op, aangezien merchandisers het model konden overschrijven wanneer nodig zonder de pipeline te breken.

Persistentie & Controle

Alle resultaten werden rechtstreeks opgeslagen in een Product MongoDB-database, waardoor de architectuur eenvoudig en gecentraliseerd bleef.

MongoDB werd de enkele operationele opslag voor:

  • gesorteerde attribuutwaarden
  • verfijnde attribuutnamen
  • categorieniveau-sorteertags
  • productniveau-sortOrder velden

Dit maakte het gemakkelijk om wijzigingen te beoordelen, waarden te overschrijven, categorieën opnieuw te verwerken en te synchroniseren met andere systemen.

Zoekintegratie

Eenmaal gesorteerd, stroomden waarden naar:

  • Elasticsearch voor trefwoordgedreven zoeken
  • Vespa voor semantisch en vector-gebaseerd zoeken

Dit zorgde ervoor dat:

  • filters in logische volgorde verschenen
  • Productpagina's consistente attributen toonden
  • zoekmachines producten nauwkeuriger rangschikten
  • Klanten categorieën gemakkelijker konden doorbladeren

Zoeken is waar attribuutsortering het meest zichtbaar is, en waar consistentie het belangrijkst is.

Architectuuroverzicht

Om dit werkend te krijgen over miljoenen SKU's, ontwierp ik een modulaire pipeline gebouwd rond achtergrondtaken, AI-redenering en zoekintegratie. Het onderstaande architectuurdiagram legt de volledige flow vast:

  • Productgegevens komen binnen vanuit het Productinformatiesysteem
  • De Attribuutextractietaak haalt attribuutwaarden en categoriecontext op
  • Deze worden doorgegeven aan de AI Sorteerservice
  • Bijgewerkte productdocumenten worden geschreven naar de Product MongoDB
  • De Uitgaande Synctaak werkt het Productinformatiesysteem bij met de sorteervolgorde
  • Elasticsearch en Vespa Synctaken pushen gesorteerde gegevens naar hun respectieve zoeksystemen
  • API-Services verbinden Elasticsearch en Vespa met de Clientapplicatie

Deze flow zorgt ervoor dat elke attribuutwaarde, of deze nu door AI is gesorteerd of handmatig is ingesteld, wordt weerspiegeld in zoeken, merchandising en de klantervaring.

De Oplossing in Actie

Zo werden rommelige waarden getransformeerd:

| Attribuut | Ruwe Waarden | Geordende Output | |----|----|----| | Maat | XL, Small, 12cm, Large, M, S | Small, M, Large, XL, 12cm | | Kleur | RAL 3020, Crimson, Red, Dark Red | Red, Dark Red, Crimson, Red (RAL 3020) | | Materiaal | Steel, Carbon Steel, Stainless, Stainless Steel | Steel, Stainless Steel, Carbon Steel | | Numeriek | 5cm, 12cm, 2cm, 20cm | 2cm, 5cm, 12cm, 20cm |

Deze voorbeelden tonen hoe de pipeline contextuele redenering combineert met duidelijke regels om schone, gemakkelijk te begrijpen reeksen te creëren.

Waarom Offline Taken In Plaats Van Realtime Verwerking?

Realtime verwerking zou hebben geïntroduceerd:

  • onvoorspelbare latentie
  • Hogere rekenkosten
  • broze afhankelijkheden
  • operationele complexiteit

Offline taken gaven ons:

  • batch-efficiëntie
  • asynchrone LLM-aanroepen
  • retry-logica en foutwachtrijen
  • menselijke beoordelingsvensters
  • voorspelbare rekenkosten

De afweging was een kleine vertraging tussen gegevensinname en weergave, maar het voordeel was consistentie op schaal, wat klanten veel meer waarderen.

Impact

De resultaten waren significant:

  • Consistente attribuutordening over 3M+ SKU's
  • Voorspelbare numerieke sortering via deterministische fallbacks
  • Merchandiser-controle door handmatige tagging
  • Schonere productpagina's en intuïtievere filters
  • Verbeterde zoekrelevantie
  • Hoger klantvertrouwen en conversie

Dit was niet alleen een technische overwinning; het was ook een overwinning voor gebruikerservaring en omzet.

Geleerde Lessen

  • Hybride pipelines presteren beter dan pure AI op schaal. Vangrails zijn belangrijk.
  • Context verbetert de LLM-nauwkeurigheid dramatisch
  • Offline taken zijn essentieel voor doorvoer en veerkracht
  • Menselijke override-mechanismen bouwen vertrouwen en adoptie op
  • Schone input is de basis van betrouwbare AI-output

Slotgedachte

Het sorteren van attribuutwaarden klinkt simpel, maar het wordt een echte uitdaging wanneer je het moet doen voor miljoenen producten.

Door LLM-intelligentie te combineren met duidelijke regels en merchandiser-controle, transformeerde ik een complex, verborgen probleem in een schoon, schaalbaar systeem.

Het is een herinnering dat enkele van de grootste overwinningen voortkomen uit het oplossen van de saaie problemen, degene die gemakkelijk te missen zijn maar op elke productpagina verschijnen.

\n \n \n

Marktkans
Sleepless AI logo
Sleepless AI koers(AI)
$0.03837
$0.03837$0.03837
+0.15%
USD
Sleepless AI (AI) live prijsgrafiek
Disclaimer: De artikelen die op deze site worden geplaatst, zijn afkomstig van openbare platforms en worden uitsluitend ter informatie verstrekt. Ze weerspiegelen niet noodzakelijkerwijs de standpunten van MEXC. Alle rechten blijven bij de oorspronkelijke auteurs. Als je van mening bent dat bepaalde inhoud inbreuk maakt op de rechten van derden, neem dan contact op met service@support.mexc.com om de content te laten verwijderen. MEXC geeft geen garanties met betrekking tot de nauwkeurigheid, volledigheid of tijdigheid van de inhoud en is niet aansprakelijk voor eventuele acties die worden ondernomen op basis van de verstrekte informatie. De inhoud vormt geen financieel, juridisch of ander professioneel advies en mag niet worden beschouwd als een aanbeveling of goedkeuring door MEXC.