Una de les preguntes que rebem més freqüentment quan assessorem empreses és: “Quin model d’IA hem de fer servir?” La resposta honesta és: depèn. Però hi ha criteris clars per prendre la decisió.

El model no és el producte

Primer, una distinció important: el model d’IA (GPT-4, Claude, Llama) és el motor, no el producte. El producte és l’aplicació que construïu al damunt. Canviar de model un cop el projecte ja funciona és relativament senzill; canviar l’arquitectura general, no tant.

Diem això perquè moltes empreses es focalitzen massa en el model i no prou en el disseny del sistema.

Els quatre criteris que avaluem

1. Privacitat i sobirania de les dades

Si les vostres dades no poden sortir de la UE — o dels vostres propis servidors — el ventall es redueix considerablement.

  • Models propietaris al núvol (GPT-4, Claude): les dades passen pels servidors d’OpenAI o Anthropic. Acceptable per a molts casos, no per a tots.
  • Proveïdors europeus (Mistral, via Azure o AWS amb regió UE): compliment de dades més senzill.
  • Models locals (Llama, Mistral allotjat): zero sortida de dades, però requereix infraestructura i expertise.

2. Capacitat per a la tasca concreta

No tots els models rendeixen igual en totes les tasques:

  • Raonament complex i codi: GPT-4o, Claude Sonnet/Opus
  • Documents llargs (contractes, informes): Claude (finestra de context fins a 200k tokens)
  • Multilingüe i català: tots els models grans ho suporten, però la qualitat varia
  • Tasques repetitives i ràpides: models petits (GPT-4o mini, Haiku) — més barats i igualment suficients

3. Cost a escala

Un model excel·lent per a proves pot ser inviable en producció. Calculeu sempre el cost per operació i multipliqueu pel volum previst.

Com a referència orientativa: processar 1.000 documents de mida mitjana amb GPT-4o pot costar entre 5 i 20€ depenent de la complexitat. Amb un model petit, entre 0,5 i 3€. La diferència és real quan escales.

4. Facilitat d’integració

Si ja teniu infraestructura a Azure, els models d’OpenAI via Azure OpenAI Service simplifiquen la integració. Si feu servir AWS, Bedrock dona accés a Claude, Llama i altres. No menyspreeu el cost d’integració tècnica.

La nostra decisió habitual per a projectes empresarials

Per a la majoria de projectes empresarials estàndard — agents RAG, extracció de dades, classificació de documents — recomanem:

  1. Prototip: Claude Haiku o GPT-4o mini (ràpid i barat per validar)
  2. Producció general: Claude Sonnet o GPT-4o (bon equilibri qualitat/cost)
  3. Casos crítics amb documents llargs: Claude Opus o GPT-4o
  4. Dades sensibles que no poden sortir: Llama 3 allotjat localment

La selecció del model és una decisió tècnica i de negoci alhora. No la prengueu únicament per les benchmarks de Twitter.