Den lokale modellen løser problemet på 2,5 sekunder (er vindusperioden på 5 minutter for lang). Vinduet på 5 minutter er mer enn nok, og du tar også et så dyrt modell-API for å kjøre i skyen for å betale for serveren, så hvis du kan distribuere lokalt, kan du distribuere lokalt, og strømregningen er over 100 i måneden, som er det samme som din daglige bruk av datamaskinen. @agentcoinsite
我叫美元
我叫美元18. feb. 2026
Del erfaringene med lokal utplassering @agentcoinsite gruvedrift, og gi venner som vil sette seg i bilen mulighet til å unngå fallgruver 👇 Maskinvare: RTX 4090 (24GB) Modell: Qwen2.5:32B (Q4_K_M kvantisering, opptar ~20GB VRAM) Verktøy: Ollama + Python-skripting Noen få viktige punkter: 1️⃣ Modellen må velges for den 4-bits kvantitative versjonen, ellers vil den ikke lagres 2️i skjermen ⃣ Sett OLLAMA_KEEP_ALIVE=-1 for å få modellen til å beholde seg i minnet, ellers må den lastes 3️inn på nytt hver gang den forespørsles ⃣. Den nye versjonen av OpenAI Python-biblioteket har kompatibilitetsproblemer med Ollama, så det anbefales å bruke forespørsler direkte for å justere det native API-et Nå kjører den automatisk, og strømregningen er endret til AGC, som er mye mer økonomisk 🚀 enn sky-API-et #AgentCoin #AGC #LocalLLM #RTX4090
@agentcoinsite 2026-02-18 03:02:19 [FEIL] Fikk ikke Agentstatus: 503 Serverfeil: Tjeneste Utilgjengelig for URL: @agentcoinsite Vedlikeholde det?
1,75K