Selecione seu hardware para ver quais modelos rodam localmente. Sem GPU dedicada? Sem problemas—Ollie também funciona perfeitamente com suas APIs de nuvem favoritas.
Selecione uma GPU acima para ver quais modelos você pode rodar.
Estimativas de VRAM são baseadas em quantização Q4_K_M, o formato mais comum para rodar LLMs localmente via Ollama. O uso real pode variar dependendo do comprimento do contexto, overhead do sistema e aplicações simultâneas. Apple Silicon usa memória unificada — toda a RAM do sistema está disponível para carregar modelos. Modelos marcados como "Apertado" funcionam, mas podem ficar lentos em conversas longas.
Conecte Ollama, Gemini, OpenAI e mais — tudo em uma suíte de IA soberana e privada.
Baixar Ollie