Selecciona tu hardware para ver qué modelos se ejecutan localmente. ¿No tienes GPU dedicada? No hay problema—Ollie también funciona a la perfección con tus APIs en la nube favoritas.
Selecciona una GPU arriba para ver qué modelos puedes correr.
Las estimaciones de VRAM están basadas en cuantización Q4_K_M, el formato más común para correr LLMs localmente vía Ollama. El uso real puede variar según la longitud del contexto, la carga del sistema y las aplicaciones simultáneas. Apple Silicon usa memoria unificada — toda la RAM del sistema está disponible para cargar modelos. Los modelos marcados como "Ajustado" funcionan pero pueden ser lentos en conversaciones largas.
Conecta Ollama, Gemini, OpenAI y más — todo desde una suite de IA soberana y privada.
Descargar Ollie