Ollama - Sua IA Local Sem Internet

📚 Aula 04 de 15
⏱️ 20 min
🔢 Módulo 2
📅 2025-08-25
Progresso do Curso 21.4% completo

🏠 Sua Própria OpenAI em Casa

🚀

Imagine ter o ChatGPT rodando 100% na sua máquina!

Sem limites, sem custos mensais, sem enviar dados para fora. É isso que o Ollama faz!

O Ollama é uma ferramenta revolucionária que permite rodar modelos de linguagem avançados (como LLaMA, Gemma, Mistral) diretamente em seu computador.

Ollama vs Serviços Online

Característica ChatGPT/Claude Ollama Local
Privacidade ❌ Dados vão para empresa ✅ 100% privado
Internet ❌ Sempre necessária ✅ Funciona offline
Custo ❌ $20-$200/mês ✅ Gratuito
Customização ❌ Limitada ✅ Total
Limites de uso ❌ Sim ✅ Ilimitado

🤖 O que é o Ollama?

Ollama é como um "iTunes para modelos de IA". Ele:

⬇️

Baixa Modelos

Conecta com repositórios e baixa modelos automaticamente

Executa Localmente

Roda os modelos diretamente em sua máquina

🔧

Gerencia Recursos

Otimiza automaticamente RAM e processamento

🌐

API Completa

Interface REST para integrar com suas aplicações

📦 Passo 1: Instalação do Ollama

🪟 Windows

1

Acesse ollama.ai

Baixe o instalador para Windows (.exe)

2

Execute o instalador como administrador

Siga o assistente de instalação

3

Abra o PowerShell ou CMD e teste:

ollama --version

🍎 macOS

Via Homebrew (recomendado):

brew install ollama

Ou baixe o .dmg em ollama.ai

🐧 Linux

Comando único:

curl -fsSL https://ollama.ai/install.sh | sh

🎯 Passo 2: Baixando Seu Primeiro Modelo

Vamos baixar o LLaMA 3.2, um dos melhores modelos open source:

1

Baixar LLaMA 3.2 (3B parâmetros)

ollama pull llama3.2

⏱️ Tempo: 5-10 minutos (2GB download)

💾 RAM necessária: ~4GB

Modelos Disponíveis (do menor para maior):

🥉 llama3.2:1b (1GB)

Rápido, básico. Bom para testes.

🥇 llama3.1:8b (5GB)

Alta qualidade, precisa de 8GB+ RAM

💎 llama3.1:70b (40GB+)

Qualidade profissional, precisa de 64GB+ RAM

🧪 Passo 3: Primeiro Teste

1

Iniciar Conversa

ollama run llama3.2

Vai abrir um chat interativo. Digite qualquer pergunta!

💬 Exemplo de Conversa:

Você: Explique machine learning em termos simples
LLaMA: Machine Learning é como ensinar um computador a aprender padrões em dados, similar a como uma criança aprende a reconhecer animais vendo muitos exemplos. O computador analisa milhares de exemplos e cria regras internas para fazer previsões sobre novos dados que nunca viu antes.
Você: /bye

💡 Dica: Digite /bye para sair do chat

🔌 Passo 4: Usando via API (Integração)

O Ollama roda um servidor local que você pode usar em suas aplicações:

1

Iniciar o Servidor

ollama serve

Roda em http://localhost:11434

2

Teste com Curl

curl http://localhost:11434/api/generate -d '{
  "model": "llama3.2",
  "prompt": "Por que o Python é popular para IA?",
  "stream": false
}'
3

Código Python para Integração

import requests
import json

def perguntar_ollama(pergunta):
    url = "http://localhost:11434/api/generate"
    data = {
        "model": "llama3.2",
        "prompt": pergunta,
        "stream": False
    }
    
    response = requests.post(url, json=data)
    return response.json()["response"]

# Teste
resposta = perguntar_ollama("Como fazer café perfeito?")
print(resposta)

⚡ Comandos Essenciais do Ollama

📥 Baixar Modelos

ollama pull [modelo]

Ex: ollama pull gemma:7b

📋 Listar Modelos

ollama list

Mostra todos os modelos instalados

🗑️ Remover Modelo

ollama rm [modelo]

Libera espaço em disco

ℹ️ Info do Modelo

ollama show [modelo]

Detalhes técnicos do modelo

🎯 Casos de Uso Práticos

📝 Assistente de Escrita

Corrija textos, melhore redação, crie conteúdo

Prompt: "Melhore este email: [seu texto]"

💻 Assistente de Código

Explique código, corrija bugs, gere exemplos

Prompt: "Explique este código Python: [código]"

🎓 Tutor Pessoal

Ensina qualquer assunto no seu ritmo

Prompt: "Me ensine [assunto] como se eu fosse iniciante"

🏢 Análise de Documentos

Resume, analisa e extrai insights

Prompt: "Resume este documento: [texto]"

🚀 Otimização e Performance

💾 Gestão de Memória

  • Ollama carrega modelos sob demanda
  • Modelos inativos são removidos da RAM automaticamente
  • Use ollama ps para ver modelos carregados

⚡ Melhorando Velocidade

  • Use SSD para armazenar modelos
  • Mais RAM = modelos maiores
  • GPU compatível acelera muito

🔧 Configurações

  • Configure variáveis de ambiente
  • OLLAMA_NUM_PARALLEL=4 para mais conversas simultâneas
  • OLLAMA_MAX_LOADED_MODELS=2 para controlar RAM

🔧 Resolução de Problemas

❌ "Model not found"

Solução: Execute ollama pull [modelo] primeiro para baixar.

❌ Modelo muito lento

Solução: Tente um modelo menor (1b ou 3b) ou adicione mais RAM.

❌ "Out of memory"

Solução: Use modelo menor ou feche outros programas para liberar RAM.

❌ API não responde

Solução: Certifique-se que ollama serve está rodando.

🎉 Parabéns! Você Agora Tem Sua Própria IA!

Você acabou de instalar algo que grandes empresas gastam milhões para desenvolver:

✅ O que você conquistou:

  • ✅ Ollama instalado e configurado
  • ✅ Modelo LLaMA rodando localmente
  • ✅ API funcionando para integrações
  • ✅ Conhecimento de comandos essenciais
  • ✅ Casos de uso práticos mapeados

🔮 Na próxima aula:

Vamos explorar o Hugging Face - o "GitHub da IA" com +100.000 modelos prontos para usar!

"Quem controla a IA, controla o futuro. Agora você está no controle."

- Isaque Victor

🎯 Teste Seus Conhecimentos