Установка Ollama в Linux и Docker-контейнер

В мире домашних хостингов и умных домов всё больше устройств и сервисов требуют умных решений для управления и автоматизации. Локальные LLM позволяют интегрировать искусственный интеллект прямо в вашу домашнюю сеть. Это особенно важно для безопасности и конфиденциальности при работе с личной информацией умного дома. К тому же вы получаете бесплатный доступ к API, который работает автономно и без ограничений, позволяя создавать гибкие и мощные сценарии автоматизации именно под ваши нужды.

Предварительные требования

Предполагается что вы уже имеете:

Debian или Ubuntu Server, в данной статье будем использовать последнюю версию Ubuntu 25.10
Базовые представления о командной строке Linux и SSH
Установленный Docker Compose
Дискретную видеокарту Nvidia не ниже чем RTX 1060. Скорей всего аналогичные шаги будут актуальны для видеокарт Radeon

На менее мощных видекартах или вообще без видеокарты тоже получится попробовать, смотрите в конце статьи какие модели можно выбрать для этих случаев.

Если у вас пока нет отдельного сервера с видеокартой, то вы можете запустить Ollama на своем рабочем компьютере, как это сделать смотрите в конце статьи.

Проверка драйверов

Для статьи будем использовать недавно вышедшую RTX 5060 ti, для которой Nvidia буквально на днях выпустила драйвер для Linux. По этой же причине используем Ubuntu 25.10 с последней доступной версией ядра.

Проверьте, может быть у вас уже установлен драйвер Nvidia командой: nvidia-smi

Если утилита не найдена, то установите ее из предложенных вариантов, например последнюю версию на данный момент (осень 2025г.) и попробуйте снова.

sudo apt install nvidia-utils-580-server

Если утилита выдает ошибку или в таблице внизу написано Not Supported, то тут два варианта:

ваша видеокарта слишком старая и уже не получит поддержку драйверов
ваше видеокарта слишком новая, как в нашем случае, то может помочь установка свежих драйверов

Установка драйверов

Подготовка

Обновление системы:

sudo apt update
sudo apt upgrade -y

Установка необходимых пакетов:

sudo apt install build-essential dkms linux-headers-$(uname -r) software-properties-common

Отключение Nouveau (встроенный открытый драйвер NVIDIA), чтобы он не мешал:

Откройте указанный файл

sudo nano /etc/modprobe.d/blacklist-nouveau.conf

Добавьте в этот файл параметры

blacklist nouveau
options nouveau modeset=0

Обновите initramfs и перезагрузитесь

sudo update-initramfs -u
sudo reboot

Установка

Проверка доступных драйверов

sudo ubuntu-drivers list --gpgpu

Вы увидите примерно такие варианты:

nvidia-driver-580-server-open, (kernel modules provided by linux-modules-nvidia-580-server-open-gene ric)
nvidia-driver-580-server, (kernel modules provided by linux-modules-nvidia-580-server-generic) nvidia-driver-580-open, (kernel modules provided by linux-modules-nvidia-580-open-generic) nvidia-driver-580, (kernel modules provided by

Установите самый последний драйвер и перезагрузитесь

sudo ubuntu-drivers install --gpgpu
sudo apt install nvidia-utils-580-server
sudo reboot

После загрузки проверьте информацию о видеокарте командой nvidia-smi. Если все прошло успешно в таблице должна быть примерно такая информация:

Вывод информации nvidia-smi о видео-карте RTX5060ti в Ubuntu Server

Установка Ollama в Linux или в Docker?

Установка Ollama в Linux более простая в отличии от установки в Docker, т.к. не требует установки дополнительной прослойки для проброса видеокарты в контейнер. Оба варианта одинаково хороши и зависят только от вашего желаения и навыков.

По нашим тестам и замерам производительность Ollama чуть-чуть выше в Docker-контейнере, видимо из-за каких-то оптимизаций и тонких настроек.

Установка Ollama в Linux

curl -fsSL https://ollama.com/install.sh | sh

Все! После завершения установки Ollama готова к работе. Проверьте работу загрузив какую-нибудь модель, например gpt-oss:20b — размер 14GB. Для быстрого теста можно выбрать минимальную модель, например gemma3:270m, но она может слишком быстро отработать и вы не успеете увидеть нагрузку. Как выбрать модель описано в конце статьи.

ollama run gpt-oss:20b --verbose

После загрузки и запуска модели введите любой запрос, во время выполнения запроса откройте второй терминал и командами nvidia-smi и htop посмотрите загрузку видеокарты и процессора. Оптимально подходящая модель должна полность выполняться на видеокарте и практически не использовать оперативную память и процессор.

Установка Open WebUI

Для комфортной работы с LLM рекомендуем установить веб-интерфейс в виде чата, как у облачных нейро-сервисов.

Для того чтобы Ollama была доступна из Docker-контейнера нужно внести небольшие изменения в конфигурацию. Остановите сервис и откройте файл конфигурации:

sudo systemctl stop ollama
sudo nano /etc/systemd/system/ollama.service

И добавьте строку в секцию [Service]

Environment="OLLAMA_HOST=0.0.0.0"

Файл конфигурации Ollama

Запустите сервис Ollama

sudo systemctl start ollama

Если возникает ошибка Warning: The unit file, source configuration file or drop-ins of ollama.service changed on disk. Run 'systemctl daemon-reload' to reload units., то выполните требуюмую команду: systemctl daemon-reload

И проверьте, перейдя в браузере по адресу http://<ip_вашего_сервера>:11434. На странице вы должны увидеть Ollama is running.

Создайте папку open-webui, c файлом docker-compose.yml внутри, вставьте содержимое и запустите контейнер. При неоходимости поменяйте порт 3000 на любой другой, если он у вас уже занят.

mkdir open-webui && cd open-webui
nano docker-compose.yml
docker compose up -d

Файл docker-compose.yml

docker-compose.yml

services:
    open-webui:
        image: 'ghcr.io/open-webui/open-webui:main'
        restart: always
        container_name: open-webui
        volumes:
            - './data:/app/backend/data'
        extra_hosts:
            - 'host.docker.internal:host-gateway'
        ports:
            - '3000:8080'

В браузере перейдите по адресу http://<ip_вашего_сервера>:3000 и создайте учетную запись. Это локальная учетная запись, подтверждение email не нужно. Так же в дальнейшем вы можете создать сколько угодно учетных записей для своих друзей и родственников.

Создание аккаунта в Open WebUI

После входа, слева вверху в списке вы можете увидеть список ваших зашруженных моделей, выберите любую и попробуйте в чате пообщаться с моделью.

Если вы загружали модели командой ollama pull или ollama run, но в Open WebUI ее не видно, то проверьте настройки подключения. В Open WebUI левом нижнем углу нажмите на ваш аватар, выберите Admin Panel, перейдите в Settings → Connections (или по адресу http://<ip>:3000/admin/settings/connections) и нажмите на иконку Шестеренки напротив пунка Manage Ollama API Connections.

Настройка подключений Ollama в Open WebUI Настройка подключения Ollama в Open WebUI

Проверьте соединение нажав на иконку Обновления. Если соединение недоступно, то попробуйте вместо http://host.docker.internal:11434 ввести http://<ip_вашего_сервера>:11434.

Удаление Ollama

Если вы проверили работу Ollama, но решили запустить ее в Docker, то обязательно удалите из Linux.

sudo systemctl stop ollama
sudo systemctl disable ollama
sudo rm /etc/systemd/system/ollama.service
sudo systemctl daemon-reload
sudo rm $(which ollama)
sudo rm -r $(which ollama | sed 's/bin/lib/')
sudo rm -r /usr/share/ollama
sudo userdel ollama
sudo groupdel ollama
rm -rf ~/.ollama

Установка Ollama в Docker-контейнер

Для полноценной работы GPU в контейнере для начала необходимо установить набор иструментов от Nvidia.

Для видеокарт от Radeon существует аналогичный набор иструментов под названием amd-container-toolkit, но т.к. у нас в данный момент нет подходящей видеокарты, ничего про него сказать не можем:(

NVIDIA Container Toolkit

Добавление репозитария Nvidia.

Ниже идут длинные команды, они разделены пустой строкой: в первом случае две команды, а во втором четыре. Пожалуйста копируйте внимательно, не разделяя команды на части.

curl -fsSL https://nvidia.github.io/libnvidia-container/gpgkey | sudo gpg --dearmor -o /usr/share/keyrings/nvidia-container-toolkit-keyring.gpg

curl -s -L https://nvidia.github.io/libnvidia-container/stable/deb/nvidia-container-toolkit.list | sed 's#deb https://#deb [signed-by=/usr/share/keyrings/nvidia-container-toolkit-keyring.gpg] https://#g' | sudo tee /etc/apt/sources.list.d/nvidia-container-toolkit.list

Обновите пакеты и установите пакеты

sudo apt-get update

export NVIDIA_CONTAINER_TOOLKIT_VERSION=1.17.8-1

sudo apt-get install -y nvidia-container-toolkit=${NVIDIA_CONTAINER_TOOLKIT_VERSION} nvidia-container-toolkit-base=${NVIDIA_CONTAINER_TOOLKIT_VERSION} libnvidia-container-tools=${NVIDIA_CONTAINER_TOOLKIT_VERSION} libnvidia-container1=${NVIDIA_CONTAINER_TOOLKIT_VERSION}

sudo reboot

Установка Ollama и Open WebUI

Создайте новую папку с файлом docker-compose.yml

mkdir ollama && cd ollama
nano docker-compose.yml
docker compose up -d

Файл docker-compose.yml

docker-compose.yml

services:
  ollama:
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: 1
              capabilities:
                - gpu
    volumes:
      - ./ollama:/root/.ollama
    ports:
      - 11434:11434
    container_name: ollama
    pull_policy: always
    tty: true
    restart: unless-stopped
    image: ollama/ollama:latest

  open-webui:
    image: ghcr.io/open-webui/open-webui:main
    container_name: open-webui
    volumes:
      - ./open-webui:/app/backend/data
    depends_on:
      - ollama
    ports:
      - 3000:8080
    environment:
      - 'OLLAMA_BASE_URL=http://ollama:11434'
    extra_hosts:
      - host.docker.internal:host-gateway
    restart: unless-stopped

В браузере перейдите по адресу http://<ip_вашего_сервера>:3000, создайте учетную запись, слева вверху выберите модель и напишите в чат любой запрос. Во время выполнения запроса в терминале запустите утилиты htop и nvidia-smi обращая внимание на то чтобы максимальная нагрузка была на видеокарту, а не на процессор.

Установка в Windows или macOS

В Windows обновите драйвера для вашей видеокарты до последней версии и скачайте Ollama с официального сайта. Это приложение сразу предоставляет минимальный интерфейс чата и возможность загрузки моделей без консоли, но и все консольные команды тоже доступны.

Клиент Ollama для macOS

Если у вас установлен Docker, то вы так же можете установить Open WebUI по инструкции выше. Но для того чтобы Docker-контейнер увидел Ollama перейдите в настройки и включите доступ по IP-адресу: Settings → Expose Ollama to the network. Так же эта настройка открывает доступ к API внутри локальной сети, который вы можете использовать в интеграции Home Assistant.

Выбор моделей

На сайте Ollama вы можете найти тысячи моделей, для простоты выбора рекомендуем скачивать самые популярные. Выбирайте модели в зависимости от объема памяти (VRAM) видеокарты, очень примерно можно ориентироваться на размер модели, который указан на сайте, но не гарантирует что она поместится в память вашей видеокарты. Если модель не помещается в VRAM, то Ollama может частично или полностью перести ее в оперативную память и распределить нагрузку на процессор вместо видеокарты, что замедляет обработку и делает модель не эффективной.

На странице почти каждой популярной модели вы можете найти ее «сжатую» версию с разной степенью квантанизации, обычно отмечаются суффиксом q4, q8. Обозначение после двоеточия (16b, 20b и т.п.) означает размер модели по количеству параметров (16 миллиардов, 20 миллиардов), чем больше параметров, тем более «глубокая» модель, способная хранить больше информации и обычно выдаёт более точные ответы, но при этом требует больше памяти и вычислительных ресурсов.

Квантизация модели – это «сжатие» её памяти, заменяя точные десятки цифр на простые “чётные” числа, чтобы она занимала меньше места и работала быстрее, но становилась менее точной.

Выбор моделей зависит от ваших потребности и мощности видеокарты, для простых вычислений типа управления умным домом подойдут маленькие модели до 1b, для обработки текста, изображений и общения через чат модели от 8b.

gpt-oss:20b — на данный момент самая оптимальная и качественная модель, требуется примерно 16gb VRAM
deepseek-r1 — есть варианты с разным количеством параметров, самая маленькая deepseek-r1:1.5b может даже работать на CPU
gemma3 — так же множество вариантов, начиная от 270 миллионов (gemma3:270m) параметров, которая может запускать даже не очень слабом железе. Может пойдойти для простого управления автоматизациями умного дома
qwen3 — тоже не плохая модель, начиная с 600m

Управление моделями

Через терминал

Скачивание и обновление, например ollama pull qwen2.5-coder:7b
Список загруженных моделей: ollama list
Удаление моделей, например: ollama rm qwen2.5-coder:7b

Через Open WebUI

Слева внизу нажмите на аватар, в меню выберите Admin Panel, перейдите в Settings → Models или по адресу http://<ip_вашего_сервера>:3000/admin/settings/models и нажмите справа на иконку Скачивания. В данном окне можете скачивать модели вписав название в соответствующее поле и удалять выбирая из списка.

Управление Ollama моделями в Open WebUI