Docker 安装ollama 实现吧

  • docker pull ollama 实现的是拉取对应的镜像吧

  • docker run -d --gpus=all -p 11434:11434 --name ollama ollama/ollama

    • 首先 -d 就是指定的是其是后台进程进行运行,核心就是 deamon 的后台进程的效果吧

    • -p 就是实现的是本地的端口的映射吧

    • --name 就是指定的是本地运行的 ollama 运行的容器的名称吧

    • docker run 的可选参数的指定为:

      • -d 就是指定该模式是用于进行的后台进程启动吧

      • -v 就是实现的指定我们的容器的卷 volumn 吧

      • -p 就是实现的是指定我们的本地和启动后的端口映射吧,ollama 一般是 11434

      • 最后就是实现指定我们对应的启动的镜像名吧

  • docker exec -it <container_name> bash 以命令行的形式进行我们的 ollama 容器的拉取实现吧

# docker-compose.dev.yml
version: '3.8'
services:
  ollama:
    image: ollama/ollama
    container_name: ollama-dev
    ports:
      - "11434:11434"
    volumes:
      - ollama_data:/root/.ollama
      - ./config:/app/config  # 挂载本地配置文件
    environment:
      - OLLAMA_HOST=0.0.0.0
      - OLLAMA_DEBUG=1  # 开启调试模式
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    stdin_open: true  # 保持标准输入打开
    tty: true        # 分配伪终端
    restart: unless-stopped

volumes:
  ollama_data:

Ollama 的核心的命令集成

  • ollama pull <model_name> 实现对应的拉取容器名到本地吧

  • ollama run <model_name> 实现的是运行ollama 中本地的大模型

  • ollama list 进行查看本地部署的大模型的实现吧

  • 以及每个模型的训练量的指定实现吧 3b 7b 这些都是本次指定的大模型的训练的数据量的指定吧

    • 这些就是实现的是定义本身模型的自身的一些维度吧,轻量的大模型,等等其他的吧

Ollama 模型的能力

  • 核心就是参考网站的 Capabilities

    • 注意这些都是配置性的东西吧,核心通过可配置化实现一些功能的实现吧

  • 整体来说可以实现可配置的实现有

    • 1. stream 进行对应的流式处理的能力实现,同时这个也是我们的最重要的一个实现大模型相应的能力实现吧

      • 为什么需要进行流式处理讷?流式处理的原因核心原因是什么讷?

        • 核心是进行优化我们的 TTFB 的能力吧(首字节实践 Time To First Byte)

          特性

          非流式

          流式

          首字节时间(TTFB)

          高 (等待完整生成)

          极低 (立即开始)

          内存占用

          高 (存储完整响应)

          低 (流式处理)

          网络超时风险

          高 (长连接易超时)

          低 (持续有数据)

          错误恢复

          全有或全无

          部分成功

    • 2. think 思考能力,但是注意有些模型的话 think 能力是不支持的讷

      • think 能力核心的作用是进行对应的让大模型在进行内部的思考的之前进行对应的内部思考和总结实现吧

      • 提高答案质量 - 经过深思熟虑的回答更准确、更全面

      • 透明度 - 你可以看到模型的思考过程,理解答案是如何得出的

      • 教育价值 - 学习模型的思考方法,提升自己的思维能力

      • 纠错能力 - 模型可以在思考过程中发现并修正自己的错误

      • 模型的深度思考就是和这个字段进行深度绑定进行结合的讷,这里可以进行区分一下吧

      • 用户问题 → 问题分解 → 多角度分析 → 逻辑验证 → 答案合成

    • 3. Embeddings 嵌入)本质上是一种“翻译”:它将文字、图片、声音等非结构化数据,转换成一串计算机能理解的数字(向量)

    • 4. tool_calling 就是让大模型像人类一样可以使用额外的工具,实现横向的拓展吧

      • 用户问题 → 模型分析 → 决定需要什么工具 → 调用工具 → 获取结果 → 生成最终回答

      • ✅ 从静态知识 → 动态能力

      • ✅ 从理论分析 → 实际执行

      • ✅ 从有限信息 → 无限可能

      • 只要使用了我们的 tool_calling 的能力就可以为我们的大模型增强对应的工具使用,实现对应的 designtocode 的应用,或者说 texttosql 的应用吧,实现横向的功能拓展,让大模型帮助我们完成实际的问题吧

    • 5. web search

      • 用户问题 → 我识别需要实时信息 → 调用搜索工具 → 获取搜索结果 → 分析整理 → 生成回答

Ollama 结合大模型的学习拓展

核心来源于豆包生成,注意辨别,当作学习调研吧

大模型具备能力总结

  • Streaming(流式输出)、Thinking(思维链)、Structured Outputs(结构化输出)、Vision(视觉)、Embeddings(向量嵌入)、Tool calling(工具调用)、Web search(网络搜索) 是基础能力,当前大模型还具备以下进阶能力:

能力分类

具体描述

典型场景示例

多模态融合

支持文本 + 图像 + 音频 + 视频的跨模态理解 / 生成(如视频内容解析、3D 模型生成)

视频语义分析、文生 3D 资产

长上下文理解

支持 100k+ tokens 的超长文档处理(如整本书 / 代码库分析)

法律合同审查、代码库重构建议

数学 / 逻辑推理

支持分步验证、符号运算、复杂公式推导(如竞赛题 / 科研计算)

数学建模、物理公式推导

行业垂直能力

针对特定领域的知识增强(如医疗 / 金融 / 工业场景)

电子病历结构化、金融风控建模

多语言对齐

跨语言概念统一理解(如中文 “小” 与英文 “small” 的语义对齐)

多语言文档翻译、跨国合规审查

安全 / 伦理对齐

内置内容过滤、道德框架(如拒绝有害内容生成)

敏感内容审核、合规文本生成

端侧轻量化

支持手机 / 边缘设备的低延迟推理(如本地 AI 助手)

移动端实时对话、离线文档处理

Ollama 常见大模型对比

模型家族

代表版本

参数规模

许可证

核心特性

性能表现(32GB RAM 环境)

适用场景

Llama

3.1-8B/70B

8B-70B

Meta LLAMA 2

多语言支持、代码生成能力强

8B:30 tokens / 秒,10GB 内存

通用对话、多语言内容创作

Mistral

7B/8x7B(MoE)

7B-47B

Apache 2.0

混合专家架构、推理速度快

7B:40 tokens / 秒,8GB 内存

低资源设备、高并发场景

Gemma

2B/7B

2B-7B

Gemma Pro

Google 技术背书、安全性优化

7B:25 tokens / 秒,9GB 内存

轻量化部署、安全敏感场景

Phi

3-mini/medium

3.8B-7B

MIT

小参数高性能、多模态支持

3.8B:35 tokens / 秒,6GB 内存

移动端 / 边缘设备、多模态任务

CodeLlama

7B/13B/34B

7B-34B

Meta LLAMA 2

代码生成、调试能力突出

7B:28 tokens / 秒,8GB 内存

编程辅助、代码审计

DeepSeek-Coder

6.7B/33B

6.7B-33B

商业友好

代码生成准确率高(HumanEval 92%)

6.7B:32 tokens / 秒,5GB 内存

企业级编程工具链