跳至内容

ICT 项目设想

Process

场景一:网页端 (Web Interface)

体验重点: 沉浸式视觉、海量信息展示、3D交互。

  1. 上传与初步解析
    • 用户将图片拖入页面中心。
    • 特效: 屏幕上的动态粒子迅速吸附到图片上,模拟扫描过程。
    • 显示: 页面左侧显示服饰名称(YOLO结果),右侧显示 AI 生成的文化介绍文字(流式打字机效果)。
  2. 3D 立体还原(并行处理)
    • 在介绍生成的同时,后台异步生成 3D 模型。
    • 交互: 页面中心出现“点击查看 3D”按钮,点击后图片翻转,变为可旋转的 3D 模型。
  3. 手势触发搜索 (Trigger)
    • 提示: 屏幕下方提示“比划 👌 (OK) 手势寻找全网同款”。
    • 动作: 用户对着摄像头比划“OK”。
    • 反馈: 粒子特效再次爆发,汇聚成一个搜索放大镜图标,显示“正在全网搜寻…”
  4. 搜索结果呈现
    • 处理: 系统将 AI 提取的关键词(如“艾德莱斯绸 连衣裙 红黑配色”)发送至搜索引擎 API。
    • 展示: 页面下方或右侧滑出一个瀑布流 (Masonry Layout) 面板。
    • 内容: 显示全网搜索到的相似服饰图片。
    • 交互: 鼠标悬停在结果上,显示来源网站(淘宝/京东/博物馆官网),点击跳转。

场景二:香橙派端 (Orange Pi Kiosk)

体验重点: 极简操作、语音交互、二维码导流(解决小屏无法浏览网页的问题)。

  1. 识别与播报
    • 用户身着特色服饰站在摄像头前。
    • 按键操作: 用户按下【识别键】。
    • 反馈: 补光灯闪烁一次。
    • 语音: 扬声器播报:“识别成功,这是哈萨克族的刺绣马甲,纹样寓意着……”(TTS 朗读 AI 生成的文本)。
  2. 触发寻找同款
    • 语音提示: 播报结束后,提示“按下【搜索键】或比划【OK】手势,查找相似款式”。
    • 操作: 用户按下实体按键或比划手势。
  3. 搜索与结果转化 (关键优化)
    • 痛点解决: 香橙派屏幕小,且不方便在设备上打开淘宝/京东购物。
    • 方案: 云端搜索 + 二维码接力
    • 处理: 香橙派生成搜索关键词,调用搜索接口,获取前 4 张最相似的图片 URL。
    • 显示: 屏幕分割为四格,显示这 4 张相似图片,并在中心生成一个巨大的二维码
  4. 移动端接力
    • 语音: “已为您找到全网相似款,请扫描屏幕二维码在手机上查看详情。”
    • 用户行为: 用户用手机扫码。
    • 手机端: 跳转到一个聚合页面(H5),里面直接列出了搜索结果的购买链接或详细介绍页面。

Base

image-20251128211104597

image-20251128211150063

附:上述赛题相关链接

赛题1**:基于昇思MindSpore打造**AI创新应用

云侧:使用ModelArts进行开发

1.MindSpore安装命令及指南:https://www.mindspore.cn/install/

2.中国总决赛和全球总决赛为每支队伍提供8卡资源,通过代金券购买

端侧:基于开发板进行开发(硬件设备/开发板需参赛队伍自备,推荐使用香橙派(Orange Pi)及其相关开发工具 )

1.CANN工具包及内核安装包的安装命令:https://www.hiascend.com/zh/developer/download/community/result?module=cann

2.安装指南:https://www.hiascend.com/zh/document

3.MindSpore安装命令及指南:https://www.mindspore.cn/install/

在上述两种开发场景中,推荐使用昇腾算力和Linux系统。使用开发板的团队需确保至少配备16GB内存。

赛题1:基于昇思MindSpore打造AI创新应用

Process

  • 寻找56个民族的服饰,然后标数据集
  • 利用昇思MindSpore训练模型
  • 将模型嵌进本地网页
  • 用户和网页进行交互

网页端 (Web Interface)

体验重点: 沉浸式视觉、海量信息展示、3D交互。

  1. 上传与初步解析
    • 用户将图片拖入页面中心。
    • 特效: 屏幕上的动态粒子迅速吸附到图片上,模拟扫描过程。
    • 显示: 页面左侧显示服饰名称(YOLO结果),右侧显示 AI 生成的文化介绍文字(流式打字机效果)。
  2. 3D 立体还原(并行处理)
    • 在介绍生成的同时,后台异步生成 3D 模型。
    • 交互: 页面中心出现“点击查看 3D”按钮,点击后图片翻转,变为可旋转的 3D 模型。
  3. 手势触发搜索 (Trigger)
    • 提示: 屏幕下方提示“比划 👌 (OK) 手势寻找全网同款”。
    • 动作: 用户对着摄像头比划“OK”。
    • 反馈: 粒子特效再次爆发,汇聚成一个搜索放大镜图标,显示“正在全网搜寻…”
  4. 搜索结果呈现
    • 处理: 系统将 AI 提取的关键词(如“艾德莱斯绸 连衣裙 红黑配色”)发送至搜索引擎 API。
    • 展示: 页面下方或右侧滑出一个瀑布流 (Masonry Layout) 面板。
    • 内容: 显示全网搜索到的相似服饰图片。
    • 交互: 鼠标悬停在结果上,显示来源网站(淘宝/京东/博物馆官网),点击跳转。

场景二:香橙派端 (Orange Pi Kiosk)

体验重点: 极简操作、语音交互、二维码导流(解决小屏无法浏览网页的问题)。

  1. 识别与播报
    • 用户身着特色服饰站在摄像头前。
    • 按键操作: 用户按下【识别键】。
    • 反馈: 补光灯闪烁一次。
    • 语音: 扬声器播报:“识别成功,这是哈萨克族的刺绣马甲,纹样寓意着……”(TTS 朗读 AI 生成的文本)。
  2. 触发寻找同款
    • 语音提示: 播报结束后,提示“按下【搜索键】或比划【OK】手势,查找相似款式”。
    • 操作: 用户按下实体按键或比划手势。
  3. 搜索与结果转化 (关键优化)
    • 痛点解决: 香橙派屏幕小,且不方便在设备上打开淘宝/京东购物。
    • 方案: 云端搜索 + 二维码接力
    • 处理: 香橙派生成搜索关键词,调用搜索接口,获取前 4 张最相似的图片 URL。
    • 显示: 屏幕分割为四格,显示这 4 张相似图片,并在中心生成一个巨大的二维码
  4. 移动端接力
    • 语音: “已为您找到全网相似款,请扫描屏幕二维码在手机上查看详情。”
    • 用户行为: 用户用手机扫码。
    • 手机端: 跳转到一个聚合页面(H5),里面直接列出了搜索结果的购买链接或详细介绍页面。

Base

[一条龙教学YOLOV8标注好的数据集一键训练_70+全套改进创新点发刊_Web前端展示]]:

image-20251128211104597

image-20251128211150063

附:上述赛题相关链接

赛题1**:基于昇思MindSpore打造**AI创新应用

云侧:使用ModelArts进行开发

1.MindSpore安装命令及指南:https://www.mindspore.cn/install/

2.中国总决赛和全球总决赛为每支队伍提供8卡资源,通过代金券购买

端侧:基于开发板进行开发(硬件设备/开发板需参赛队伍自备,推荐使用香橙派(Orange Pi)及其相关开发工具 )

1.CANN工具包及内核安装包的安装命令:https://www.hiascend.com/zh/developer/download/community/result?module=cann

2.安装指南:https://www.hiascend.com/zh/document

3.MindSpore安装命令及指南:https://www.mindspore.cn/install/

在上述两种开发场景中,推荐使用昇腾算力和Linux系统。使用开发板的团队需确保至少配备16GB内存。

赛题1:基于昇思MindSpore打造AI创新应用

Process

  • 寻找56个民族的服饰,然后标数据集
  • 利用昇思MindSpore训练模型
  • 将模型嵌进本地网页
  • 用户和网页进行交互

网页端 (Web Interface)

体验重点: 沉浸式视觉、海量信息展示、3D交互。

  1. 上传与初步解析
    • 用户将图片拖入页面中心。
    • 特效: 屏幕上的动态粒子迅速吸附到图片上,模拟扫描过程。
    • 显示: 页面左侧显示服饰名称(YOLO结果),右侧显示 AI 生成的文化介绍文字(流式打字机效果)。这个结果在香橙派上利用扬声器播报。
  2. 3D 立体还原(并行处理)
    • 在介绍生成的同时,后台异步生成 3D 模型。
    • 交互: 页面中心出现“点击查看 3D”按钮,点击后图片翻转,变为可旋转的 3D 模型。
  3. 手势触发 (Trigger)
    • 提示: 屏幕下方提示“比划 👌 (OK) 手势,将摄像头里人用粒子效果建模出来,并将上传服饰的建模穿到人的建模上。
    • 动作: 用户对着摄像头比划“OK”。
    • 反馈: 粒子特效再次爆发,将摄像头里人用粒子效果建模出来,并将上传服饰的建模穿到人的建模上
  4. 搜索结果呈现
    • 处理: 系统将 AI 提取的关键词(如“艾德莱斯绸 连衣裙 红黑配色”)发送至搜索引擎 API。
    • 展示: 页面下方或右侧滑出一个瀑布流 (Masonry Layout) 面板。
    • 内容: 显示全网搜索到的相似服饰图片。
    • 交互: 鼠标悬停在结果上,显示来源网站(淘宝/京东/博物馆官网),点击跳转。‘
    • 并将搜索出相似服饰图片用粒子效果建模出来,放在一旁当做备选
  5. 手势触发(Trigger)
    • 提示: 用户将手向右滑,将搜索出相似服饰图片用粒子效果建模出来,并将服饰的粒子效果和人的粒子效果放在一起。
    • 动作: 用户将手向右滑
    • 反馈: 将搜索出相似服饰图片用粒子效果建模出来,并将服饰的粒子效果和人的粒子效果放在一起。

场景二:香橙派端 (Orange Pi Kiosk)

体验重点: 数据处理、语音交互。

  1. 识别与播报

    • 用户身着特色服饰站在摄像头前。
    • 按键操作: 用户按下【识别键】。
    • 反馈: 补光灯闪烁一次。
    • 语音: 扬声器播报:“识别成功,这是哈萨克族的刺绣马甲,纹样寓意着……”(TTS 朗读 AI 生成的文本)。
  2. 手势触发

    • 语音提示: 提示 “按下【搜索键】或比划【OK】手势”。
    • 操作: 用户按下实体按键或比划手势。
  3. 移动端接力

    • **语音:**播报语音
     1
     2
     3
     4
     5
     6
     7
     8
     9
    10
    11
    
    dataset/ 
    	├─images
    	│  ├─test
    	│  ├─train
    	│  └─val
    	├─labels
    	│   ├─test
    	│   ├─train
    	│   └─val
    	├── classes.txt
    	└── dataset.yaml
    flowchart TD
    %% 数据层
    subgraph 数据层["📊 数据层 - 采集/存储/标注"]
        A1[数据采集器<br/>爬虫 + 管理后台上传]
        A2[对象存储<br/>NFS/S3/GCS<br/>→ 图像/3D/标签]
        A3[标注工具<br/>LabelImg/Roboflow/内部UI<br/>支持YOLO导出]
        A4[元数据DB<br/>Postgres/SQLite<br/>样本ID/标签版本/属性]
    end

    %% 训练平台(离线)
    subgraph 训练层["⚙️ 训练平台 - 离线训练/评估"]
        B1[MindSpore训练任务<br/>train.py + dataset.yaml]
        B2[数据增强管线<br/>Albumentations/Mosaic/MixUp]
        B3[超参优化<br/>Anchor k-means + 调优脚本]
        B4[实验跟踪<br/>TensorBoard/W&B<br/>记录loss/mAP/超参]
        B5[CI流水线<br/>GitHub Actions/GitLab CI<br/>触发训练/评估]
    end

    %% 模型仓库
    subgraph 模型层["📦 模型仓库 - 存储/管理/导出"]
        C1[模型注册中心<br/>文件存储 + metadata DB]
        C2[自动导出脚本<br/>ckpt → MindIR → 压缩]
        C3[版本管理<br/>支持回滚 + 部署记录]
    end

    %% 推理服务
    subgraph 推理层["🚀 推理服务 - 云/本地推理"]
        D1[API网关<br/>REST/gRPC<br/>FastAPI/Flask + Uvicorn]
        D2[推理引擎<br/>MindSpore Runtime<br/>MindSpore-Lite(边缘)]
        D3[后处理模块<br/>解码 + NMS + 阈值过滤<br/>民族/纹样标签映射]
        D4[缓存服务<br/>Redis<br/>热点图片/模型缓存]
    end

    %% 终端层(前端+边缘端)
    subgraph 终端层["💻 终端层 - 交互/边缘部署"]
        E1[网页前端<br/>React/Vue + Three.js<br/>3D试穿/手势交互/WebSocket]
        E2[边缘设备<br/>香橙派(OrangePi)<br/>MindSpore-Lite + 本地推理]
        E3[边缘组件<br/>TTS引擎 + 摄像头采集<br/>离线更新器]
    end

    %% 多模态组件(跨层依赖)
    subgraph 多模态["🌈 多模态增强组件"]
        F1[人脸分析<br/>DeepFace(年龄/性别)]
        F2[手势识别<br/>MediaPipe + 本地分类器]
        F3[文本生成<br/>DeepSeek API/微调模型<br/>文化解读生成]
        F4[图像合成<br/>即梦API/Meshy/Tripo3D<br/>3D资源生成]
    end

    %% 运维监控
    subgraph 运维层["🛡️ 运维监控 - 稳定/可观测"]
        G1[日志集中<br/>ELK/Loki + Grafana]
        G2[性能监控<br/>Prometheus<br/>延迟/吞吐量]
        G3[自动告警<br/>阈值触发 + 通知]
        G4[版本控制<br/>Git + Tags + CI]
    end

    %% 数据流连接
    A1 --> A2 --> A3 --> A4 --> B1
    A4 --> B2
    B1 --> B3 --> B4
    B4 --> B5 --> C1
    B1 --> C2 --> C1
    C1 --> D1 --> D2 --> D3 --> D4
    D4 --> E1
    C1 --> E2 --> E3
    F1 --> D3
    F2 --> E1
    F3 --> E1
    F4 --> E1
    D2 --> F1
    %% 运维监控连接
    D1 --> G1 & G2
    B1 --> G1 & G2
    E2 --> G1 & G2
    G2 --> G3
    C1 --> G4