ICT 项目设想

Process

场景一：网页端 (Web Interface)

体验重点： 沉浸式视觉、海量信息展示、3D交互。

上传与初步解析
- 用户将图片拖入页面中心。
- 特效： 屏幕上的动态粒子迅速吸附到图片上，模拟扫描过程。
- 显示： 页面左侧显示服饰名称（YOLO结果），右侧显示 AI 生成的文化介绍文字（流式打字机效果）。
3D 立体还原（并行处理）
- 在介绍生成的同时，后台异步生成 3D 模型。
- 交互： 页面中心出现“点击查看 3D”按钮，点击后图片翻转，变为可旋转的 3D 模型。
手势触发搜索 (Trigger)
- 提示： 屏幕下方提示“比划 👌 (OK) 手势寻找全网同款”。
- 动作： 用户对着摄像头比划“OK”。
- 反馈： 粒子特效再次爆发，汇聚成一个搜索放大镜图标，显示“正在全网搜寻…”
搜索结果呈现
- 处理： 系统将 AI 提取的关键词（如“艾德莱斯绸连衣裙红黑配色”）发送至搜索引擎 API。
- 展示： 页面下方或右侧滑出一个瀑布流 (Masonry Layout) 面板。
- 内容： 显示全网搜索到的相似服饰图片。
- 交互： 鼠标悬停在结果上，显示来源网站（淘宝/京东/博物馆官网），点击跳转。

场景二：香橙派端 (Orange Pi Kiosk)

体验重点： 极简操作、语音交互、二维码导流（解决小屏无法浏览网页的问题）。

识别与播报
- 用户身着特色服饰站在摄像头前。
- 按键操作： 用户按下【识别键】。
- 反馈： 补光灯闪烁一次。
- 语音： 扬声器播报：“识别成功，这是哈萨克族的刺绣马甲，纹样寓意着……”（TTS 朗读 AI 生成的文本）。
触发寻找同款
- 语音提示： 播报结束后，提示“按下【搜索键】或比划【OK】手势，查找相似款式”。
- 操作： 用户按下实体按键或比划手势。
搜索与结果转化 (关键优化)
- 痛点解决： 香橙派屏幕小，且不方便在设备上打开淘宝/京东购物。
- 方案： 云端搜索 + 二维码接力。
- 处理： 香橙派生成搜索关键词，调用搜索接口，获取前 4 张最相似的图片 URL。
- 显示： 屏幕分割为四格，显示这 4 张相似图片，并在中心生成一个巨大的二维码。
移动端接力
- 语音： “已为您找到全网相似款，请扫描屏幕二维码在手机上查看详情。”
- 用户行为： 用户用手机扫码。
- 手机端： 跳转到一个聚合页面（H5），里面直接列出了搜索结果的购买链接或详细介绍页面。

Base

yolo民族服饰的识别系统
- [GitHub - VisionMillionDataStudio/clothes-classfy737: 服装分类检测系统源码分享]一条龙教学YOLOV8标注好的数据集一键训练_70+全套改进创新点发刊_Web前端展示]
- 中国民族服饰检测数据集总结_模型检测人物衣饰特征-CSDN博客
- 不然自己制作数据集，自己训练模型
粒子特效（html）
- C:\sum\Code\ict\ok_action.html

附：上述赛题相关链接

赛题1**：基于昇思MindSpore打造**AI创新应用

云侧：使用ModelArts进行开发

1.MindSpore安装命令及指南：https://www.mindspore.cn/install/

2.中国总决赛和全球总决赛为每支队伍提供8卡资源，通过代金券购买

端侧：基于开发板进行开发（硬件设备/开发板需参赛队伍自备，推荐使用香橙派(Orange Pi)及其相关开发工具）

1.CANN工具包及内核安装包的安装命令：https://www.hiascend.com/zh/developer/download/community/result?module=cann

2.安装指南：https://www.hiascend.com/zh/document

3.MindSpore安装命令及指南：https://www.mindspore.cn/install/

在上述两种开发场景中，推荐使用昇腾算力和Linux系统。使用开发板的团队需确保至少配备16GB内存。

赛题1：基于昇思MindSpore打造AI创新应用

Process

寻找56个民族的服饰，然后标数据集
利用昇思MindSpore训练模型
将模型嵌进本地网页
用户和网页进行交互

网页端 (Web Interface)

体验重点： 沉浸式视觉、海量信息展示、3D交互。

上传与初步解析
- 用户将图片拖入页面中心。
- 特效： 屏幕上的动态粒子迅速吸附到图片上，模拟扫描过程。
- 显示： 页面左侧显示服饰名称（YOLO结果），右侧显示 AI 生成的文化介绍文字（流式打字机效果）。
3D 立体还原（并行处理）
- 在介绍生成的同时，后台异步生成 3D 模型。
- 交互： 页面中心出现“点击查看 3D”按钮，点击后图片翻转，变为可旋转的 3D 模型。
手势触发搜索 (Trigger)
- 提示： 屏幕下方提示“比划 👌 (OK) 手势寻找全网同款”。
- 动作： 用户对着摄像头比划“OK”。
- 反馈： 粒子特效再次爆发，汇聚成一个搜索放大镜图标，显示“正在全网搜寻…”
搜索结果呈现
- 处理： 系统将 AI 提取的关键词（如“艾德莱斯绸连衣裙红黑配色”）发送至搜索引擎 API。
- 展示： 页面下方或右侧滑出一个瀑布流 (Masonry Layout) 面板。
- 内容： 显示全网搜索到的相似服饰图片。
- 交互： 鼠标悬停在结果上，显示来源网站（淘宝/京东/博物馆官网），点击跳转。

场景二：香橙派端 (Orange Pi Kiosk)

体验重点： 极简操作、语音交互、二维码导流（解决小屏无法浏览网页的问题）。

识别与播报
- 用户身着特色服饰站在摄像头前。
- 按键操作： 用户按下【识别键】。
- 反馈： 补光灯闪烁一次。
- 语音： 扬声器播报：“识别成功，这是哈萨克族的刺绣马甲，纹样寓意着……”（TTS 朗读 AI 生成的文本）。
触发寻找同款
- 语音提示： 播报结束后，提示“按下【搜索键】或比划【OK】手势，查找相似款式”。
- 操作： 用户按下实体按键或比划手势。
搜索与结果转化 (关键优化)
- 痛点解决： 香橙派屏幕小，且不方便在设备上打开淘宝/京东购物。
- 方案： 云端搜索 + 二维码接力。
- 处理： 香橙派生成搜索关键词，调用搜索接口，获取前 4 张最相似的图片 URL。
- 显示： 屏幕分割为四格，显示这 4 张相似图片，并在中心生成一个巨大的二维码。
移动端接力
- 语音： “已为您找到全网相似款，请扫描屏幕二维码在手机上查看详情。”
- 用户行为： 用户用手机扫码。
- 手机端： 跳转到一个聚合页面（H5），里面直接列出了搜索结果的购买链接或详细介绍页面。

Base

yolo民族服饰的识别系统
- [GitHub - VisionMillionDataStudio/clothes-classfy737: 服装分类检测系统源码分享]一条龙教学YOLOV8标注好的数据集一键训练_70+全套改进创新点发刊_Web前端展示]
- 中国民族服饰检测数据集总结_模型检测人物衣饰特征-CSDN博客
- 不然自己制作数据集，自己训练模型
粒子特效（html）
- C:\sum\Code\ict\ok_action.html

[一条龙教学YOLOV8标注好的数据集一键训练_70+全套改进创新点发刊_Web前端展示]]:

附：上述赛题相关链接

赛题1**：基于昇思MindSpore打造**AI创新应用

云侧：使用ModelArts进行开发

1.MindSpore安装命令及指南：https://www.mindspore.cn/install/

2.中国总决赛和全球总决赛为每支队伍提供8卡资源，通过代金券购买

端侧：基于开发板进行开发（硬件设备/开发板需参赛队伍自备，推荐使用香橙派(Orange Pi)及其相关开发工具）

1.CANN工具包及内核安装包的安装命令：https://www.hiascend.com/zh/developer/download/community/result?module=cann

2.安装指南：https://www.hiascend.com/zh/document

3.MindSpore安装命令及指南：https://www.mindspore.cn/install/

在上述两种开发场景中，推荐使用昇腾算力和Linux系统。使用开发板的团队需确保至少配备16GB内存。

赛题1：基于昇思MindSpore打造AI创新应用

Process

寻找56个民族的服饰，然后标数据集
利用昇思MindSpore训练模型
将模型嵌进本地网页
用户和网页进行交互

网页端 (Web Interface)

体验重点： 沉浸式视觉、海量信息展示、3D交互。

上传与初步解析
- 用户将图片拖入页面中心。
- 特效： 屏幕上的动态粒子迅速吸附到图片上，模拟扫描过程。
- 显示： 页面左侧显示服饰名称（YOLO结果），右侧显示 AI 生成的文化介绍文字（流式打字机效果）。这个结果在香橙派上利用扬声器播报。
3D 立体还原（并行处理）
- 在介绍生成的同时，后台异步生成 3D 模型。
- 交互： 页面中心出现“点击查看 3D”按钮，点击后图片翻转，变为可旋转的 3D 模型。
手势触发 (Trigger)
- 提示： 屏幕下方提示“比划 👌 (OK) 手势，将摄像头里人用粒子效果建模出来，并将上传服饰的建模穿到人的建模上。
- 动作： 用户对着摄像头比划“OK”。
- 反馈： 粒子特效再次爆发，将摄像头里人用粒子效果建模出来，并将上传服饰的建模穿到人的建模上
搜索结果呈现
- 处理： 系统将 AI 提取的关键词（如“艾德莱斯绸连衣裙红黑配色”）发送至搜索引擎 API。
- 展示： 页面下方或右侧滑出一个瀑布流 (Masonry Layout) 面板。
- 内容： 显示全网搜索到的相似服饰图片。
- 交互： 鼠标悬停在结果上，显示来源网站（淘宝/京东/博物馆官网），点击跳转。‘
- 并将搜索出相似服饰图片用粒子效果建模出来，放在一旁当做备选
手势触发(Trigger)
- 提示： 用户将手向右滑，将搜索出相似服饰图片用粒子效果建模出来，并将服饰的粒子效果和人的粒子效果放在一起。
- 动作： 用户将手向右滑
- 反馈： 将搜索出相似服饰图片用粒子效果建模出来，并将服饰的粒子效果和人的粒子效果放在一起。

场景二：香橙派端 (Orange Pi Kiosk)

体验重点： 数据处理、语音交互。

识别与播报
- 用户身着特色服饰站在摄像头前。
- 按键操作： 用户按下【识别键】。
- 反馈： 补光灯闪烁一次。
- 语音： 扬声器播报：“识别成功，这是哈萨克族的刺绣马甲，纹样寓意着……”（TTS 朗读 AI 生成的文本）。
手势触发
- 语音提示： 提示 “按下【搜索键】或比划【OK】手势”。
- 操作： 用户按下实体按键或比划手势。

移动端接力

**语音：**播报语音

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
dataset/ 
	├─images
	│  ├─test
	│  ├─train
	│  └─val
	├─labels
	│   ├─test
	│   ├─train
	│   └─val
	├── classes.txt
	└── dataset.yaml

    flowchart TD
    %% 数据层
    subgraph 数据层["📊 数据层 - 采集/存储/标注"]
        A1[数据采集器<br/>爬虫 + 管理后台上传]
        A2[对象存储<br/>NFS/S3/GCS<br/>→ 图像/3D/标签]
        A3[标注工具<br/>LabelImg/Roboflow/内部UI<br/>支持YOLO导出]
        A4[元数据DB<br/>Postgres/SQLite<br/>样本ID/标签版本/属性]
    end

    %% 训练平台（离线）
    subgraph 训练层["⚙️ 训练平台 - 离线训练/评估"]
        B1[MindSpore训练任务<br/>train.py + dataset.yaml]
        B2[数据增强管线<br/>Albumentations/Mosaic/MixUp]
        B3[超参优化<br/>Anchor k-means + 调优脚本]
        B4[实验跟踪<br/>TensorBoard/W&B<br/>记录loss/mAP/超参]
        B5[CI流水线<br/>GitHub Actions/GitLab CI<br/>触发训练/评估]
    end

    %% 模型仓库
    subgraph 模型层["📦 模型仓库 - 存储/管理/导出"]
        C1[模型注册中心<br/>文件存储 + metadata DB]
        C2[自动导出脚本<br/>ckpt → MindIR → 压缩]
        C3[版本管理<br/>支持回滚 + 部署记录]
    end

    %% 推理服务
    subgraph 推理层["🚀 推理服务 - 云/本地推理"]
        D1[API网关<br/>REST/gRPC<br/>FastAPI/Flask + Uvicorn]
        D2[推理引擎<br/>MindSpore Runtime<br/>MindSpore-Lite(边缘)]
        D3[后处理模块<br/>解码 + NMS + 阈值过滤<br/>民族/纹样标签映射]
        D4[缓存服务<br/>Redis<br/>热点图片/模型缓存]
    end

    %% 终端层（前端+边缘端）
    subgraph 终端层["💻 终端层 - 交互/边缘部署"]
        E1[网页前端<br/>React/Vue + Three.js<br/>3D试穿/手势交互/WebSocket]
        E2[边缘设备<br/>香橙派(OrangePi)<br/>MindSpore-Lite + 本地推理]
        E3[边缘组件<br/>TTS引擎 + 摄像头采集<br/>离线更新器]
    end

    %% 多模态组件（跨层依赖）
    subgraph 多模态["🌈 多模态增强组件"]
        F1[人脸分析<br/>DeepFace(年龄/性别)]
        F2[手势识别<br/>MediaPipe + 本地分类器]
        F3[文本生成<br/>DeepSeek API/微调模型<br/>文化解读生成]
        F4[图像合成<br/>即梦API/Meshy/Tripo3D<br/>3D资源生成]
    end

    %% 运维监控
    subgraph 运维层["🛡️ 运维监控 - 稳定/可观测"]
        G1[日志集中<br/>ELK/Loki + Grafana]
        G2[性能监控<br/>Prometheus<br/>延迟/吞吐量]
        G3[自动告警<br/>阈值触发 + 通知]
        G4[版本控制<br/>Git + Tags + CI]
    end

    %% 数据流连接
    A1 --> A2 --> A3 --> A4 --> B1
    A4 --> B2
    B1 --> B3 --> B4
    B4 --> B5 --> C1
    B1 --> C2 --> C1
    C1 --> D1 --> D2 --> D3 --> D4
    D4 --> E1
    C1 --> E2 --> E3
    F1 --> D3
    F2 --> E1
    F3 --> E1
    F4 --> E1
    D2 --> F1
    %% 运维监控连接
    D1 --> G1 & G2
    B1 --> G1 & G2
    E2 --> G1 & G2
    G2 --> G3
    C1 --> G4