|
原贴:
https://u84gxokzmi.feishu.cn/docx/doxcnGVqWjhDTYm2GMmt0UDYnkb
https://u84gxokzmi.feishu.cn/docx/doxcn30HXXLbqFrsyR6bL5A6o1g
群里大家都是基于王德福哥的视频搜索系统了解到 Jina 的,在这个项目里主要用到的是 Jina 全家桶里的 DocArray 和 Jina,来搭建这样一个 text-to-video 的跨模态搜索系统。
- DocArray 是用于存储非结构化数据的数据结构工具包,是做跨模态应用的基础。通过这个小而精的入口,能友好地带你走进多模态/跨模态的世界。
- Jina 是一个基于云原生的深度学习搜索框架,赋能开发者打造可靠的云原生的多模态、跨模态的搜索系统。
万物皆可 DocArray
- 文档地址:Welcome to DocArray!「英文」
- 介绍:DocArray:为机器学习而生的数据结构「中文」
- Document 是 DocArray 的基本数据类型,DocumentArray 是可以保存多个 Document 的列表。无论是处理文本、图像、视频、音频、3d mesh 或它们的嵌套或组合,都可以用 Document 来表示它们,从而使得各类数据的结构都非常规整,方便后续处理。
- DocArray 的亮点在于 Hierarchy + Nested。DocArray 有不同的层级结构,分层存储,第一层可以是一个整体的视频,第二层是该视频的不同镜头,第三层可以是镜头的某一帧。也可以是其他模态,比如顶层存储文章,第二层存储句子,第三层存储词......因此可以针对某个词搜索,也可以针对句子去搜索,这样搜索的颗粒度,结构的多样性和结果的丰富度,都比传统文本检索好很多。
Jina
- Jina 文档地址:Welcome to Jina!
- GitHub - Jina
- Document、Executor 和 Flow 是 Jina 的三个重要的基本概念。
- Document 上面已经提到,是最基本的数据类型。
- Executor 可以理解为一个 Python 类,代表了 Jina 中的算法单元,比如把图像编码成向量、对结果进行排序等算法都可以用 Executor 来表述。
- Flow 将多个 Executor 连接起来,可以协调成流水线(pipeline)。也可以理解成一个高阶的任务。比如索引(index)、搜索(search)、训练(train),都属于一个 Flow。
Jina 全家桶
[backcolor=rgba(18, 18, 18, 0.5)]
编辑切换为居中
添加图片注释,不超过 140 字(可选)
Jina Hub
- 即插即用的模块分享平台,有各种由社区成员分享的 Executor
- 提供Sandbox,支持以源码、Docker、远程服务等方式直接调用
Jina NOW
Finetuner
CLIP-as-service
DocsQA
- 面向开源项目的文档问答机器人
- 非常快速便捷地构建起一个开发者友好的文档问答机器人
[backcolor=rgba(18, 18, 18, 0.5)]
编辑切换为居中
添加图片注释,不超过 140 字(可选)
DiscoArt
- 一行代码的艺术,借助Google Colab的GPU,一行代码即可生成图片。
- 点击这里尝试使用
Jina 全家桶的应用场景
- 主要解决了多、跨模态数据需要手动或半自动打标签的问题
- 使用文本搜索本地图片(照片搜索归类等)
- 新闻关键词和内容提取
- AI 生成方向(图片+描述文字=艺术图)
- 视频片段搜索截取
- ......
Jina 是谁?关键词:人工智能 开源 非结构化数据
- 通过使用完全开源的 Jina 全家桶,开发者和企业可以轻松打造多模态/跨模态应用。
神经搜索是我们的主要领域,为了让开发者和企业实现非结构化数据的搜索自由,从原型设计到方案实施,再到系统的云上部署和监视,以及搜索结果的调优,Jina 全家桶为你准备了全链路的解决方案。
|
|