English | 简体中文 | Demo | Discord
album-ai-demo.mp4
Album AI 是一个试验项目,使用刚刚发布的gpt-4o-mini和 Haiku 作为廉价的视觉模型,自动识别出相册中图像文件的元信息,然后借助RAG技术,实现了与相册对话的能力。
可以当做传统的相册使用,也可以作为一个图像知识库辅助LLM生成内容。
作为一个摄影爱好者,面对几T的照片,我常常感到无从下手,现有的所有的相册管理软件都需要我付出额外的精力去维护它。Haiku和刚刚发布的gpt-4o-mini,让我看到了希望。所以我准备马上动手实现它,第一个版本我和我的伙伴,只用了不到24小时实现。
希望你们也喜欢它。我愿意听到你们任何赞美和反对。别忘了点个⭐️,或者分享让更多人知道。
- 自动发现相册中的图片,使用一个 PgSQL 数据库存储
- 使用GPT-4-o-mini,自动生成图像的元信息
- 使用OpenAI的Embedding API,完成元信息向量化
- 提供两个API:
- Search: 传统的Search API,输入query,返回最相关的图像
- Chat: RAG API,输入query,查询到图片并生成回复
- 一键部署到 Render等支持Docker容器部署的平台
- 宽松的开源协议,你可以随意的集成和修改(但如果要商业化请与我们取得联系)
推荐在本地运行,如果要在服务器运行请自行部署,之后我们会完善这部分指南。
git clone git@github.com:gcui-art/album-ai.git
cd album-ai
cp .env.prod.example .env.prod
用编辑器打开.env.prod
,修改里面的配置:
HOST_NAME= # 你本地的IP地址,一般192.168.x.x:8080
PROXY_URL= # (可选) 你本地的代理IP地址,一般 192.168.x.x:7890,无法直接访问OpenAI API时需要
OPENAI_API_KEY= # 你的 openai api 秘钥
ANTHROPIC_API_KEY= # 你的 Anthropic api 秘钥
chmod a+x ./build.sh
./build.sh
浏览器中打开 http://localhost:8080
,访问demo。
打开项目的images
目录,将新照片添加到images
目录下后台认为会自动进行元信息的识别和向量化。稍后就可以在demo中通过搜索和对话的方式来使用。
Album AI 目前主要实现了以下 API:
get
/api/v1/file/search: 搜索图片post
/api/v1/chat: 与图片对话
您有四种方式支持本项目:
- Fork 项目并提交 PR:我们欢迎任何让Album AI变得更好的PR。
- 提交Issue:我们欢迎任何合理的建议、bug反馈。
- 推荐:向其他人推荐本项目;点击Star;使用本项目后放置外链。
Apache 2.0 License
我们使用 Github 的 Issue 来管理这些反馈,你可以提交一个。我们会经常来处理。
- 项目仓库: github.com/gcui-art/album-ai
- Album AI 主页: album.gcui.ai
- 演示站点: album.gcui.ai
- 作者:@Kane
如果要商业使用,请与我们取得联系。