主流 RAG 知识库应用

知识库RAG应用

Last updated on 12/27/2024

清华大学104页《DeepSeek：从入门到精通》 .pdf OpenCompass 大模型评测实战 | shmaur

名称	地址	描述
FastGPT	FastGPT的	一个免费的、开源的、强大的人工智能知识库平台，提供开箱即用的数据处理、模型调用、RAG检索和可视化的人工智能工作流。轻松构建复杂的LLM应用程序。
MaxKB	GitHub - helix-song/MaxKB: 💬 基于 LLM 大语言模型的知识库问答系统。开箱即用，支持快速嵌入到第三方业务系统，1Panel 官方出品。	MaxKB 是一款基于 LLM 大语言模型的知识库问答系统。MaxKB = Max Knowledge Base，旨在成为企业的最强大脑。开箱即用：支持直接上传文档、自动爬取在线文档，支持文本自动拆分、向量化，智能问答交互体验好；无缝嵌入：支持零编码快速嵌入到第三方业务系统；多模型支持：支持对接主流的大模型，包括 Ollama 本地私有大模型（如 Llama 2、Llama 3、qwen）、通义千问、OpenAI、Azure OpenAI、Kimi、智谱 AI、讯飞星火和百度千帆大模型等。用到的技术作者：wwwzhouhui https://www.bilibili.com/read/cv34130344/ 出处：bilibili
RAGFlow	RAGFlow \| RAGFlow (infiniflow.cn)	深度文档理解："Quality in, quality out"，RAGFlow 基于深度文档理解，能够从各类复杂格式的非结构化数据中提取真知灼见。真正在无限上下文（token）的场景下快速完成大海捞针测试。对于用户上传的文档，它需要自动识别文档的布局，包括标题、段落、换行等，还包含难度很大的图片和表格。对于表格来说，不仅仅要识别出文档中存在表格，还会针对表格的布局做进一步识别，包括内部每一个单元格，多行文字是否需要合并成一个单元格等。并且表格的内容还会结合表头信息处理，确保以合适的形式送到数据库，从而完成 RAG 针对这些细节数字的“大海捞针”。可控可解释的文本切片：RAGFlow 提供多种文本模板，用户可以根据需求选择合适的模板，确保结果的可控性和可解释性。因此 RAGFlow 在处理文档时，给了不少的选择：Q&A，Resume，Paper，Manual，Table，Book，Law，通用... 。当然，这些分类还在不断继续扩展中，处理过程还有待完善。后续还会抽象出更多共通的东西，使各种定制化的处理更加容易。降低幻觉：RAGFlow 是一个完整的 RAG 系统，而目前开源的 RAG，大都忽视了 RAG 本身的最大优势之一：可以让 LLM 以可控的方式回答问题，或者换种说法：有理有据、消除幻觉。我们都知道，随着模型能力的不同，LLM 多少都会有概率会出现幻觉，在这种情况下，一款 RAG 产品应该随时随地给用户以参考，让用户随时查看 LLM 是基于哪些原文来生成答案的，这需要同时生成原文的引用链接，并允许用户的鼠标 hover 上去即可调出原文的内容，甚至包含图表。如果还不能确定，再点一下便能定位到原文。RAGFlow 的文本切片过程可视化，支持手动调整，答案提供关键引用的快照并支持追根溯源，从而降低幻觉的风险。兼容各类异构数据源：RAGFlow 支持支持丰富的文件类型，包括 Word 文档、PPT、excel 表格、txt 文件、图片、PDF、影印件、复印件、结构化数据, 网页等。对于无序文本数据，RAGFlow 可以自动提取其中的关键信息并转化为结构化表示；而对于结构化数据，它则能灵活切入，挖掘内在的语义联系。最终将这两种不同来源的数据统一进行索引和检索，为用户提供一站式的数据处理和问答体验。自动化 RAG 工作流：RAGFlow 支持全面优化的 RAG 工作流可以支持从个人应用乃至超大型企业的各类生态系统；大语言模型 LLM 以及向量模型均支持配置，用户可以根据实际需求自主选择。；基于多路召回、融合重排序，能够权衡上下文语义和关键词匹配两个维度，实现高效的相关性计算；提供易用的 API，可以轻松集成到各类企业系统，无论是对个人用户还是企业开发者，都极大方便了二次开发和系统集成工作。
Dify.ai	Dify.AI · 生成式 AI 应用创新引擎 (difyai.com)	Dify 是一个开源的 LLM 应用开发平台。其直观的界面结合了 AI 工作流、RAG 管道、Agent、模型管理、可观测性功能等，让您可以快速从原型到生产。以下是其核心功能列表： 1. 工作流: 在画布上构建和测试功能强大的 AI 工作流程，利用以下所有功能以及更多功能。 https://github.com/langgenius/dify/assets/13230914/356df23e-1604-483d-80a6-9517ece318aa 2. 全面的模型支持: 与数百种专有/开源 LLMs 以及数十种推理提供商和自托管解决方案无缝集成，涵盖 GPT、Mistral、Llama3 以及任何与 OpenAI API 兼容的模型。完整的支持模型提供商列表可在此处找到。 3. Prompt IDE: 用于制作提示、比较模型性能以及向基于聊天的应用程序添加其他功能（如文本转语音）的直观界面。 4. RAG Pipeline: 广泛的 RAG 功能，涵盖从文档摄入到检索的所有内容，支持从 PDF、PPT 和其他常见文档格式中提取文本的开箱即用的支持。 5. Agent 智能体: 您可以基于 LLM 函数调用或 ReAct 定义 Agent，并为 Agent 添加预构建或自定义工具。Dify 为 AI Agent 提供了50多种内置工具，如谷歌搜索、DELL·E、Stable Diffusion 和 WolframAlpha 等。 6. LLMOps: 随时间监视和分析应用程序日志和性能。您可以根据生产数据和标注持续改进提示、数据集和模型。 7. 后端即服务: 所有 Dify 的功能都带有相应的 API，因此您可以轻松地将 Dify 集成到自己的业务逻辑中。
AnythingLLM	AnythingLLM \| The all-in-one AI application for everyone	多用户支持和权限管理：允许多个用户同时使用，并可设置不同的权限。支持多种文档类型：包括 PDF、TXT、DOCX 等。简易的文档管理界面：通过用户界面管理向量数据库中的文档。两种聊天模式：对话模式保留之前的问题和回答，查询模式则是简单的针对文档的问答聊天中的引用标注：链接到原始文档源和文本。简单的技术栈，便于快速迭代。 100% 云部署就绪。 “自带LLM”模式：可以选择使用商业或开源的 LLM。高效的成本节约措施：对于大型文档，只需嵌入一次，比其他文档聊天机器人解决方案节省 90% 的成本。完整的开发者 API：支持自定义集成。