1. RAG 相关¶
1.1 综述¶
- https://zhuanlan.zhihu.com/p/3210586096 ⧉ 迄今为止最好的 RAG 技术栈
- https://zhuanlan.zhihu.com/p/2308262308 ⧉ 写在RAGFlow开源2万星标之际
- https://blog.csdn.net/m0_63171455/article/details/143180274 ⧉ RAG实战全解析:一年探索之路
- https://zhuanlan.zhihu.com/p/681421145 ⧉ 关于 RAG 的优化方案及评估
1.2 文档加载¶
- https://www.luxiangdong.com/2023/10/05/extract/ ⧉ 全面指南———用python提取PDF中各类文本内容的方法
- https://zhuanlan.zhihu.com/p/688500856 ⧉ LlamaParse:RAG中高效解析复杂PDF的最佳选择
-
https://mp.weixin.qq.com/s?__biz=Mzg4NjI0NDg0Ng==&mid=2247484887&idx=1&sn=209fd9850f2f3028d1b8f6d0b27e0425&chksm=cf9dd156f8ea58400d6c2b1a216960e57c2b1d4590c6b44125c968f5e227df13cc16b1331cd3&scene=21#wechat_redirect ⧉ 【文档智能 & RAG】RAG增强之路:增强PDF解析并结构化技术路线方案及思路
-
https://blog.csdn.net/fghler/article/details/107456819 ⧉ PDF的box: MediaBox、CropBox、BleedBox、TrimBox和ArtBox
- https://sspai.com/post/61716 ⧉ 你说的框是什么框——理解 PDF 中的五种页面边界
- https://hub.baai.ac.cn/view/21882 ⧉ PDF文档智能关键模块开源实操:PDF区域bouding box坐标识别与图片提取方法与实践
1.3 文档解析¶
- https://github.com/opendatalab/PDF-Extract-Kit ⧉
- https://cloud.tencent.com/developer/article/2406911 ⧉ 深度解读RAGFlow的深度文档理解DeepDoc
- https://blog.csdn.net/qq_33137873/article/details/140782999 ⧉ RAG文档解析利器:Deepdoc
1.4 分片¶
- https://www.luxiangdong.com/2023/09/20/chunk/ ⧉ 最详细的文本分块(Chunking)方法,直接影响LLM应用效果
- https://github.com/chonkie-ai/chonkie ⧉ The no-nonsense RAG chunking library that's lightweight, lightning-fast, and ready to CHONK your texts
1.5 Embedding¶
- https://www.luxiangdong.com/2023/11/06/rerank-ev/ ⧉ 提升RAG——选择最佳Embedding和重新排名模型
- https://zhuanlan.zhihu.com/p/676499800 ⧉ 大模型RAG问答技术架构及核心模块:从Embedding、prompt-embedding到Reranker
- https://www.bilibili.com/video/BV1r1421R77Y ⧉ ReRank与Embedding模型的区别? 如何选择ReRank模型?
- https://arthurchiao.art/blog/rag-basis-bge-zh/ ⧉ 大模型 RAG 基础:信息检索、文本向量化及 BGE-M3 embedding 实践(2024)
- https://ninehills.tech/articles/111.html ⧉ 中文 Emebedding & Reranker 模型选型
1.6 ReRank¶
- https://zhuanlan.zhihu.com/p/676996307 ⧉ Rerank——RAG中百尺竿头更进一步的神器,从原理到解决方案
1.7 长记忆¶
- https://developer.volcengine.com/articles/7414352105018196018 ⧉ 【RAG】RAG再进化?基于长期记忆的检索增强生成新范式-MemoRAG
- https://github.com/qhjqhj00/MemoRAG ⧉
- https://www.jiqizhixin.com/articles/2024-10-28-3 ⧉ 整合长期记忆,AI实现自我进化,探索大模型这一可能性
1.8 知识图谱¶
-
https://mp.weixin.qq.com/s?__biz=Mzg4NjI0NDg0Ng==&mid=2247486198&idx=1&sn=41762a274c06c499f5371c84263b9739&chksm=cf9dde77f8ea5761ae91d00340e4972d41a83166ce353454e99598b334d257e148f1733cf869&scene=21#wechat_redirect ⧉ 【LLM & RAG & text2sql】大模型在知识图谱问答上的核心算法详细思路及实践 ** 使用现有的NER工具(如Stanford NER、spaCy)来识别出问题中的实体。
- https://arxiv.org/pdf/2502.04413 ⧉
- https://arxiv.org/pdf/2502.06864 ⧉
- 2W8000字深度剖析25种RAG变体:全网最全~没有之一 ⧉
- 从GraphRAG到PIKE-RAG,微软发布复杂企业场景下的私域知识提取与推理新突破 ⧉
- PIKE-RAG: sPecIalized KnowledgE and Rationale Augmented Generation ⧉
1.9 多模态¶
- https://mp.weixin.qq.com/s?__biz=Mzg4NjI0NDg0Ng==&mid=2247484743&idx=1&sn=c90fb57241cb1e8ca6ab20510b3be690&chksm=cf9dd1c6f8ea58d036168af0647c766944571ec119cfe45f699f66a91ec7b88cd149b76b81e2&scene=21#wechat_redirect ⧉ 【文档智能 & LLM】LayoutLLM:一种多模态文档布局模型和大模型结合的框架
1.10 其它¶
- https://www.luxiangdong.com/2023/11/06/hnsw/ ⧉ 像光速一样搜索——HNSW算法介绍
- https://developer.volcengine.com/articles/7384648739257843739 ⧉ 自省式RAG 与 LangGraph的实践
- https://github.com/Cinnamon/kotaemon ⧉ An open-source RAG-based tool for chatting with your documents.
1.11 RAG 产品及需求¶
-
https://zhuanlan.zhihu.com/p/732792333 ⧉ 聊个5分钟的企业AI应用需求变化趋势
-
https://mp.weixin.qq.com/s?__biz=Mzg4NjI0NDg0Ng==&mid=2247486474&idx=1&sn=0f47bed783a0351df3d4484b72077e77&chksm=cf9dd88bf8ea519d09307a1d46d5a305b765b486a2245f4d5522cad9984844eee364fc76b33f&scene=21#wechat_redirect ⧉ 【RAG】面向实时智能客服场景的RAG问答系统应用