全文检索+AI 的疑惑
最近在调研全文检索和 AI 如何进行结合,
目前只是用过市面上的 AI 模型,没有深入了解过,请教下各位懂行的大佬
目前的场景:
目前有一亿辆车,不同车牌,不同品牌,不同颜色,不同车型
现有实现逻辑:
通过代码进行采集车辆数据,然后录入 elasticsearch 引擎中,然后进行组合查询
如果引入 AI 的话,能否做到,通过对话的方式将需要过滤的车子信息获取到,
例如:
问 AI:给出来牌号为北方省份的蓝色吉利品牌旗下的汽车的信息,并通过 excel 导出
然后 AI 将数据搜索后进行导出
疑惑:
1 、现在有没有这种 AI 模型?
2 、如果没有这种 AI 模型,那么有没有办法自己训练出来?
3 、自己训练的话有没有什么业内可行的方案?
你可以让 LLM 优化搜索关键字
你把数据库字段给 ai 让 ai 生成 sql 通过 functioncall 取数返回
这样训练的模型回答的会不会出现不准确的数据?
就是底层还是通过 SQL ?有没有将这些数据直接训练到模型的方式?
已经有了,ERP 行业很多企业在做这一块,原理大概是通过大模型 function call 去调用 elasticsearch 接口,返回结构化数据
随便选个智商在线的 LLM 就行,不需要特定模型,除非需要用图片来搜索才需要多模态的
这种一般用 Agent 实现,向 LLM 提问,然后 LLM 调用工具,查询数据库,再让 Agent 执行查询生成表格文件
我猜你是想让 AI 直接输出搜索结果,这是不可能实现的,现在的大模型只存储了一堆权重的数字,他的输出是根据概率,随便找找一篇大模型原理讲解看看就知道了
"给出来牌号为北方省份的蓝色吉利品牌旗下的汽车的信息",感觉这个需求是 AI+SQL 的场景?让 LLM 根据语言要求生成 sql ,再访问数据库查询出来准确信息
懂了,就是大量的数据查询最终到底层还是得用数据库这类工具才能进行处理,看来目前还没有符合我需求的 AI 产品
纯 AI 不能做到对长尾记忆的准确性,无法精确搜索,我理解你这个合理的是让 ai 辅助做查询转换,最终查询数据还是在 es 中。或者可以试下 RAG 方案
这是 知识库 的功能,将你的数据向量化,提问的时候先搜索你的数据,在将你的数据喂给 Ai ,让 Ai 重新总结并输出。
AI 是黑盒系统,不稳定的系统,数据分析,尤其是需求明确的分析,是通过 AI 构建稳定的脚本或者后台服务进行准确的数据查询拿到确定的结果,而不是让 AI 在记忆中自己查询,AI 本身的幻觉问题就没法解决,类比人类就是认知偏差或者需求理解偏差,人都会记错或者理解错哪怕 AI 呢。
AI 、服务、数据,这三个本来就是独立的,各自迭代升级。
你这个属于多模态大模型交互,不存在直接就能用的模型,一定是要和你的系统本身写好的 API 接口交互的,
你的想法错误,那么现在有没有类似的交互模型例子,是有的,比如 openai 出的 operator, 国内智谱的 glm-pc, 你训练就不要想了,你自己做不到的,基于国内 cogagent 的几个小模型 做一些 GUI 界面交互 是可行的,不过你先多研究研究吧。
通过指令模型,将你输入的“给出来牌号为北方省份的蓝色吉利品牌旗下的汽车的信息” 推理出特定的槽位信息:省份 颜色 品牌 , 在得到信息去数据库检索, 能做的就是收集指令数据,进行训练,然后进行 case 回归
前面的多数人的回答基本都是答复所问, 有能力开发的用 cogagent , 没能力的问问 glm-pc 合作。
应该是可以的,而且现在大模型都有 Tool Call 功能,也有些 text-to-sql 模型
或者也可以看看 claude 出的 mcp 协议例子,可以直连 sql 的,但是查出的数据的准确性和提示词关系很大
你就说快不快吧....
回复错帖子了...
因为你对数据要求百分百准确,function call 反而是靠谱的方式。
你需要调用大模型构建 Agent ,dify.ai 等工具就是满足这类需求的。
自然语言的问题提交给 AI ,AI 理解后返回调用 ES API 的参数,本地程序执行,获得执行结果。
可以参考 Google 的 Agent 白皮书。
ppc.land/content/files/2025/01/Newwhitepaper_Agents2.pdf
不要通过 AI 进行这种需要准确数据统计的活。
你可以让 AI 通过写代码的方式去查询你需要的条件。哪怕不写 SQL ,直接写 python 、c++、java 然后运行去查都比让他全文检索靠谱。
textToSql
不行的。大模型做不到你说的那种。合适的方式是让它根据用户的话给你生成 sql,或者说查询条件,通过 json 返回来再通过程序调用数据库或者 es.
你这个场景专业说法叫 text to sql ,算是比较成熟了 python.langchain.com/docs/tutorials/sql_qa/
高看 llm 了,先了解下原理吧。
通过 http proxy server 暴露浏览器资源, 基于 webrtc, 是直连, 无需二次中转 具体请看视频演示: youtu.be/czWW5xlfcS8 当前测…
50 系在即,准备重新装机,在纠结系统方案了。主要需求是打游戏,写代码( C++/Java)和训模型(cuda )。 现在是宿主机装 windows11 ,WSL 下训模型和写…
记得以前有个争论,React 要不要每个函数都加 useCallback ,每个变量都加 useMemo ,所以 React19 的官方回答是:要加,但是由编译器自动加? 另外…