想问下如何将 srt 字幕文本自动剪接生成一个完整语句啊?
比如通过一些软件生成了 srt 字幕文本,但是这些字幕文本都比较零散,可以通过写一个解析 srt 文本的程序让它们自动剪接生成一句完整的话吗?然后剪切合并后的语句的时间戳信息也自动合并!没想出啥思路可以解决,想用 Python 来写,搜了下有 srt 相关的库,但是具体的解析思路还没有!
还请相关前辈指导一些思路?不胜感激,^_^
如何定义什么叫做一句完整的话?
中文吗 中文还是比较好搞的,做过
这个也是要思考的问题,😄
英文,想把英文弄成一句完整的话,然后翻译为中文,英文就是比较多语气词或者停顿的话就不好弄,而且最要命的是可能会有对话形式
中文的思路是怎么弄啊?是用到啥库吗,或者解析步骤是咋样的?
扔给 gpt 直接组合就好了,不放心就用工作流就行了,这么简单的问题
有尝试过喂给 GPT ,但是效果不是很好,特别是遇到长文本的时候,工作流是什么啊
GPT 说着说着就自动编造其他的话了,都不是原文了
用 whisper 重新去识别生成字幕,prompt 告诉它按完整句子断句
可以再细说下吗?
再细就要帮你做了,你适合花 20 美金买个 chatgpt plus ,跟 gpt4 聊聊你的疑问
#7 工作流都不知道用 gpt 算白花钱了,工作流就是分步推理然后串联理解吧
OP 用的什么什么软件生成的 srt ? 正常的语音识别输出的不就是一个完整的语句吗? www.xfyun.cn/services/lfasr help.aliyun.com/zh/dashscope/developer-reference/paraformer-speech-recognition/ www.volcengine.com/product/asr
太菜了,我看了下 whisper ,感觉可以用它的 Python 库试试
剪映,用的剪映的智能字幕识别,识别出来的其实还蛮准确的, 但是就是因为对话形式的字幕,导致有些单词不能成句,然后就需要手动调,感觉比较麻烦,所以想着能不能解析下 srt 文本,然后能够自动调整下成句
有 Whisper 识别英文,说不定识别之后效果就么已经不错,没有那种断来断去的问题我
需要多模态视频理解,字幕信息量太少了
你就是想做视频解说吧,别想了,难度很大
剪映有个有智能剪口播的功能,可以快速剔除不要的,卡顿的、语气词的部分。字幕工具箱 - 免费的在线字幕工具集合
这个比较难,目前没有好的方案
我觉得 gpt 仔细限制一下提示词,应该能做到吧。文本重写基本上是 gpt 这种大语言模型最基础可靠的能力之一。当然你的需求里面对语意方面的要求比较高,无论哪种都不太行吧。毕竟只有字幕这一个信息,对于完全理解文本内容多少有点不够。
Whisper 的 prompt 跟 GPT 的 prompt 不是一回事,干不了这个。
可以分析一下某条字幕的结束时间和下一条字幕的起始时间。如果小于某个值就认为是一句话。不过遇到相声这类的估计就傻眼。最好还是让 AI 来分析音频,按不同频谱的声音先独立出来,再按时间间隔来分句子。
不需要那么复杂,丢给通义听悟即可。
#22 whisper 断句长度是用 prompt 控制的
怎么管理好程序员?简单不想写,难的几个月写不出来 程序员到底怎么了? 听说现在人才很多 为什么我有个朋友说他公司里他管理的程序员 都是这样的呢? 简单的不想写 不愿意写 复杂的…
因为我之前用的是 eureka, nacos 之类的,另起一个 nacos 服务器,再起微服务,然后本地跑测试 但是如果切换到 k8s 环境该怎么办 如何将所有 app 打…
版本 124.0.2478.80 (正式版本) (64 位) 上方标签页只要多开几个再关标签页,这个框的位置就放飞自我了,大概率对不齐 找到问题了,开启 edge 的新 ui…