需求:作业,需要一个能跑的 demo ,pytorch 实现语音情感分类。输入短音频 wav ,分类到开心/难过/愤怒等五类中的一类。
具体:网络结构任意,基础即可。我的想法是输入层用 LSTM ,然后接 3 层 CNN (中间若干 BN ),最后两层 dense 输出到 5 个类别( dropout?),交叉熵取值。
已经有的:已有开源音频数据集,按开心/难过/愤怒等分类好的 wav 文件,使用 scipy 和 speechpy 可以很简单地转换为二维 mfcc 数据,但是因为不是我实现所以可能具体实现过程中还需要进行一些预处理。
附注:不是很复杂,我感觉我研究研究也能写,但是太久没用过相关工具了,感觉得折腾几天。懒得搞了所以问问有没有老哥,感觉如果专门做 dl 的话天天打交道应该很快就能出吧,毕竟能收敛就行,不要求打榜级准确率。框架需要我电脑上能跑的,我是 CUDA12.1 的 pytorch ,显存 6G 。心理价位 200 不知道有没有寝室打机老哥有兴趣搞,有的话欢迎留 base64

感谢 v 站的良好环境和 v 友们的冷嘲热讽,我倒是确实感觉不复杂,现在也这么感觉的,果然还是自己做了立省 2000 。既然 rnn 和 cnn 不需要自己实现,这是 torch 官网 demo 级别的简单项目,数据集已经标注好。感觉我把价格说低了的朋友当然是可以的,没兴趣可以不回复,没兴趣还要嘲讽两句大概是工资开的太少需要私活找补吧,我也理解,祝各位都能找到按时薪计费的工作捏

《心理价位 200 》

不是太复杂,就差一个程序员了

不是太复杂 建议自己写

再加个 0 都不见得有人搞

《心理价位 200 》

心理价位 1000 + 有人考虑

恶心

不是太复杂 建议自己写

200 写个 dataloader 最多了哥

即使你出 2000 ,也会一群人嗷嗷叫太低,就更别说 200 了。

这太简单了,随便找个小学生就能搞定,最多给颗糖

你把数据整理好,不给钱或者还有人做,200 真特么是侮辱人了。

有这么复杂?whisper 把语音文字提取出来,再找个文本模型判断下不就行了?

找同学明显更便宜。

感觉确实不复杂,功能应该都能找到现成的开源 api ,但是你要让我弄我也报 2k 以上

亲,这边建议您开一个 chatGpt 会员呢.

cheating!plagiarism!

老哥方便留个联系方式吗?以后有类似不太复杂的需求方便接一下吗?我多给你出 50

#13 剑走偏锋

心理价位 200 ,立省就 2000 了 ,这么容易,自己好好学习不得了。 祝你能毕业吧。作业都搞不定。。。

做这个确实很简单,1-2 个小时吧,我时薪 160 ,有需要找我