公司拍摄的时候用的讯飞听见,需要在旁边放一个小盒子(用小盒的目的是为了免费生成字幕文件),不仅要对时间码,关键这个小盒子弄起来也太费事了,还要单独充电之类的。这个东西主要还是为了生成字幕。我看到FunClip这个项目是支持语音或者视频转文本,还支持区分说话人,这不得赶紧来体验下。

功能

  • 语音转文本
  • 语音转字幕
  • 根据字幕剪辑视频
  • 自然语言AI自动剪视频

效果

我尝试了一个视频转字幕,30分钟视频大概10分钟左右生成完毕(M1Pro),不占内存占CPU运算。

文本识别准确率很高。

识别效果

搭建教程

官方的搭建教程比较清晰。同样的搭建的是python环境。我是推荐通过conda创建虚拟环境然后安装,这样方便卸载。

安装Conda

到conda官网安装Conda

安装conda

打开终端

在启动台打开其他文件夹,打开终端app。

克隆funclip仓库

1
2
git clone https://github.com/alibaba-damo-academy/FunClip.git
cd FunClip

创建conda虚拟环境

让我们回到终端,输入

1
conda create -n funclip python=3.8

激活虚拟环境

激活刚才创建的虚拟环境。

1
conda activate funclip

安装相关Python依赖

1
pip install -r ./requirements.txt

安装imagemagick(可选)

如果你希望使用自动生成字幕的视频裁剪功能,需要安装imagemagick

1
2
brew install imagemagick
sed -i 's/none/read,write/g' /usr/local/Cellar/imagemagick/7.1.1-8_1/etc/ImageMagick-7/policy.xml

下载字体文件

下载你需要的字体文件,这里我们提供一个默认的黑体字体文件

1
wget https://isv-data.oss-cn-hangzhou.aliyuncs.com/ics/MaaS/ClipVideo/STHeitiMedium.ttc -O font/STHeitiMedium.ttc

启动

1
conda activate funclip && python funclip/launch.py