LiberSonora

一个 AI 赋能的、强大的、开源有声书工具集

LiberSonora

LiberSonora Logo

开源项目仓库,欢迎 Star 支持:

🌟 项目亮点

📚 开源自由

  • 采用 MIT 许可证,真正的开源免费
  • 音频处理与大模型推理全程本地离线运行
  • 自主可控,数据安全有保障

🚀 便捷部署

  • 项目容器化,开发与部署便利
  • 支持 API,轻松集成到个人工作流

🧩 模块化设计

  • 各功能模块独立
  • 可单独启动特定服务(如音频增强、字幕识别等)

🔧 灵活定制

  • 支持自定义大模型,针对特定任务提升效果
  • 配置灵活多样,满足不同需求

💡 创新功能

  • 持续更新,引入最新AI技术
  • 提供独特的音频处理与文本生成能力

致谢如下开源项目

项目名称 项目地址 用途
ClearerVoice-Studio https://github.com/modelscope/ClearerVoice-Studio 移除背景音
FFmpeg https://github.com/FFmpeg/FFmpeg 音频转码
FunASR https://github.com/modelscope/FunASR 字幕提取
Ollama https://github.com/ollama/ollama 大模型推理
Qwen2.5 https://github.com/QwenLM/Qwen2.5 大模型推理
MiniCPM https://github.com/OpenBMB/MiniCPM 大模型推理
Sanic https://github.com/sanic-org/sanic 对外暴露 API 接口
Streamlit https://github.com/streamlit/streamlit 页面交互
StreamlitAntdComponents https://github.com/nicedouble/StreamlitAntdComponents 页面交互,实现步骤条

💖 如果您喜欢这个项目,欢迎赞助支持开发!
赞助二维码

问题反馈

如果您在使用过程中遇到任何问题或有改进建议,欢迎通过以下方式反馈:

在 GitHub 上提交 Issue:

  • 访问我们的 GitHub Issues 页面
  • 点击 “New Issue” 按钮
  • 选择适当的 issue 模板(如果有)
  • 详细描述您遇到的问题或建议

开源许可

本项目采用 MIT 许可证

您可以在项目根目录的 LICENSE 文件中查看完整的许可证文本。

新功能说明

1. 标题生成流程优化

“不做标题重命名”选项

  • 默认状态: 选中
  • 功能: 选中后不进行标题重命名,只生成字幕文件
  • 优势:
    • 提高处理效率
    • 减少存储空间占用
    • 专注于字幕生成功能

使用方式

  1. 在”文件名配置”步骤中,默认选中”不做标题重命名”
  2. 如需标题重命名功能,请取消勾选该选项
  3. 取消勾选后,可以配置标题生成相关参数

2. Docker化部署

新的部署方式

1
2
3
4
5
# 构建并启动服务
docker-compose -f docker-compose.gpu.yml up --build

# 后台运行
docker-compose -f docker-compose.gpu.yml up -d --build

优势

  • 使用Python基础镜像,启动更快
  • 简化依赖管理
  • 更好的跨平台兼容性

3. 默认模型配置

DeepSeek Chat模型

  • 默认模型: DeepSeek Chat
  • 优势:
    • 中文处理能力强
    • 价格便宜

主要目的是避免自动拉取 ollama ,流程缓慢

模型切换

如需使用其他模型,可在配置中手动选择:

  • Ollama本地模型
  • OpenAI模型
  • 其他DeepSeek模型

功能对比

功能 旧版本 新版本
标题重命名 默认开启 默认关闭
音频文件拷贝 总是拷贝 可选跳过
默认模型 Ollama DeepSeek Chat
部署方式 Conda环境 Python Docker

常见问题

Q: 如何启用标题重命名功能?

A: 在”文件名配置”步骤中,取消勾选”不做标题重命名”选项。

Q: 为什么默认不拷贝音频文件?

A: 为了节省存储空间和提高处理效率,专注于字幕生成功能。

Q: 如何切换回Ollama模型?

A: 在模型配置中选择”Ollama”供应商即可。

Q: 新的Docker部署有什么优势?

A: 启动更快、依赖管理更简单、跨平台兼容性更好。

技术细节

配置结构

1
2
3
4
5
6
7
8
9
10
11
12
{
"title": {
"skip_rename": true,
"generate": false,
"book_title": "",
"author": "",
"lang": "zh-CN",
"regex_origin": "(\\d+)",
"rule": "{0}_{title}",
"openai": null
}
}

处理流程

  1. 音频文件上传/选择
  2. 语音转文字
  3. 文本处理(纠错、翻译等)
  4. 字幕文件生成
  5. 音频文件拷贝(可选)
  6. 标题生成(可选)

前言

农历春节前有点时间,把项目官网搞出来了,在这里祝大家 2025 蛇年大吉,财源广进!

网站地址为:libersonora.github.io,暂时不打算买域名,大家可以通过这个地址访问我们的网站。

找的这套主题也挺适合做个人博客和项目文档的,可以拷贝一份直接用起来。

网站开源地址

项目网站是开源的,源代码托管在 GitHub,欢迎大家访问 GitHub 开源地址 查看和提交意见。

使用的开源项目

在搭建网站的过程中,我使用了几个非常优秀的开源项目,特别感谢:

网站托管

网站托管使用的是 GitHub Pages,这是一个方便的托管静态网站的服务,只需将网站源文件推送到 GitHub 仓库的特定分支即可自动生成网页,但国内需要搭梯子才可以正常访问。

感谢所有开源项目的贡献者,也感谢所有关心和支持我们项目的朋友们!

0%