通过Python从麦克风获取实时语音

本文将介绍如何使用Python获取麦克风输入的实时语音。我们将使用Python中的一些库和技术来实现这一功能。

一、准备工作

在开始编写代码之前，我们需要安装一些必要的库。

pip install pyaudio
pip install SpeechRecognition

接下来，我们需要导入必要的库：

import pyaudio
import speech_recognition as sr

二、获取音频输入

要从麦克风获取实时语音，我们需要使用Pyaudio库。

# 设置音频参数
chunk = 1024
sample_rate = 44100
record_seconds = 10

# 初始化Pyaudio
pa = pyaudio.PyAudio()

# 打开麦克风
stream = pa.open(format=pyaudio.paInt16,
                 channels=1,
                 rate=sample_rate,
                 input=True,
                 frames_per_buffer=chunk)

# 开始录音
print("开始录音...")
frames = []
for i in range(0, int(sample_rate / chunk * record_seconds)):
    data = stream.read(chunk)
    frames.append(data)

# 停止录音
print("停止录音...")
stream.stop_stream()
stream.close()
pa.terminate()

三、语音转文本

要将获取到的语音转换为文本，我们将使用SpeechRecognition库。

# 创建Recognizer对象
recognizer = sr.Recognizer()

# 将语音转换为文本
audio = sr.AudioData(b''.join(frames), sample_rate=sample_rate)
text = recognizer.recognize_google(audio, language='zh-CN')

# 打印转换结果
print("语音识别结果：", text)

四、完整代码

import pyaudio
import speech_recognition as sr

# 设置音频参数
chunk = 1024
sample_rate = 44100
record_seconds = 10

# 初始化Pyaudio
pa = pyaudio.PyAudio()

# 打开麦克风
stream = pa.open(format=pyaudio.paInt16,
                 channels=1,
                 rate=sample_rate,
                 input=True,
                 frames_per_buffer=chunk)

# 开始录音
print("开始录音...")
frames = []
for i in range(0, int(sample_rate / chunk * record_seconds)):
    data = stream.read(chunk)
    frames.append(data)

# 停止录音
print("停止录音...")
stream.stop_stream()
stream.close()
pa.terminate()

# 创建Recognizer对象
recognizer = sr.Recognizer()

# 将语音转换为文本
audio = sr.AudioData(b''.join(frames), sample_rate=sample_rate)
text = recognizer.recognize_google(audio, language='zh-CN')

# 打印转换结果
print("语音识别结果：", text)

五、总结

通过以上步骤，我们成功实现了从麦克风获取实时语音并将其转换为文本的功能。使用Python的Pyaudio和SpeechRecognition库，我们可以轻松地处理语音输入并进行文本处理。