Merge pull request #32 from tnoho/feature/add-audio-sink2

コールバックで音声を受け取る SoraAudioStreamSink の追加
shiguredo · Aug 28, 2023 · c817940 · c817940
2 parents 67a2625 + 6e536bf
commit c817940
Show file tree

Hide file tree

Showing 5 changed files with 475 additions and 0 deletions.
diff --git a/CMakeLists.txt b/CMakeLists.txt
@@ -74,6 +74,7 @@ nanobind_add_module(
  src/dummy_audio_mixer.cpp
  src/sora.cpp
  src/sora_audio_sink.cpp
+ src/sora_audio_stream_sink.cpp
  src/sora_audio_source.cpp
  src/sora_connection.cpp
  src/sora_factory.cpp

diff --git a/src/sora_audio_stream_sink.cpp b/src/sora_audio_stream_sink.cpp
@@ -0,0 +1,212 @@
+#include "sora_audio_stream_sink.h"
+
+#include <chrono>
+
+// WebRTC
+#include <api/audio/channel_layout.h>
+#include <modules/audio_mixer/audio_frame_manipulator.h>
+#include <modules/audio_processing/agc2/agc2_common.h>
+#include <modules/audio_processing/agc2/cpu_features.h>
+#include <modules/audio_processing/agc2/rnn_vad/common.h>
+#include <modules/audio_processing/include/audio_frame_view.h>
+
+SoraAudioFrameDefaultImpl::SoraAudioFrameDefaultImpl(
+ std::unique_ptr<webrtc::AudioFrame> audio_frame)
+ : audio_frame_(std::move(audio_frame)) {}
+
+const int16_t* SoraAudioFrameDefaultImpl::RawData() const {
+ return audio_frame_->data();
+}
+
+std::vector<uint16_t> SoraAudioFrameDefaultImpl::VectorData() const {
+ std::vector<uint16_t> vector(
+ audio_frame_->data(),
+ audio_frame_->data() +
+ audio_frame_->samples_per_channel() * audio_frame_->num_channels());
+ return vector;
+}
+
+size_t SoraAudioFrameDefaultImpl::samples_per_channel() const {
+ return audio_frame_->samples_per_channel();
+}
+
+size_t SoraAudioFrameDefaultImpl::num_channels() const {
+ return audio_frame_->num_channels();
+}
+
+int SoraAudioFrameDefaultImpl::sample_rate_hz() const {
+ return audio_frame_->sample_rate_hz();
+}
+
+std::optional<int64_t>
+SoraAudioFrameDefaultImpl::absolute_capture_timestamp_ms() const {
+ if (audio_frame_->absolute_capture_timestamp_ms()) {
+ std::optional<int64_t> value =
+ *audio_frame_->absolute_capture_timestamp_ms();
+ return value;
+ } else {
+ return std::nullopt;
+ }
+}
+
+SoraAudioFrameVectorImpl::SoraAudioFrameVectorImpl(
+ std::vector<uint16_t> vector,
+ size_t samples_per_channel,
+ size_t num_channels,
+ int sample_rate_hz,
+ std::optional<int64_t> absolute_capture_timestamp_ms)
+ : vector_(vector),
+ samples_per_channel_(samples_per_channel),
+ num_channels_(num_channels),
+ sample_rate_hz_(sample_rate_hz),
+ absolute_capture_timestamp_ms_(absolute_capture_timestamp_ms) {}
+
+const int16_t* SoraAudioFrameVectorImpl::RawData() const {
+ return (const int16_t*)vector_.data();
+}
+
+std::vector<uint16_t> SoraAudioFrameVectorImpl::VectorData() const {
+ return vector_;
+}
+
+size_t SoraAudioFrameVectorImpl::samples_per_channel() const {
+ return samples_per_channel_;
+}
+
+size_t SoraAudioFrameVectorImpl::num_channels() const {
+ return num_channels_;
+}
+
+int SoraAudioFrameVectorImpl::sample_rate_hz() const {
+ return sample_rate_hz_;
+}
+
+std::optional<int64_t> SoraAudioFrameVectorImpl::absolute_capture_timestamp_ms()
+ const {
+ return absolute_capture_timestamp_ms_;
+}
+
+SoraAudioFrame::SoraAudioFrame(
+ std::unique_ptr<webrtc::AudioFrame> audio_frame) {
+ impl_.reset(new SoraAudioFrameDefaultImpl(std::move(audio_frame)));
+}
+
+SoraAudioFrame::SoraAudioFrame(
+ std::vector<uint16_t> vector,
+ size_t samples_per_channel,
+ size_t num_channels,
+ int sample_rate_hz,
+ std::optional<int64_t> absolute_capture_timestamp_ms) {
+ impl_.reset(new SoraAudioFrameVectorImpl(vector, samples_per_channel,
+ num_channels, sample_rate_hz,
+ absolute_capture_timestamp_ms));
+}
+
+nb::ndarray<nb::numpy, int16_t, nb::shape<nb::any, nb::any>>
+SoraAudioFrame::Data() const {
+ // Data はまだ vector の時は返せてない
+ size_t shape[2] = {static_cast<size_t>(samples_per_channel()),
+ static_cast<size_t>(num_channels())};
+ return nb::ndarray<nb::numpy, int16_t, nb::shape<nb::any, nb::any>>(
+ (int16_t*)RawData(), 2, shape);
+}
+
+const int16_t* SoraAudioFrame::RawData() const {
+ return (const int16_t*)impl_->RawData();
+}
+
+std::vector<uint16_t> SoraAudioFrame::VectorData() const {
+ return impl_->VectorData();
+}
+
+size_t SoraAudioFrame::samples_per_channel() const {
+ return impl_->samples_per_channel();
+}
+
+size_t SoraAudioFrame::num_channels() const {
+ return impl_->num_channels();
+}
+
+int SoraAudioFrame::sample_rate_hz() const {
+ return impl_->sample_rate_hz();
+}
+
+std::optional<int64_t> SoraAudioFrame::absolute_capture_timestamp_ms() const {
+ return impl_->absolute_capture_timestamp_ms();
+}
+
+SoraAudioStreamSinkImpl::SoraAudioStreamSinkImpl(SoraTrackInterface* track,
+ int output_sample_rate,
+ size_t output_channels)
+ : track_(track),
+ output_sample_rate_(output_sample_rate),
+ output_channels_(output_channels) {
+ track_->AddSubscriber(this);
+ webrtc::AudioTrackInterface* audio_track =
+ static_cast<webrtc::AudioTrackInterface*>(track_->GetTrack().get());
+ audio_track->AddSink(this);
+}
+
+SoraAudioStreamSinkImpl::~SoraAudioStreamSinkImpl() {
+ Del();
+}
+
+void SoraAudioStreamSinkImpl::Del() {
+ if (track_) {
+ track_->RemoveSubscriber(this);
+ }
+ Disposed();
+}
+
+void SoraAudioStreamSinkImpl::Disposed() {
+ if (track_ && track_->GetTrack()) {
+ webrtc::AudioTrackInterface* audio_track =
+ static_cast<webrtc::AudioTrackInterface*>(track_->GetTrack().get());
+ audio_track->RemoveSink(this);
+ }
+ track_ = nullptr;
+}
+
+void SoraAudioStreamSinkImpl::PublisherDisposed() {
+ Disposed();
+}
+
+void SoraAudioStreamSinkImpl::OnData(
+ const void* audio_data,
+ int bits_per_sample,
+ int sample_rate,
+ size_t number_of_channels,
+ size_t number_of_frames,
+ absl::optional<int64_t> absolute_capture_timestamp_ms) {
+ auto tuned_frame = std::make_unique<webrtc::AudioFrame>();
+ tuned_frame->UpdateFrame(
+ 0, static_cast<const int16_t*>(audio_data), number_of_frames, sample_rate,
+ webrtc::AudioFrame::SpeechType::kUndefined,
+ webrtc::AudioFrame::VADActivity::kVadUnknown, number_of_channels);
+ if (absolute_capture_timestamp_ms) {
+ tuned_frame->set_absolute_capture_timestamp_ms(
+ *absolute_capture_timestamp_ms);
+ }
+ // Resampling して sampling_rate を揃える
+ bool need_resample = output_sample_rate_ != -1 &&
+ tuned_frame->sample_rate_hz() != output_sample_rate_;
+ if (need_resample) {
+ int samples_per_channel_int = resampler_.Resample10Msec(
+ tuned_frame->data(), tuned_frame->sample_rate_hz(), output_sample_rate_,
+ tuned_frame->num_channels(), webrtc::AudioFrame::kMaxDataSizeSamples,
+ tuned_frame->mutable_data());
+ if (samples_per_channel_int < 0) {
+ return;
+ }
+ tuned_frame->samples_per_channel_ =
+ static_cast<size_t>(samples_per_channel_int);
+ tuned_frame->sample_rate_hz_ = output_sample_rate_;
+ }
+ // Remix して channel 数を揃える
+ if (output_channels_ != 0 &&
+ tuned_frame->num_channels() != output_channels_) {
+ webrtc::RemixFrame(output_channels_, tuned_frame.get());
+ }
+
+ on_frame_(std::make_shared<SoraAudioFrame>(std::move(tuned_frame)));
+}