Super WIP encoder

NicolasHug · NicolasHug · commit 730f8f97d652 · 2025-02-26T15:53:17.000Z
diff --git a/src/torchcodec/decoders/_core/VideoDecoder.cpp b/src/torchcodec/decoders/_core/VideoDecoder.cpp
@@ -1942,4 +1942,131 @@ FrameDims getHeightAndWidthFromOptionsOrAVFrame(
       videoStreamOptions.width.value_or(avFrame.width));
 }
 
+Encoder::~Encoder() {
+  fclose(f_);
+}
+
+Encoder::Encoder(torch::Tensor& wf) : wf_(wf) {
+  f_ = fopen("./coutput", "wb");
+  TORCH_CHECK(f_, "Could not open file");
+  const AVCodec* avCodec = avcodec_find_encoder(AV_CODEC_ID_MP3);
+  TORCH_CHECK(avCodec != nullptr, "Codec not found");
+
+  AVCodecContext* avCodecContext = avcodec_alloc_context3(avCodec);
+  TORCH_CHECK(avCodecContext != nullptr, "Couldn't allocate codec context.");
+  avCodecContext_.reset(avCodecContext);
+
+  avCodecContext_->bit_rate = 0; // TODO
+  avCodecContext_->sample_fmt = AV_SAMPLE_FMT_FLTP; // TODO
+  avCodecContext_->sample_rate = 16000; // TODO
+  AVChannelLayout channel_layout;
+  av_channel_layout_default(&channel_layout, 2);
+  avCodecContext_->ch_layout = channel_layout;
+
+  auto ffmpegRet = avcodec_open2(avCodecContext_.get(), avCodec, nullptr);
+  TORCH_CHECK(
+      ffmpegRet == AVSUCCESS, getFFMPEGErrorStringFromErrorCode(ffmpegRet));
+
+  AVFrame* avFrame = av_frame_alloc();
+  TORCH_CHECK(avFrame != nullptr, "Couldn't allocate AVFrame.");
+  avFrame_.reset(avFrame);
+  avFrame_->nb_samples = avCodecContext_->frame_size;
+  avFrame_->format = avCodecContext_->sample_fmt;
+  avFrame_->sample_rate = avCodecContext_->sample_rate;
+
+  ffmpegRet =
+      av_channel_layout_copy(&avFrame_->ch_layout, &avCodecContext_->ch_layout);
+  TORCH_CHECK(
+      ffmpegRet == AVSUCCESS,
+      "Couldn't copy channel layout to avFrame: ",
+      getFFMPEGErrorStringFromErrorCode(ffmpegRet));
+  ffmpegRet = av_frame_get_buffer(avFrame_.get(), 0);
+  TORCH_CHECK(
+      ffmpegRet == AVSUCCESS,
+      "Couldn't allocate avFrame's buffers: ",
+      getFFMPEGErrorStringFromErrorCode(ffmpegRet));
+}
+
+torch::Tensor Encoder::encode() {
+  AVPacket* pkt = av_packet_alloc();
+  if (!pkt) {
+    fprintf(stderr, "Could not allocate audio packet\n");
+    exit(1);
+  }
+
+  auto MAX_NUM_BYTES = 10000000; // 10Mb. TODO find a way not to pre-allocate.
+  int numEncodedBytes = 0;
+  torch::Tensor outputTensor = torch::empty({MAX_NUM_BYTES}, torch::kUInt8);
+  uint8_t* pOutputTensor =
+      static_cast<uint8_t*>(outputTensor.data_ptr<uint8_t>());
+
+  uint8_t* pWf = static_cast<uint8_t*>(wf_.data_ptr());
+  auto numBytesWeWroteFromWF = 0;
+  auto numBytesPerSample = wf_.element_size();
+  auto numBytesPerChannel = wf_.sizes()[1] * numBytesPerSample;
+
+  // TODO need simpler/cleaner while loop condition.
+  while (numBytesWeWroteFromWF < numBytesPerChannel) {
+    auto ffmpegRet = av_frame_make_writable(avFrame_.get());
+    TORCH_CHECK(
+        ffmpegRet == AVSUCCESS,
+        "Couldn't make AVFrame writable: ",
+        getFFMPEGErrorStringFromErrorCode(ffmpegRet));
+
+    auto numBytesToWrite = numBytesPerSample * avCodecContext_->frame_size;
+    if (numBytesWeWroteFromWF + numBytesToWrite > numBytesPerChannel) {
+      numBytesToWrite = numBytesPerChannel - numBytesWeWroteFromWF;
+    }
+    for (int ch = 0; ch < 2; ch++) {
+      memcpy(
+          avFrame_->data[ch], pWf + ch * numBytesPerChannel, numBytesToWrite);
+    }
+    pWf += numBytesToWrite;
+    numBytesWeWroteFromWF += numBytesToWrite;
+    encode_inner_loop(pkt, pOutputTensor, &numEncodedBytes, false);
+  }
+  encode_inner_loop(pkt, pOutputTensor, &numEncodedBytes, true);
+
+  return outputTensor.narrow(
+      /*dim=*/0, /*start=*/0, /*length=*/numEncodedBytes);
+  //   return outputTensor;
+}
+
+void Encoder::encode_inner_loop(
+    AVPacket* pkt,
+    uint8_t* pOutputTensor,
+    int* numEncodedBytes,
+    bool flush) {
+  int ffmpegRet = 0;
+
+  // TODO ewwww
+  if (flush) {
+    ffmpegRet = avcodec_send_frame(avCodecContext_.get(), nullptr);
+  } else {
+    ffmpegRet = avcodec_send_frame(avCodecContext_.get(), avFrame_.get());
+  }
+  TORCH_CHECK(
+      ffmpegRet == AVSUCCESS,
+      "Error while sending frame: ",
+      getFFMPEGErrorStringFromErrorCode(ffmpegRet));
+
+  while ((ffmpegRet = avcodec_receive_packet(avCodecContext_.get(), pkt)) >=
+         0) {
+    if (ffmpegRet == AVERROR(EAGAIN) || ffmpegRet == AVERROR_EOF) {
+      return;
+    }
+    TORCH_CHECK(
+        ffmpegRet >= 0,
+        "Error receiving packet: ",
+        getFFMPEGErrorStringFromErrorCode(ffmpegRet));
+
+    fwrite(pkt->data, 1, pkt->size, f_);
+
+    memcpy(pOutputTensor + *numEncodedBytes, pkt->data, pkt->size);
+    *numEncodedBytes += pkt->size;
+
+    av_packet_unref(pkt);
+  }
+}
+
 } // namespace facebook::torchcodec
diff --git a/src/torchcodec/decoders/_core/VideoDecoder.h b/src/torchcodec/decoders/_core/VideoDecoder.h
@@ -563,4 +563,24 @@ std::ostream& operator<<(
     std::ostream& os,
     const VideoDecoder::DecodeStats& stats);
 
+class Encoder {
+ public:
+  ~Encoder();
+
+  explicit Encoder(torch::Tensor& wf);
+  torch::Tensor encode();
+
+ private:
+  void encode_inner_loop(
+      AVPacket* pkt,
+      uint8_t* pOutputTensor,
+      int* numEncodedBytes,
+      bool flush);
+
+  torch::Tensor wf_;
+  UniqueAVCodecContext avCodecContext_;
+  UniqueAVFrame avFrame_;
+  FILE* f_;
+};
+
 } // namespace facebook::torchcodec
diff --git a/src/torchcodec/decoders/_core/VideoDecoderOps.cpp b/src/torchcodec/decoders/_core/VideoDecoderOps.cpp
@@ -28,6 +28,8 @@ TORCH_LIBRARY(torchcodec_ns, m) {
       "torchcodec.decoders._core.video_decoder_ops",
       "//pytorch/torchcodec:torchcodec");
   m.def("create_from_file(str filename, str? seek_mode=None) -> Tensor");
+  m.def("create_encoder(Tensor wf) -> Tensor");
+  m.def("encode(Tensor(a!) encoder) -> Tensor");
   m.def(
       "create_from_tensor(Tensor video_tensor, str? seek_mode=None) -> Tensor");
   m.def(
@@ -74,13 +76,31 @@ at::Tensor wrapDecoderPointerToTensor(
   return tensor;
 }
 
+at::Tensor wrapEncoderPointerToTensor(std::unique_ptr<Encoder> uniqueEncoder) {
+  Encoder* encoder = uniqueEncoder.release();
+
+  auto deleter = [encoder](void*) { delete encoder; };
+  at::Tensor tensor =
+      at::from_blob(encoder, {sizeof(Encoder)}, deleter, {at::kLong});
+  auto encoder_ = static_cast<Encoder*>(tensor.mutable_data_ptr());
+  TORCH_CHECK_EQ(encoder_, encoder) << "Encoder=" << encoder_;
+  return tensor;
+}
+
 VideoDecoder* unwrapTensorToGetDecoder(at::Tensor& tensor) {
   TORCH_INTERNAL_ASSERT(tensor.is_contiguous());
   void* buffer = tensor.mutable_data_ptr();
   VideoDecoder* decoder = static_cast<VideoDecoder*>(buffer);
   return decoder;
 }
 
+Encoder* unwrapTensorToGetEncoder(at::Tensor& tensor) {
+  TORCH_INTERNAL_ASSERT(tensor.is_contiguous());
+  void* buffer = tensor.mutable_data_ptr();
+  Encoder* encoder = static_cast<Encoder*>(buffer);
+  return encoder;
+}
+
 OpsFrameOutput makeOpsFrameOutput(VideoDecoder::FrameOutput& frame) {
   return std::make_tuple(
       frame.data,
@@ -125,6 +145,16 @@ at::Tensor create_from_file(
   return wrapDecoderPointerToTensor(std::move(uniqueDecoder));
 }
 
+at::Tensor create_encoder(torch::Tensor& wf) {
+  std::unique_ptr<Encoder> uniqueEncoder = std::make_unique<Encoder>(wf);
+  return wrapEncoderPointerToTensor(std::move(uniqueEncoder));
+}
+
+at::Tensor encode(at::Tensor& encoder) {
+  auto encoder_ = unwrapTensorToGetEncoder(encoder);
+  return encoder_->encode();
+}
+
 at::Tensor create_from_tensor(
     at::Tensor video_tensor,
     std::optional<std::string_view> seek_mode) {
@@ -516,12 +546,14 @@ void scan_all_streams_to_update_metadata(at::Tensor& decoder) {
 
 TORCH_LIBRARY_IMPL(torchcodec_ns, BackendSelect, m) {
   m.impl("create_from_file", &create_from_file);
+  m.impl("create_encoder", &create_encoder);
   m.impl("create_from_tensor", &create_from_tensor);
   m.impl(
       "_get_json_ffmpeg_library_versions", &_get_json_ffmpeg_library_versions);
 }
 
 TORCH_LIBRARY_IMPL(torchcodec_ns, CPU, m) {
+  m.impl("encode", &encode);
   m.impl("seek_to_pts", &seek_to_pts);
   m.impl("add_video_stream", &add_video_stream);
   m.impl("_add_video_stream", &_add_video_stream);
diff --git a/src/torchcodec/decoders/_core/__init__.py b/src/torchcodec/decoders/_core/__init__.py
@@ -17,9 +17,11 @@
     _test_frame_pts_equality,
     add_audio_stream,
     add_video_stream,
+    create_encoder,
     create_from_bytes,
     create_from_file,
     create_from_tensor,
+    encode,
     get_ffmpeg_library_versions,
     get_frame_at_index,
     get_frame_at_pts,
diff --git a/src/torchcodec/decoders/_core/video_decoder_ops.py b/src/torchcodec/decoders/_core/video_decoder_ops.py
@@ -64,6 +64,10 @@ def load_torchcodec_extension():
 create_from_file = torch._dynamo.disallow_in_graph(
     torch.ops.torchcodec_ns.create_from_file.default
 )
+create_encoder = torch._dynamo.disallow_in_graph(
+    torch.ops.torchcodec_ns.create_encoder.default
+)
+encode = torch._dynamo.disallow_in_graph(torch.ops.torchcodec_ns.encode.default)
 create_from_tensor = torch._dynamo.disallow_in_graph(
     torch.ops.torchcodec_ns.create_from_tensor.default
 )
@@ -115,6 +119,16 @@ def create_from_file_abstract(filename: str, seek_mode: Optional[str]) -> torch.
     return torch.empty([], dtype=torch.long)
 
 
+@register_fake("torchcodec_ns::create_encoder")
+def create_encoder_abstract(wf: torch.Tensor) -> torch.Tensor:
+    return torch.empty([], dtype=torch.long)
+
+
+@register_fake("torchcodec_ns::encode")
+def encode_abstract(encoder: torch.Tensor) -> torch.Tensor:
+    return torch.empty([], dtype=torch.long)
+
+
 @register_fake("torchcodec_ns::create_from_tensor")
 def create_from_tensor_abstract(
     video_tensor: torch.Tensor, seek_mode: Optional[str]