Merge pull request #31 from VowpalWabbit/byom

Add pytorch policy
VowpalWabbit · Nov 28, 2023 · f9f5c3d · f9f5c3d
2 parents 213e931 + d88ea8e
commit f9f5c3d
Show file tree

Hide file tree

Showing 16 changed files with 761 additions and 65 deletions.
diff --git a/README.md b/README.md
@@ -29,7 +29,7 @@ Note: all code examples presented here can be found in `notebooks/readme.ipynb`
 - Use a custom score function to grade the decision.
 - Directly specify the score manually and asynchronously.
 
-The beauty of `learn_to_pick` is its flexibility. Whether you're a fan of VowpalWabbit or prefer PyTorch (coming soon), the library can seamlessly integrate with both, allowing them to be the brain behind your decisions.
+The beauty of `learn_to_pick` is its flexibility. Whether you're a fan of VowpalWabbit or prefer PyTorch, the library can seamlessly integrate with both, allowing them to be the brain behind your decisions.
 
 ## Installation
 
@@ -43,6 +43,8 @@ The `PickBest` scenario should be used when:
 - Only one option is optimal for a specific criteria or context
 - There exists a mechanism to provide feedback on the suitability of the chosen option for the specific criteria
 
+### Scorer
+
 Example usage with llm default scorer:
 
 ```python
@@ -113,7 +115,46 @@ dummy_score = 1
 picker.update_with_delayed_score(dummy_score, result)
 ```
 
-`PickBest` is highly configurable to work with a VowpalWabbit decision making policy, a PyTorch decision making policy (coming soon), or with a custom user defined decision making policy
+### Using Pytorch policy
+
+Example usage with a Pytorch policy:
+```python
+from learn_to_pick import PyTorchPolicy
+
+pytorch_picker = learn_to_pick.PickBest.create(
+ policy=PyTorchPolicy(), selection_scorer=CustomSelectionScorer())
+
+pytorch_picker.run(
+ pick = learn_to_pick.ToSelectFrom(["option1", "option2"]),
+ criteria = learn_to_pick.BasedOn("some criteria")
+)
+```
+
+Example usage with a custom Pytorch policy:
+You can alway create a custom Pytorch policy by implementing the Policy interface
+
+```python
+class CustomPytorchPolicy(Policy):
+ def __init__(self, **kwargs: Any):
+ ...
+
+ def predict(self, event: TEvent) -> Any:
+ ...
+
+ def learn(self, event: TEvent) -> None:
+ ...
+
+ def log(self, event: TEvent) -> None:
+ ...
+
+ def save(self) -> None:
+ ...
+
+pytorch_picker = learn_to_pick.PickBest.create(
+ policy=CustomPytorchPolicy(), selection_scorer=CustomSelectionScorer())
+```
+
+`PickBest` is highly configurable to work with a VowpalWabbit decision making policy, a PyTorch decision making policy, or with a custom user defined decision making policy
 
 The main thing that needs to be decided from the get-go is:
 
@@ -134,7 +175,8 @@ In all three cases, when a score is calculated or provided, the decision making
 ## Example Notebooks
 
 - `readme.ipynb` showcases all examples shown in this README
-- `news_recommendation.ipynb` showcases a personalization scenario where we have to pick articles for specific users
+- `news_recommendation.ipynb` showcases a personalization scenario where we have to pick articles for specific users with VowpalWabbit policy
+- `news_recommendation_pytorch.ipynb` showcases the same personalization scenario where we have to pick articles for specific users with Pytorch policy
 - `prompt_variable_injection.ipynb` showcases learned prompt variable injection and registering callback functionality
 
 ### Advanced Usage
@@ -183,7 +225,7 @@ class CustomSelectionScorer(learn_to_pick.SelectionScorer):
  # inputs: the inputs to the picker in Dict[str, Any] format
  # picked: the selection that was made by the policy
  # event: metadata that can be used to determine the score if needed
- 
+
  # scoring logic goes here
 
  dummy_score = 1.0

diff --git a/notebooks/news_recommendation_pytorch.ipynb b/notebooks/news_recommendation_pytorch.ipynb
diff --git a/setup.py b/setup.py
@@ -1,5 +1,4 @@
 from setuptools import setup, find_packages
-import os
 
 with open("README.md", "r", encoding="UTF-8") as fh:
  long_description = fh.read()

diff --git a/src/learn_to_pick/__init__.py b/src/learn_to_pick/__init__.py
@@ -5,12 +5,9 @@
  BasedOn,
  Embed,
  Featurizer,
- ModelRepository,
  Policy,
  SelectionScorer,
  ToSelectFrom,
- VwPolicy,
- VwLogger,
  embed,
 )
 from learn_to_pick.pick_best import (
@@ -22,6 +19,14 @@
 )
 
 
+from learn_to_pick.vw.policy import VwPolicy
+from learn_to_pick.vw.model_repository import ModelRepository
+from learn_to_pick.vw.logger import VwLogger
+
+from learn_to_pick.pytorch.policy import PyTorchPolicy
+from learn_to_pick.pytorch.feature_embedder import PyTorchFeatureEmbedder
+
+
 def configure_logger() -> None:
  logger = logging.getLogger(__name__)
  logger.setLevel(logging.INFO)
@@ -48,9 +53,11 @@ def configure_logger() -> None:
  "SelectionScorer",
  "AutoSelectionScorer",
  "Featurizer",
- "ModelRepository",
  "Policy",
+ "PyTorchPolicy",
+ "PyTorchFeatureEmbedder",
+ "embed",
+ "ModelRepository",
  "VwPolicy",
  "VwLogger",
- "embed",
 ]
diff --git a/src/learn_to_pick/base.py b/src/learn_to_pick/base.py
@@ -10,15 +10,12 @@
  List,
  Optional,
  Tuple,
- Type,
  TypeVar,
  Union,
- Callable,
 )
 
 from learn_to_pick.metrics import MetricsTrackerAverage, MetricsTrackerRollingWindow
-from learn_to_pick.model_repository import ModelRepository
-from learn_to_pick.vw_logger import VwLogger
+
 from learn_to_pick.features import Featurized, DenseFeatures, SparseFeatures
 from enum import Enum
 
@@ -89,10 +86,6 @@ def EmbedAndKeep(anything: Any) -> Any:
 # helper functions
 
 
-def _parse_lines(parser: "vw.TextFormatParser", input_str: str) -> List["vw.Example"]:
- return [parser.parse_line(line) for line in input_str.split("\n")]
-
-
 def filter_inputs(inputs: Dict[str, Any], role: Role) -> Dict[str, Any]:
  return {
  k: v.value
@@ -144,50 +137,6 @@ def save(self) -> None:
  pass
 
 
-class VwPolicy(Policy):
- def __init__(
- self,
- model_repo: ModelRepository,
- vw_cmd: List[str],
- featurizer: Featurizer,
- formatter: Callable,
- vw_logger: VwLogger,
- **kwargs: Any,
- ):
- super().__init__(**kwargs)
- self.model_repo = model_repo
- self.vw_cmd = vw_cmd
- self.workspace = self.model_repo.load(vw_cmd)
- self.featurizer = featurizer
- self.formatter = formatter
- self.vw_logger = vw_logger
-
- def format(self, event):
- return self.formatter(*self.featurizer.featurize(event))
-
- def predict(self, event: TEvent) -> Any:
- import vowpal_wabbit_next as vw
-
- text_parser = vw.TextFormatParser(self.workspace)
- return self.workspace.predict_one(_parse_lines(text_parser, self.format(event)))
-
- def learn(self, event: TEvent) -> None:
- import vowpal_wabbit_next as vw
-
- vw_ex = self.format(event)
- text_parser = vw.TextFormatParser(self.workspace)
- multi_ex = _parse_lines(text_parser, vw_ex)
- self.workspace.learn_one(multi_ex)
-
- def log(self, event: TEvent) -> None:
- if self.vw_logger.logging_enabled():
- vw_ex = self.format(event)
- self.vw_logger.log(vw_ex)
-
- def save(self) -> None:
- self.model_repo.save(self.workspace)
-
-
 class Featurizer(Generic[TEvent], ABC):
  def __init__(self, *args: Any, **kwargs: Any):
  pass

diff --git a/src/learn_to_pick/pick_best.py b/src/learn_to_pick/pick_best.py
@@ -7,6 +7,10 @@
 import numpy as np
 
 from learn_to_pick import base
+from learn_to_pick.vw.policy import VwPolicy
+from learn_to_pick.vw.model_repository import ModelRepository
+from learn_to_pick.vw.logger import VwLogger
+
 
 logger = logging.getLogger(__name__)
 
@@ -333,14 +337,14 @@ def create_policy(
 
  vw_cmd = interactions + vw_cmd
 
- return base.VwPolicy(
- model_repo=base.ModelRepository(
+ return VwPolicy(
+ model_repo=ModelRepository(
  model_save_dir, with_history=True, reset=reset_model
  ),
  vw_cmd=vw_cmd,
  featurizer=featurizer,
  formatter=formatter,
- vw_logger=base.VwLogger(rl_logs),
+ vw_logger=VwLogger(rl_logs),
  )
 
  def _default_policy(self):

diff --git a/src/learn_to_pick/pytorch/__init__.py b/src/learn_to_pick/pytorch/__init__.py
diff --git a/src/learn_to_pick/pytorch/feature_embedder.py b/src/learn_to_pick/pytorch/feature_embedder.py
@@ -0,0 +1,69 @@
+from sentence_transformers import SentenceTransformer
+import torch
+from torch import Tensor
+
+from learn_to_pick import PickBestFeaturizer
+from learn_to_pick.base import Event
+from learn_to_pick.features import SparseFeatures
+from typing import Any, Tuple, TypeVar, Union
+
+TEvent = TypeVar("TEvent", bound=Event)
+
+
+class PyTorchFeatureEmbedder:
+ def __init__(self, model: Any = None):
+ if model is None:
+ model = SentenceTransformer("all-MiniLM-L6-v2")
+
+ self.model = model
+ self.featurizer = PickBestFeaturizer(auto_embed=False)
+
+ def encode(self, to_encode: str) -> Tensor:
+ embeddings = self.model.encode(to_encode, convert_to_tensor=True)
+ normalized = torch.nn.functional.normalize(embeddings)
+ return normalized
+
+ def convert_features_to_text(self, sparse_features: SparseFeatures) -> str:
+ results = []
+ for ns, obj in sparse_features.items():
+ value = obj.get("default_ft", "")
+ results.append(f"{ns}={value}")
+ return " ".join(results)
+
+ def format(
+ self, event: TEvent
+ ) -> Union[Tuple[Tensor, Tensor, Tensor], Tuple[Tensor, Tensor]]:
+ context_featurized, actions_featurized, selected = self.featurizer.featurize(
+ event
+ )
+
+ if len(context_featurized.dense) > 0:
+ raise NotImplementedError(
+ "pytorch policy doesn't support context with dense features"
+ )
+
+ for action_featurized in actions_featurized:
+ if len(action_featurized.dense) > 0:
+ raise NotImplementedError(
+ "pytorch policy doesn't support action with dense features"
+ )
+
+ context_sparse = self.encode(
+ [self.convert_features_to_text(context_featurized.sparse)]
+ )
+
+ actions_sparse = []
+ for action_featurized in actions_featurized:
+ actions_sparse.append(
+ self.convert_features_to_text(action_featurized.sparse)
+ )
+ actions_sparse = self.encode(actions_sparse).unsqueeze(0)
+
+ if selected.score is not None:
+ return (
+ torch.Tensor([[selected.score]]),
+ context_sparse,
+ actions_sparse[:, selected.index, :].unsqueeze(1),
+ )
+ else:
+ return context_sparse, actions_sparse
diff --git a/src/learn_to_pick/pytorch/igw.py b/src/learn_to_pick/pytorch/igw.py
@@ -0,0 +1,21 @@
+import torch
+from torch import Tensor
+from typing import Tuple
+
+
+def IGW(fhat: torch.Tensor, gamma: float) -> Tuple[Tensor, Tensor]:
+ from math import sqrt
+
+ fhatahat, ahat = fhat.max(dim=1)
+ A = fhat.shape[1]
+ gamma *= sqrt(A)
+ p = 1 / (A + gamma * (fhatahat.unsqueeze(1) - fhat))
+ sump = p.sum(dim=1)
+ p[range(p.shape[0]), ahat] += torch.clamp(1 - sump, min=0, max=None)
+ return torch.multinomial(p, num_samples=1).squeeze(1), ahat
+
+
+def SamplingIGW(A: Tensor, P: Tensor, gamma: float) -> list:
+ exploreind, _ = IGW(P, gamma)
+ explore = [ind for _, ind in zip(A, exploreind)]
+ return explore