Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Problem replicating MS MARCO passage subset #221

Open
leungjch opened this issue Sep 13, 2021 · 5 comments
Open

Problem replicating MS MARCO passage subset #221

leungjch opened this issue Sep 13, 2021 · 5 comments

Comments

@leungjch
Copy link

leungjch commented Sep 13, 2021

I am unable to replicate the results for the MS MARCO passage subset experiment for monoT5 in this section.

  • Colab: Fails to run monoBERT and monoT5.
  • Local machine: I was able to perfectly replicate the results for monoBERT on my local machine, but fail to run monoT5 with another error.

I'm not sure if there is an installation instruction I missed or something wrong with the environment (in both Colab and my local machine, I made sure to start with a clean virtualenv).

Colab

See this Colab notebook: https://colab.research.google.com/drive/1dU9gkgHQImlkZ2iT1vZ06pyqJLkMFTuw?usp=sharing

This is the error:

2021-09-13 00:38:30 [INFO] loader: Loading faiss with AVX2 support.
2021-09-13 00:38:30 [INFO] loader: Could not load library with AVX2 support due to:
ModuleNotFoundError("No module named 'faiss.swigfaiss_avx2'")
2021-09-13 00:38:30 [INFO] loader: Loading faiss.
2021-09-13 00:38:30 [INFO] loader: Successfully loaded faiss.
Traceback (most recent call last):
  File "/usr/lib/python3.7/runpy.py", line 193, in _run_module_as_main
    "__main__", mod_spec)
  File "/usr/lib/python3.7/runpy.py", line 85, in _run_code
    exec(code, run_globals)
  File "/content/pygaggle/pygaggle/run/evaluate_passage_ranker.py", line 7, in <module>
    from transformers import (AutoModel,
  File "/usr/local/lib/python3.7/dist-packages/transformers/__init__.py", line 626, in <module>
    from .trainer import Trainer
  File "/usr/local/lib/python3.7/dist-packages/transformers/trainer.py", line 69, in <module>
    from .trainer_pt_utils import (
  File "/usr/local/lib/python3.7/dist-packages/transformers/trainer_pt_utils.py", line 40, in <module>
    from torch.optim.lr_scheduler import SAVE_STATE_WARNING
ImportError: cannot import name 'SAVE_STATE_WARNING' from 'torch.optim.lr_scheduler' (/usr/local/lib/python3.7/dist-packages/torch/optim/lr_scheduler.py)

I looked this error up and tried this solution to downgrade to torch==1.4.0, but then the output then becomes:

2021-09-13 00:38:30 [INFO] loader: Loading faiss with AVX2 support.
2021-09-13 00:38:30 [INFO] loader: Could not load library with AVX2 support due to:
ModuleNotFoundError("No module named 'faiss.swigfaiss_avx2'")
2021-09-13 00:38:30 [INFO] loader: Loading faiss.
2021-09-13 00:38:30 [INFO] loader: Successfully loaded faiss.

And there is no output file being generated.

There is a GH issue on this here and I tried some of the solutions (such as uninstalling faiss and installing faiss-cpu) but none of them seemed to work.

Colab is running on Python 3.7.11.

Output of pip list
Package                       Version
----------------------------- --------------
absl-py                       0.12.0
alabaster                     0.7.12
albumentations                0.1.12
altair                        4.1.0
appdirs                       1.4.4
argcomplete                   1.12.3
argon2-cffi                   21.1.0
arviz                         0.11.2
astor                         0.8.1
astropy                       4.3.1
astunparse                    1.6.3
atari-py                      0.2.9
atomicwrites                  1.4.0
attrs                         21.2.0
audioread                     2.1.9
autograd                      1.3
Babel                         2.9.1
backcall                      0.2.0
beautifulsoup4                4.6.3
bleach                        4.0.0
blis                          0.4.1
bokeh                         2.3.3
Bottleneck                    1.3.2
branca                        0.4.2
bs4                           0.0.1
CacheControl                  0.12.6
cached-property               1.5.2
cachetools                    4.2.2
catalogue                     1.0.0
certifi                       2021.5.30
cffi                          1.14.6
cftime                        1.5.0
chardet                       3.0.4
charset-normalizer            2.0.4
clang                         5.0
click                         7.1.2
cloudpickle                   1.3.0
cmake                         3.12.0
cmdstanpy                     0.9.5
colorcet                      2.0.6
coloredlogs                   14.0
colorlover                    0.3.0
community                     1.0.0b1
contextlib2                   0.5.5
convertdate                   2.3.2
coverage                      3.7.1
coveralls                     0.5
crcmod                        1.7
cufflinks                     0.17.3
cupy-cuda101                  9.1.0
cvxopt                        1.2.6
cvxpy                         1.0.31
cycler                        0.10.0
cymem                         2.0.5
Cython                        0.29.24
daft                          0.0.4
dask                          2.12.0
datascience                   0.10.6
debugpy                       1.0.0
decorator                     4.4.2
defusedxml                    0.7.1
descartes                     1.1.0
dill                          0.3.4
distributed                   1.25.3
dlib                          19.18.0
dm-tree                       0.1.6
docopt                        0.6.2
docutils                      0.17.1
dopamine-rl                   1.0.5
earthengine-api               0.1.278
easydict                      1.9
ecos                          2.0.7.post1
editdistance                  0.5.3
en-core-web-sm                2.2.5
entrypoints                   0.3
ephem                         4.0.0.2
et-xmlfile                    1.1.0
fa2                           0.3.5
faiss-cpu                     1.7.1.post2
fastai                        1.0.61
fastdtw                       0.3.4
fastprogress                  1.0.0
fastrlock                     0.6
fbprophet                     0.7.1
feather-format                0.4.1
filelock                      3.0.12
firebase-admin                4.4.0
fix-yahoo-finance             0.0.22
Flask                         1.1.4
flatbuffers                   1.12
folium                        0.8.3
future                        0.16.0
gast                          0.4.0
GDAL                          2.2.2
gdown                         3.6.4
gensim                        3.6.0
geographiclib                 1.52
geopy                         1.17.0
gin-config                    0.4.0
glob2                         0.7
google                        2.0.3
google-api-core               1.26.3
google-api-python-client      1.12.8
google-auth                   1.34.0
google-auth-httplib2          0.0.4
google-auth-oauthlib          0.4.5
google-cloud-bigquery         1.21.0
google-cloud-bigquery-storage 1.1.0
google-cloud-core             1.0.3
google-cloud-datastore        1.8.0
google-cloud-firestore        1.7.0
google-cloud-language         1.2.0
google-cloud-storage          1.18.1
google-cloud-translate        1.5.0
google-colab                  1.0.0
google-pasta                  0.2.0
google-resumable-media        0.4.1
googleapis-common-protos      1.53.0
googledrivedownloader         0.4
graphviz                      0.10.1
greenlet                      1.1.1
grpcio                        1.39.0
gspread                       3.0.1
gspread-dataframe             3.0.8
gym                           0.17.3
h5py                          3.1.0
HeapDict                      1.0.1
hijri-converter               2.1.3
holidays                      0.10.5.2
holoviews                     1.14.5
html5lib                      1.0.1
httpimport                    0.5.18
httplib2                      0.17.4
httplib2shim                  0.0.3
humanfriendly                 9.2
humanize                      0.5.1
hyperopt                      0.1.2
ideep4py                      2.0.0.post3
idna                          2.10
imageio                       2.4.1
imagesize                     1.2.0
imbalanced-learn              0.4.3
imblearn                      0.0
imgaug                        0.2.9
importlib-metadata            4.6.4
importlib-resources           5.2.2
imutils                       0.5.4
inflect                       2.1.0
iniconfig                     1.1.1
intel-openmp                  2021.3.0
intervaltree                  2.1.0
ipykernel                     4.10.1
ipython                       5.5.0
ipython-genutils              0.2.0
ipython-sql                   0.3.9
ipywidgets                    7.6.3
itsdangerous                  1.1.0
jax                           0.2.19
jaxlib                        0.1.70+cuda110
jdcal                         1.4.1
jedi                          0.18.0
jieba                         0.42.1
Jinja2                        2.11.3
joblib                        1.0.1
jpeg4py                       0.1.4
jsonschema                    2.6.0
jupyter                       1.0.0
jupyter-client                5.3.5
jupyter-console               5.2.0
jupyter-core                  4.7.1
jupyterlab-pygments           0.1.2
jupyterlab-widgets            1.0.0
kaggle                        1.5.12
kapre                         0.3.5
keras                         2.6.0
Keras-Preprocessing           1.1.2
keras-vis                     0.4.1
kiwisolver                    1.3.1
korean-lunar-calendar         0.2.1
librosa                       0.8.1
lightgbm                      2.2.3
llvmlite                      0.34.0
lmdb                          0.99
LunarCalendar                 0.0.9
lxml                          4.2.6
Markdown                      3.3.4
MarkupSafe                    2.0.1
matplotlib                    3.2.2
matplotlib-inline             0.1.2
matplotlib-venn               0.11.6
missingno                     0.5.0
mistune                       0.8.4
mizani                        0.6.0
mkl                           2019.0
mlxtend                       0.14.0
more-itertools                8.8.0
moviepy                       0.2.3.5
mpmath                        1.2.1
msgpack                       1.0.2
multiprocess                  0.70.12.2
multitasking                  0.0.9
murmurhash                    1.0.5
music21                       5.5.0
natsort                       5.5.0
nbclient                      0.5.4
nbconvert                     5.6.1
nbformat                      5.1.3
nest-asyncio                  1.5.1
netCDF4                       1.5.7
networkx                      2.6.2
nibabel                       3.0.2
nltk                          3.2.5
notebook                      5.3.1
numba                         0.51.2
numexpr                       2.7.3
numpy                         1.19.5
nvidia-ml-py3                 7.352.0
oauth2client                  4.1.3
oauthlib                      3.1.1
okgrade                       0.4.3
opencv-contrib-python         4.1.2.30
opencv-python                 4.1.2.30
openpyxl                      2.5.9
opt-einsum                    3.3.0
osqp                          0.6.2.post0
packaging                     21.0
palettable                    3.3.0
pandas                        1.1.5
pandas-datareader             0.9.0
pandas-gbq                    0.13.3
pandas-profiling              1.4.1
pandocfilters                 1.4.3
panel                         0.12.1
param                         1.11.1
parso                         0.8.2
pathlib                       1.0.1
patsy                         0.5.1
pep517                        0.11.0
pexpect                       4.8.0
pickleshare                   0.7.5
Pillow                        7.1.2
pip                           21.1.3
pip-tools                     6.2.0
plac                          1.1.3
plotly                        4.4.1
plotnine                      0.6.0
pluggy                        0.7.1
pooch                         1.4.0
portpicker                    1.3.9
prefetch-generator            1.0.1
preshed                       3.0.5
prettytable                   2.1.0
progressbar2                  3.38.0
prometheus-client             0.11.0
promise                       2.3
prompt-toolkit                1.0.18
protobuf                      3.17.3
psutil                        5.4.8
psycopg2                      2.7.6.1
ptyprocess                    0.7.0
py                            1.10.0
pyarrow                       3.0.0
pyasn1                        0.4.8
pyasn1-modules                0.2.8
pycocotools                   2.0.2
pycparser                     2.20
pyct                          0.4.8
pydantic                      1.5
pydata-google-auth            1.2.0
pydot                         1.3.0
pydot-ng                      2.0.0
pydotplus                     2.0.2
PyDrive                       1.3.1
pyemd                         0.5.1
pyerfa                        2.0.0
pygaggle                      0.0.3.1
pyglet                        1.5.0
Pygments                      2.6.1
pygobject                     3.26.1
pyjnius                       1.4.0
pymc3                         3.11.2
PyMeeus                       0.5.11
pymongo                       3.12.0
pymystem3                     0.2.0
PyOpenGL                      3.1.5
pyparsing                     2.4.7
pyrsistent                    0.18.0
pyserini                      0.10.1.0
pysndfile                     1.3.8
PySocks                       1.7.1
pystan                        2.19.1.1
pytest                        3.6.4
python-apt                    0.0.0
python-chess                  0.23.11
python-dateutil               2.8.2
python-louvain                0.15
python-slugify                5.0.2
python-utils                  2.5.6
pytz                          2018.9
pyviz-comms                   2.1.0
PyWavelets                    1.1.1
PyYAML                        3.13
pyzmq                         22.2.1
qdldl                         0.1.5.post0
qtconsole                     5.1.1
QtPy                          1.10.0
regex                         2019.12.20
requests                      2.23.0
requests-oauthlib             1.3.0
resampy                       0.2.2
retrying                      1.3.3
rpy2                          3.4.5
rsa                           4.7.2
sacremoses                    0.0.45
scikit-image                  0.16.2
scikit-learn                  0.22.2.post1
scipy                         1.4.1
screen-resolution-extra       0.0.0
scs                           2.1.4
seaborn                       0.11.1
semver                        2.13.0
Send2Trash                    1.8.0
sentencepiece                 0.1.94
setuptools                    57.4.0
setuptools-git                1.2
Shapely                       1.7.1
simplegeneric                 0.8.1
six                           1.15.0
sklearn                       0.0
sklearn-pandas                1.8.0
smart-open                    5.1.0
snowballstemmer               2.1.0
sortedcontainers              2.4.0
SoundFile                     0.10.3.post1
spacy                         2.2.4
Sphinx                        1.8.5
sphinxcontrib-serializinghtml 1.1.5
sphinxcontrib-websupport      1.2.4
SQLAlchemy                    1.4.22
sqlparse                      0.4.1
srsly                         1.0.5
statsmodels                   0.10.2
sympy                         1.7.1
tables                        3.4.4
tabulate                      0.8.9
tblib                         1.7.0
tensorboard                   2.6.0
tensorboard-data-server       0.6.1
tensorboard-plugin-wit        1.8.0
tensorflow                    2.6.0
tensorflow-datasets           4.0.1
tensorflow-estimator          2.6.0
tensorflow-gcs-config         2.6.0
tensorflow-hub                0.12.0
tensorflow-metadata           1.2.0
tensorflow-probability        0.13.0
termcolor                     1.1.0
terminado                     0.11.0
testpath                      0.5.0
text-unidecode                1.3
textblob                      0.15.3
Theano-PyMC                   1.1.2
thinc                         7.4.0
tifffile                      2021.8.30
tokenizers                    0.9.4
toml                          0.10.2
tomli                         1.2.1
toolz                         0.11.1
torch                         1.9.0+cu102
torchsummary                  1.5.1
torchtext                     0.10.0
torchvision                   0.10.0+cu102
tornado                       5.1.1
tqdm                          4.45.0
traitlets                     5.0.5
transformers                  4.0.0
tweepy                        3.10.0
typeguard                     2.7.1
typing-extensions             3.7.4.3
tzlocal                       1.5.1
uritemplate                   3.0.1
urllib3                       1.24.3
vega-datasets                 0.9.0
wasabi                        0.8.2
wcwidth                       0.2.5
webencodings                  0.5.1
Werkzeug                      1.0.1
wheel                         0.37.0
widgetsnbextension            3.5.1
wordcloud                     1.5.0
wrapt                         1.12.1
xarray                        0.18.2
xgboost                       0.90
xkit                          0.0.0
xlrd                          1.1.0
xlwt                          1.3.0
yellowbrick                   0.9.1
zict                          2.0.0
zipp                          3.5.0

Local machine

I ran the commands in a clean venv. I can replicate the monoBERT results. But if I run the monoT5 ranking task, I get this error:

  File "/home/leungjch/Documents/uw/repos/pygaggle/pygaggle_venv/lib/python3.8/site-packages/requests/models.py", line 953, in raise_for_status
    raise HTTPError(http_error_msg, response=self)
requests.exceptions.HTTPError: 414 Client Error: Request-URI Too Large for url: https://huggingface.co/T5ForConditionalGeneration(%0A%20%20(shared):%20Embedding(32128,%20768)%0A%20%20(encoder):%20T5Stack(%0A%20%20%20%20(embed_tokens) [.....]
Full error log
> python -um pygaggle.run.evaluate_passage_ranker --split dev \
                                                --method seq_class_transformer \
                                                --model castorini/monobert-large-msmarco \
                                                --dataset data/msmarco_ans_small/ \
                                                --index-dir indexes/index-msmarco-passage-20191117-0ed488 \
                                                --task msmarco \
                                                --output-file runs/run.monobert.ans_small.dev.tsv

2021-09-12 20:13:43.827355: W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dynamic library 'libcudart.so.11.0'; dlerror: libcudart.so.11.0: cannot open shared object file: No such file or directory
2021-09-12 20:13:43.827394: I tensorflow/stream_executor/cuda/cudart_stub.cc:29] Ignore above cudart dlerror if you do not have a GPU set up on your machine.
2021-09-12 20:13:46 [INFO] evaluate_passage_ranker: Preprocessing Queries & Passages:
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 105000/105000 [00:08<00:00, 12968.12it/s]
2021-09-12 20:13:56 [INFO] msmarco: Random P@1: 0.0009238095238095241
2021-09-12 20:13:56 [INFO] msmarco: Random R@1000: 0.8476190476190476
2021-09-12 20:13:56 [INFO] msmarco: Random MRR: 0.006754424559671378
2021-09-12 20:13:56 [INFO] msmarco: Random MRR@10: 0.0027044623251634625
2021-09-12 20:13:56 [INFO] msmarco: Existing MRR: 0.17093237250821483
2021-09-12 20:13:56 [INFO] msmarco: Existing MRR@10: 0.1590665154950869
2021-09-12 20:13:57 [INFO] evaluate_passage_ranker: Loading Ranker & Tokenizer:
414 Client Error: Request-URI Too Large for url: https://huggingface.co/T5ForConditionalGeneration(%0A%20%20(shared):%20Embedding(32128,%20768)%0A%20%20(encoder):%20T5Stack(%0A%20%20%20%20(embed_tokens):%20Embedding(32128,%20768)%0A%20%20%20%20(block):%20ModuleList(%0A%20%20%20%20%20%20(0):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(relative_attention_bias):%20Embedding(32,%2012)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(1):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(2):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(3):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(4):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(5):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(6):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(7):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(8):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(9):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(10):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(11):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20)%0A%20%20%20%20(final_layer_norm):%20T5LayerNorm()%0A%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20)%0A%20%20(decoder):%20T5Stack(%0A%20%20%20%20(embed_tokens):%20Embedding(32128,%20768)%0A%20%20%20%20(block):%20ModuleList(%0A%20%20%20%20%20%20(0):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(relative_attention_bias):%20Embedding(32,%2012)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(1):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(2):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(3):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(4):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(5):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(6):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(7):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(8):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(9):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(10):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(11):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20)%0A%20%20%20%20(final_layer_norm):%20T5LayerNorm()%0A%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20)%0A%20%20(lm_head):%20Linear(in_features=768,%20out_features=32128,%20bias=False)%0A)/resolve/main/config.json
Traceback (most recent call last):
  File "/home/leungjch/Documents/uw/repos/pygaggle/pygaggle_venv/lib/python3.8/site-packages/transformers/configuration_utils.py", line 484, in get_config_dict
    resolved_config_file = cached_path(
  File "/home/leungjch/Documents/uw/repos/pygaggle/pygaggle_venv/lib/python3.8/site-packages/transformers/file_utils.py", line 1271, in cached_path
    output_path = get_from_cache(
  File "/home/leungjch/Documents/uw/repos/pygaggle/pygaggle_venv/lib/python3.8/site-packages/transformers/file_utils.py", line 1442, in get_from_cache
    r.raise_for_status()
  File "/home/leungjch/Documents/uw/repos/pygaggle/pygaggle_venv/lib/python3.8/site-packages/requests/models.py", line 953, in raise_for_status
    raise HTTPError(http_error_msg, response=self)
requests.exceptions.HTTPError: 414 Client Error: Request-URI Too Large for url: https://huggingface.co/T5ForConditionalGeneration(%0A%20%20(shared):%20Embedding(32128,%20768)%0A%20%20(encoder):%20T5Stack(%0A%20%20%20%20(embed_tokens):%20Embedding(32128,%20768)%0A%20%20%20%20(block):%20ModuleList(%0A%20%20%20%20%20%20(0):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(relative_attention_bias):%20Embedding(32,%2012)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(1):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(2):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(3):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(4):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(5):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(6):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(7):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(8):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(9):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(10):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(11):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20)%0A%20%20%20%20(final_layer_norm):%20T5LayerNorm()%0A%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20)%0A%20%20(decoder):%20T5Stack(%0A%20%20%20%20(embed_tokens):%20Embedding(32128,%20768)%0A%20%20%20%20(block):%20ModuleList(%0A%20%20%20%20%20%20(0):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(relative_attention_bias):%20Embedding(32,%2012)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(1):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(2):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(3):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(4):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(5):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(6):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(7):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(8):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(9):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(10):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20%20%20(11):%20T5Block(%0A%20%20%20%20%20%20%20%20(layer):%20ModuleList(%0A%20%20%20%20%20%20%20%20%20%20(0):%20T5LayerSelfAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(SelfAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(1):%20T5LayerCrossAttention(%0A%20%20%20%20%20%20%20%20%20%20%20%20(EncDecAttention):%20T5Attention(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(q):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(k):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(v):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(o):%20Linear(in_features=768,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20(2):%20T5LayerFF(%0A%20%20%20%20%20%20%20%20%20%20%20%20(DenseReluDense):%20T5DenseReluDense(%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wi):%20Linear(in_features=768,%20out_features=3072,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(wo):%20Linear(in_features=3072,%20out_features=768,%20bias=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20%20%20%20%20(layer_norm):%20T5LayerNorm()%0A%20%20%20%20%20%20%20%20%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20%20%20)%0A%20%20%20%20%20%20)%0A%20%20%20%20)%0A%20%20%20%20(final_layer_norm):%20T5LayerNorm()%0A%20%20%20%20(dropout):%20Dropout(p=0.1,%20inplace=False)%0A%20%20)%0A%20%20(lm_head):%20Linear(in_features=768,%20out_features=32128,%20bias=False)%0A)/resolve/main/config.json

During handling of the above exception, another exception occurred:

Traceback (most recent call last):
  File "/home/leungjch/anaconda3/lib/python3.8/runpy.py", line 194, in _run_module_as_main
    return _run_code(code, main_globals, None,
  File "/home/leungjch/anaconda3/lib/python3.8/runpy.py", line 87, in _run_code
    exec(code, run_globals)
  File "/home/leungjch/Documents/uw/repos/pygaggle/pygaggle/run/evaluate_passage_ranker.py", line 218, in <module>
    main()
  File "/home/leungjch/Documents/uw/repos/pygaggle/pygaggle/run/evaluate_passage_ranker.py", line 199, in main
    reranker = construct_map[options.method](options)
  File "/home/leungjch/Documents/uw/repos/pygaggle/pygaggle/run/evaluate_passage_ranker.py", line 87, in construct_t5
    return MonoT5(model, tokenizer)
  File "/home/leungjch/Documents/uw/repos/pygaggle/pygaggle/rerank/transformer.py", line 55, in __init__
    self.model = self.get_model(pretrained_model_name_or_path)
  File "/home/leungjch/Documents/uw/repos/pygaggle/pygaggle/rerank/transformer.py", line 68, in get_model
    return AutoModelForSeq2SeqLM.from_pretrained(pretrained_model_name_or_path,
  File "/home/leungjch/Documents/uw/repos/pygaggle/pygaggle_venv/lib/python3.8/site-packages/transformers/models/auto/auto_factory.py", line 375, in from_pretrained
    config, kwargs = AutoConfig.from_pretrained(
  File "/home/leungjch/Documents/uw/repos/pygaggle/pygaggle_venv/lib/python3.8/site-packages/transformers/models/auto/configuration_auto.py", line 430, in from_pretrained
    config_dict, _ = PretrainedConfig.get_config_dict(pretrained_model_name_or_path, **kwargs)
  File "/home/leungjch/Documents/uw/repos/pygaggle/pygaggle_venv/lib/python3.8/site-packages/transformers/configuration_utils.py", line 504, in get_config_dict
    raise EnvironmentError(msg)
OSError: Can't load config for 'T5ForConditionalGeneration(
  (shared): Embedding(32128, 768)
  (encoder): T5Stack(
    (embed_tokens): Embedding(32128, 768)
    (block): ModuleList(
      (0): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
              (relative_attention_bias): Embedding(32, 12)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (1): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (2): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (3): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (4): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (5): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (6): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (7): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (8): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (9): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (10): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (11): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
    )
    (final_layer_norm): T5LayerNorm()
    (dropout): Dropout(p=0.1, inplace=False)
  )
  (decoder): T5Stack(
    (embed_tokens): Embedding(32128, 768)
    (block): ModuleList(
      (0): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
              (relative_attention_bias): Embedding(32, 12)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerCrossAttention(
            (EncDecAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (2): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (1): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerCrossAttention(
            (EncDecAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (2): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (2): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerCrossAttention(
            (EncDecAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (2): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (3): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerCrossAttention(
            (EncDecAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (2): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (4): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerCrossAttention(
            (EncDecAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (2): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (5): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerCrossAttention(
            (EncDecAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (2): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (6): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerCrossAttention(
            (EncDecAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (2): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (7): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerCrossAttention(
            (EncDecAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (2): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (8): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerCrossAttention(
            (EncDecAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (2): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (9): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerCrossAttention(
            (EncDecAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (2): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (10): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerCrossAttention(
            (EncDecAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (2): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (11): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerCrossAttention(
            (EncDecAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (2): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
    )
    (final_layer_norm): T5LayerNorm()
    (dropout): Dropout(p=0.1, inplace=False)
  )
  (lm_head): Linear(in_features=768, out_features=32128, bias=False)
)'. Make sure that:

- 'T5ForConditionalGeneration(
  (shared): Embedding(32128, 768)
  (encoder): T5Stack(
    (embed_tokens): Embedding(32128, 768)
    (block): ModuleList(
      (0): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
              (relative_attention_bias): Embedding(32, 12)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (1): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (2): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (3): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (4): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (5): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (6): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (7): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (8): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (9): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (10): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (11): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
    )
    (final_layer_norm): T5LayerNorm()
    (dropout): Dropout(p=0.1, inplace=False)
  )
  (decoder): T5Stack(
    (embed_tokens): Embedding(32128, 768)
    (block): ModuleList(
      (0): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
              (relative_attention_bias): Embedding(32, 12)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerCrossAttention(
            (EncDecAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (2): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (1): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerCrossAttention(
            (EncDecAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (2): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (2): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerCrossAttention(
            (EncDecAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (2): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (3): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerCrossAttention(
            (EncDecAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (2): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (4): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerCrossAttention(
            (EncDecAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (2): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (5): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerCrossAttention(
            (EncDecAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (2): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (6): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerCrossAttention(
            (EncDecAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (2): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (7): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerCrossAttention(
            (EncDecAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (2): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (8): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerCrossAttention(
            (EncDecAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (2): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (9): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerCrossAttention(
            (EncDecAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (2): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (10): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerCrossAttention(
            (EncDecAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (2): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (11): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerCrossAttention(
            (EncDecAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (2): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
    )
    (final_layer_norm): T5LayerNorm()
    (dropout): Dropout(p=0.1, inplace=False)
  )
  (lm_head): Linear(in_features=768, out_features=32128, bias=False)
)' is a correct model identifier listed on 'https://huggingface.co/models'

- or 'T5ForConditionalGeneration(
  (shared): Embedding(32128, 768)
  (encoder): T5Stack(
    (embed_tokens): Embedding(32128, 768)
    (block): ModuleList(
      (0): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
              (relative_attention_bias): Embedding(32, 12)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (1): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (2): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (3): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (4): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (5): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (6): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (7): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (8): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (9): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (10): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (11): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
    )
    (final_layer_norm): T5LayerNorm()
    (dropout): Dropout(p=0.1, inplace=False)
  )
  (decoder): T5Stack(
    (embed_tokens): Embedding(32128, 768)
    (block): ModuleList(
      (0): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
              (relative_attention_bias): Embedding(32, 12)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerCrossAttention(
            (EncDecAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (2): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (1): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerCrossAttention(
            (EncDecAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (2): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (2): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerCrossAttention(
            (EncDecAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (2): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (3): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerCrossAttention(
            (EncDecAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (2): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (4): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerCrossAttention(
            (EncDecAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (2): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (5): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerCrossAttention(
            (EncDecAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (2): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (6): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerCrossAttention(
            (EncDecAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (2): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (7): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerCrossAttention(
            (EncDecAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (2): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (8): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerCrossAttention(
            (EncDecAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (2): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (9): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerCrossAttention(
            (EncDecAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (2): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (10): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerCrossAttention(
            (EncDecAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (2): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
      (11): T5Block(
        (layer): ModuleList(
          (0): T5LayerSelfAttention(
            (SelfAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (1): T5LayerCrossAttention(
            (EncDecAttention): T5Attention(
              (q): Linear(in_features=768, out_features=768, bias=False)
              (k): Linear(in_features=768, out_features=768, bias=False)
              (v): Linear(in_features=768, out_features=768, bias=False)
              (o): Linear(in_features=768, out_features=768, bias=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
          (2): T5LayerFF(
            (DenseReluDense): T5DenseReluDense(
              (wi): Linear(in_features=768, out_features=3072, bias=False)
              (wo): Linear(in_features=3072, out_features=768, bias=False)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (layer_norm): T5LayerNorm()
            (dropout): Dropout(p=0.1, inplace=False)
          )
        )
      )
    )
    (final_layer_norm): T5LayerNorm()
    (dropout): Dropout(p=0.1, inplace=False)
  )
  (lm_head): Linear(in_features=768, out_features=32128, bias=False)
)' is the correct path to a directory containing a config.json file
Output of pip list
Package                 Version
----------------------- -------------------
absl-py                 0.13.0
astunparse              1.6.3
blis                    0.7.4
cachetools              4.2.2
catalogue               2.0.6
certifi                 2021.5.30
charset-normalizer      2.0.4
click                   7.1.2
coloredlogs             14.0
cymem                   2.0.5
Cython                  0.29.24
filelock                3.0.12
flatbuffers             1.12
gast                    0.4.0
google-auth             1.35.0
google-auth-oauthlib    0.4.6
google-pasta            0.2.0
grpcio                  1.40.0
h5py                    3.1.0
huggingface-hub         0.0.8
humanfriendly           9.2
idna                    3.2
Jinja2                  3.0.1
joblib                  1.0.1
keras-nightly           2.5.0.dev2021032900
Keras-Preprocessing     1.1.2
Markdown                3.3.4
MarkupSafe              2.0.1
murmurhash              1.0.5
nltk                    3.6.2
numpy                   1.21.2
oauthlib                3.1.1
opt-einsum              3.3.0
packaging               21.0
pandas                  1.3.3
pathy                   0.6.0
Pillow                  8.3.2
pip                     20.1.1
preshed                 3.0.5
protobuf                3.17.3
pyasn1                  0.4.8
pyasn1-modules          0.2.8
pydantic                1.7.4
pyjnius                 1.4.0
pyparsing               2.4.7
pyserini                0.12.0
python-dateutil         2.8.2
pytz                    2021.1
regex                   2021.8.28
requests                2.26.0
requests-oauthlib       1.3.0
rsa                     4.7.2
sacremoses              0.0.45
scikit-learn            0.24.2
scipy                   1.5.4
sentence-transformers   2.0.0
sentencepiece           0.1.95
setuptools              47.1.0
six                     1.15.0
smart-open              5.2.1
spacy                   3.0.6
spacy-legacy            3.0.8
srsly                   2.4.1
tensorboard             2.5.0
tensorboard-data-server 0.6.1
tensorboard-plugin-wit  1.8.0
tensorflow              2.5.0
tensorflow-estimator    2.5.0
termcolor               1.1.0
thinc                   8.0.10
threadpoolctl           2.2.0
tokenizers              0.10.2
torch                   1.8.1
torchvision             0.10.0
tqdm                    4.56.0
transformers            4.6.1
typer                   0.3.2
typing-extensions       3.7.4.3
urllib3                 1.26.6
wasabi                  0.8.2
Werkzeug                2.0.1
wheel                   0.37.0
wrapt                   1.12.1

Python version: Python 3.8.5
OS: Ubuntu 20.04.3 LTS
GPU: RTX 2070S
CUDA version: 11.4

@leungjch
Copy link
Author

Update: I tried reproducing on Colab again with some changes, and the monoBERT ranking task works properly, but now I have the exact error on monoT5 as originally described on my local machine (414 Client Error: Request-URI Too Large for url: https://huggingface.co/T5ForConditionalGeneration).

What I changed in Colab was that pip install pygaggle should actually be pip install /pygaggle, since the former installs from PyPi but the latter installs the locally cloned repo.

@ronakice I noticed that you tried running the Colab notebook and making changes, thank you. Can you confirm if the monoT5 error is a real issue / you can reproduce it on your local machine as well?

@stephaniewhoo
Copy link
Member

Update: I tried reproducing on Colab again with some changes, and the monoBERT ranking task works properly, but now I have the exact error on monoT5 as originally described on my local machine (414 Client Error: Request-URI Too Large for url: https://huggingface.co/T5ForConditionalGeneration).

What I changed in Colab was that pip install pygaggle should actually be pip install /pygaggle, since the former installs from PyPi but the latter installs the locally cloned repo.

@ronakice I noticed that you tried running the Colab notebook and making changes, thank you. Can you confirm if the monoT5 error is a real issue / you can reproduce it on your local machine as well?

I've had the same issue when running on cc with virtual env.

@mzzchy
Copy link
Contributor

mzzchy commented Sep 16, 2021

I am able to reproduce this error on colab as well. Let me try on cc.

@jayralencar
Copy link

On colab, run:
!pip install transformers==4.6.1
and restart runtime.

Worked for me.

@jx3yang
Copy link
Contributor

jx3yang commented May 19, 2022

Reproducing the monoT5 results on Colab seems to work fine on the current version of the code.
See https://colab.research.google.com/drive/1WxdR0R2XZTcNehsCK9NTm9_Zk53Byt66?usp=sharing
Commit: 9728299

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

5 participants