`langml.baselines.contrastive.simcse`

Submodules

Package Contents

Classes

`DataLoader`
`TFDataLoader`
`SimCSE`

class langml.baselines.contrastive.simcse.DataLoader(data: List, tokenizer: object, batch_size: int = 32)[source]

Bases: langml.baselines.BaseDataLoader

__len__(self) → int

static load_data(fpath: str, apply_aeda: bool = True, aeda_tokenize: Callable = whitespace_tokenize, aeda_language: str = 'EN') → Tuple[List[Tuple[str, str]], List[Tuple[str, str, int]]]

Parameters

fpath – str, path of data
apply_aeda – bool, whether to apply the AEDA technique to augment data, default True
aeda_tokenize – Callable, specify aeda tokenize function, it works when set apply_aeda=True
aeda_language – str, specifying the language, it works when set apply_aeda=True

make_iter(self, random: bool = False)

class langml.baselines.contrastive.simcse.TFDataLoader(data: List, tokenizer: object, batch_size: int = 32)[source]

Bases: DataLoader

make_iter(self, random: bool = False)

__call__(self, random: bool = False)

class langml.baselines.contrastive.simcse.SimCSE(config_path: str, ckpt_path: str, params: langml.baselines.Parameters, backbone: str = 'roberta')[source]

Bases: langml.baselines.BaselineModel

get_pooling_output(self, model: langml.tensor_typing.Models, output_index: int, pooling_strategy: str = 'cls') → langml.tensor_typing.Tensors: get pooling output :param model: keras.Model, BERT model :param output_index: int, specify output index of feedforward layer. :param pooling_strategy: str, specify pooling strategy from [‘cls’, ‘first-last-avg’, ‘last-avg’], default cls

build_model(self, pooling_strategy: str = 'cls', lazy_restore: bool = False) → langml.tensor_typing.Models

langml.baselines.contrastive.simcse

Submodules

Package Contents

Classes

`langml.baselines.contrastive.simcse`