Продолжаю погружение в
TDA, а именно в тему "Artificial Text Detection" через расчеты топологических метрик.
После стихов появилась мысль попробовать применить эти топологические инструменты к диалогам.
В последний год массовой практикой стала генерация диалогов через апишку OpenAI и обучение моделей чатботов (и даже базовых моделей - см.
статью
(
Read more... )
Comments 9
Reply
```
def embed_text(text):
encoded_input = tokenizer(['[CLS]'+preprocess_text(text)+'[SEP]'], padding=True, truncation=True, max_length=512, return_tensors='pt').to('cuda')
with torch.no_grad():
model_output = model(**encoded_input)
token_embeddings = model_output[0]
# We omit the first and last tokens ( and )
return token_embeddings[0, :, :].detach().cpu().numpy()[1:-1]
```
прогоняем через расчет размерности и благополучно забываем.
Reply
Как я понял оно сохраняет возможность прогнать словарь модели на конкретном тексте
# Выполняем предобработку текста
tokenizer = AutoTokenizer.from_pretrained(
'SkolkovoInstitute/russian_toxicity_classifier')
def tokenize_function(examples):
return tokenizer(examples['text'], padding='max_length', truncation=True)
tokenized_train = train.map(tokenize_function)
Пока непонятно что там внутри упакованной модели. Серилиаризованный кусок памяти с объектами что ли???
Reply
Можно увидеть все эти файлы тут https://huggingface.co/s-nlp/russian_toxicity_classifier/tree/main
Или скачать их локально через git clone https://huggingface.co/s-nlp/russian_toxicity_classifier
Reply
Очень интересный подход.
А так ведь можно посчитать "топологическую подпись" автора, наверное?
PS Особенно интересно на фоне сравнения с размерностью стихов - получается человек выбирает более заковыристые метафоры в стихах, но при этом в обычном диалоге машина оказывается разнообразнее?
Reply
Тоже подумал о таком, но надо перепроверять, конечно.
Reply
Reply
Reply
Leave a comment