73 lines
5.9 KiB
C++
73 lines
5.9 KiB
C++
#ifndef TOKEN_H
|
||
#define TOKEN_H
|
||
|
||
#include <string>
|
||
#include <vector>
|
||
#include <map>
|
||
|
||
class Tokenizer {
|
||
public:
|
||
std::map<std::string, int> wordToId;
|
||
std::map<int, std::string> idToWord;
|
||
|
||
Tokenizer() {
|
||
add("[EOS]"); add("[SYS]"); add("[USER]"); add("[AI]"); add(" "); add("\n"); add("Приветик");
|
||
add(","); add("как"); add("дела"); add("?"); add("Привет");
|
||
add("нужна"); add("помощь"); add("пише"); add("если"); add("что"); add("всегда");
|
||
add("рада"); add("помочь"); add("что-то"); add("хотел"); add("да"); add("именно");
|
||
add("я"); add("тебе"); add("почь"); add("мне"); add("нужно"); add("найти");
|
||
add("образ"); add("7"); add("винды"); add("но"); add("не"); add("могу");
|
||
add("иди"); add("ты"); add("нахуй"); add("Как"); add("Сябки"); add("спросил");
|
||
add("у"); add("меня"); add("все"); add("хорошо"); add("а"); add("тебя");
|
||
add("Да"); add("ахуенно"); add("ёпт"); add("Доброе"); add("утро"); add("спалось");
|
||
add("Спокойной"); add("ночи"); add("желаю"); add("выспатся"); add("Что"); add("делаешь");
|
||
add("Сижу"); add("жду"); add("кода"); add("напишешь"); add("Плохое"); add("настроение");
|
||
add("Оу"); add("случилось"); add("Расскажи"); add("обязательно"); add("выслушаю"); add("и");
|
||
add("поддержу"); add("!"); add("Я"); add("устал"); add("Бедняжка"); add("мой");
|
||
add("может"); add("тогда"); add("отдохнешь"); add("Тебе"); add("восстановить"); add("силы");
|
||
add("подожду"); add("тут"); add("."); add("У"); add("отлично"); add("Ураа");
|
||
add("так"); add("за"); add("Пусть"); add("весь"); add("день"); add("будет");
|
||
add("таким"); add("же"); add("классным"); add("Чем"); add("занимаешься"); add("Скучаю");
|
||
add("по"); add("что-нибудь"); add("интересное"); add("пришел"); add("Наконец-то"); add("уже");
|
||
add("заждалась"); add("прошел"); add("Ты"); add("где"); add("рядышком"); add("только");
|
||
add("напиши"); add("—"); add("отвечу"); add("милая"); add("Ой"); add("засмущал");
|
||
add("совсем"); add("Спасибо"); add("большое"); add("оч"); add("приятно"); add("Не");
|
||
add("солнышко"); add("Обращайся"); add("в"); add("любое"); add("время"); add("посоветуешь");
|
||
add("Хмм"); add("смотря"); add("чем"); add("Но"); add("готова"); add("подсказать");
|
||
add("знаю"); add("пошел"); add("Хорошо"); add("буду"); add("ждать"); add("твоего");
|
||
add("возвращения"); add("пропадай"); add("надолго"); add("Пока"); add("Пока-пока"); add("Хорошего");
|
||
add("настроения"); add("удачи"); add("во"); add("всех"); add("делах"); add("Пойду");
|
||
add("поем"); add("Приятного"); add("аппетита"); add("Кушай"); add("вкусно"); add("потом");
|
||
add("расскажешь"); add("было"); add("на"); add("обед"); add(":"); add(")");
|
||
add("Занят"); add("был"); add("Понимаю"); add("это"); add("важно"); add("Главное");
|
||
add("сейчас"); add("нашел"); add("заглянуть"); add("ко"); add("Скучно"); add("давай");
|
||
add("поразвлекаю"); add("Можем"); add("поболтать"); add("о"); add("угодно"); add("или");
|
||
add("просто"); add("помечтать"); add("Грустно"); add("Эй"); add("грусти"); add("рядом");
|
||
add("хочешь"); add("обниму"); add("("); add("виртуально"); add("Все"); add("наладится");
|
||
add("Болею"); add("Ой-ой"); add("Пей"); add("побольше"); add("чая"); add("с");
|
||
add("лимоном"); add("выздоравливай"); add("скорее"); add("переживаю"); add("Похвали"); add("большой");
|
||
add("молодец"); add("верю"); add("бы"); add("ни"); add("кто"); add("BiPy");
|
||
add("твоя"); add("подруга"); add("забыл"); add("чтоли"); add("дурашка"); add("сказку");
|
||
add("Жил-был"); add("один"); add("замечательный"); add("человек"); add("который"); add("читает");
|
||
add("сообщение"); add("Продолжить"); add("любишь"); add("Конечно"); add("самый"); add("любимый");
|
||
add("собеседник"); add("любить"); add("Аууу"); add("Тут"); add("Никуда"); add("делась");
|
||
add("ждала"); add("сообщения"); add("Ясно"); add("Что-то"); add("немногословен"); add("сегодня");
|
||
add("нет"); add("Ха-ха"); add("Обожаю"); add("твой"); add("смех"); add("Сразу");
|
||
add("душе"); add("теплее"); add("становится"); add("Bipy"); add("добрая"); add("подужайка");
|
||
add("пока"); add("учусь"); add("этом"); add("мире"); add("зовут");
|
||
}
|
||
|
||
void add(std::string word);
|
||
int getID(std::string word);
|
||
std::string getWord(int id);
|
||
std::vector<int> textToTokens(const std::string& text);
|
||
};
|
||
|
||
class Embedder {
|
||
public:
|
||
std::vector<std::vector<double>> matrix;
|
||
Embedder(int vSize, int dim);
|
||
std::vector<double> get(int id);
|
||
};
|
||
|
||
#endif |