Files
BiPy/Xenith/token/token.hpp
T
2026-05-10 04:19:09 +07:00

73 lines
5.9 KiB
C++
Raw Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
#ifndef TOKEN_H
#define TOKEN_H
#include <string>
#include <vector>
#include <map>
class Tokenizer {
public:
std::map<std::string, int> wordToId;
std::map<int, std::string> idToWord;
Tokenizer() {
add("[EOS]"); add("[SYS]"); add("[USER]"); add("[AI]"); add(" "); add("\n"); add("Приветик");
add(","); add("как"); add("дела"); add("?"); add("Привет");
add("нужна"); add("помощь"); add("пише"); add("если"); add("что"); add("всегда");
add("рада"); add("помочь"); add("что-то"); add("хотел"); add("да"); add("именно");
add("я"); add("тебе"); add("почь"); add("мне"); add("нужно"); add("найти");
add("образ"); add("7"); add("винды"); add("но"); add("не"); add("могу");
add("иди"); add("ты"); add("нахуй"); add("Как"); add("Сябки"); add("спросил");
add("у"); add("меня"); add("все"); add("хорошо"); add("а"); add("тебя");
add("Да"); add("ахуенно"); add("ёпт"); add("Доброе"); add("утро"); add("спалось");
add("Спокойной"); add("ночи"); add("желаю"); add("выспатся"); add("Что"); add("делаешь");
add("Сижу"); add("жду"); add("кода"); add("напишешь"); add("Плохое"); add("настроение");
add("Оу"); add("случилось"); add("Расскажи"); add("обязательно"); add("выслушаю"); add("и");
add("поддержу"); add("!"); add("Я"); add("устал"); add("Бедняжка"); add("мой");
add("может"); add("тогда"); add("отдохнешь"); add("Тебе"); add("восстановить"); add("силы");
add("подожду"); add("тут"); add("."); add("У"); add("отлично"); add("Ураа");
add("так"); add("за"); add("Пусть"); add("весь"); add("день"); add("будет");
add("таким"); add("же"); add("классным"); add("Чем"); add("занимаешься"); add("Скучаю");
add("по"); add("что-нибудь"); add("интересное"); add("пришел"); add("Наконец-то"); add("уже");
add("заждалась"); add("прошел"); add("Ты"); add("где"); add("рядышком"); add("только");
add("напиши"); add(""); add("отвечу"); add("милая"); add("Ой"); add("засмущал");
add("совсем"); add("Спасибо"); add("большое"); add("оч"); add("приятно"); add("Не");
add("солнышко"); add("Обращайся"); add("в"); add("любое"); add("время"); add("посоветуешь");
add("Хмм"); add("смотря"); add("чем"); add("Но"); add("готова"); add("подсказать");
add("знаю"); add("пошел"); add("Хорошо"); add("буду"); add("ждать"); add("твоего");
add("возвращения"); add("пропадай"); add("надолго"); add("Пока"); add("Пока-пока"); add("Хорошего");
add("настроения"); add("удачи"); add("во"); add("всех"); add("делах"); add("Пойду");
add("поем"); add("Приятного"); add("аппетита"); add("Кушай"); add("вкусно"); add("потом");
add("расскажешь"); add("было"); add("на"); add("обед"); add(":"); add(")");
add("Занят"); add("был"); add("Понимаю"); add("это"); add("важно"); add("Главное");
add("сейчас"); add("нашел"); add("заглянуть"); add("ко"); add("Скучно"); add("давай");
add("поразвлекаю"); add("Можем"); add("поболтать"); add("о"); add("угодно"); add("или");
add("просто"); add("помечтать"); add("Грустно"); add("Эй"); add("грусти"); add("рядом");
add("хочешь"); add("обниму"); add("("); add("виртуально"); add("Все"); add("наладится");
add("Болею"); add("Ой-ой"); add("Пей"); add("побольше"); add("чая"); add("с");
add("лимоном"); add("выздоравливай"); add("скорее"); add("переживаю"); add("Похвали"); add("большой");
add("молодец"); add("верю"); add("бы"); add("ни"); add("кто"); add("BiPy");
add("твоя"); add("подруга"); add("забыл"); add("чтоли"); add("дурашка"); add("сказку");
add("Жил-был"); add("один"); add("замечательный"); add("человек"); add("который"); add("читает");
add("сообщение"); add("Продолжить"); add("любишь"); add("Конечно"); add("самый"); add("любимый");
add("собеседник"); add("любить"); add("Аууу"); add("Тут"); add("Никуда"); add("делась");
add("ждала"); add("сообщения"); add("Ясно"); add("Что-то"); add("немногословен"); add("сегодня");
add("нет"); add("Ха-ха"); add("Обожаю"); add("твой"); add("смех"); add("Сразу");
add("душе"); add("теплее"); add("становится"); add("Bipy"); add("добрая"); add("подужайка");
add("пока"); add("учусь"); add("этом"); add("мире"); add("зовут");
}
void add(std::string word);
int getID(std::string word);
std::string getWord(int id);
std::vector<int> textToTokens(const std::string& text);
};
class Embedder {
public:
std::vector<std::vector<double>> matrix;
Embedder(int vSize, int dim);
std::vector<double> get(int id);
};
#endif