-
Notifications
You must be signed in to change notification settings - Fork 0
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Develop #1
Conversation
Можно рассмотреть такую структуру — берём вопрос ведущего и ответ на него. Если общий размер превышает заданное значение, разбиваем ответ на необходимое количество частей, и перед каждой частью публикуем вопрос, то есть учитываем в будущих чанках длину вопроса. У комментариев есть потолок по размеру. Я его превышал, но он очень высокий, сейчас не скажу какой. Можно найти в старых комментариях гигантские портянки, отправленные почти одновременно, это они. |
Просмотрел пару десятков текстов вопросов ответов, для обновления информации. Причем разных годов, начиная с 2013. Из освоенных технологий на данный момент доступно разбиение на части диалога. Ведущий/Валерий Викторович, это сделаю. Нейросети пока оставим как будущее, пока у меня нет готового решения как это сделать на сервере, Т.е. не в каком то кабинете какой-то сети побаловаться, а так сказать промышленное для нас решение. Его пока нет у меня. Я не знаю, как разбить на реальные вопросы ответы нейросетью. Т.е. чтобы подвопросы и реплики соединились в один вопрос, разделы чанков. Но возможно это и не надою, поэтому: Можно попробовать пока упростить задачу. Разбить на реплики диалога. Ведущий - Валерий Викторович, и если ответ Валерия Викторовича превышает оптимальный размер чанка, разбивать такой ответ на несколько частей-чанков, и далее можно попробовать реализовать отображение в поиске, как реплика ведущего и ответ Валерия Викторовича, в каждом чанке, реплика или вопрос ведущего для понимания контекста человеком. И еще это осталось в умолчаниях, поэтому уточню. что чанки вопрос ответ будут в том же поиске ФКТ, никакого другого сайта/поддомена не планирую. Ищем по ФКТ, попадаем или на обычное обсуждения - комментарии, или на чанки вопроса ответа и все это в единой выдаче. Кажется, что это и не требует уточнения. но я уточнил) |
Комментарии на ФКТ скорее всего ограничены размером текстового поля в БД mysql
Обычно, если не производить дополнительных действий это будет TEXT - 65535 байт (первый байт 0) как-то так Подумал, что вообще мне большая длина комментария в выдаче поиска на СВОДД не мешает, отсутствие чанков для комментариев. Да. попадаются длинные тексты, но это уже привычно и удобно читать прямо из выдачи поисковой не переходя к вопросу и не совершая дополнительных действий. Возможно потому что таких комментариев не очень много. Но вопрос ответ точно будет выбиваться из общего правила и будет часто вылетать на первые позиции, чисто из-за длины ответа\выпуска, поэтому требуется разбить на чанки. Мы такое видели на поиске по сайтам кремля, не удобно было просматривать. |
64 тысячи символов это похоже на правду. Одно могу сказать точно, текста длиной 16 мегабайт в форме комментария я точно не писал, так что это уже слишком высокий порог. |
Если я правильно понял, то такой сценарий и имел в виду, без ИИ. Если ответ умещается в установленный предел:
Если ответ больше установленного предела:
Возможно этот контекст и не нужен, но по опыту использования библиотеки контекст вообще используется регулярно, скажем каждый третий или четвёртый сценарий включает в себя рассмотрение контекста. |
Да, вроде нормальная и понятная схема. Сначала была мысль в режиме реального времени при поисковом запросе подмешивать в выдачу к каждому чанку вопрос, но решил, что лучше записать сразу в БД таким образом, чтобы вопрос/реплика ведущего сразу хранились рядом с ответом, как одна запись в БД. В таком случае может возникнуть некоторая сложность, если надо будет дополнительно провести действия чтобы обратно разложить стенограмму в вид один вопрос, склеенные чанки с одним вопросом. Но с другой стороны возможно, что это и не надо, т.к. оригинал стенограммы есть на сайте ФКТ, а на СВОДД реализован поиск и информация разбита с целью упрощения последующей ее обработки, для работы с информацией, а не для дублирования контента с сайта ФКТ. Ссылка на оригинал всегда будет в чанке. |
Когда будет ИИ, наверное всегда можно будет пересобрать базу из созданной или даже пройтись новым парсером, заточенным под этот ИИ. То что это двойная работа… ну, да, спору нет, но в то же время это нормальный эволюционный подход. |
Начинаем делать парсер для вопрос-ответ видео выпуска.
Это будет парсер сервер по аналогии, как feed, с прицелом, что бы перенести и основной парсер вопросов/комментариев сюда же. Но сначала только видео выпуски и комментарии к ним.
Предполагаю, что выпуск вопрос ответ надо сразу разбивать на чанки по 1800 - 3600 символов, для поисковой выдачи, а в контексте будет целый выпуск с комментариями. Комментарии не трогать(не разбивать), оставлять как есть.