В прорывном изменении традиционных практик компании, занимающиеся генеративным ИИ, внедряют большие языковые модели (LLMs) непосредственно в непредсказуемую среду интернета для обеспечения качества. Зачем тратить время на тщательное тестирование, когда онлайн-сообщество может коллективно выявлять ошибки и сбои? Этот смелый эксперимент приглашает пользователей участвовать в масштабном и непредвиденном бета-тестировании. Каждый запрос выявляет уникальные особенности LLM, а обширный интернет служит ловушкой для ошибок — при условии согласия пользователей с правилами.
Этика и точность: необязательно?
Спешка в использовании генеративных AI LLM моделей напоминает запуск фейерверков: зрелищно, но потенциально опасно. Например, недавно Mistral представила свою модель 7B под лицензией Apache 2.0. Однако отсутствие четких ограничений на использование вызывает серьезные опасения по поводу возможных злоупотреблений. Небольшие изменения в базовых параметрах могут привести к кардинально различным результатам. Кроме того, предвзятости, заложенные в алгоритмах и учебных наборах данных, способствуют социальному неравенству. CommonCrawl, который предоставляет основную массу обучающих данных для LLM — 60% для GPT-3 и 67% для LLaMA — работает без строгих контрольных механизмов, перекладывая бремя выбора данных на разработчиков. Важно признать и устранить эти предвзятости для обеспечения этичного применения ИИ.
Разработка этичного программного обеспечения должна быть обязательной, а не необязательной. Тем не менее, если разработчики решают игнорировать этические нормы, защитные меры ограничены. Поэтому крайне важно, чтобы политики и организации обеспечивали ответственное и беспристрастное применение генеративного ИИ.
Кто несет ответственность?
Юридическая обстановка, окружающая LLM, остается неясной, что часто приводит к важным вопросам о подотчетности. Условия обслуживания для генеративного ИИ не гарантируют точности и не принимают на себя обязательств, полагаясь вместо этого на усмотрение пользователя. Многие пользователи используют эти инструменты для обучения или работы, но могут не обладать необходимыми навыками для различения надежной информации и вымышленных данных. Ошибки могут иметь реальные последствия. Например, акции Alphabet резко упали после того, как чат-бот Bard от Google неверно заявил, что телескоп Джеймса Уэбба получил первые изображения планеты вне нашей солнечной системы.
Когда LLM становятся частью значимых решений, возникает вопрос: если произойдут ошибки, кто понесет ответственность — поставщик LLM, сервисный провайдер, использующий LLM, или пользователь, не проверивший информацию? Рассмотрим два сценария: сценарий A включает неисправный автомобиль, приводящий к аварии, тогда как сценарий B описывает неосторожное вождение, приводящее к тому же исходу. Последствия несчастны, однако ответственность различается. В случае LLM ошибки могут возникать из-за сочетания неудачи поставщика и небрежности пользователя, что усложняет определение подотчетности.
Необходимость “no-LLM-index”
Существующее правило “noindex” позволяет создателям контента отказаться от индексации поисковыми системами. Похожая опция “no-llm-index” могла бы дать возможность создателям предотвратить обработку их контента LLM. Современные LLM не соответствуют Закону о защите прав потребителей Калифорнии (CCPA) или праву на удаление по GDPR, что усложняет запросы на удаление данных. В отличие от традиционных баз данных, где данные легко идентифицируемы и поддаются удалению, LLM генерируют результаты на основе изученных шаблонов, что делает почти невозможным целенаправленное удаление конкретных данных.
Навигация по правовому ландшафту
В 2015 году апелляционный суд США признал сканирование книг Google для Google Books "добросовестным использованием", ссылаясь на его преобразующий характер. Однако генеративный ИИ выходит за эти рамки, вызывая юридические споры о компенсации создателей контента, чьи работы кормят LLM. Крупные игроки, такие как OpenAI, Microsoft, GitHub и Meta, сталкиваются с судебными исками, связанными с воспроизведением компьютерного кода из программного обеспечения с открытым исходным кодом. Создатели контента на социальных платформах должны иметь право отказаться от монетизации или позволить своим работам использоваться в LLM.
Смотрим в будущее
Стандарты качества значительно различаются в разных секторах; например, приложение Amazon Prime Music вылетает ежедневно, в то время как даже 2% аварийности в здравоохранении или государственных услугах могут быть катастрофическими. Ожидания по производительности LLM остаются неустойчивыми. В отличие от сбоев приложений, которые легко идентифицировать, определение момента, когда ИИ дает сбой или производит галлюцинации, является сложным.
С развитием генеративного ИИ важно сохранять баланс между инновациями и основными правами для политиков, технологов и общества. Недавние предложения Комитета по стандартизации национальной информации Китая и указ президента Байдена призывают к созданию рамок для управления проблемами генеративного ИИ. Проблемы не новы; прошлый опыт показывает, что, несмотря на устойчивые вопросы, такие как фейковые новости, платформы часто реагируют минимально. LLM требуют обширных наборов данных, часто свободно доступных в интернете. Хотя курирование этих наборов данных для обеспечения качества возможно, определение "качества" остается субъективным.
Ключевой вопрос заключается в том, будут ли поставщики LLM действительно решать эти проблемы или продолжат перекладывать ответственность. Пристегнитесь; впереди нас ждет увлекательное путешествие.