1 Вопрос: Поиск файлов PDF, хранящихся в базе данных, с использованием SOLR

вопрос создан в Thu, May 2, 2019 12:00 AM

У меня есть много файлов PDF, хранящихся в базе данных (MSSQL), которые мне нужно искать. Они хранятся как BLOB. Мне нужно пройтись по тому, как искать их с помощью SOLR. У меня есть БД, давайте назовем ее «Фред». Внутри Фреда есть стол, назовем его pdffiles. В pdffiles есть столбец с именем pdfdata типа BLOB. PDF-файлы хранятся в этой таблице, а двоичные данные хранятся в столбце. Какие шаги мне предпринять, чтобы получить SOLR для извлечения этих данных и их индексации? Я предполагаю, что это включает в себя TikaEntityProcessor, но хранение PDF в базе данных, а не просто обычные файлы добавляет уровень сложности. Ранее я работал с SOLR, и он запущен в производство. Образцы файлов dataconfig и схемы будут очень полезны.

    
0
1 ответ                              1                         

Какие шаги мне предпринять, чтобы получить SOLR для извлечения этих данных и их индексации? 1. Создайте новый файл с именем db-data-config.xml, который будет иметь конфигурации базы данных и запрос для получения данных. 2. Вам необходимо обновить solrconfig.xml в текстовом редакторе и добавить следующее в теги config:

<requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">
    <lst name="defaults">
          <str name="config">db-data-config.xml</str>
      </lst>
</requestHandler> 
  1. Вы должны упомянуть библиотеки, связанные с обработчиком импорта данных.
  2. Укажите соответствующий файл JAR базы данных.
  3. Внесите изменения в файл schema.xml, указав свое поле. Добавьте правильный fieldType для вашего поля в зависимости от ваших поисковых запросов.
  4. Когда настройка будет готова, вы можете запросить solr для индексации. используя http://localhost:8983/solr/collection1/dataimport?command=full-import

Более подробную информацию см. по ссылке в solr ... Настроить DIH

    
0
2019-05-03 05: 59: 38Z
  1. У меня почти все работает, но появляется ошибка "java.lang.RuntimeException: неподдерживаемый тип: класс java.lang.String"
    2019-05-08 20: 17: 59Z
  2. Вот мой конфиг данных:
    2019-05-08 20: 18: 31Z
источник размещен Вот