(crawler) Make the use of virtual threads in the crawler configurable via system properties

(crawler) Add crawling metadata to domainstate db
Revert "(crawler) Further rearrange crawl order"
2025-10-06 07:32:38 +02:00 · 2025-03-27 21:26:05 +01:00 · 2025-03-27 16:38:37 +01:00 · 2025-03-27 11:25:08 +01:00 · 2025-03-27 11:19:20 +01:00 · 2025-03-27 11:15:16 +01:00
2225 changed files with 73378 additions and 34514 deletions
--- a/.github/FUNDING.yml
+++ b/.github/FUNDING.yml
@@ -1,5 +1,6 @@
 # These are supported funding model platforms
 polar: marginalia-search
 github: MarginaliaSearch
 patreon: marginalia_nu
 open_collective: # Replace with a single Open Collective username
--- a/.gitignore
+++ b/.gitignore
@@ -7,3 +7,4 @@ build/
 lombok.config
 Dockerfile
 run
 jte-classes
--- a/ROADMAP.md
+++ b/ROADMAP.md
@@ -0,0 +1,95 @@
 # Roadmap 2025
 This is a roadmap with major features planned for Marginalia Search.
 It's not set in any particular order and other features will definitely 
 be implemented as well.
 Major goals:
 * Reach 1 billion pages indexed
 * Improve technical ability of indexing and search.  ~~Although this area has improved a bit, the
  search engine is still not very good at dealing with longer queries.~~  (As of PR [#129](https://github.com/MarginaliaSearch/MarginaliaSearch/pull/129), this has improved significantly.  There is still more work to be done )
 ## Hybridize crawler w/ Common Crawl data
 Sometimes Marginalia's relatively obscure crawler is blocked when attempting to crawl a website, or for
 other technical reasons it may be prevented from doing so.  A possible work-around is to hybridize the 
 crawler so that it attempts to fetch such inaccessible websites from common crawl.  This is an important 
 step on the road to 1 billion pages indexed.
 As a rough sketch, the crawler would identify target websites, consume CC's index, and then fetch the WARC data
 with byte range queries.  
 Retaining the ability to independently crawl the web is still strongly desirable so going full CC is not an option.
 ## Safe Search
 The search engine has a bit of a problem showing spicy content mixed in with the results.  It would be desirable to have a way to filter this out.  It's likely something like a URL blacklist (e.g. [UT1](https://dsi.ut-capitole.fr/blacklists/index_en.php) )
 combined with naive bayesian filter would go a long way, or something more sophisticated...?
 ## Additional Language Support
 It would be desirable if the search engine supported more languages than English.  This is partially about
 rooting out assumptions regarding character encoding, but there's most likely some amount of custom logic
 associated with each language added, at least a models file or two, as well as some fine tuning.
 It would be very helpful to find a speaker of a large language other than English to help in the fine tuning.
 ## Support for binary formats like PDF
 The crawler needs to be modified to retain them, and the conversion logic needs to parse them.  
 The documents database probably should have some sort of flag indicating it's a PDF as well.
 PDF parsing is known to be a bit of a security liability so some thought needs to be put in
 that direction as well.
 ## Custom ranking logic
 Stract does an interesting thing where they have configurable search filters.
 This looks like a good idea that wouldn't just help clean up the search filters on the main
 website, but might be cheap enough we might go as far as to offer a number of ad-hoc custom search
 filter for any API consumer.
 I've talked to the stract dev and he does not think it's a good idea to mimic their optics language, which is quite ad-hoc, but instead to work together to find some new common description language for this. 
 ## Show favicons next to search results
 This is expected from search engines.  Basic proof of concept sketch of fetching this data has been done, but the feature is some way from being reality. 
 ## Specialized crawler for github
 One of the search engine's biggest limitations right now is that it does not index github at all.   A specialized crawler that fetches at least the readme.md would go a long way toward providing search capabilities in this domain.
 # Completed
 ## Web Design Overhaul (COMPLETED 2025-01)
 The design is kinda clunky and hard to maintain, and needlessly outdated-looking.  
 PR [#127](https://github.com/MarginaliaSearch/MarginaliaSearch/pull/127)
 ## Finalize RSS support (COMPLETED 2024-11)
 Marginalia has experimental RSS preview support for a few domains.  This works well and
 it should be extended to all domains.  It would also be interesting to offer search of the
 RSS data itself, or use the RSS set to feed a special live index that updates faster than the
 main dataset. 
 Completed with PR [#122](https://github.com/MarginaliaSearch/MarginaliaSearch/pull/122) and PR [#125](https://github.com/MarginaliaSearch/MarginaliaSearch/pull/125)
 ## Proper Position Index (COMPLETED 2024-09)
 The search engine uses a fixed width bit mask to indicate word positions.  It has the benefit
 of being very fast to evaluate and works well for what it is, but is inaccurate and has the 
 drawback of making support for quoted search terms inaccurate and largely reliant on indexing 
 word n-grams known beforehand.  This limits the ability to interpret longer queries.
 The positions mask should be supplemented or replaced with a more accurate (e.g.) gamma coded positions
 list, as is the civilized way of doing this.
 Completed with PR [#99](https://github.com/MarginaliaSearch/MarginaliaSearch/pull/99)
--- a/build.gradle
+++ b/build.gradle
@@ -1,8 +1,11 @@
 plugins {
    id 'java'
    id("org.jetbrains.gradle.plugin.idea-ext") version "1.0"
    id "io.freefair.lombok" version "8.3"
    id "me.champeau.jmh" version "0.6.6"
    // This is a workaround for a bug in the Jib plugin that causes it to stall randomly
    // https://github.com/GoogleContainerTools/jib/issues/3347
    id 'com.google.cloud.tools.jib' version '3.4.4' apply(false)
 }
 group 'marginalia'
@@ -13,6 +16,14 @@ compileTestJava.options.encoding = "UTF-8"
 subprojects.forEach {it ->
    // Enable preview features for the entire project
    if (it.path.contains(':code:')) {
        sourceSets.main.java.srcDirs += file('java')
        sourceSets.main.resources.srcDirs += file('resources')
        sourceSets.test.java.srcDirs += file('test')
        sourceSets.test.resources.srcDirs += file('test-resources')
    }
    it.tasks.withType(JavaCompile).configureEach {
        options.compilerArgs += ['--enable-preview']
    }
@@ -28,32 +39,15 @@ subprojects.forEach {it ->
        preserveFileTimestamps = false
        reproducibleFileOrder = true
    }
 }
-allprojects {
+ext {
-    apply plugin: 'java'
+    jvmVersion = 24
-    apply plugin: 'io.freefair.lombok'
+    dockerImageBase='container-registry.oracle.com/graalvm/jdk:24'
-
+    dockerImageTag='latest'
-    dependencies {
+    dockerImageRegistry='marginalia'
-        implementation libs.lombok
+    jibVersion = '3.4.4'
        testImplementation libs.lombok
        annotationProcessor libs.lombok
        lombok libs.lombok // prevent plugin from downgrading the version to something incompatible with '19
    }
    test {
        maxHeapSize = "8G"
        useJUnitPlatform()
    }
    tasks.register('fastTests', Test) {
        maxHeapSize = "8G"
        useJUnitPlatform {
            excludeTags "slow"
        }
    }
 }
 idea {
@@ -74,6 +68,7 @@ idea {
 }
 java {
    toolchain {
-        languageVersion.set(JavaLanguageVersion.of(21))
+        languageVersion.set(JavaLanguageVersion.of(rootProject.ext.jvmVersion))
    }
 }
--- a/code/api/assistant-api/build.gradle
+++ b/code/api/assistant-api/build.gradle
@@ -1,31 +0,0 @@
 plugins {
    id 'java'
    id 'jvm-test-suite'
 }
 java {
    toolchain {
        languageVersion.set(JavaLanguageVersion.of(21))
    }
 }
 dependencies {
    implementation project(':code:common:model')
    implementation project(':code:common:config')
    implementation project(':code:common:service-discovery')
    implementation project(':code:common:service-client')
    implementation libs.bundles.slf4j
    implementation libs.prometheus
    implementation libs.notnull
    implementation libs.guice
    implementation libs.rxjava
    implementation libs.gson
    testImplementation libs.bundles.slf4j.test
    testImplementation libs.bundles.junit
    testImplementation libs.mockito
 }
--- a/code/api/assistant-api/readme.md
+++ b/code/api/assistant-api/readme.md
@@ -1,8 +0,0 @@
 # Assistant API
 Client and models for talking to the [assistant-service](../../services-core/assistant-service),
 implemented with the base client from  [service-client](../../common/service-client).
 ## Central Classes
 * [AssistantClient](src/main/java/nu/marginalia/assistant/client/AssistantClient.java)
--- a/code/api/assistant-api/src/main/java/nu/marginalia/assistant/client/AssistantClient.java
+++ b/code/api/assistant-api/src/main/java/nu/marginalia/assistant/client/AssistantClient.java
@@ -1,95 +0,0 @@
 package nu.marginalia.assistant.client;
 import com.google.gson.reflect.TypeToken;
 import com.google.inject.Inject;
 import com.google.inject.Singleton;
 import io.reactivex.rxjava3.core.Observable;
 import nu.marginalia.assistant.client.model.DictionaryResponse;
 import nu.marginalia.assistant.client.model.DomainInformation;
 import nu.marginalia.assistant.client.model.SimilarDomain;
 import nu.marginalia.client.AbstractDynamicClient;
 import nu.marginalia.client.exception.RouteNotConfiguredException;
 import nu.marginalia.model.gson.GsonFactory;
 import nu.marginalia.service.descriptor.ServiceDescriptors;
 import nu.marginalia.service.id.ServiceId;
 import nu.marginalia.client.Context;
 import java.net.URLEncoder;
 import java.nio.charset.StandardCharsets;
 import java.util.ArrayList;
 import java.util.List;
@Singleton
 public class AssistantClient extends AbstractDynamicClient {
    @Inject
    public AssistantClient(ServiceDescriptors descriptors) {
        super(descriptors.forId(ServiceId.Assistant), GsonFactory::get);
    }
    public Observable<DictionaryResponse> dictionaryLookup(Context ctx, String word) {
        try {
            return super.get(ctx, 0, "/dictionary/" + URLEncoder.encode(word, StandardCharsets.UTF_8), DictionaryResponse.class);
        }
        catch (RouteNotConfiguredException ex) {
            return Observable.empty();
        }
    }
    @SuppressWarnings("unchecked")
    public Observable<List<String>> spellCheck(Context ctx, String word) {
        try {
            return (Observable<List<String>>) (Object) super.get(ctx, 0, "/spell-check/" +  URLEncoder.encode(word, StandardCharsets.UTF_8), List.class);
        }
        catch (RouteNotConfiguredException ex) {
            return Observable.empty();
        }
    }
    public Observable<String> unitConversion(Context ctx, String value, String from, String to) {
        try {
            return super.get(ctx, 0, "/unit-conversion?value=" + value + "&from=" + from + "&to=" + to);
        }
        catch (RouteNotConfiguredException ex) {
            return Observable.empty();
        }
    }
    public Observable<String> evalMath(Context ctx, String expression) {
        try {
            return super.get(ctx, 0, "/eval-expression?value=" +  URLEncoder.encode(expression, StandardCharsets.UTF_8));
        }
        catch (RouteNotConfiguredException ex) {
            return Observable.empty();
        }
    }
    public Observable<ArrayList<SimilarDomain>> similarDomains(Context ctx, int domainId, int count) {
        try {
            return super.get(ctx, 0, STR."/domain/\{domainId}/similar?count=\{count}", new TypeToken<ArrayList<SimilarDomain>>() {})
                    .onErrorResumeWith(Observable.just(new ArrayList<>()));
        }
        catch (RouteNotConfiguredException ex) {
            return Observable.empty();
        }
    }
    public Observable<ArrayList<SimilarDomain>> linkedDomains(Context ctx, int domainId, int count) {
        try {
            return super.get(ctx, 0, STR."/domain/\{domainId}/linking?count=\{count}", new TypeToken<ArrayList<SimilarDomain>>() {})
                    .onErrorResumeWith(Observable.just(new ArrayList<>()));
        }
        catch (RouteNotConfiguredException ex) {
            return Observable.empty();
        }
    }
    public Observable<DomainInformation> domainInformation(Context ctx, int domainId) {
        try {
            return super.get(ctx, 0, STR."/domain/\{domainId}/info", DomainInformation.class)
                    .onErrorResumeWith(Observable.just(new DomainInformation()));
        }
        catch (RouteNotConfiguredException ex) {
            return Observable.empty();
        }
    }
 }
--- a/code/api/assistant-api/src/main/java/nu/marginalia/assistant/client/model/DictionaryEntry.java
+++ b/code/api/assistant-api/src/main/java/nu/marginalia/assistant/client/model/DictionaryEntry.java
@@ -1,14 +0,0 @@
 package nu.marginalia.assistant.client.model;
 import lombok.AllArgsConstructor;
 import lombok.Getter;
 import lombok.ToString;
@AllArgsConstructor
@Getter
@ToString
 public class DictionaryEntry {
    public final String type;
    public final String word;
    public final String definition;
 }
--- a/code/api/assistant-api/src/main/java/nu/marginalia/assistant/client/model/DictionaryResponse.java
+++ b/code/api/assistant-api/src/main/java/nu/marginalia/assistant/client/model/DictionaryResponse.java
@@ -1,14 +0,0 @@
 package nu.marginalia.assistant.client.model;
 import lombok.AllArgsConstructor;
 import lombok.Getter;
 import lombok.NoArgsConstructor;
 import lombok.ToString;
 import java.util.List;
@ToString @Getter @AllArgsConstructor @NoArgsConstructor
 public class DictionaryResponse {
    public String word;
    public List<DictionaryEntry> entries;
 }
--- a/code/api/assistant-api/src/main/java/nu/marginalia/assistant/client/model/DomainInformation.java
+++ b/code/api/assistant-api/src/main/java/nu/marginalia/assistant/client/model/DomainInformation.java
@@ -1,48 +0,0 @@
 package nu.marginalia.assistant.client.model;
 import lombok.*;
 import nu.marginalia.model.EdgeDomain;
@Getter @AllArgsConstructor @NoArgsConstructor @Builder
@ToString
 public class DomainInformation {
    EdgeDomain domain;
    boolean blacklisted;
    int pagesKnown;
    int pagesFetched;
    int pagesIndexed;
    int incomingLinks;
    int outboundLinks;
    int nodeAffinity;
    double ranking;
    boolean suggestForCrawling;
    boolean inCrawlQueue;
    boolean unknownDomain;
    String ip;
    Integer asn;
    String asnOrg;
    String asnCountry;
    String ipCountry;
    String state;
    public String getIpFlag() {
        if (ipCountry == null || ipCountry.codePointCount(0, ipCountry.length()) != 2) {
            return "";
        }
        String country = ipCountry;
        if ("UK".equals(country)) {
            country = "GB";
        }
        int offset = 0x1F1E6;
        int asciiOffset = 0x41;
        int firstChar = Character.codePointAt(country, 0) - asciiOffset + offset;
        int secondChar = Character.codePointAt(country, 1) - asciiOffset + offset;
        return new String(Character.toChars(firstChar)) + new String(Character.toChars(secondChar));
    }
 }
--- a/code/api/executor-api/src/main/java/nu/marginalia/executor/client/ExecutorClient.java
+++ b/code/api/executor-api/src/main/java/nu/marginalia/executor/client/ExecutorClient.java
@@ -1,301 +0,0 @@
 package nu.marginalia.executor.client;
 import com.google.inject.Inject;
 import com.google.inject.Singleton;
 import nu.marginalia.client.AbstractDynamicClient;
 import nu.marginalia.client.Context;
 import nu.marginalia.client.grpc.GrpcStubPool;
 import nu.marginalia.executor.api.*;
 import nu.marginalia.executor.api.ExecutorApiGrpc.ExecutorApiBlockingStub;
 import nu.marginalia.executor.model.ActorRunState;
 import nu.marginalia.executor.model.ActorRunStates;
 import nu.marginalia.executor.model.transfer.TransferItem;
 import nu.marginalia.executor.model.transfer.TransferSpec;
 import nu.marginalia.executor.storage.FileStorageContent;
 import nu.marginalia.executor.storage.FileStorageFile;
 import nu.marginalia.executor.upload.UploadDirContents;
 import nu.marginalia.executor.upload.UploadDirItem;
 import nu.marginalia.model.gson.GsonFactory;
 import nu.marginalia.nodecfg.NodeConfigurationService;
 import nu.marginalia.nodecfg.model.NodeConfiguration;
 import nu.marginalia.service.descriptor.ServiceDescriptors;
 import nu.marginalia.service.id.ServiceId;
 import nu.marginalia.storage.model.FileStorageId;
 import io.grpc.ManagedChannel;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 import java.io.OutputStream;
 import java.net.URLEncoder;
 import java.nio.charset.StandardCharsets;
 import java.nio.file.Path;
 import java.util.List;
 import java.util.concurrent.TimeUnit;
@Singleton
 public class ExecutorClient extends AbstractDynamicClient {
    private final GrpcStubPool<ExecutorApiBlockingStub> stubPool;
    private static final Logger logger = LoggerFactory.getLogger(ExecutorClient.class);
    @Inject
    public ExecutorClient(ServiceDescriptors descriptors, NodeConfigurationService nodeConfigurationService) {
        super(descriptors.forId(ServiceId.Executor), GsonFactory::get);
        stubPool = new GrpcStubPool<>(ServiceId.Executor) {
            @Override
            public ExecutorApiBlockingStub createStub(ManagedChannel channel) {
                return ExecutorApiGrpc.newBlockingStub(channel);
            }
            @Override
            public List<Integer> getEligibleNodes() {
                return nodeConfigurationService.getAll()
                        .stream()
                        .map(NodeConfiguration::node)
                        .toList();
            }
        };
    }
    public void startFsm(int node, String actorName) {
        stubPool.apiForNode(node).startFsm(
                RpcFsmName.newBuilder()
                        .setActorName(actorName)
                        .build()
        );
    }
    public void stopFsm(int node, String actorName) {
        stubPool.apiForNode(node).stopFsm(
                RpcFsmName.newBuilder()
                        .setActorName(actorName)
                        .build()
        );
    }
    public void stopProcess(int node, String id) {
        stubPool.apiForNode(node).stopProcess(
                RpcProcessId.newBuilder()
                        .setProcessId(id)
                        .build()
        );
    }
    public void triggerCrawl(int node, FileStorageId fid) {
        stubPool.apiForNode(node).triggerCrawl(
                RpcFileStorageId.newBuilder()
                        .setFileStorageId(fid.id())
                        .build()
        );
    }
    public void triggerRecrawl(int node, FileStorageId fid) {
        stubPool.apiForNode(node).triggerRecrawl(
                RpcFileStorageId.newBuilder()
                        .setFileStorageId(fid.id())
                        .build()
        );
    }
    public void triggerConvert(int node, FileStorageId fid) {
        stubPool.apiForNode(node).triggerConvert(
                RpcFileStorageId.newBuilder()
                        .setFileStorageId(fid.id())
                        .build()
        );
    }
    public void triggerConvertAndLoad(int node, FileStorageId fid) {
        stubPool.apiForNode(node).triggerConvertAndLoad(
                RpcFileStorageId.newBuilder()
                        .setFileStorageId(fid.id())
                        .build()
        );
    }
    public void loadProcessedData(int node, List<FileStorageId> ids) {
        stubPool.apiForNode(node).loadProcessedData(
                RpcFileStorageIds.newBuilder()
                        .addAllFileStorageIds(ids.stream().map(FileStorageId::id).toList())
                        .build()
        );
    }
    public void calculateAdjacencies(int node) {
        stubPool.apiForNode(node).calculateAdjacencies(Empty.getDefaultInstance());
    }
    public void sideloadEncyclopedia(int node, Path sourcePath, String baseUrl) {
        stubPool.apiForNode(node).sideloadEncyclopedia(
                RpcSideloadEncyclopedia.newBuilder()
                        .setBaseUrl(baseUrl)
                        .setSourcePath(sourcePath.toString())
                        .build()
        );
    }
    public void sideloadDirtree(int node, Path sourcePath) {
        stubPool.apiForNode(node).sideloadDirtree(
                RpcSideloadDirtree.newBuilder()
                        .setSourcePath(sourcePath.toString())
                        .build()
        );
    }
    public void sideloadWarc(int node, Path sourcePath) {
        stubPool.apiForNode(node).sideloadWarc(
                RpcSideloadWarc.newBuilder()
                        .setSourcePath(sourcePath.toString())
                        .build()
        );
    }
    public void sideloadStackexchange(int node, Path sourcePath) {
        stubPool.apiForNode(node).sideloadStackexchange(
                RpcSideloadStackexchange.newBuilder()
                        .setSourcePath(sourcePath.toString())
                        .build()
        );
    }
    public void createCrawlSpecFromDownload(int node, String description, String url) {
        stubPool.apiForNode(node).createCrawlSpecFromDownload(
                RpcCrawlSpecFromDownload.newBuilder()
                        .setDescription(description)
                        .setUrl(url)
                        .build()
        );
    }
    public void exportAtags(int node, FileStorageId fid) {
        stubPool.apiForNode(node).exportAtags(
                RpcFileStorageId.newBuilder()
                        .setFileStorageId(fid.id())
                        .build()
        );
    }
    public void exportSampleData(int node, FileStorageId fid, int size, String name) {
        stubPool.apiForNode(node).exportSampleData(
                RpcExportSampleData.newBuilder()
                        .setFileStorageId(fid.id())
                        .setSize(size)
                        .setName(name)
                        .build()
        );
    }
    public void exportRssFeeds(int node, FileStorageId fid) {
        stubPool.apiForNode(node).exportRssFeeds(
                RpcFileStorageId.newBuilder()
                        .setFileStorageId(fid.id())
                        .build()
        );
    }
    public void exportTermFrequencies(int node, FileStorageId fid) {
        stubPool.apiForNode(node).exportTermFrequencies(
                RpcFileStorageId.newBuilder()
                        .setFileStorageId(fid.id())
                        .build()
        );
    }
    public void downloadSampleData(int node, String sampleSet) {
        stubPool.apiForNode(node).downloadSampleData(
                RpcDownloadSampleData.newBuilder()
                        .setSampleSet(sampleSet)
                        .build()
        );
    }
    public void exportData(int node) {
        stubPool.apiForNode(node).exportData(Empty.getDefaultInstance());
    }
    public void restoreBackup(int node, FileStorageId fid) {
        stubPool.apiForNode(node).restoreBackup(
                RpcFileStorageId.newBuilder()
                        .setFileStorageId(fid.id())
                        .build()
        );
    }
    public ActorRunStates getActorStates(int node) {
        try {
            var rs = stubPool.apiForNode(node).getActorStates(Empty.getDefaultInstance());
            var states = rs.getActorRunStatesList().stream()
                    .map(r -> new ActorRunState(
                            r.getActorName(),
                            r.getState(),
                            r.getActorDescription(),
                            r.getStateDescription(),
                            r.getTerminal(),
                            r.getCanStart())
                    )
                    .toList();
            return new ActorRunStates(node, states);
        }
        catch (Exception ex) {
            logger.warn("Failed to get actor states", ex);
            // Return an empty list of states to avoid breaking the UI when a node is down
            return new ActorRunStates(node, List.of());
        }
    }
    public UploadDirContents listSideloadDir(int node) {
        try {
            var rs = stubPool.apiForNode(node).listSideloadDir(Empty.getDefaultInstance());
            var items = rs.getEntriesList().stream()
                    .map(i -> new UploadDirItem(i.getName(), i.getLastModifiedTime(), i.getIsDirectory(), i.getSize()))
                    .toList();
            return new UploadDirContents(rs.getPath(), items);
        }
        catch (Exception ex) {
            logger.warn("Failed to list sideload dir", ex);
            // Return an empty list of items to avoid breaking the UI when a node is down
            return new UploadDirContents("", List.of());
        }
    }
    public FileStorageContent listFileStorage(int node, FileStorageId fileId) {
        try {
            var rs = stubPool.apiForNode(node).listFileStorage(
                    RpcFileStorageId.newBuilder()
                            .setFileStorageId(fileId.id())
                            .build()
            );
            return new FileStorageContent(rs.getEntriesList().stream()
                    .map(e -> new FileStorageFile(e.getName(), e.getSize(), e.getLastModifiedTime()))
                    .toList());
        }
        catch (Exception ex) {
            logger.warn("Failed to list file storage", ex);
            // Return an empty list of items to avoid breaking the UI when a node is down
            return new FileStorageContent(List.of());
        }
    }
    public void transferFile(Context context, int node, FileStorageId fileId, String path, OutputStream destOutputStream) {
        String endpoint = "/transfer/file/%d?path=%s".formatted(fileId.id(), URLEncoder.encode(path, StandardCharsets.UTF_8));
        get(context, node, endpoint,
                destOutputStream)
                .blockingSubscribe();
    }
    public TransferSpec getTransferSpec(Context context, int node, int count) {
        return get(context, node, "/transfer/spec?count="+count, TransferSpec.class)
                .timeout(30, TimeUnit.MINUTES)
                .blockingFirst();
    }
    public void yieldDomain(Context context, int node, TransferItem item) {
        post(context, node, "/transfer/yield", item).blockingSubscribe();
    }
 }
--- a/code/api/executor-api/src/main/java/nu/marginalia/executor/model/transfer/TransferItem.java
+++ b/code/api/executor-api/src/main/java/nu/marginalia/executor/model/transfer/TransferItem.java
@@ -1,9 +0,0 @@
 package nu.marginalia.executor.model.transfer;
 import nu.marginalia.storage.model.FileStorageId;
 public record TransferItem(String domainName,
                           int domainId,
                           FileStorageId fileStorageId,
                           String path) {
 }
--- a/code/api/executor-api/src/main/java/nu/marginalia/executor/model/transfer/TransferSpec.java
+++ b/code/api/executor-api/src/main/java/nu/marginalia/executor/model/transfer/TransferSpec.java
@@ -1,13 +0,0 @@
 package nu.marginalia.executor.model.transfer;
 import java.util.List;
 public record TransferSpec(List<TransferItem> items) {
    public TransferSpec() {
        this(List.of());
    }
    public int size() {
        return items.size();
    }
 }
--- a/code/api/executor-api/src/main/java/nu/marginalia/executor/upload/UploadDirItem.java
+++ b/code/api/executor-api/src/main/java/nu/marginalia/executor/upload/UploadDirItem.java
@@ -1,9 +0,0 @@
 package nu.marginalia.executor.upload;
 public record UploadDirItem (
        String name,
        String lastModifiedTime,
        boolean isDirectory,
        long size
 ) {
 }
--- a/code/api/index-api/build.gradle
+++ b/code/api/index-api/build.gradle
@@ -1,49 +0,0 @@
 plugins {
    id 'java'
    id "com.google.protobuf" version "0.9.4"
    id 'jvm-test-suite'
 }
 java {
    toolchain {
        languageVersion.set(JavaLanguageVersion.of(21))
    }
 }
 sourceSets {
    main {
        proto {
            srcDir 'src/main/protobuf'
        }
    }
 }
 apply from: "$rootProject.projectDir/protobuf.gradle"
 dependencies {
    implementation project(':code:common:model')
    implementation project(':code:common:config')
    implementation project(':code:common:service-discovery')
    implementation project(':code:common:service-client')
    implementation project(':code:libraries:message-queue')
    implementation project(':code:features-index:index-query')
    implementation libs.bundles.slf4j
    implementation libs.prometheus
    implementation libs.notnull
    implementation libs.guice
    implementation libs.rxjava
    implementation libs.protobuf
    implementation libs.fastutil
    implementation libs.javax.annotation
    implementation libs.bundles.gson
    implementation libs.bundles.grpc
    testImplementation libs.bundles.slf4j.test
    testImplementation libs.bundles.junit
    testImplementation libs.mockito
 }
--- a/code/api/index-api/readme.md
+++ b/code/api/index-api/readme.md
@@ -1,8 +0,0 @@
 # Index API
 Client and models for talking to the [index-service](../../services-core/index-service),
 implemented with the base client from  [service-client](../../common/service-client).
 ## Central Classes
 * [IndexClient](src/main/java/nu/marginalia/index/client/IndexClient.java)
--- a/code/api/index-api/src/main/java/nu/marginalia/index/client/IndexClient.java
+++ b/code/api/index-api/src/main/java/nu/marginalia/index/client/IndexClient.java
@@ -1,95 +0,0 @@
 package nu.marginalia.index.client;
 import com.google.inject.Inject;
 import com.google.inject.Singleton;
 import com.google.inject.name.Named;
 import io.prometheus.client.Summary;
 import io.reactivex.rxjava3.core.Observable;
 import io.reactivex.rxjava3.schedulers.Schedulers;
 import nu.marginalia.client.AbstractDynamicClient;
 import nu.marginalia.client.Context;
 import nu.marginalia.client.exception.RouteNotConfiguredException;
 import nu.marginalia.index.client.model.query.SearchSpecification;
 import nu.marginalia.index.client.model.results.SearchResultSet;
 import nu.marginalia.model.gson.GsonFactory;
 import nu.marginalia.mq.MessageQueueFactory;
 import nu.marginalia.mq.outbox.MqOutbox;
 import nu.marginalia.service.descriptor.ServiceDescriptors;
 import nu.marginalia.service.id.ServiceId;
 import java.util.List;
 import javax.annotation.CheckReturnValue;
 import java.util.UUID;
@Singleton
 public class IndexClient extends AbstractDynamicClient {
    private static final Summary wmsa_search_index_api_time = Summary.build().name("wmsa_search_index_api_time").help("-").register();
    private final MessageQueueFactory messageQueueFactory;
    MqOutbox outbox;
    @Inject
    public IndexClient(ServiceDescriptors descriptors,
                       MessageQueueFactory messageQueueFactory,
                       @Named("wmsa-system-node") Integer nodeId)
    {
        super(descriptors.forId(ServiceId.Index), GsonFactory::get);
        this.messageQueueFactory = messageQueueFactory;
        String inboxName = ServiceId.Index.serviceName;
        String outboxName = "pp:"+System.getProperty("service-name", UUID.randomUUID().toString());
        outbox = messageQueueFactory.createOutbox(inboxName, nodeId, outboxName, nodeId, UUID.randomUUID());
        setTimeout(30);
    }
    public MqOutbox outbox() {
        return outbox;
    }
    @CheckReturnValue
    public SearchResultSet query(Context ctx, int node, SearchSpecification specs) {
        return wmsa_search_index_api_time.time(
                () -> this.postGet(ctx, node,"/search/", specs, SearchResultSet.class).blockingFirst()
        );
    }
    @CheckReturnValue
    public SearchResultSet query(Context ctx, List<Integer> nodes, SearchSpecification specs) {
        return Observable.fromIterable(nodes)
                .flatMap(node -> {
                    try {
                        return this
                                .postGet(ctx, node, "/search/", specs, SearchResultSet.class).onErrorReturn(t -> new SearchResultSet())
                                .observeOn(Schedulers.io());
                    } catch (RouteNotConfiguredException ex) {
                        return Observable.empty();
                    }
                })
                .reduce(SearchResultSet::combine)
                .blockingGet();
    }
    @CheckReturnValue
    public Observable<Boolean> isBlocked(Context ctx, int node) {
        return super.get(ctx, node, "/is-blocked", Boolean.class);
    }
    public long triggerRepartition(int node) throws Exception {
        return messageQueueFactory.sendSingleShotRequest(
                ServiceId.Index.withNode(node),
                IndexMqEndpoints.INDEX_REPARTITION,
                null
        );
    }
    public long triggerRerank(int node) throws Exception {
        return messageQueueFactory.sendSingleShotRequest(
                ServiceId.Index.withNode(node),
                IndexMqEndpoints.INDEX_RERANK,
                null
        );
    }
 }
--- a/code/api/index-api/src/main/java/nu/marginalia/index/client/IndexProtobufCodec.java
+++ b/code/api/index-api/src/main/java/nu/marginalia/index/client/IndexProtobufCodec.java
@@ -1,117 +0,0 @@
 package nu.marginalia.index.client;
 import nu.marginalia.index.api.*;
 import nu.marginalia.index.client.model.query.SearchSubquery;
 import nu.marginalia.index.client.model.results.Bm25Parameters;
 import nu.marginalia.index.client.model.results.ResultRankingParameters;
 import nu.marginalia.index.query.limit.QueryLimits;
 import nu.marginalia.index.query.limit.SpecificationLimit;
 import nu.marginalia.index.query.limit.SpecificationLimitType;
 import java.util.ArrayList;
 import java.util.List;
 public class IndexProtobufCodec {
    public static SpecificationLimit convertSpecLimit(RpcSpecLimit limit) {
        return new SpecificationLimit(
                SpecificationLimitType.valueOf(limit.getType().name()),
                limit.getValue()
        );
    }
    public static RpcSpecLimit convertSpecLimit(SpecificationLimit limit) {
        return RpcSpecLimit.newBuilder()
                .setType(RpcSpecLimit.TYPE.valueOf(limit.type().name()))
                .setValue(limit.value())
                .build();
    }
    public static  QueryLimits convertQueryLimits(RpcQueryLimits queryLimits) {
        return new QueryLimits(
                queryLimits.getResultsByDomain(),
                queryLimits.getResultsTotal(),
                queryLimits.getTimeoutMs(),
                queryLimits.getFetchSize()
        );
    }
    public static RpcQueryLimits convertQueryLimits(QueryLimits queryLimits) {
        return RpcQueryLimits.newBuilder()
                .setResultsByDomain(queryLimits.resultsByDomain())
                .setResultsTotal(queryLimits.resultsTotal())
                .setTimeoutMs(queryLimits.timeoutMs())
                .setFetchSize(queryLimits.fetchSize())
                .build();
    }
    public static SearchSubquery convertSearchSubquery(RpcSubquery subquery) {
        List<List<String>>  coherences = new ArrayList<>();
        for (int j = 0; j < subquery.getCoherencesCount(); j++) {
            var coh = subquery.getCoherences(j);
            coherences.add(new ArrayList<>(coh.getCoherencesList()));
        }
        return new SearchSubquery(
                subquery.getIncludeList(),
                subquery.getExcludeList(),
                subquery.getAdviceList(),
                subquery.getPriorityList(),
                coherences
        );
    }
    public static RpcSubquery convertSearchSubquery(SearchSubquery searchSubquery) {
        var subqueryBuilder =
                RpcSubquery.newBuilder()
                        .addAllAdvice(searchSubquery.getSearchTermsAdvice())
                        .addAllExclude(searchSubquery.getSearchTermsExclude())
                        .addAllInclude(searchSubquery.getSearchTermsInclude())
                        .addAllPriority(searchSubquery.getSearchTermsPriority());
        for (var coherences : searchSubquery.searchTermCoherences) {
            subqueryBuilder.addCoherencesBuilder().addAllCoherences(coherences);
        }
        return subqueryBuilder.build();
    }
    public static ResultRankingParameters convertRankingParameterss(RpcResultRankingParameters params) {
        return new ResultRankingParameters(
                new Bm25Parameters(params.getFullK(), params.getFullB()),
                new Bm25Parameters(params.getPrioK(), params.getPrioB()),
                params.getShortDocumentThreshold(),
                params.getShortDocumentPenalty(),
                params.getDomainRankBonus(),
                params.getQualityPenalty(),
                params.getShortSentenceThreshold(),
                params.getShortSentencePenalty(),
                params.getBm25FullWeight(),
                params.getBm25PrioWeight(),
                params.getTcfWeight(),
                ResultRankingParameters.TemporalBias.valueOf(params.getTemporalBias().name()),
                params.getTemporalBiasWeight()
        );
    };
    public static RpcResultRankingParameters convertRankingParameterss(ResultRankingParameters rankingParams) {
        return
                RpcResultRankingParameters.newBuilder()
                        .setFullB(rankingParams.fullParams.b())
                        .setFullK(rankingParams.fullParams.k())
                        .setPrioB(rankingParams.prioParams.b())
                        .setPrioK(rankingParams.prioParams.k())
                        .setShortDocumentThreshold(rankingParams.shortDocumentThreshold)
                        .setShortDocumentPenalty(rankingParams.shortDocumentPenalty)
                        .setDomainRankBonus(rankingParams.domainRankBonus)
                        .setQualityPenalty(rankingParams.qualityPenalty)
                        .setShortSentenceThreshold(rankingParams.shortSentenceThreshold)
                        .setShortSentencePenalty(rankingParams.shortSentencePenalty)
                        .setBm25FullWeight(rankingParams.bm25FullWeight)
                        .setBm25PrioWeight(rankingParams.bm25PrioWeight)
                        .setTcfWeight(rankingParams.tcfWeight)
                        .setTemporalBias(RpcResultRankingParameters.TEMPORAL_BIAS.valueOf(rankingParams.temporalBias.name()))
                        .setTemporalBiasWeight(rankingParams.temporalBiasWeight)
                        .build();
    }
 }
--- a/code/api/index-api/src/main/java/nu/marginalia/index/client/model/query/SearchSpecification.java
+++ b/code/api/index-api/src/main/java/nu/marginalia/index/client/model/query/SearchSpecification.java
@@ -1,34 +0,0 @@
 package nu.marginalia.index.client.model.query;
 import lombok.*;
 import nu.marginalia.index.client.model.results.ResultRankingParameters;
 import nu.marginalia.index.query.limit.QueryLimits;
 import nu.marginalia.index.query.limit.QueryStrategy;
 import nu.marginalia.index.query.limit.SpecificationLimit;
 import java.util.List;
@ToString @Getter @Builder @With @AllArgsConstructor
 public class SearchSpecification {
    public List<SearchSubquery> subqueries;
    /** If present and not empty, limit the search to these domain IDs */
    public List<Integer> domains;
    public String searchSetIdentifier;
    public final String humanQuery;
    public final SpecificationLimit quality;
    public final SpecificationLimit year;
    public final SpecificationLimit size;
    public final SpecificationLimit rank;
    public final SpecificationLimit domainCount;
    public final QueryLimits queryLimits;
    public final QueryStrategy queryStrategy;
    public final ResultRankingParameters rankingParams;
 }
--- a/code/api/index-api/src/main/java/nu/marginalia/index/client/model/query/SearchSubquery.java
+++ b/code/api/index-api/src/main/java/nu/marginalia/index/client/model/query/SearchSubquery.java
@@ -1,79 +0,0 @@
 package nu.marginalia.index.client.model.query;
 import lombok.AllArgsConstructor;
 import lombok.EqualsAndHashCode;
 import lombok.Getter;
 import lombok.With;
 import java.util.ArrayList;
 import java.util.List;
 import java.util.stream.Collectors;
@Getter
@AllArgsConstructor
@With
@EqualsAndHashCode
 public class SearchSubquery {
    /** These terms must be present in the document and are used in ranking*/
    public final List<String> searchTermsInclude;
    /** These terms must be absent from the document */
    public final List<String> searchTermsExclude;
    /** These terms must be present in the document, but are not used in ranking */
    public final List<String> searchTermsAdvice;
    /** If these optional terms are present in the document, rank it highly */
    public final List<String> searchTermsPriority;
    /** Terms that we require to be in the same sentence */
    public final List<List<String>> searchTermCoherences;
    @Deprecated // why does this exist?
    private double value = 0;
    public SearchSubquery() {
        this.searchTermsInclude = new ArrayList<>();
        this.searchTermsExclude = new ArrayList<>();
        this.searchTermsAdvice = new ArrayList<>();
        this.searchTermsPriority = new ArrayList<>();
        this.searchTermCoherences = new ArrayList<>();
    }
    public SearchSubquery(List<String> searchTermsInclude,
                          List<String> searchTermsExclude,
                          List<String> searchTermsAdvice,
                          List<String> searchTermsPriority,
                          List<List<String>> searchTermCoherences) {
        this.searchTermsInclude = searchTermsInclude;
        this.searchTermsExclude = searchTermsExclude;
        this.searchTermsAdvice = searchTermsAdvice;
        this.searchTermsPriority = searchTermsPriority;
        this.searchTermCoherences = searchTermCoherences;
    }
    @Deprecated // why does this exist?
    public SearchSubquery setValue(double value) {
        if (Double.isInfinite(value) || Double.isNaN(value)) {
            this.value = Double.MAX_VALUE;
        } else {
            this.value = value;
        }
        return this;
    }
    @Override
    public String toString() {
        StringBuilder sb = new StringBuilder();
        if (!searchTermsInclude.isEmpty()) sb.append("include=").append(searchTermsInclude.stream().collect(Collectors.joining(",", "[", "] ")));
        if (!searchTermsExclude.isEmpty()) sb.append("exclude=").append(searchTermsExclude.stream().collect(Collectors.joining(",", "[", "] ")));
        if (!searchTermsAdvice.isEmpty()) sb.append("advice=").append(searchTermsAdvice.stream().collect(Collectors.joining(",", "[", "] ")));
        if (!searchTermsPriority.isEmpty()) sb.append("priority=").append(searchTermsPriority.stream().collect(Collectors.joining(",", "[", "] ")));
        if (!searchTermCoherences.isEmpty()) sb.append("coherences=").append(searchTermCoherences.stream().map(coh->coh.stream().collect(Collectors.joining(",", "[", "] "))).collect(Collectors.joining(", ")));
        return sb.toString();
    }
 }
--- a/code/api/index-api/src/main/java/nu/marginalia/index/client/model/results/DecoratedSearchResultItem.java
+++ b/code/api/index-api/src/main/java/nu/marginalia/index/client/model/results/DecoratedSearchResultItem.java
@@ -1,82 +0,0 @@
 package nu.marginalia.index.client.model.results;
 import lombok.Getter;
 import lombok.ToString;
 import nu.marginalia.model.EdgeUrl;
 import org.jetbrains.annotations.NotNull;
 import javax.annotation.Nullable;
 import java.util.List;
@Getter
@ToString
 public class DecoratedSearchResultItem {
    public final SearchResultItem rawIndexResult;
    @NotNull
    public final EdgeUrl url;
    @NotNull
    public final String title;
    @NotNull
    public final String description;
    public final double urlQuality;
    @NotNull
    public final String format;
    /** Document features bitmask, see HtmlFeature */
    public final int features;
    @Nullable
    public final Integer pubYear;
    public final long dataHash;
    public final int wordsTotal;
    public final double rankingScore;
    public long documentId() {
        return rawIndexResult.getDocumentId();
    }
    public int domainId() {
        return rawIndexResult.getDomainId();
    }
    public int resultsFromDomain() {
        return rawIndexResult.getResultsFromDomain();
    }
    public List<SearchResultKeywordScore> keywordScores() {
        return rawIndexResult.getKeywordScores();
    }
    public long rankingId() {
        return rawIndexResult.getRanking();
    }
    public DecoratedSearchResultItem(SearchResultItem rawIndexResult,
                                     @NotNull
                                     EdgeUrl url,
                                     @NotNull
                                     String title,
                                     @NotNull
                                     String description,
                                     double urlQuality,
                                     @NotNull
                                     String format,
                                     int features,
                                     @Nullable
                                     Integer pubYear,
                                     long dataHash,
                                     int wordsTotal,
                                     double rankingScore)
    {
        this.rawIndexResult = rawIndexResult;
        this.url = url;
        this.title = title;
        this.description = description;
        this.urlQuality = urlQuality;
        this.format = format;
        this.features = features;
        this.pubYear = pubYear;
        this.dataHash = dataHash;
        this.wordsTotal = wordsTotal;
        this.rankingScore = rankingScore;
    }
 }
--- a/code/api/index-api/src/main/java/nu/marginalia/index/client/model/results/ResultRankingContext.java
+++ b/code/api/index-api/src/main/java/nu/marginalia/index/client/model/results/ResultRankingContext.java
@@ -1,38 +0,0 @@
 package nu.marginalia.index.client.model.results;
 import it.unimi.dsi.fastutil.objects.Object2IntOpenHashMap;
 import lombok.ToString;
 import java.util.Map;
@ToString
 public class ResultRankingContext {
    private final int docCount;
    public final ResultRankingParameters params;
    private final Object2IntOpenHashMap<String> fullCounts = new Object2IntOpenHashMap<>(10, 0.5f);
    private final Object2IntOpenHashMap<String> priorityCounts = new Object2IntOpenHashMap<>(10, 0.5f);
    public ResultRankingContext(int docCount,
                                ResultRankingParameters params,
                                Map<String, Integer> fullCounts,
                                Map<String, Integer> prioCounts
                                      ) {
        this.docCount = docCount;
        this.params = params;
        this.fullCounts.putAll(fullCounts);
        this.priorityCounts.putAll(prioCounts);
    }
    public int termFreqDocCount() {
        return docCount;
    }
    public int frequency(String keyword) {
        return fullCounts.getOrDefault(keyword, 1);
    }
    public int priorityFrequency(String keyword) {
        return priorityCounts.getOrDefault(keyword, 1);
    }
 }
--- a/code/api/index-api/src/main/java/nu/marginalia/index/client/model/results/ResultRankingParameters.java
+++ b/code/api/index-api/src/main/java/nu/marginalia/index/client/model/results/ResultRankingParameters.java
@@ -1,62 +0,0 @@
 package nu.marginalia.index.client.model.results;
 import lombok.AllArgsConstructor;
 import lombok.Builder;
 import lombok.EqualsAndHashCode;
 import lombok.ToString;
@Builder @AllArgsConstructor @ToString @EqualsAndHashCode
 public class ResultRankingParameters {
    /** Tuning for BM25 when applied to full document matches */
    public final Bm25Parameters fullParams;
    /** Tuning for BM25 when applied to priority matches, terms with relevance signal indicators */
    public final Bm25Parameters prioParams;
    /** Documents below this length are penalized */
    public int shortDocumentThreshold;
    public double shortDocumentPenalty;
    /** Scaling factor associated with domain rank (unscaled rank value is 0-255; high is good) */
    public double domainRankBonus;
    /** Scaling factor associated with document quality (unscaled rank value is 0-15; high is bad) */
    public double qualityPenalty;
    /** Average sentence length values below this threshold are penalized, range [0-4), 2 or 3 is probably what you want */
    public int shortSentenceThreshold;
    /** Magnitude of penalty for documents with low average sentence length */
    public double shortSentencePenalty;
    public double bm25FullWeight;
    public double bm25PrioWeight;
    public double tcfWeight;
    public TemporalBias temporalBias;
    public double temporalBiasWeight;
    public static ResultRankingParameters sensibleDefaults() {
        return builder()
                .fullParams(new Bm25Parameters(1.2, 0.5))
                .prioParams(new Bm25Parameters(1.5, 0))
                .shortDocumentThreshold(2000)
                .shortDocumentPenalty(2.)
                .domainRankBonus(1/25.)
                .qualityPenalty(1/15.)
                .shortSentenceThreshold(2)
                .shortSentencePenalty(5)
                .bm25FullWeight(1.)
                .bm25PrioWeight(1.)
                .tcfWeight(2.)
                .temporalBias(TemporalBias.NONE)
                .temporalBiasWeight(1. / (10.))
                .build();
    }
    public enum TemporalBias {
        RECENT, OLD, NONE
    };
 }
--- a/code/api/index-api/src/main/java/nu/marginalia/index/client/model/results/SearchResultItem.java
+++ b/code/api/index-api/src/main/java/nu/marginalia/index/client/model/results/SearchResultItem.java
@@ -1,79 +0,0 @@
 package nu.marginalia.index.client.model.results;
 import lombok.AllArgsConstructor;
 import lombok.Getter;
 import nu.marginalia.model.id.UrlIdCodec;
 import org.jetbrains.annotations.NotNull;
 import java.util.ArrayList;
 import java.util.List;
 /** Represents a document matching a search query */
@AllArgsConstructor @Getter
 public class SearchResultItem implements Comparable<SearchResultItem> {
    /** Encoded ID that contains both the URL id and its ranking.  This is
     * probably not what you want, use getDocumentId() instead */
    public final long combinedId;
    /** How did the subqueries match against the document ? */
    public final List<SearchResultKeywordScore> keywordScores;
    /** How many other potential results existed in the same domain */
    public int resultsFromDomain;
    public SearchResultItem(long combinedId, int scoresCount) {
        this.combinedId = combinedId;
        this.keywordScores = new ArrayList<>(scoresCount);
    }
    public long getDocumentId() {
        return UrlIdCodec.removeRank(combinedId);
    }
    public int getRanking() {
        return UrlIdCodec.getRank(combinedId);
    }
    /* Used for evaluation */
    private transient SearchResultPreliminaryScore scoreValue = null;
    public void setScore(SearchResultPreliminaryScore score) {
        scoreValue = score;
    }
    public SearchResultPreliminaryScore getScore() {
        return scoreValue;
    }
    public int getDomainId() {
        return UrlIdCodec.getDomainId(this.combinedId);
    }
    public int hashCode() {
        return Long.hashCode(combinedId);
    }
    public String toString() {
        return getClass().getSimpleName() + "[ url= " + getDocumentId() + ", rank=" + getRanking() + "]";
    }
    public boolean equals(Object other) {
        if (other == null)
            return false;
        if (other == this)
            return true;
        if (other instanceof SearchResultItem o) {
            return o.getDocumentId()  == getDocumentId();
        }
        return false;
    }
    @Override
    public int compareTo(@NotNull SearchResultItem o) {
        // this looks like a bug, but we actually want this in a reversed order
        int diff = o.getScore().compareTo(getScore());
        if (diff != 0)
            return diff;
        return Long.compare(this.combinedId, o.combinedId);
    }
 }
--- a/code/api/index-api/src/main/java/nu/marginalia/index/client/model/results/SearchResultKeywordScore.java
+++ b/code/api/index-api/src/main/java/nu/marginalia/index/client/model/results/SearchResultKeywordScore.java
@@ -1,99 +0,0 @@
 package nu.marginalia.index.client.model.results;
 import nu.marginalia.model.idx.WordFlags;
 import nu.marginalia.model.idx.WordMetadata;
 import nu.marginalia.model.idx.DocumentMetadata;
 import java.util.Objects;
 public final class SearchResultKeywordScore {
    public final int subquery;
    public final String keyword;
    private final long encodedWordMetadata;
    private final long encodedDocMetadata;
    private final boolean hasPriorityTerms;
    private final int htmlFeatures;
    public SearchResultKeywordScore(int subquery,
                                    String keyword,
                                    long encodedWordMetadata,
                                    long encodedDocMetadata,
                                    int htmlFeatures,
                                    boolean hasPriorityTerms) {
        this.subquery = subquery;
        this.keyword = keyword;
        this.encodedWordMetadata = encodedWordMetadata;
        this.encodedDocMetadata = encodedDocMetadata;
        this.htmlFeatures = htmlFeatures;
        this.hasPriorityTerms = hasPriorityTerms;
    }
    public boolean hasTermFlag(WordFlags flag) {
        return WordMetadata.hasFlags(encodedWordMetadata, flag.asBit());
    }
    public int positionCount() {
        return Long.bitCount(positions());
    }
    public int subquery() {
        return subquery;
    }
    public long positions() {
        return WordMetadata.decodePositions(encodedWordMetadata);
    }
    public boolean isKeywordSpecial() {
        return keyword.contains(":") || hasTermFlag(WordFlags.Synthetic);
    }
    public boolean isKeywordRegular() {
        return !keyword.contains(":")
                && !hasTermFlag(WordFlags.Synthetic);
    }
    public long encodedWordMetadata() {
        return encodedWordMetadata;
    }
    public long encodedDocMetadata() {
        return encodedDocMetadata;
    }
    public int htmlFeatures() {
        return htmlFeatures;
    }
    public boolean hasPriorityTerms() {
        return hasPriorityTerms;
    }
    @Override
    public boolean equals(Object obj) {
        if (obj == this) return true;
        if (obj == null || obj.getClass() != this.getClass()) return false;
        var that = (SearchResultKeywordScore) obj;
        return this.subquery == that.subquery &&
                Objects.equals(this.keyword, that.keyword) &&
                this.encodedWordMetadata == that.encodedWordMetadata &&
                this.encodedDocMetadata == that.encodedDocMetadata &&
                this.hasPriorityTerms == that.hasPriorityTerms;
    }
    @Override
    public int hashCode() {
        return Objects.hash(subquery, keyword, encodedWordMetadata, encodedDocMetadata, hasPriorityTerms);
    }
    @Override
    public String toString() {
        return "SearchResultKeywordScore[" +
                "set=" + subquery + ", " +
                "keyword=" + keyword + ", " +
                "encodedWordMetadata=" + new WordMetadata(encodedWordMetadata) + ", " +
                "encodedDocMetadata=" + new DocumentMetadata(encodedDocMetadata) + ", " +
                "hasPriorityTerms=" + hasPriorityTerms + ']';
    }
 }
--- a/code/api/index-api/src/main/java/nu/marginalia/index/client/model/results/SearchResultSet.java
+++ b/code/api/index-api/src/main/java/nu/marginalia/index/client/model/results/SearchResultSet.java
@@ -1,32 +0,0 @@
 package nu.marginalia.index.client.model.results;
 import lombok.AllArgsConstructor;
 import lombok.Getter;
 import lombok.ToString;
 import java.util.ArrayList;
 import java.util.Comparator;
 import java.util.List;
@AllArgsConstructor @Getter @ToString
 public class SearchResultSet {
    public SearchResultSet() {
        results = new ArrayList<>();
    }
    public List<DecoratedSearchResultItem> results;
    public int size() {
        return results.size();
    }
    public static SearchResultSet combine(SearchResultSet l, SearchResultSet r) {
        List<DecoratedSearchResultItem> combinedItems = new ArrayList<>(l.size() + r.size());
        combinedItems.addAll(l.results);
        combinedItems.addAll(r.results);
        // TODO: Do we combine these correctly?
        combinedItems.sort(Comparator.comparing(item -> item.rankingScore));
        return new SearchResultSet(combinedItems);
    }
 }
--- a/code/api/process-mqapi/src/main/java/nu/marginalia/mqapi/crawling/CrawlRequest.java
+++ b/code/api/process-mqapi/src/main/java/nu/marginalia/mqapi/crawling/CrawlRequest.java
@@ -1,21 +0,0 @@
 package nu.marginalia.mqapi.crawling;
 import lombok.AllArgsConstructor;
 import nu.marginalia.storage.model.FileStorageId;
 import java.util.List;
 /** A request to start a crawl */
@AllArgsConstructor
 public class CrawlRequest {
    /** (optional)  Crawl spec(s) for sourcing domains to crawl.  If not set,
     * the EC_DOMAIN table will be consulted and domains with the corresponding
     * node affinity will be used.
     */
    public List<FileStorageId> specStorage;
    /** File storage where the crawl data will be written.  If it contains existing crawl data,
     * this crawl data will be referenced for e-tags and last-mofified checks.
     */
    public FileStorageId crawlStorage;
 }
--- a/code/api/query-api/build.gradle
+++ b/code/api/query-api/build.gradle
@@ -1,37 +0,0 @@
 plugins {
    id 'java'
    id 'jvm-test-suite'
 }
 java {
    toolchain {
        languageVersion.set(JavaLanguageVersion.of(21))
    }
 }
 dependencies {
    implementation project(':code:common:model')
    implementation project(':code:api:index-api')
    implementation project(':code:common:config')
    implementation project(':code:libraries:message-queue')
    implementation project(':code:features-index:index-query')
    implementation project(':code:common:service-discovery')
    implementation project(':code:common:service-client')
    implementation libs.bundles.slf4j
    implementation libs.roaringbitmap
    implementation libs.prometheus
    implementation libs.notnull
    implementation libs.trove
    implementation libs.guice
    implementation libs.rxjava
    implementation libs.gson
    implementation libs.bundles.grpc
    implementation libs.protobuf
    testImplementation libs.bundles.slf4j.test
    testImplementation libs.bundles.junit
    testImplementation libs.mockito
 }
--- a/code/api/query-api/src/main/java/nu/marginalia/query/QueryProtobufCodec.java
+++ b/code/api/query-api/src/main/java/nu/marginalia/query/QueryProtobufCodec.java
@@ -1,169 +0,0 @@
 package nu.marginalia.query;
 import lombok.SneakyThrows;
 import nu.marginalia.index.api.*;
 import nu.marginalia.index.client.IndexProtobufCodec;
 import nu.marginalia.index.client.model.query.SearchSetIdentifier;
 import nu.marginalia.index.client.model.query.SearchSpecification;
 import nu.marginalia.index.client.model.query.SearchSubquery;
 import nu.marginalia.index.client.model.results.DecoratedSearchResultItem;
 import nu.marginalia.index.client.model.results.SearchResultItem;
 import nu.marginalia.index.client.model.results.SearchResultKeywordScore;
 import nu.marginalia.index.query.limit.QueryStrategy;
 import nu.marginalia.model.EdgeUrl;
 import nu.marginalia.query.model.ProcessedQuery;
 import nu.marginalia.query.model.QueryParams;
 import nu.marginalia.query.model.QueryResponse;
 import java.util.ArrayList;
 import java.util.List;
 import static nu.marginalia.index.client.IndexProtobufCodec.*;
 public class QueryProtobufCodec {
    public static RpcIndexQuery convertQuery(RpcQsQuery request, ProcessedQuery query) {
        var builder = RpcIndexQuery.newBuilder();
        builder.addAllDomains(request.getDomainIdsList());
        for (var subquery : query.specs.subqueries) {
            builder.addSubqueries(IndexProtobufCodec.convertSearchSubquery(subquery));
        }
        builder.setSearchSetIdentifier(query.specs.searchSetIdentifier);
        builder.setHumanQuery(request.getHumanQuery());
        builder.setQuality(convertSpecLimit(query.specs.quality));
        builder.setYear(convertSpecLimit(query.specs.year));
        builder.setSize(convertSpecLimit(query.specs.size));
        builder.setRank(convertSpecLimit(query.specs.rank));
        builder.setDomainCount(convertSpecLimit(query.specs.domainCount));
        builder.setQueryLimits(IndexProtobufCodec.convertQueryLimits(query.specs.queryLimits));
        builder.setQueryStrategy(query.specs.queryStrategy.name());
        builder.setParameters(IndexProtobufCodec.convertRankingParameterss(query.specs.rankingParams));
        return builder.build();
    }
    public static QueryParams convertRequest(RpcQsQuery request) {
        return new QueryParams(
                request.getHumanQuery(),
                request.getNearDomain(),
                request.getTacitIncludesList(),
                request.getTacitExcludesList(),
                request.getTacitPriorityList(),
                request.getTacitAdviceList(),
                convertSpecLimit(request.getQuality()),
                convertSpecLimit(request.getYear()),
                convertSpecLimit(request.getSize()),
                convertSpecLimit(request.getRank()),
                convertSpecLimit(request.getDomainCount()),
                request.getDomainIdsList(),
                IndexProtobufCodec.convertQueryLimits(request.getQueryLimits()),
                request.getSearchSetIdentifier());
    }
    public static QueryResponse convertQueryResponse(RpcQsResponse query) {
        var results = new ArrayList<DecoratedSearchResultItem>(query.getResultsCount());
        for (int i = 0; i < query.getResultsCount(); i++)
            results.add(convertDecoratedResult(query.getResults(i)));
        return new QueryResponse(
                convertSearchSpecification(query.getSpecs()),
                results,
                query.getSearchTermsHumanList(),
                query.getProblemsList(),
                query.getDomain()
        );
    }
    @SneakyThrows
    private static DecoratedSearchResultItem convertDecoratedResult(RpcDecoratedResultItem results) {
        return new DecoratedSearchResultItem(
                convertRawResult(results.getRawItem()),
                new EdgeUrl(results.getUrl()),
                results.getTitle(),
                results.getDescription(),
                results.getUrlQuality(),
                results.getFormat(),
                results.getFeatures(),
                results.getPubYear(), // ??,
                results.getDataHash(),
                results.getWordsTotal(),
                results.getRankingScore()
        );
    }
    private static SearchResultItem convertRawResult(RpcRawResultItem rawItem) {
        var keywordScores = new ArrayList<SearchResultKeywordScore>(rawItem.getKeywordScoresCount());
        for (int i = 0; i < rawItem.getKeywordScoresCount(); i++)
            keywordScores.add(convertKeywordScore(rawItem.getKeywordScores(i)));
        return new SearchResultItem(
                rawItem.getCombinedId(),
                keywordScores,
                rawItem.getResultsFromDomain(),
                null
        );
    }
    private static SearchResultKeywordScore convertKeywordScore(RpcResultKeywordScore keywordScores) {
        return new SearchResultKeywordScore(
                keywordScores.getSubquery(),
                keywordScores.getKeyword(),
                keywordScores.getEncodedWordMetadata(),
                keywordScores.getEncodedDocMetadata(),
                keywordScores.getHtmlFeatures(),
                keywordScores.getHasPriorityTerms()
        );
    }
    private static SearchSpecification convertSearchSpecification(RpcIndexQuery specs) {
        List<SearchSubquery> subqueries = new ArrayList<>(specs.getSubqueriesCount());
        for (int i = 0; i < specs.getSubqueriesCount(); i++) {
            subqueries.add(convertSearchSubquery(specs.getSubqueries(i)));
        }
        return new SearchSpecification(
                subqueries,
                specs.getDomainsList(),
                specs.getSearchSetIdentifier(),
                specs.getHumanQuery(),
                IndexProtobufCodec.convertSpecLimit(specs.getQuality()),
                IndexProtobufCodec.convertSpecLimit(specs.getYear()),
                IndexProtobufCodec.convertSpecLimit(specs.getSize()),
                IndexProtobufCodec.convertSpecLimit(specs.getRank()),
                IndexProtobufCodec.convertSpecLimit(specs.getDomainCount()),
                IndexProtobufCodec.convertQueryLimits(specs.getQueryLimits()),
                QueryStrategy.valueOf(specs.getQueryStrategy()),
                convertRankingParameterss(specs.getParameters())
        );
    }
    public static RpcQsQuery convertQueryParams(QueryParams params) {
        var builder = RpcQsQuery.newBuilder()
                .addAllDomainIds(params.domainIds())
                .addAllTacitAdvice(params.tacitAdvice())
                .addAllTacitExcludes(params.tacitExcludes())
                .addAllTacitIncludes(params.tacitIncludes())
                .addAllTacitPriority(params.tacitPriority())
                .setHumanQuery(params.humanQuery())
                .setQueryLimits(convertQueryLimits(params.limits()))
                .setQuality(convertSpecLimit(params.quality()))
                .setYear(convertSpecLimit(params.year()))
                .setSize(convertSpecLimit(params.size()))
                .setRank(convertSpecLimit(params.rank()))
                .setSearchSetIdentifier(params.identifier());
        if (params.nearDomain() != null)
            builder.setNearDomain(params.nearDomain());
        return builder.build();
    }
 }
--- a/code/api/query-api/src/main/java/nu/marginalia/query/client/QueryClient.java
+++ b/code/api/query-api/src/main/java/nu/marginalia/query/client/QueryClient.java
@@ -1,204 +0,0 @@
 package nu.marginalia.query.client;
 import com.google.inject.Inject;
 import com.google.inject.Singleton;
 import gnu.trove.list.array.TIntArrayList;
 import io.grpc.ManagedChannel;
 import io.grpc.ManagedChannelBuilder;
 import io.prometheus.client.Summary;
 import nu.marginalia.client.AbstractDynamicClient;
 import nu.marginalia.client.Context;
 import nu.marginalia.index.api.Empty;
 import nu.marginalia.index.api.IndexDomainLinksApiGrpc;
 import nu.marginalia.index.api.QueryApiGrpc;
 import nu.marginalia.index.api.RpcDomainId;
 import nu.marginalia.index.client.model.query.SearchSpecification;
 import nu.marginalia.index.client.model.results.SearchResultSet;
 import nu.marginalia.model.gson.GsonFactory;
 import nu.marginalia.query.QueryProtobufCodec;
 import nu.marginalia.query.model.QueryParams;
 import nu.marginalia.query.model.QueryResponse;
 import nu.marginalia.service.descriptor.ServiceDescriptor;
 import nu.marginalia.service.descriptor.ServiceDescriptors;
 import nu.marginalia.service.id.ServiceId;
 import org.roaringbitmap.PeekableCharIterator;
 import org.roaringbitmap.longlong.PeekableLongIterator;
 import org.roaringbitmap.longlong.Roaring64Bitmap;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 import javax.annotation.CheckReturnValue;
 import java.util.List;
 import java.util.Map;
 import java.util.concurrent.ConcurrentHashMap;
@Singleton
 public class QueryClient extends AbstractDynamicClient {
    private static final Summary wmsa_qs_api_delegate_time = Summary.build()
            .name("wmsa_qs_api_delegate_time")
            .help("query service delegate time")
            .register();
    private static final Summary wmsa_qs_api_search_time = Summary.build()
            .name("wmsa_qs_api_search_time")
            .help("query service search time")
            .register();
    private final Map<ServiceAndNode, ManagedChannel> channels = new ConcurrentHashMap<>();
    private final Map<ServiceAndNode, QueryApiGrpc.QueryApiBlockingStub > queryIndexApis = new ConcurrentHashMap<>();
    private final Map<ServiceAndNode, IndexDomainLinksApiGrpc.IndexDomainLinksApiBlockingStub> domainLinkApis = new ConcurrentHashMap<>();
    record ServiceAndNode(String service, int node) {
        public String getHostName() {
            return service;
        }
    }
    private ManagedChannel getChannel(ServiceAndNode serviceAndNode) {
        return channels.computeIfAbsent(serviceAndNode,
                san -> ManagedChannelBuilder
                        .forAddress(serviceAndNode.getHostName(), 81)
                        .usePlaintext()
                        .build());
    }
    public QueryApiGrpc.QueryApiBlockingStub queryApi(int node) {
        return queryIndexApis.computeIfAbsent(new ServiceAndNode("query-service", node), n ->
                QueryApiGrpc.newBlockingStub(
                        getChannel(n)
                )
        );
    }
    public IndexDomainLinksApiGrpc.IndexDomainLinksApiBlockingStub domainApi(int node) {
        return domainLinkApis.computeIfAbsent(new ServiceAndNode("query-service", node), n ->
                IndexDomainLinksApiGrpc.newBlockingStub(
                        getChannel(n)
                )
        );
    }
    private final Logger logger = LoggerFactory.getLogger(getClass());
    @Inject
    public QueryClient(ServiceDescriptors descriptors) {
        super(descriptors.forId(ServiceId.Query), GsonFactory::get);
    }
    public QueryClient() {
        super(new ServiceDescriptor(ServiceId.Query, "query-service"), GsonFactory::get);
    }
    /** Delegate an Index API style query directly to the index service */
    @CheckReturnValue
    public SearchResultSet delegate(Context ctx, SearchSpecification specs) {
        return wmsa_qs_api_delegate_time.time(
                () -> this.postGet(ctx, 0, "/delegate/", specs, SearchResultSet.class).blockingFirst()
        );
    }
    @CheckReturnValue
    public QueryResponse search(Context ctx, QueryParams params) {
        return wmsa_qs_api_search_time.time(
                () ->  QueryProtobufCodec.convertQueryResponse(queryApi(0).query(QueryProtobufCodec.convertQueryParams(params)))
        );
    }
    public AllLinks getAllDomainLinks() {
        AllLinks links = new AllLinks();
        domainApi(0).getAllLinks(Empty.newBuilder().build()).forEachRemaining(pairs -> {
            for (int i = 0; i < pairs.getDestIdsCount(); i++) {
                links.add(pairs.getSourceIds(i), pairs.getDestIds(i));
            }
        });
        return links;
    }
    public List<Integer> getLinksToDomain(int domainId) {
        try {
            return domainApi(0).getLinksToDomain(RpcDomainId
                            .newBuilder()
                            .setDomainId(domainId)
                            .build())
                    .getDomainIdList();
        }
        catch (Exception e) {
            logger.error("API Exception", e);
            return List.of();
        }
    }
    public List<Integer> getLinksFromDomain(int domainId) {
        try {
            return domainApi(0).getLinksFromDomain(RpcDomainId
                            .newBuilder()
                            .setDomainId(domainId)
                            .build())
                    .getDomainIdList();
        }
        catch (Exception e) {
            logger.error("API Exception", e);
            return List.of();
        }
    }
    public int countLinksToDomain(int domainId) {
        try {
            return domainApi(0).countLinksToDomain(RpcDomainId
                            .newBuilder()
                            .setDomainId(domainId)
                            .build())
                    .getIdCount();
        }
        catch (Exception e) {
            logger.error("API Exception", e);
            return 0;
        }
    }
    public int countLinksFromDomain(int domainId) {
        try {
            return domainApi(0).countLinksFromDomain(RpcDomainId
                            .newBuilder()
                            .setDomainId(domainId)
                            .build())
                    .getIdCount();
        }
        catch (Exception e) {
            logger.error("API Exception", e);
            return 0;
        }
    }
    public static class AllLinks {
        private final Roaring64Bitmap sourceToDest = new Roaring64Bitmap();
        public void add(int source, int dest) {
            sourceToDest.add(Integer.toUnsignedLong(source) << 32 | Integer.toUnsignedLong(dest));
        }
        public Iterator iterator() {
            return new Iterator();
        }
        public class Iterator {
            private final PeekableLongIterator base = sourceToDest.getLongIterator();
            long val = Long.MIN_VALUE;
            public boolean advance() {
                if (base.hasNext()) {
                    val = base.next();
                    return true;
                }
                return false;
            }
            public int source() {
                return (int) (val >>> 32);
            }
            public int dest() {
                return (int) (val & 0xFFFF_FFFFL);
            }
        }
    }
 }
--- a/code/api/query-api/src/main/java/nu/marginalia/query/model/QueryResponse.java
+++ b/code/api/query-api/src/main/java/nu/marginalia/query/model/QueryResponse.java
@@ -1,23 +0,0 @@
 package nu.marginalia.query.model;
 import nu.marginalia.index.client.model.query.SearchSpecification;
 import nu.marginalia.index.client.model.results.DecoratedSearchResultItem;
 import java.util.HashSet;
 import java.util.List;
 import java.util.Set;
 public record QueryResponse(SearchSpecification specs,
                            List<DecoratedSearchResultItem> results,
                            List<String> searchTermsHuman,
                            List<String> problems,
                            String domain)
 {
    public Set<String> getAllKeywords() {
        Set<String> keywords = new HashSet<>(100);
        for (var sq : specs.subqueries) {
            keywords.addAll(sq.searchTermsInclude);
        }
        return keywords;
    }
 }
--- a/code/api/readme.md
+++ b/code/api/readme.md
@@ -1,23 +0,0 @@
 # Clients
 ## Core Services
 * [assistant-api](assistant-api/)
 * [query-api](query-api/)
 * [index-api](index-api/)
 These are clients for the [core services](../services-core/), along with what models
 are necessary for speaking to them. They each implement the abstract client classes from
 [service-client](../common/service-client). 
 All that is necessary is to `@Inject` them into the constructor and then 
 requests can be sent. 
 **Note:** If you are looking for the public API, it's handled by the api service in [services-application/api-service](../services-application/api-service).
 ## MQ-API Process API
 [process-mqapi](process-mqapi/) defines requests and inboxes for the message queue based API used 
 for interacting with processes.   
 See [libraries/message-queue](../libraries/message-queue) and [services-application/control-service](../services-core/control-service). 
--- a/code/common/config/build.gradle
+++ b/code/common/config/build.gradle
@@ -7,20 +7,23 @@ plugins {
 java {
    toolchain {
-        languageVersion.set(JavaLanguageVersion.of(21))
+        languageVersion.set(JavaLanguageVersion.of(rootProject.ext.jvmVersion))
    }
 }
 apply from: "$rootProject.projectDir/srcsets.gradle"
 dependencies {
    implementation project(':code:common:service-discovery')
    implementation project(':code:common:service-client')
    implementation project(':code:common:db')
    implementation project(':code:common:model')
    implementation libs.bundles.slf4j
    implementation libs.bundles.mariadb
    implementation libs.mockito
-    implementation libs.guice
+    implementation libs.guava
    implementation dependencies.create(libs.guice.get()) {
        exclude group: 'com.google.guava'
    }
    implementation libs.gson
    testImplementation libs.bundles.slf4j.test
@@ -30,6 +33,7 @@ dependencies {
    testImplementation project(':code:libraries:test-helpers')
    testImplementation platform('org.testcontainers:testcontainers-bom:1.17.4')
    testImplementation libs.commons.codec
    testImplementation 'org.testcontainers:mariadb:1.17.4'
    testImplementation 'org.testcontainers:junit-jupiter:1.17.4'
    testImplementation project(':code:libraries:test-helpers')
--- a/code/common/config/src/main/java/nu/marginalia/IndexLocations.java
+++ b/code/common/config/src/main/java/nu/marginalia/IndexLocations.java
--- a/code/common/config/src/main/java/nu/marginalia/LanguageModels.java
+++ b/code/common/config/src/main/java/nu/marginalia/LanguageModels.java
@@ -3,28 +3,25 @@ package nu.marginalia;
 import java.nio.file.Path;
 public class LanguageModels {
    public final Path ngramBloomFilter;
    public final Path termFrequencies;
    public final Path openNLPSentenceDetectionData;
    public final Path posRules;
    public final Path posDict;
    public final Path openNLPTokenData;
    public final Path fasttextLanguageModel;
    public final Path segments;
-    public LanguageModels(Path ngramBloomFilter,
+    public LanguageModels(Path termFrequencies,
                          Path termFrequencies,
                          Path openNLPSentenceDetectionData,
                          Path posRules,
                          Path posDict,
-                          Path openNLPTokenData,
+                          Path fasttextLanguageModel,
-                          Path fasttextLanguageModel) {
+                          Path segments) {
        this.ngramBloomFilter = ngramBloomFilter;
        this.termFrequencies = termFrequencies;
        this.openNLPSentenceDetectionData = openNLPSentenceDetectionData;
        this.posRules = posRules;
        this.posDict = posDict;
        this.openNLPTokenData = openNLPTokenData;
        this.fasttextLanguageModel = fasttextLanguageModel;
        this.segments = segments;
    }
 }
--- a/code/common/config/src/main/java/nu/marginalia/UserAgent.java
+++ b/code/common/config/src/main/java/nu/marginalia/UserAgent.java
--- a/code/common/config/src/main/java/nu/marginalia/WebsiteUrl.java
+++ b/code/common/config/src/main/java/nu/marginalia/WebsiteUrl.java
--- a/code/common/config/java/nu/marginalia/WmsaHome.java
+++ b/code/common/config/java/nu/marginalia/WmsaHome.java
@@ -0,0 +1,117 @@
 package nu.marginalia;
 import java.nio.file.Files;
 import java.nio.file.Path;
 import java.nio.file.Paths;
 import java.util.Objects;
 import java.util.Optional;
 import java.util.stream.Stream;
 public class WmsaHome {
    public static UserAgent getUserAgent()  {
        return new UserAgent(
                System.getProperty("crawler.userAgentString", "Mozilla/5.0 (compatible; Marginalia-like bot; +https://git.marginalia.nu/))"),
                System.getProperty("crawler.userAgentIdentifier", "search.marginalia.nu")
        );
    }
    public static Path getUploadDir() {
        return Path.of(
                System.getProperty("executor.uploadDir", "/uploads")
        );
    }
    public static Path getHomePath() {
        String[] possibleLocations = new String[] {
            System.getenv("WMSA_HOME"),
            System.getProperty("system.homePath"),
            "/var/lib/wmsa",
            "/wmsa"
        };
        Optional<String> retStr = Stream.of(possibleLocations)
                .filter(Objects::nonNull)
                .map(Path::of)
                .filter(Files::isDirectory)
                .map(Path::toString)
                .findFirst();
        if (retStr.isEmpty()) {
            // Check parent directories for a fingerprint of the project's installation boilerplate
            var prodRoot = Stream.iterate(Paths.get("").toAbsolutePath(), f -> f != null && Files.exists(f), Path::getParent)
                    .filter(p -> Files.exists(p.resolve("conf/properties/system.properties")))
                    .filter(p -> Files.exists(p.resolve("model/tfreq-new-algo3.bin")))
                    .findAny();
            if (prodRoot.isPresent()) {
                return prodRoot.get();
            }
            // Check if we are running in a test environment by looking for fingerprints
            // matching the base of the source tree for the project, then looking up the
            // run directory which contains a template for the installation we can use as
            // though it's the project root for testing purposes
            var testRoot = Stream.iterate(Paths.get("").toAbsolutePath(), f -> f != null && Files.exists(f), Path::getParent)
                    .filter(p -> Files.exists(p.resolve("run/env")))
                    .filter(p -> Files.exists(p.resolve("run/setup.sh")))
                    .map(p -> p.resolve("run"))
                    .findAny();
            return testRoot.orElseThrow(() -> new IllegalStateException("""
                            Could not find $WMSA_HOME, either set environment
                            variable, the 'system.homePath' java property,
                            or ensure either /wmsa or /var/lib/wmsa exists
                            """));
        }
        var ret = Path.of(retStr.get());
        if (!Files.isDirectory(ret.resolve("model"))) {
            throw new IllegalStateException("You need to run 'run/setup.sh' to download models to run/ before this will work!");
        }
        return ret;
    }
    public static Path getDataPath() {
        return getHomePath().resolve("data");
    }
    public static Path getAdsDefinition() {
        return getHomePath().resolve("data").resolve("adblock.txt");
    }
    public static Path getIPLocationDatabse() {
        return getHomePath().resolve("data").resolve("IP2LOCATION-LITE-DB1.CSV");
    }
    public static Path getAsnMappingDatabase() {
        return getHomePath().resolve("data").resolve("asn-data-raw-table");
    }
    public static Path getAsnInfoDatabase() {
        return getHomePath().resolve("data").resolve("asn-used-autnums");
    }
    public static LanguageModels getLanguageModels() {
        final Path home = getHomePath();
        return new LanguageModels(
                home.resolve("model/tfreq-new-algo3.bin"),
                home.resolve("model/opennlp-sentence.bin"),
                home.resolve("model/English.RDR"),
                home.resolve("model/English.DICT"),
                home.resolve("model/lid.176.ftz"),
                home.resolve("model/segments.bin")
                );
    }
    public static Path getAtagsPath() {
        return getHomePath().resolve("data/atags.parquet");
    }
 }
--- a/code/common/config/src/main/java/nu/marginalia/nodecfg/NodeConfigurationService.java
+++ b/code/common/config/src/main/java/nu/marginalia/nodecfg/NodeConfigurationService.java
@@ -3,6 +3,7 @@ package nu.marginalia.nodecfg;
 import com.google.inject.Inject;
 import com.zaxxer.hikari.HikariDataSource;
 import nu.marginalia.nodecfg.model.NodeConfiguration;
 import nu.marginalia.nodecfg.model.NodeProfile;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
@@ -20,10 +21,10 @@ public class NodeConfigurationService {
        this.dataSource = dataSource;
    }
-    public NodeConfiguration create(int id, String description, boolean acceptQueries, boolean keepWarcs) throws SQLException {
+    public NodeConfiguration create(int id, String description, boolean acceptQueries, boolean keepWarcs, NodeProfile nodeProfile) throws SQLException {
        try (var conn = dataSource.getConnection();
             var is = conn.prepareStatement("""
-                     INSERT IGNORE INTO NODE_CONFIGURATION(ID, DESCRIPTION, ACCEPT_QUERIES, KEEP_WARCS) VALUES(?, ?, ?, ?)
+                     INSERT IGNORE INTO NODE_CONFIGURATION(ID, DESCRIPTION, ACCEPT_QUERIES, KEEP_WARCS, NODE_PROFILE) VALUES(?, ?, ?, ?, ?)
                     """)
        )
        {
@@ -31,6 +32,7 @@ public class NodeConfigurationService {
            is.setString(2, description);
            is.setBoolean(3, acceptQueries);
            is.setBoolean(4, keepWarcs);
            is.setString(5, nodeProfile.name());
            if (is.executeUpdate() <= 0) {
                throw new IllegalStateException("Failed to insert configuration");
@@ -43,7 +45,7 @@ public class NodeConfigurationService {
    public List<NodeConfiguration> getAll() {
        try (var conn = dataSource.getConnection();
             var qs = conn.prepareStatement("""
-                     SELECT ID, DESCRIPTION, ACCEPT_QUERIES, AUTO_CLEAN, PRECESSION, KEEP_WARCS, DISABLED
+                     SELECT ID, DESCRIPTION, ACCEPT_QUERIES, AUTO_CLEAN, PRECESSION, KEEP_WARCS, NODE_PROFILE, DISABLED
                     FROM NODE_CONFIGURATION
                     """)) {
            var rs = qs.executeQuery();
@@ -58,6 +60,7 @@ public class NodeConfigurationService {
                        rs.getBoolean("AUTO_CLEAN"),
                        rs.getBoolean("PRECESSION"),
                        rs.getBoolean("KEEP_WARCS"),
                        NodeProfile.valueOf(rs.getString("NODE_PROFILE")),
                        rs.getBoolean("DISABLED")
                ));
            }
@@ -72,7 +75,7 @@ public class NodeConfigurationService {
    public NodeConfiguration get(int nodeId) throws SQLException {
        try (var conn = dataSource.getConnection();
             var qs = conn.prepareStatement("""
-                     SELECT ID, DESCRIPTION, ACCEPT_QUERIES, AUTO_CLEAN, PRECESSION, KEEP_WARCS, DISABLED
+                     SELECT ID, DESCRIPTION, ACCEPT_QUERIES, AUTO_CLEAN, PRECESSION, KEEP_WARCS, NODE_PROFILE, DISABLED
                     FROM NODE_CONFIGURATION
                     WHERE ID=?
                     """)) {
@@ -86,6 +89,7 @@ public class NodeConfigurationService {
                        rs.getBoolean("AUTO_CLEAN"),
                        rs.getBoolean("PRECESSION"),
                        rs.getBoolean("KEEP_WARCS"),
                        NodeProfile.valueOf(rs.getString("NODE_PROFILE")),
                        rs.getBoolean("DISABLED")
                );
            }
@@ -98,7 +102,7 @@ public class NodeConfigurationService {
        try (var conn = dataSource.getConnection();
             var us = conn.prepareStatement("""
                     UPDATE NODE_CONFIGURATION
-                     SET DESCRIPTION=?, ACCEPT_QUERIES=?,  AUTO_CLEAN=?, PRECESSION=?, KEEP_WARCS=?, DISABLED=?
+                     SET DESCRIPTION=?, ACCEPT_QUERIES=?,  AUTO_CLEAN=?, PRECESSION=?, KEEP_WARCS=?, DISABLED=?, NODE_PROFILE=?
                     WHERE ID=?
                     """))
        {
@@ -108,7 +112,8 @@ public class NodeConfigurationService {
            us.setBoolean(4, config.includeInPrecession());
            us.setBoolean(5, config.keepWarcs());
            us.setBoolean(6, config.disabled());
-            us.setInt(7, config.node());
+            us.setString(7, config.profile().name());
            us.setInt(8, config.node());
            if (us.executeUpdate() <= 0)
                throw new IllegalStateException("Failed to update configuration");
--- a/code/common/config/src/main/java/nu/marginalia/nodecfg/model/NodeConfiguration.java
+++ b/code/common/config/src/main/java/nu/marginalia/nodecfg/model/NodeConfiguration.java
@@ -6,6 +6,7 @@ public record NodeConfiguration(int node,
                                boolean autoClean,
                                boolean includeInPrecession,
                                boolean keepWarcs,
                                NodeProfile profile,
                                boolean disabled
                                )
 {
--- a/code/common/config/java/nu/marginalia/nodecfg/model/NodeProfile.java
+++ b/code/common/config/java/nu/marginalia/nodecfg/model/NodeProfile.java
@@ -0,0 +1,28 @@
 package nu.marginalia.nodecfg.model;
 public enum NodeProfile {
    BATCH_CRAWL,
    REALTIME,
    MIXED,
    SIDELOAD;
    public boolean isBatchCrawl() {
        return this == BATCH_CRAWL;
    }
    public boolean isRealtime() {
        return this == REALTIME;
    }
    public boolean isMixed() {
        return this == MIXED;
    }
    public boolean isSideload() {
        return this == SIDELOAD;
    }
    public boolean permitBatchCrawl() {
        return isBatchCrawl() ||isMixed();
    }
    public boolean permitSideload() {
        return isMixed() || isSideload();
    }
 }
--- a/code/common/config/src/main/java/nu/marginalia/storage/FileStorageManifest.java
+++ b/code/common/config/src/main/java/nu/marginalia/storage/FileStorageManifest.java
--- a/code/common/config/src/main/java/nu/marginalia/storage/FileStorageService.java
+++ b/code/common/config/src/main/java/nu/marginalia/storage/FileStorageService.java
@@ -2,13 +2,13 @@ package nu.marginalia.storage;
 import com.google.inject.name.Named;
 import com.zaxxer.hikari.HikariDataSource;
 import lombok.SneakyThrows;
 import nu.marginalia.storage.model.*;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 import com.google.inject.Inject;
 import com.google.inject.Singleton;
 import java.io.File;
 import java.io.IOException;
 import java.nio.file.*;
@@ -30,19 +30,26 @@ public class FileStorageService {
    private static final DateTimeFormatter dirNameDatePattern = DateTimeFormatter.ofPattern("__uu-MM-dd'T'HH_mm_ss.SSS"); // filesystem safe ISO8601
    @Inject
-    public FileStorageService(HikariDataSource dataSource, @Named("wmsa-system-node") Integer node) {
+    public FileStorageService(HikariDataSource dataSource,
                              @Named("wmsa-system-node") Integer node) {
        this.dataSource = dataSource;
        this.node = node;
-        for (var type : FileStorageType.values()) {
+        logger.info("Resolving file storage root into {}", resolveStoragePath("/").toAbsolutePath());
-            String overrideProperty = System.getProperty(type.overrideName());
+    }
-            if (overrideProperty == null || overrideProperty.isBlank())
+    /** Resolve a storage path from a relative path, injecting the system configured storage root
-                continue;
+     * if set */
-
+    public static Path resolveStoragePath(String path) {
-            logger.info("FileStorage override present: {} -> {}", type,
+        if (path.startsWith("/")) {
-                    FileStorage.createOverrideStorage(type, FileStorageBaseType.CURRENT, overrideProperty).asPath());
+            // Since Path.of("ANYTHING").resolve("/foo") = "/foo", we need to strip
            // the leading slash
            return resolveStoragePath(path.substring(1));
        }
        return Path
                .of(System.getProperty("storage.root", "/"))
                .resolve(path);
    }
    /** @return the storage base with the given id, or null if it does not exist */
@@ -91,7 +98,7 @@ public class FileStorageService {
            throw new RuntimeException(e);
        }
-        File basePathFile = Path.of(base.path()).toFile();
+        File basePathFile = base.asPath().toFile();
        File[] files = basePathFile.listFiles(pathname -> pathname.isDirectory() && !ignoredPaths.contains(pathname.getName()));
        if (files == null) return;
        for (File file : files) {
@@ -119,6 +126,7 @@ public class FileStorageService {
        }
    }
    public void relateFileStorages(FileStorageId source, FileStorageId target) {
        try (var conn = dataSource.getConnection();
             var stmt = conn.prepareStatement("""
@@ -200,7 +208,6 @@ public class FileStorageService {
        return getStorageBase(type);
    }
    @SneakyThrows
    private Path allocateDirectory(Path basePath, String prefix) throws IOException {
        LocalDateTime now = LocalDateTime.now();
        String timestampPart = now.format(dirNameDatePattern);
@@ -220,6 +227,9 @@ public class FileStorageService {
            );
        }
        // Ensure umask didn't mess with the access permissions
        Files.setPosixFilePermissions(maybePath, PosixFilePermissions.fromString("rwxr-xr-x"));
        return maybePath;
    }
@@ -278,20 +288,6 @@ public class FileStorageService {
    public FileStorage getStorageByType(FileStorageType type) throws SQLException {
        String override = System.getProperty(type.overrideName());
        if (override != null) {
            // It is sometimes desirable to be able to override the
            // configured location of a FileStorage when running a process
            //
            if (!Files.isDirectory(Path.of(override))) {
                throw new IllegalStateException("FileStorageType " + type.name() + " was overridden, but location '" + override + "' does not exist!");
            }
            return FileStorage.createOverrideStorage(type, FileStorageBaseType.CURRENT, override);
        }
        try (var conn = dataSource.getConnection();
             var stmt = conn.prepareStatement("""
                     SELECT PATH, STATE, DESCRIPTION, ID, BASE_ID, CREATE_DATE
--- a/code/common/config/src/main/java/nu/marginalia/storage/model/FileStorage.java
+++ b/code/common/config/src/main/java/nu/marginalia/storage/model/FileStorage.java
@@ -1,5 +1,7 @@
 package nu.marginalia.storage.model;
 import nu.marginalia.storage.FileStorageService;
 import java.nio.file.Path;
 import java.time.LocalDateTime;
 import java.time.format.DateTimeFormatter;
@@ -24,36 +26,15 @@ public record FileStorage (
        String description)
 {
    /** It is sometimes desirable to be able to create an override that isn't
     * backed by the database.  This constructor permits this.
     */
    public static FileStorage createOverrideStorage(FileStorageType type, FileStorageBaseType baseType, String override) {
        var mockBase = new FileStorageBase(
                new FileStorageBaseId(-1),
                baseType,
                -1,
                "OVERRIDE:" + type.name(),
                "INVALIDINVALIDINVALID"
        );
        return new FileStorage(
                new FileStorageId(-1),
                mockBase,
                type,
                LocalDateTime.now(),
                override,
                FileStorageState.UNSET,
                "OVERRIDE:" + type.name()
        );
    }
    public int node() {
        return base.node();
    }
    public Path asPath() {
-        return Path.of(path);
+        return FileStorageService.resolveStoragePath(path);
    }
    public boolean isActive() {
        return FileStorageState.ACTIVE.equals(state);
    }
--- a/code/common/config/src/main/java/nu/marginalia/storage/model/FileStorageBase.java
+++ b/code/common/config/src/main/java/nu/marginalia/storage/model/FileStorageBase.java
@@ -1,5 +1,7 @@
 package nu.marginalia.storage.model;
 import nu.marginalia.storage.FileStorageService;
 import java.nio.file.Path;
 /**
@@ -16,9 +18,11 @@ public record FileStorageBase(FileStorageBaseId id,
                              String name,
                              String path
                              ) {
    public Path asPath() {
-        return Path.of(path);
+        return FileStorageService.resolveStoragePath(path);
    }
    public boolean isValid() {
        return id.id() >= 0;
    }
--- a/code/common/config/src/main/java/nu/marginalia/storage/model/FileStorageBaseId.java
+++ b/code/common/config/src/main/java/nu/marginalia/storage/model/FileStorageBaseId.java
--- a/code/common/config/src/main/java/nu/marginalia/storage/model/FileStorageBaseType.java
+++ b/code/common/config/src/main/java/nu/marginalia/storage/model/FileStorageBaseType.java
--- a/code/common/config/src/main/java/nu/marginalia/storage/model/FileStorageId.java
+++ b/code/common/config/src/main/java/nu/marginalia/storage/model/FileStorageId.java
--- a/code/common/config/src/main/java/nu/marginalia/storage/model/FileStorageState.java
+++ b/code/common/config/src/main/java/nu/marginalia/storage/model/FileStorageState.java
--- a/code/common/config/src/main/java/nu/marginalia/storage/model/FileStorageType.java
+++ b/code/common/config/src/main/java/nu/marginalia/storage/model/FileStorageType.java
@@ -1,12 +1,11 @@
 package nu.marginalia.storage.model;
 public enum FileStorageType {
-    CRAWL_SPEC,
+    @Deprecated
    CRAWL_SPEC, //
    CRAWL_DATA,
    PROCESSED_DATA,
    BACKUP,
    EXPORT;
    public String overrideName() {
        return "FS_OVERRIDE:"+name();
    }
 }
--- a/code/common/config/src/main/java/nu/marginalia/WmsaHome.java
+++ b/code/common/config/src/main/java/nu/marginalia/WmsaHome.java
@@ -1,98 +0,0 @@
 package nu.marginalia;
 import nu.marginalia.service.ServiceHomeNotConfiguredException;
 import java.io.FileNotFoundException;
 import java.io.IOException;
 import java.nio.file.Files;
 import java.nio.file.Path;
 import java.nio.file.Paths;
 import java.util.Optional;
 import java.util.stream.Stream;
 public class WmsaHome {
    public static UserAgent getUserAgent()  {
        return new UserAgent(
                System.getProperty("crawler.userAgentString", "Mozilla/5.0 (compatible; Marginalia-like bot; +https://git.marginalia.nu/))"),
                System.getProperty("crawler.userAgentIdentifier", "search.marginalia.nu")
        );
    }
    public static Path getUploadDir() {
        return Path.of(
                System.getProperty("executor.uploadDir", "/uploads")
        );
    }
    public static Path getHomePath() {
        var retStr = Optional.ofNullable(System.getenv("WMSA_HOME")).orElseGet(WmsaHome::findDefaultHomePath);
        var ret = Path.of(retStr);
        if (!Files.isDirectory(ret)) {
            throw new ServiceHomeNotConfiguredException("Could not find $WMSA_HOME, either set environment variable or ensure " + retStr + " exists");
        }
        if (!Files.isDirectory(ret.resolve("model"))) {
            throw new ServiceHomeNotConfiguredException("You need to run 'run/setup.sh' to download models to run/ before this will work!");
        }
        return ret;
    }
    private static String findDefaultHomePath() {
        // Assume this is a local developer and not a production system, since it would have WMSA_HOME set.
        // Developers probably have a "run/" somewhere upstream from cwd.
        //
        return Stream.iterate(Paths.get("").toAbsolutePath(), f -> f != null && Files.exists(f), Path::getParent)
                .filter(p -> Files.exists(p.resolve("run/env")))
                .filter(p -> Files.exists(p.resolve("run/setup.sh")))
                .map(p -> p.resolve("run"))
                .findAny()
                .orElse(Path.of("/var/lib/wmsa"))
                .toString();
    }
    public static Path getAdsDefinition() {
        return getHomePath().resolve("data").resolve("adblock.txt");
    }
    public static Path getIPLocationDatabse() {
        return getHomePath().resolve("data").resolve("IP2LOCATION-LITE-DB1.CSV");
    }
    public static Path getAsnMappingDatabase() {
        return getHomePath().resolve("data").resolve("asn-data-raw-table");
    }
    public static Path getAsnInfoDatabase() {
        return getHomePath().resolve("data").resolve("asn-used-autnums");
    }
    public static LanguageModels getLanguageModels() {
        final Path home = getHomePath();
        return new LanguageModels(
                home.resolve("model/ngrams.bin"),
                home.resolve("model/tfreq-new-algo3.bin"),
                home.resolve("model/opennlp-sentence.bin"),
                home.resolve("model/English.RDR"),
                home.resolve("model/English.DICT"),
                home.resolve("model/opennlp-tok.bin"),
                home.resolve("model/lid.176.ftz"));
    }
    public static Path getAtagsPath() {
        return getHomePath().resolve("data/atags.parquet");
    }
 }
--- a/code/common/config/src/test/java/nu/marginalia/nodecfg/NodeConfigurationServiceTest.java
+++ b/code/common/config/src/test/java/nu/marginalia/nodecfg/NodeConfigurationServiceTest.java
@@ -2,7 +2,7 @@ package nu.marginalia.nodecfg;
 import com.zaxxer.hikari.HikariConfig;
 import com.zaxxer.hikari.HikariDataSource;
-import nu.marginalia.storage.FileStorageService;
+import nu.marginalia.nodecfg.model.NodeProfile;
 import nu.marginalia.test.TestMigrationLoader;
 import org.junit.jupiter.api.BeforeAll;
 import org.junit.jupiter.api.Tag;
@@ -13,12 +13,7 @@ import org.testcontainers.containers.MariaDBContainer;
 import org.testcontainers.junit.jupiter.Container;
 import org.testcontainers.junit.jupiter.Testcontainers;
 import java.io.IOException;
 import java.nio.file.Path;
 import java.sql.SQLException;
 import java.util.ArrayList;
 import java.util.List;
 import java.util.Objects;
 import static org.junit.jupiter.api.Assertions.*;
@@ -52,8 +47,8 @@ public class NodeConfigurationServiceTest {
    @Test
    public void test() throws SQLException {
-        var a = nodeConfigurationService.create(1, "Test", false, false);
+        var a = nodeConfigurationService.create(1, "Test", false, false, NodeProfile.MIXED);
-        var b = nodeConfigurationService.create(2, "Foo", true, false);
+        var b = nodeConfigurationService.create(2, "Foo", true, false, NodeProfile.MIXED);
        assertEquals(1, a.node());
        assertEquals("Test", a.description());
--- a/code/common/config/src/test/java/nu/marginalia/storage/FileStorageServiceTest.java
+++ b/code/common/config/src/test/java/nu/marginalia/storage/FileStorageServiceTest.java
@@ -3,6 +3,8 @@ package nu.marginalia.storage;
 import com.google.common.collect.Lists;
 import com.zaxxer.hikari.HikariConfig;
 import com.zaxxer.hikari.HikariDataSource;
 import nu.marginalia.storage.model.FileStorage;
 import nu.marginalia.storage.model.FileStorageBase;
 import nu.marginalia.storage.model.FileStorageBaseType;
 import nu.marginalia.storage.model.FileStorageType;
 import nu.marginalia.test.TestMigrationLoader;
@@ -52,11 +54,6 @@ public class FileStorageServiceTest {
    @BeforeEach
    public void setupEach() {
        // clean up any file storage overrides
        for (FileStorageType type : FileStorageType.values()) {
            System.setProperty(type.overrideName(), "");
        }
        fileStorageService = new FileStorageService(dataSource, 0);
    }
@@ -97,12 +94,43 @@ public class FileStorageServiceTest {
    }
    @Test
-    public void testOverride() throws SQLException {
+    public void testPathOverride() {
-        System.setProperty(FileStorageType.BACKUP.overrideName(), "/tmp");
+        try {
-        System.out.println(FileStorageType.BACKUP.overrideName());
+            System.setProperty("storage.root", "/tmp");
-        fileStorageService = new FileStorageService(dataSource, 0);
+
-        Assertions.assertEquals(Path.of("/tmp"), fileStorageService.getStorageByType(FileStorageType.BACKUP).asPath());
+            var path = new FileStorageBase(null, null, 0, null, "test").asPath();
            Assertions.assertEquals(Path.of("/tmp/test"), path);
        }
        finally {
            System.clearProperty("storage.root");
        }
    }
    @Test
    public void testPathOverride3() {
        try {
            System.setProperty("storage.root", "/tmp");
            var path = new FileStorageBase(null, null, 0, null, "/test").asPath();
            Assertions.assertEquals(Path.of("/tmp/test"), path);
        }
        finally {
            System.clearProperty("storage.root");
        }
    }
    @Test
    public void testPathOverride2() {
        try {
            System.setProperty("storage.root", "/tmp");
            var path = new FileStorage(null, null, null, null, "test", null, null).asPath();
            Assertions.assertEquals(Path.of("/tmp/test"), path);
        }
        finally {
            System.clearProperty("storage.root");
        }
    }
    @Test
    public void testCreateBase() throws SQLException {
        String name = "test-" + UUID.randomUUID();
--- a/code/common/db/build.gradle
+++ b/code/common/db/build.gradle
@@ -17,7 +17,7 @@ plugins {
 java {
    toolchain {
-        languageVersion.set(JavaLanguageVersion.of(21))
+        languageVersion.set(JavaLanguageVersion.of(rootProject.ext.jvmVersion))
    }
 }
@@ -26,12 +26,17 @@ configurations {
    flywayMigration.extendsFrom(implementation)
 }
 apply from: "$rootProject.projectDir/srcsets.gradle"
 dependencies {
    implementation project(':code:common:model')
    implementation libs.bundles.slf4j
-    implementation libs.guice
+    implementation libs.guava
    implementation dependencies.create(libs.guice.get()) {
        exclude group: 'com.google.guava'
    }
    implementation libs.bundles.gson
    implementation libs.notnull
@@ -40,7 +45,6 @@ dependencies {
    implementation libs.trove
    implementation libs.rxjava
    implementation libs.bundles.mariadb
    flywayMigration 'org.flywaydb:flyway-mysql:10.0.1'
@@ -50,6 +54,7 @@ dependencies {
    testImplementation platform('org.testcontainers:testcontainers-bom:1.17.4')
    testImplementation libs.commons.codec
    testImplementation 'org.testcontainers:mariadb:1.17.4'
    testImplementation 'org.testcontainers:junit-jupiter:1.17.4'
    testImplementation project(':code:libraries:test-helpers')
--- a/code/common/db/java/nu/marginalia/db/DbDomainQueries.java
+++ b/code/common/db/java/nu/marginalia/db/DbDomainQueries.java
@@ -0,0 +1,179 @@
 package nu.marginalia.db;
 import com.google.common.cache.Cache;
 import com.google.common.cache.CacheBuilder;
 import com.google.common.util.concurrent.UncheckedExecutionException;
 import com.google.inject.Inject;
 import com.google.inject.Singleton;
 import com.zaxxer.hikari.HikariDataSource;
 import nu.marginalia.model.EdgeDomain;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 import java.sql.SQLException;
 import java.util.*;
 import java.util.concurrent.ExecutionException;
@Singleton
 public class DbDomainQueries {
    private final HikariDataSource dataSource;
    private static final Logger logger = LoggerFactory.getLogger(DbDomainQueries.class);
    private final Cache<EdgeDomain, Integer> domainIdCache = CacheBuilder.newBuilder().maximumSize(10_000).build();
    private final Cache<EdgeDomain, DomainIdWithNode> domainWithNodeCache = CacheBuilder.newBuilder().maximumSize(10_000).build();
    private final Cache<Integer, EdgeDomain> domainNameCache = CacheBuilder.newBuilder().maximumSize(10_000).build();
    private final Cache<String, List<DomainWithNode>> siblingsCache = CacheBuilder.newBuilder().maximumSize(10_000).build();
    @Inject
    public DbDomainQueries(HikariDataSource dataSource)
    {
        this.dataSource = dataSource;
    }
    public Integer getDomainId(EdgeDomain domain) throws NoSuchElementException {
        try {
            return domainIdCache.get(domain, () -> {
                try (var connection = dataSource.getConnection();
                     var stmt = connection.prepareStatement("SELECT ID FROM EC_DOMAIN WHERE DOMAIN_NAME=?")) {
                    stmt.setString(1, domain.toString());
                    var rsp = stmt.executeQuery();
                    if (rsp.next()) {
                        return rsp.getInt(1);
                    }
                }
                catch (SQLException ex) {
                    throw new RuntimeException(ex);
                }
                throw new NoSuchElementException();
            });
        }
        catch (UncheckedExecutionException ex) {
            throw new NoSuchElementException();
        }
        catch (ExecutionException ex) {
            throw new RuntimeException(ex.getCause());
        }
    }
    public DomainIdWithNode getDomainIdWithNode(EdgeDomain domain) throws NoSuchElementException {
        try {
            return domainWithNodeCache.get(domain, () -> {
                try (var connection = dataSource.getConnection();
                     var stmt = connection.prepareStatement("SELECT ID, NODE_AFFINITY FROM EC_DOMAIN WHERE DOMAIN_NAME=?")) {
                    stmt.setString(1, domain.toString());
                    var rsp = stmt.executeQuery();
                    if (rsp.next()) {
                        return new DomainIdWithNode(rsp.getInt(1), rsp.getInt(2));
                    }
                }
                catch (SQLException ex) {
                    throw new RuntimeException(ex);
                }
                throw new NoSuchElementException();
            });
        }
        catch (UncheckedExecutionException ex) {
            throw new NoSuchElementException();
        }
        catch (ExecutionException ex) {
            throw new RuntimeException(ex.getCause());
        }
    }
    public OptionalInt tryGetDomainId(EdgeDomain domain) {
        Integer maybeId = domainIdCache.getIfPresent(domain);
        if (maybeId != null) {
            return OptionalInt.of(maybeId);
        }
        try (var connection = dataSource.getConnection()) {
            try (var stmt = connection.prepareStatement("SELECT ID FROM EC_DOMAIN WHERE DOMAIN_NAME=?")) {
                stmt.setString(1, domain.toString());
                var rsp = stmt.executeQuery();
                if (rsp.next()) {
                    var id = rsp.getInt(1);
                    domainIdCache.put(domain, id);
                    return OptionalInt.of(id);
                }
            }
            return OptionalInt.empty();
        }
        catch (UncheckedExecutionException ex) {
            throw new RuntimeException(ex.getCause());
        }
        catch (SQLException ex) {
            throw new RuntimeException(ex);
        }
    }
    public Optional<EdgeDomain> getDomain(int id) {
        EdgeDomain existing = domainNameCache.getIfPresent(id);
        if (existing != null) {
            return Optional.of(existing);
        }
        try (var connection = dataSource.getConnection()) {
            try (var stmt = connection.prepareStatement("SELECT DOMAIN_NAME FROM EC_DOMAIN WHERE ID=?")) {
                stmt.setInt(1, id);
                var rsp = stmt.executeQuery();
                if (rsp.next()) {
                    var val = new EdgeDomain(rsp.getString(1));
                    domainNameCache.put(id, val);
                    return Optional.of(val);
                }
                return Optional.empty();
            }
        }
        catch (SQLException ex) {
            throw new RuntimeException(ex);
        }
    }
    public List<DomainWithNode> otherSubdomains(EdgeDomain domain, int cnt) throws ExecutionException {
        String topDomain = domain.topDomain;
        return siblingsCache.get(topDomain, () -> {
            List<DomainWithNode> ret = new ArrayList<>();
            try (var conn = dataSource.getConnection();
                 var stmt = conn.prepareStatement("SELECT DOMAIN_NAME, NODE_AFFINITY FROM EC_DOMAIN WHERE DOMAIN_TOP = ? LIMIT ?")) {
                stmt.setString(1, topDomain);
                stmt.setInt(2, cnt);
                var rs = stmt.executeQuery();
                while (rs.next()) {
                    var sibling = new EdgeDomain(rs.getString(1));
                    if (sibling.equals(domain))
                        continue;
                    ret.add(new DomainWithNode(sibling, rs.getInt(2)));
                }
            } catch (SQLException e) {
                logger.error("Failed to get domain neighbors");
            }
            return ret;
        });
    }
    public record DomainWithNode (EdgeDomain domain, int nodeAffinity) {
        public boolean isIndexed() {
            return nodeAffinity > 0;
        }
    }
    public record DomainIdWithNode (int domainId, int nodeAffinity) { }
 }
--- a/code/common/db/src/main/java/nu/marginalia/db/DomainBlacklist.java
+++ b/code/common/db/src/main/java/nu/marginalia/db/DomainBlacklist.java
@@ -9,4 +9,5 @@ public interface DomainBlacklist {
    default TIntHashSet getSpamDomains() {
        return new TIntHashSet();
    }
    void waitUntilLoaded() throws InterruptedException;
 }
--- a/code/common/db/java/nu/marginalia/db/DomainBlacklistImpl.java
+++ b/code/common/db/java/nu/marginalia/db/DomainBlacklistImpl.java
@@ -0,0 +1,126 @@
 package nu.marginalia.db;
 import com.google.inject.Inject;
 import com.google.inject.Singleton;
 import com.zaxxer.hikari.HikariDataSource;
 import gnu.trove.set.hash.TIntHashSet;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 import java.sql.SQLException;
 import java.util.concurrent.TimeUnit;
@Singleton
 public class DomainBlacklistImpl implements DomainBlacklist {
    private final boolean blacklistDisabled = Boolean.getBoolean("blacklist.disable");
    private final HikariDataSource dataSource;
    private final Logger logger = LoggerFactory.getLogger(getClass());
    private volatile TIntHashSet spamDomainSet = new TIntHashSet();
    private volatile boolean isLoaded = false;
    @Inject
    public DomainBlacklistImpl(HikariDataSource dataSource) {
        this.dataSource = dataSource;
        Thread.ofPlatform().daemon().name("BlacklistUpdater").start(this::updateSpamList);
    }
    private void updateSpamList() {
        // If the blacklist is disabled, we don't need to do anything
        if (blacklistDisabled) {
            isLoaded = true;
            flagLoaded();
            return;
        }
        for (;;) {
            spamDomainSet = getSpamDomains();
            // Set the flag to true after the first loading attempt, regardless of success,
            // to avoid deadlocking threads that are waiting for this condition
            flagLoaded();
            // Sleep for 10 minutes before trying again
            try {
                TimeUnit.MINUTES.sleep(10);
            }
            catch (InterruptedException ex) {
                break;
            }
        }
    }
    private void flagLoaded() {
        if (!isLoaded) {
            synchronized (this) {
                isLoaded = true;
                notifyAll();
            }
        }
    }
    /** Block until the blacklist has been loaded */
    @Override
    public void waitUntilLoaded() throws InterruptedException {
        if (blacklistDisabled)
            return;
        if (!isLoaded) {
            logger.info("Waiting for blacklist to be loaded");
            synchronized (this) {
                while (!isLoaded) {
                    wait(5000);
                }
            }
            logger.info("Blacklist loaded, size = {}", spamDomainSet.size());
        }
    }
    public TIntHashSet getSpamDomains() {
        final TIntHashSet result = new TIntHashSet(1_000_000);
        if (blacklistDisabled) {
            return result;
        }
        try (var connection = dataSource.getConnection()) {
            try (var stmt = connection.prepareStatement("""
                    SELECT EC_DOMAIN.ID 
                    FROM EC_DOMAIN 
                    INNER JOIN EC_DOMAIN_BLACKLIST 
                    ON (EC_DOMAIN_BLACKLIST.URL_DOMAIN = EC_DOMAIN.DOMAIN_TOP 
                     OR EC_DOMAIN_BLACKLIST.URL_DOMAIN = EC_DOMAIN.DOMAIN_NAME)
                 """))
            {
                stmt.setFetchSize(1000);
                var rsp = stmt.executeQuery();
                while (rsp.next()) {
                    result.add(rsp.getInt(1));
                }
            }
        } catch (SQLException ex) {
            logger.error("Failed to load spam domain list", ex);
        }
        return result;
    }
    @Override
    public boolean isBlacklisted(int domainId) {
        if (spamDomainSet.contains(domainId)) {
            return true;
        }
        return false;
    }
 }
--- a/code/common/db/src/main/java/nu/marginalia/db/DomainRankingSetsService.java
+++ b/code/common/db/src/main/java/nu/marginalia/db/DomainRankingSetsService.java
@@ -2,7 +2,6 @@ package nu.marginalia.db;
 import com.google.inject.Inject;
 import com.zaxxer.hikari.HikariDataSource;
 import lombok.With;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
@@ -25,7 +24,7 @@ public class DomainRankingSetsService {
    public Optional<DomainRankingSet> get(String name) throws SQLException {
        try (var conn = dataSource.getConnection();
             var stmt = conn.prepareStatement("""
-                     SELECT NAME, DESCRIPTION, ALGORITHM, DEPTH, DEFINITION
+                     SELECT NAME, DESCRIPTION, DEPTH, DEFINITION
                     FROM CONF_DOMAIN_RANKING_SET
                     WHERE NAME = ?
                     """)) {
@@ -39,7 +38,6 @@ public class DomainRankingSetsService {
            return Optional.of(new DomainRankingSet(
                    rs.getString("NAME"),
                    rs.getString("DESCRIPTION"),
                    DomainSetAlgorithm.valueOf(rs.getString("ALGORITHM")),
                    rs.getInt("DEPTH"),
                    rs.getString("DEFINITION")
            ));
@@ -53,15 +51,14 @@ public class DomainRankingSetsService {
    public void upsert(DomainRankingSet domainRankingSet) {
        try (var conn = dataSource.getConnection();
             var stmt = conn.prepareStatement("""
-                        REPLACE INTO CONF_DOMAIN_RANKING_SET(NAME, DESCRIPTION, ALGORITHM, DEPTH, DEFINITION)
+                        REPLACE INTO CONF_DOMAIN_RANKING_SET(NAME, DESCRIPTION, DEPTH, DEFINITION)
-                        VALUES (?, ?, ?, ?, ?)
+                        VALUES (?, ?, ?, ?)
                        """))
        {
            stmt.setString(1, domainRankingSet.name());
            stmt.setString(2, domainRankingSet.description());
-            stmt.setString(3, domainRankingSet.algorithm().name());
+            stmt.setInt(3, domainRankingSet.depth());
-            stmt.setInt(4, domainRankingSet.depth());
+            stmt.setString(4, domainRankingSet.definition());
            stmt.setString(5, domainRankingSet.definition());
            stmt.executeUpdate();
            if (!conn.getAutoCommit())
@@ -94,7 +91,7 @@ public class DomainRankingSetsService {
        try (var conn = dataSource.getConnection();
             var stmt = conn.prepareStatement("""
-                     SELECT NAME, DESCRIPTION, ALGORITHM, DEPTH, DEFINITION
+                     SELECT NAME, DESCRIPTION, DEPTH, DEFINITION
                     FROM CONF_DOMAIN_RANKING_SET
                     """)) {
            var rs = stmt.executeQuery();
@@ -105,7 +102,6 @@ public class DomainRankingSetsService {
                    new DomainRankingSet(
                        rs.getString("NAME"),
                        rs.getString("DESCRIPTION"),
                        DomainSetAlgorithm.valueOf(rs.getString("ALGORITHM")),
                        rs.getInt("DEPTH"),
                        rs.getString("DEFINITION"))
                );
@@ -118,38 +114,23 @@ public class DomainRankingSetsService {
        }
    }
-    public enum DomainSetAlgorithm {
+    /**
-        /** Use link graph, do a pagerank */
+     * Defines a domain ranking set, parameters for the ranking algorithms.
        LINKS_PAGERANK,
        /** Use link graph, do a cheirank */
        LINKS_CHEIRANK,
        /** Use adjacency graph, do a pagerank */
        ADJACENCY_PAGERANK,
        /** Use adjacency graph, do a cheirank */
        ADJACENCY_CHEIRANK,
        /** For reserved names.  Use special algorithm, function of name */
        SPECIAL
    };
    /** Defines a domain ranking set, parameters for the ranking algorithms.
     *
-     * @param name Key and name of the set
+     * @param name        Key and name of the set
     * @param description Human-readable description
-     * @param algorithm Algorithm to use
+     * @param depth       Depth of the algorithm
-     * @param depth Depth of the algorithm
+     * @param definition  Definition of the set, typically a list of domains or globs for domain-names
-     * @param definition Definition of the set, typically a list of domains or globs for domain-names
+     */
    * */
    @With
    public record DomainRankingSet(String name,
                                   String description,
                                   DomainSetAlgorithm algorithm,
                                   int depth,
-                                   String definition)
+                                   String definition) {
    {
        public Path fileName(Path base) {
            return base.resolve(name().toLowerCase() + ".dat");
        }
        public String[] domains() {
            return Arrays.stream(definition().split("\n+"))
                    .map(String::trim)
@@ -159,8 +140,23 @@ public class DomainRankingSetsService {
        }
        public boolean isSpecial() {
-            return algorithm() == DomainSetAlgorithm.SPECIAL;
+            return name().equals("BLOGS") || name().equals("NONE") || name().equals("RANK");
        }
        public DomainRankingSet withName(String name) {
            return this.name == name ? this : new DomainRankingSet(name, description, depth, definition);
        }
        public DomainRankingSet withDescription(String description) {
            return this.description == description ? this : new DomainRankingSet(name, description, depth, definition);
        }
        public DomainRankingSet withDepth(int depth) {
            return this.depth == depth ? this : new DomainRankingSet(name, description, depth, definition);
        }
        public DomainRankingSet withDefinition(String definition) {
            return this.definition == definition ? this : new DomainRankingSet(name, description, depth, definition);
        }
    }
 }
--- a/code/common/db/src/main/java/nu/marginalia/db/DomainTypes.java
+++ b/code/common/db/src/main/java/nu/marginalia/db/DomainTypes.java
@@ -24,7 +24,7 @@ public class DomainTypes {
        BLOG,
        CRAWL,
        TEST
-    };
+    }
    private final Logger logger = LoggerFactory.getLogger(DomainTypes.class);
--- a/code/common/db/readme.md
+++ b/code/common/db/readme.md
@@ -17,14 +17,14 @@ It's well documented and these are probably the only four tasks you'll ever need
 If you are not running the system via docker, you need to provide alternative connection details than
 the defaults (TODO: how?).
-The migration files are in [resources/db/migration](src/main/resources/db/migration).  The file name convention
+The migration files are in [resources/db/migration](resources/db/migration).  The file name convention
 incorporates the project's cal-ver versioning; and are applied in lexicographical order.
    VYY_MM_v_nnn__description.sql
 ## Central Paths
-* [migrations](src/main/resources/db/migration) - Flyway migrations
+* [migrations](resources/db/migration) - Flyway migrations
 ## See Also 
--- a/code/common/db/src/main/resources/db/migration/V23_06_0_000__base.sql
+++ b/code/common/db/src/main/resources/db/migration/V23_06_0_000__base.sql
--- a/code/common/db/src/main/resources/db/migration/V23_06_0_001__blacklist.sql
+++ b/code/common/db/src/main/resources/db/migration/V23_06_0_001__blacklist.sql
--- a/code/common/db/src/main/resources/db/migration/V23_06_0_002__dictionary.sql
+++ b/code/common/db/src/main/resources/db/migration/V23_06_0_002__dictionary.sql
--- a/code/common/db/src/main/resources/db/migration/V23_06_0_003__crawl-queue.sql
+++ b/code/common/db/src/main/resources/db/migration/V23_06_0_003__crawl-queue.sql
--- a/code/common/db/src/main/resources/db/migration/V23_06_0_004__screenshot.sql
+++ b/code/common/db/src/main/resources/db/migration/V23_06_0_004__screenshot.sql
--- a/code/common/db/src/main/resources/db/migration/V23_06_0_005__domain_complaint.sql
+++ b/code/common/db/src/main/resources/db/migration/V23_06_0_005__domain_complaint.sql
--- a/code/common/db/src/main/resources/db/migration/V23_06_0_006__api_key.sql
+++ b/code/common/db/src/main/resources/db/migration/V23_06_0_006__api_key.sql
--- a/code/common/db/src/main/resources/db/migration/V23_06_0_007__neighbors.sql
+++ b/code/common/db/src/main/resources/db/migration/V23_06_0_007__neighbors.sql
--- a/code/common/db/src/main/resources/db/migration/V23_06_0_008__random_domains.sql
+++ b/code/common/db/src/main/resources/db/migration/V23_06_0_008__random_domains.sql
--- a/code/common/db/src/main/resources/db/migration/V23_06_0_009__news_feed.sql
+++ b/code/common/db/src/main/resources/db/migration/V23_06_0_009__news_feed.sql
--- a/code/common/db/src/main/resources/db/migration/V23_07_0_001__domain_type.sql
+++ b/code/common/db/src/main/resources/db/migration/V23_07_0_001__domain_type.sql
--- a/code/common/db/src/main/resources/db/migration/V23_07_0_002__service_status.sql
+++ b/code/common/db/src/main/resources/db/migration/V23_07_0_002__service_status.sql
--- a/code/common/db/src/main/resources/db/migration/V23_07_0_003__message_queue.sql
+++ b/code/common/db/src/main/resources/db/migration/V23_07_0_003__message_queue.sql
--- a/code/common/db/src/main/resources/db/migration/V23_07_0_004__file_storage.sql
+++ b/code/common/db/src/main/resources/db/migration/V23_07_0_004__file_storage.sql
--- a/code/common/db/src/main/resources/db/migration/V23_07_0_005__file_storage_default_values.sql
+++ b/code/common/db/src/main/resources/db/migration/V23_07_0_005__file_storage_default_values.sql
--- a/code/common/db/src/main/resources/db/migration/V23_07_0_006__message_queue_default_jobs.sql
+++ b/code/common/db/src/main/resources/db/migration/V23_07_0_006__message_queue_default_jobs.sql
--- a/code/common/db/src/main/resources/db/migration/V23_07_0_007__task_status.sql
+++ b/code/common/db/src/main/resources/db/migration/V23_07_0_007__task_status.sql
--- a/code/common/db/src/main/resources/db/migration/V23_07_0_008__events_index.sql
+++ b/code/common/db/src/main/resources/db/migration/V23_07_0_008__events_index.sql
--- a/code/common/db/src/main/resources/db/migration/V23_09_0_000__filestorage_livedb.sql
+++ b/code/common/db/src/main/resources/db/migration/V23_09_0_000__filestorage_livedb.sql
--- a/code/common/db/src/main/resources/db/migration/V23_09_1_000__drop_ecurl.sql
+++ b/code/common/db/src/main/resources/db/migration/V23_09_1_000__drop_ecurl.sql
--- a/code/common/db/src/main/resources/db/migration/V23_09_2_000__filestorage_backup.sql
+++ b/code/common/db/src/main/resources/db/migration/V23_09_2_000__filestorage_backup.sql
--- a/code/common/db/src/main/resources/db/migration/V23_09_2_001__filestorage_no_lexicon.sql
+++ b/code/common/db/src/main/resources/db/migration/V23_09_2_001__filestorage_no_lexicon.sql
--- a/code/common/db/src/main/resources/db/migration/V23_11_0_000__file_storage_node.sql
+++ b/code/common/db/src/main/resources/db/migration/V23_11_0_000__file_storage_node.sql
--- a/code/common/db/src/main/resources/db/migration/V23_11_0_001__heartbeat_node.sql
+++ b/code/common/db/src/main/resources/db/migration/V23_11_0_001__heartbeat_node.sql
--- a/code/common/db/src/main/resources/db/migration/V23_11_0_002__file_storage_state.sql
+++ b/code/common/db/src/main/resources/db/migration/V23_11_0_002__file_storage_state.sql
--- a/code/common/db/src/main/resources/db/migration/V23_11_0_003__node_configuration.sql
+++ b/code/common/db/src/main/resources/db/migration/V23_11_0_003__node_configuration.sql
--- a/code/common/db/src/main/resources/db/migration/V23_11_0_004__file_storage_base_type.sql
+++ b/code/common/db/src/main/resources/db/migration/V23_11_0_004__file_storage_base_type.sql
--- a/code/common/db/src/main/resources/db/migration/V23_11_0_005__clean_message_queue.sql
+++ b/code/common/db/src/main/resources/db/migration/V23_11_0_005__clean_message_queue.sql
--- a/code/common/db/src/main/resources/db/migration/V23_11_0_006__clean_stores.sql
+++ b/code/common/db/src/main/resources/db/migration/V23_11_0_006__clean_stores.sql
--- a/code/common/db/src/main/resources/db/migration/V23_11_0_007__domain_node_affinity.sql
+++ b/code/common/db/src/main/resources/db/migration/V23_11_0_007__domain_node_affinity.sql
--- a/code/common/db/src/main/resources/db/migration/V23_11_0_008__purge_procedure.sql
+++ b/code/common/db/src/main/resources/db/migration/V23_11_0_008__purge_procedure.sql
--- a/code/common/db/src/main/resources/db/migration/V24_01_0_001__node_config__keep_warc.sql
+++ b/code/common/db/src/main/resources/db/migration/V24_01_0_001__node_config__keep_warc.sql
--- a/code/common/db/src/main/resources/db/migration/V24_01_0_002__domain_set.sql
+++ b/code/common/db/src/main/resources/db/migration/V24_01_0_002__domain_set.sql
--- a/code/common/db/src/main/resources/db/migration/V24_01_0_003__mqaudit.sql
+++ b/code/common/db/src/main/resources/db/migration/V24_01_0_003__mqaudit.sql
--- a/code/common/db/src/main/resources/db/migration/V24_02_0_000__drop_domain_links.sql
+++ b/code/common/db/src/main/resources/db/migration/V24_02_0_000__drop_domain_links.sql
--- a/code/common/db/resources/db/migration/V24_02_0_001__drop_ranking_set_algo.sql
+++ b/code/common/db/resources/db/migration/V24_02_0_001__drop_ranking_set_algo.sql
@@ -0,0 +1 @@
 ALTER TABLE CONF_DOMAIN_RANKING_SET DROP COLUMN ALGORITHM;
--- a/code/common/db/resources/db/migration/V24_11_0_001__add_node_profile.sql
+++ b/code/common/db/resources/db/migration/V24_11_0_001__add_node_profile.sql
@@ -0,0 +1 @@
 ALTER TABLE WMSA_prod.NODE_CONFIGURATION ADD COLUMN NODE_PROFILE VARCHAR(255) DEFAULT 'MIXED';
--- a/code/common/db/src/main/java/nu/marginalia/db/DbDomainQueries.java
+++ b/code/common/db/src/main/java/nu/marginalia/db/DbDomainQueries.java
@@ -1,91 +0,0 @@
 package nu.marginalia.db;
 import com.google.common.cache.Cache;
 import com.google.common.cache.CacheBuilder;
 import com.google.common.util.concurrent.UncheckedExecutionException;
 import com.google.inject.Inject;
 import com.google.inject.Singleton;
 import com.zaxxer.hikari.HikariDataSource;
 import lombok.SneakyThrows;
 import nu.marginalia.model.EdgeDomain;
 import java.util.NoSuchElementException;
 import java.util.Optional;
 import java.util.OptionalInt;
@Singleton
 public class DbDomainQueries {
    private final HikariDataSource dataSource;
    private final Cache<EdgeDomain, Integer> domainIdCache = CacheBuilder.newBuilder().maximumSize(10_000).build();
    @Inject
    public DbDomainQueries(HikariDataSource dataSource)
    {
        this.dataSource = dataSource;
    }
    @SneakyThrows
    public Integer getDomainId(EdgeDomain domain) {
        try (var connection = dataSource.getConnection()) {
            return domainIdCache.get(domain, () -> {
                try (var stmt = connection.prepareStatement("SELECT ID FROM EC_DOMAIN WHERE DOMAIN_NAME=?")) {
                    stmt.setString(1, domain.toString());
                    var rsp = stmt.executeQuery();
                    if (rsp.next()) {
                        return rsp.getInt(1);
                    }
                }
                throw new NoSuchElementException();
            });
        }
        catch (UncheckedExecutionException ex) {
            throw ex.getCause();
        }
    }
    @SneakyThrows
    public OptionalInt tryGetDomainId(EdgeDomain domain) {
        Integer maybeId = domainIdCache.getIfPresent(domain);
        if (maybeId != null) {
            return OptionalInt.of(maybeId);
        }
        try (var connection = dataSource.getConnection()) {
            try (var stmt = connection.prepareStatement("SELECT ID FROM EC_DOMAIN WHERE DOMAIN_NAME=?")) {
                stmt.setString(1, domain.toString());
                var rsp = stmt.executeQuery();
                if (rsp.next()) {
                    var id = rsp.getInt(1);
                    domainIdCache.put(domain, id);
                    return OptionalInt.of(id);
                }
            }
            return OptionalInt.empty();
        }
        catch (UncheckedExecutionException ex) {
            return OptionalInt.empty();
        }
    }
    @SneakyThrows
    public Optional<EdgeDomain> getDomain(int id) {
        try (var connection = dataSource.getConnection()) {
            try (var stmt = connection.prepareStatement("SELECT DOMAIN_NAME FROM EC_DOMAIN WHERE ID=?")) {
                stmt.setInt(1, id);
                var rsp = stmt.executeQuery();
                if (rsp.next()) {
                    return Optional.of(new EdgeDomain(rsp.getString(1)));
                }
                return Optional.empty();
            }
        }
    }
 }
--- a/code/common/db/src/main/java/nu/marginalia/db/DbDomainStatsExportMultitool.java
+++ b/code/common/db/src/main/java/nu/marginalia/db/DbDomainStatsExportMultitool.java
@@ -1,118 +0,0 @@
 package nu.marginalia.db;
 import com.zaxxer.hikari.HikariDataSource;
 import java.sql.Connection;
 import java.sql.PreparedStatement;
 import java.sql.SQLException;
 import java.util.ArrayList;
 import java.util.List;
 import java.util.OptionalInt;
 /** Class used in exporting data.  This is intended to be used for a brief time
 * and then discarded, not kept around as a service.
 */
 public class DbDomainStatsExportMultitool implements AutoCloseable {
    private final Connection connection;
    private final int nodeId;
    private final PreparedStatement knownUrlsQuery;
    private final PreparedStatement visitedUrlsQuery;
    private final PreparedStatement goodUrlsQuery;
    private final PreparedStatement domainNameToId;
    private final PreparedStatement allDomainsQuery;
    private final PreparedStatement crawlQueueDomains;
    private final PreparedStatement indexedDomainsQuery;
    public DbDomainStatsExportMultitool(HikariDataSource dataSource, int nodeId) throws SQLException {
        this.connection = dataSource.getConnection();
        this.nodeId = nodeId;
        knownUrlsQuery = connection.prepareStatement("""
                SELECT KNOWN_URLS
                FROM EC_DOMAIN INNER JOIN DOMAIN_METADATA
                    ON EC_DOMAIN.ID=DOMAIN_METADATA.ID
                WHERE DOMAIN_NAME=?
                """);
        visitedUrlsQuery = connection.prepareStatement("""
                SELECT VISITED_URLS
                FROM EC_DOMAIN INNER JOIN DOMAIN_METADATA
                    ON EC_DOMAIN.ID=DOMAIN_METADATA.ID
                WHERE DOMAIN_NAME=?
                """);
        goodUrlsQuery = connection.prepareStatement("""
                SELECT GOOD_URLS
                FROM EC_DOMAIN INNER JOIN DOMAIN_METADATA
                    ON EC_DOMAIN.ID=DOMAIN_METADATA.ID
                WHERE DOMAIN_NAME=?
                """);
        domainNameToId = connection.prepareStatement("""
                SELECT ID
                FROM EC_DOMAIN
                WHERE DOMAIN_NAME=?
                """);
        allDomainsQuery = connection.prepareStatement("""
                SELECT DOMAIN_NAME
                FROM EC_DOMAIN
                """);
        crawlQueueDomains = connection.prepareStatement("""
                SELECT DOMAIN_NAME
                FROM CRAWL_QUEUE
                """);
        indexedDomainsQuery = connection.prepareStatement("""
                SELECT DOMAIN_NAME
                FROM EC_DOMAIN
                WHERE INDEXED > 0
                """);
    }
    public OptionalInt getVisitedUrls(String domainName) throws SQLException {
        return executeNameToIntQuery(domainName, visitedUrlsQuery);
    }
    public OptionalInt getDomainId(String domainName) throws SQLException {
        return executeNameToIntQuery(domainName, domainNameToId);
    }
    public List<String> getCrawlQueueDomains() throws SQLException {
        return executeListQuery(crawlQueueDomains, 100);
    }
    public List<String> getAllIndexedDomains() throws SQLException {
        return executeListQuery(indexedDomainsQuery, 100_000);
    }
    private OptionalInt executeNameToIntQuery(String domainName, PreparedStatement statement)
            throws SQLException {
        statement.setString(1, domainName);
        var rs = statement.executeQuery();
        if (rs.next()) {
            return OptionalInt.of(rs.getInt(1));
        }
        return OptionalInt.empty();
    }
    private List<String> executeListQuery(PreparedStatement statement, int sizeHint) throws SQLException {
        List<String> ret = new ArrayList<>(sizeHint);
        var rs = statement.executeQuery();
        while (rs.next()) {
            ret.add(rs.getString(1));
        }
        return ret;
    }
    @Override
    public void close() throws SQLException {
        knownUrlsQuery.close();
        goodUrlsQuery.close();
        visitedUrlsQuery.close();
        allDomainsQuery.close();
        crawlQueueDomains.close();
        domainNameToId.close();
        connection.close();
    }
 }
--- a/code/common/db/src/main/java/nu/marginalia/db/DomainBlacklistImpl.java
+++ b/code/common/db/src/main/java/nu/marginalia/db/DomainBlacklistImpl.java
@@ -1,76 +0,0 @@
 package nu.marginalia.db;
 import com.google.inject.Inject;
 import com.google.inject.Singleton;
 import com.zaxxer.hikari.HikariDataSource;
 import gnu.trove.set.hash.TIntHashSet;
 import io.reactivex.rxjava3.schedulers.Schedulers;
 import lombok.SneakyThrows;
 import org.slf4j.Logger;
 import org.slf4j.LoggerFactory;
 import java.util.concurrent.TimeUnit;
@Singleton
 public class DomainBlacklistImpl implements DomainBlacklist {
    private volatile TIntHashSet spamDomainSet = new TIntHashSet();
    private final HikariDataSource dataSource;
    private final Logger logger = LoggerFactory.getLogger(getClass());
    private final boolean blacklistDisabled = Boolean.getBoolean("blacklist.disable");
    @Inject
    public DomainBlacklistImpl(HikariDataSource dataSource) {
        this.dataSource = dataSource;
        Schedulers.io().schedulePeriodicallyDirect(this::updateSpamList, 5, 600, TimeUnit.SECONDS);
        updateSpamList();
    }
    private void updateSpamList() {
        try {
            int oldSetSize = spamDomainSet.size();
            spamDomainSet = getSpamDomains();
            if (oldSetSize == 0 && spamDomainSet.size() > 0) {
                logger.info("Synchronized {} spam domains", spamDomainSet.size());
            }
        }
        catch (Exception ex) {
            logger.error("Failed to synchronize spam domains", ex);
        }
    }
    @SneakyThrows
    public TIntHashSet getSpamDomains() {
        final TIntHashSet result = new TIntHashSet(1_000_000);
        if (blacklistDisabled) {
            return result;
        }
        try (var connection = dataSource.getConnection()) {
            try (var stmt = connection.prepareStatement("SELECT EC_DOMAIN.ID FROM EC_DOMAIN INNER JOIN EC_DOMAIN_BLACKLIST ON (EC_DOMAIN_BLACKLIST.URL_DOMAIN = EC_DOMAIN.DOMAIN_TOP OR EC_DOMAIN_BLACKLIST.URL_DOMAIN = EC_DOMAIN.DOMAIN_NAME)")) {
                stmt.setFetchSize(1000);
                var rsp = stmt.executeQuery();
                while (rsp.next()) {
                    result.add(rsp.getInt(1));
                }
            }
        }
        return result;
    }
    @Override
    public boolean isBlacklisted(int domainId) {
        if (spamDomainSet.contains(domainId)) {
            return true;
        }
        return false;
    }
 }
--- a/Show More
+++ b/Show More
		`@@ -0,0 +1 @@`
							`ALTER TABLE CONF_DOMAIN_RANKING_SET DROP COLUMN ALGORITHM;`
		`@@ -0,0 +1 @@`
							`ALTER TABLE WMSA_prod.NODE_CONFIGURATION ADD COLUMN NODE_PROFILE VARCHAR(255) DEFAULT 'MIXED';`