Analizzatore standard di classe
Filtri Tokenizer standard con Filtro standard, Filtro minuscolo ed StopFilterFi, utilizzando un elenco di parole chiave inglesi.
È necessario specificare il richiesto Versione Lucene compatibilità durante la creazione Analizzatore standard:
- A partire dalla 3.4, i personaggi Hiragana e Han non sono più erroneamente separati dai loro personaggi combinati. Se utilizzi un numero di versione precedente, ottieni l'esatto comportamento interrotto per la compatibilità con le versioni precedenti.
- Come di 3.1, Tokenizer standard implementa la segmentazione del testo Unicode e StopFilterFi gestisce correttamente i caratteri supplementari Unicode 4.0 nelle stopword. Tokenizzatore classico ed Analizzatore classico sono le implementazioni precedenti alla 3.1 di Tokenizer standard ed Analizzatore standard.
- Come di 2.9, StopFilterFi conserva gli incrementi di posizione
- Come di 2.4, Tokens erroneamente identificati come acronimi vengono corretti (vedi LUCENE-1068)
Membri ereditati
montaggio: Lucene.Net.Analysis.Common.dll
Sintassi
[Serializable]
public sealed class StandardAnalyzer : StopwordAnalyzerBase, IDisposable
Costruttori
Nome | Descrizione |
---|---|
Analizzatore standard (versione Lucene) | Costruisce un analizzatore con le parole non significative predefinite (STOP_WORDS_SET). |
StandardAnalyzer(Versione Lucene, CharArraySet) | Costruisce un analizzatore con le parole non significative fornite. |
StandardAnalyzer (Versione Lucene, Lettore di testo) | Costruisce un analizzatore con le parole non significative del lettore specificato. |
campi
Nome | Descrizione |
---|---|
DEFAULT_MAX_TOKEN_LENGTH | Lunghezza massima consentita del token predefinita |
STOP_WORDS_SET | Un insieme immodificabile contenente alcune parole inglesi comuni che di solito non sono utili per la ricerca. |
Properties
Nome | Descrizione |
---|---|
MaxTokenLength | Imposta la lunghezza massima consentita del token. Se viene visto un token che supera questa lunghezza, viene scartato. Questa impostazione ha effetto solo alla successiva chiamata di tokenStream o tokenStream. |
Metodi
Nome | Descrizione |
---|---|
Crea componenti (stringa, lettore di testo) |