Analizador estándar de clase
Filtros Tokenizador estándar Filtro estándar, MinúsculasFiltro y DetenerFiltro, utilizando una lista de palabras vacías en inglés.
Debes especificar lo requerido LuceneVersión compatibilidad al crear Analizador estándar:
- A partir de la versión 3.4, los personajes Hiragana y Han ya no se separan por error de sus personajes combinados. Si usa un número de versión anterior, obtiene el comportamiento roto exacto para la compatibilidad con versiones anteriores.
- A partir de 3.1, Tokenizador estándar implementa la segmentación de texto Unicode, y DetenerFiltro maneja correctamente los caracteres suplementarios de Unicode 4.0 en palabras vacías. Tokenizador clásico y Analizador clásico son las implementaciones anteriores a la 3.1 de Tokenizador estándar y Analizador estándar.
- A partir de 2.9, DetenerFiltro conserva los incrementos de posición
- A partir de 2.4, Tokens identificados incorrectamente ya que se corrigen las siglas (ver LUCENE-1068)
Miembros heredados
Asamblea: Lucene.Net.Analysis.Common.dll
Sintaxis
[Serializable]
public sealed class StandardAnalyzer : StopwordAnalyzerBase, IDisposable
Constructores
Nombre | Descripción |
---|---|
Analizador estándar (Versión de Lucene) | Crea un analizador con las palabras vacías predeterminadas (DETENER_PALABRAS_SET). |
Analizador estándar (LuceneVersion, CharArraySet) | Construye un analizador con las palabras vacías dadas. |
Analizador estándar (versión de Lucene, lector de texto) | Construye un analizador con las palabras vacías del lector dado. |
Terrenos
Nombre | Descripción |
---|---|
DEFAULT_MAX_TOKEN_LENGTH | Longitud de token máxima permitida predeterminada |
DETENER_PALABRAS_SET | Un conjunto no modificable que contiene algunas palabras comunes en inglés que generalmente no son útiles para realizar búsquedas. |
Propiedades
Nombre | Descripción |
---|---|
Longitud máxima del token | Establecer la longitud máxima permitida del token. Si se ve una ficha que excede esta longitud, se descarta. Esta configuración solo tiene efecto la próxima vez que se llame a tokenStream o tokenStream. |
Métodos
Nombre | Descripción |
---|---|
Crear componentes (cadena, lector de texto) |